JP6784859B1 - Voice recognition system and voice recognition device - Google Patents

Voice recognition system and voice recognition device Download PDF

Info

Publication number
JP6784859B1
JP6784859B1 JP2020034840A JP2020034840A JP6784859B1 JP 6784859 B1 JP6784859 B1 JP 6784859B1 JP 2020034840 A JP2020034840 A JP 2020034840A JP 2020034840 A JP2020034840 A JP 2020034840A JP 6784859 B1 JP6784859 B1 JP 6784859B1
Authority
JP
Japan
Prior art keywords
recognition
voice
data
unit
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020034840A
Other languages
Japanese (ja)
Other versions
JP2021139935A (en
Inventor
敦 菊田
敦 菊田
高広 越田
高広 越田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ryoyo Electro Corp
Original Assignee
Ryoyo Electro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ryoyo Electro Corp filed Critical Ryoyo Electro Corp
Priority to JP2020034840A priority Critical patent/JP6784859B1/en
Application granted granted Critical
Publication of JP6784859B1 publication Critical patent/JP6784859B1/en
Priority to PCT/JP2021/006156 priority patent/WO2021177049A1/en
Publication of JP2021139935A publication Critical patent/JP2021139935A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】無線通信により送信された音声データにおける認識時間の削減を図る音声認識システム、及び音声認識装置を提供する。【解決手段】無線通信Wを用いた音声認識システム100であって、取得手段と、送信手段と、受信手段と、認識手段と、を備える。取得手段は、音声に基づき、音声データを取得する。送信手段は、UHF帯域を利用した無線通信により、前記音声データを送信する。受信手段は、前記音声データを連続した信号として一度に受信する。認識手段は、音素認識を用い、前記音声データの内容を認識した認識結果を導出する。例えば、前記送信手段は、パケット化処理が行われていない前記音声データを送信する。【選択図】図1PROBLEM TO BE SOLVED: To provide a voice recognition system and a voice recognition device for reducing the recognition time of voice data transmitted by wireless communication. A voice recognition system 100 using wireless communication W includes acquisition means, transmission means, reception means, and recognition means. The acquisition means acquires voice data based on the voice. The transmission means transmits the voice data by wireless communication using the UHF band. The receiving means receives the voice data as a continuous signal at a time. The recognition means uses phoneme recognition to derive a recognition result that recognizes the content of the voice data. For example, the transmission means transmits the voice data that has not been packetized. [Selection diagram] Fig. 1

Description

本発明は、音声認識システム、及び音声認識装置に関する。 The present invention relates to a voice recognition system and a voice recognition device.

従来、音声認識に関する技術として、例えば特許文献1の音声認識操作システム等が提案されている。 Conventionally, as a technique related to voice recognition, for example, a voice recognition operation system of Patent Document 1 has been proposed.

特許文献1の開示技術では、利用者によって音声コマンドが入力される音声入出力端末と、機械式駐車設備に設置され且つ音声入出力端末と近距離無線通信接続される音声認識装置と、音声認識装置が接続され且つ機械式駐車設備の作動を制御する制御装置と、制御装置と通信回線を介して接続され且つ利用者の使用許可確認と音声コマンドの分析と前記利用者の音声入出力端末への音声案内通知と制御装置への制御指令出力とを行う管制装置とを備える。 In the disclosure technology of Patent Document 1, a voice input / output terminal into which a voice command is input by a user, a voice recognition device installed in a mechanical parking facility and connected to the voice input / output terminal by short-range wireless communication, and voice recognition A control device to which the device is connected and controls the operation of the mechanical parking facility, and a control device connected to the control device via a communication line, to confirm the user's permission to use, analyze voice commands, and to the user's voice input / output terminal. It is equipped with a control device that performs voice guidance notification and output of control commands to the control device.

特開2019−214846号公報JP-A-2019-214846

ここで、特許文献1では、Wi−Fi(登録商標)等の近距離無線通信を用いて、音声データを音声認識装置に送信することで、音声認識を行う技術が開示されている。しかしながら、Wi−Fi(登録商標)等のような無線パケット通信を用いて分割された音声データを受信する際、分割された音声データ毎に対する誤り検出や、各音声データを受信したタイミングとは異なる順番に入れ替える必要が生じる。このため、音声データの送受信から音声認識の結果を導くまでの期間が、想定以上に長くなる場合がある。これにより、例えば利用者は、音声が認識されなかったと判断し、再度音声を発することで、不要な音声認識処理を引き起こす懸念が挙げられる。 Here, Patent Document 1 discloses a technique for performing voice recognition by transmitting voice data to a voice recognition device using short-range wireless communication such as Wi-Fi (registered trademark). However, when receiving divided voice data using wireless packet communication such as Wi-Fi (registered trademark), it is different from the error detection for each divided voice data and the timing of receiving each voice data. It will be necessary to replace them in order. Therefore, the period from the transmission / reception of voice data to the derivation of the result of voice recognition may be longer than expected. As a result, for example, the user may determine that the voice has not been recognized and emit the voice again, which may cause unnecessary voice recognition processing.

そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、無線通信により送信された音声データにおける認識時間の削減を図る音声認識システム、及び音声認識装置を提供することにある。 Therefore, the present invention has been devised in view of the above-mentioned problems, and an object of the present invention is a voice recognition system and a voice recognition device for reducing the recognition time of voice data transmitted by wireless communication. To provide.

第1発明に係る音声認識システムは、無線通信を用いた音声認識システムであって、音声に基づき、音声データを取得する取得手段と、UHF帯域を利用した無線通信により、前記音声データを送信する送信手段と、前記音声データを連続した信号として一度に受信する受信手段と、音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識手段と、文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、を備え、前記認識手段は、前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成手段と、前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定手段と、前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較手段と、前記比較手段の結果に基づき、前記認識結果を導出する導出手段と、を有することを特徴とする。 The voice recognition system according to the first invention is a voice recognition system using wireless communication, and transmits the voice data by an acquisition means for acquiring voice data based on voice and wireless communication using a UHF band. A transmission means, a receiving means for receiving the voice data as a continuous signal at a time, a recognition means for deriving a recognition result of recognizing the contents of the voice data using phonetic element recognition, character string information, and the character string. A start-up database including a plurality of start-up sentences including one or more thresholds associated with information is provided , and the recognition means uses the phonetic element recognition to obtain candidate data corresponding to the contents of the voice data and the candidate data. A generation means for generating a candidate sentence including one or more reliabilitys associated with, and a designation means for designating a first start sentence corresponding to the candidate sentence among a plurality of the start sentences by referring to the start database. It is characterized by having a comparison means for comparing the reliability with the first threshold value included in the first activation sentence, and a derivation means for deriving the recognition result based on the result of the comparison means. ..

第2発明に係る音声認識システムは、第1発明において、前記送信手段は、パケット化処理が行われていない前記音声データを送信することを特徴とする。 The voice recognition system according to the second invention is characterized in that, in the first invention, the transmission means transmits the voice data that has not been packetized.

発明に係る音声認識システムは、第発明又は第2発明において、複数の前記起動センテンスは、音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、前記第1認識結果とは異なる前記認識結果の導出に用いられる複数のダミーセンテンスとを含むことを特徴とする。 In the voice recognition system according to the third invention, in the first invention or the second invention , the plurality of the activation sentences are one sentence used for deriving the first recognition result indicating the start of voice recognition, and the first recognition. It is characterized by including a plurality of dummy sentences used for deriving the recognition result different from the result.

発明に係る音声認識システムは、第発明において、1つの収音装置と、音声認識装置を有する複数の駆動装置と、を更に備え、前記収音装置は、前記取得手段を行う変換部と、前記送信手段を行う通信部と、を有し、前記音声認識装置は、前記受信手段を行う受信部と、前記認識手段を行う認識部と、前記起動用データベースが記憶された記憶部と、を有し、前記駆動装置は、前記認識手段により導出された前記認識結果に基づき制御される被制御部を有することを特徴とする。 In the first invention, the voice recognition system according to the fourth invention further includes one sound collecting device and a plurality of driving devices having the voice recognition device, and the sound collecting device is a conversion unit that performs the acquisition means. And a communication unit that performs the transmission means, and the voice recognition device includes a reception unit that performs the reception means, a recognition unit that performs the recognition means, and a storage unit that stores the activation database. , The driving device is characterized by having a controlled unit controlled based on the recognition result derived by the recognition means.

発明に係る音声認識システムは、第発明において、複数の前記起動センテンスは、音声認識の開始を示す第1認識結果に用いられる1つのセンテンスと、前記第1認識結果とは異なる前記認識結果に用いられる複数のダミーセンテンスとを含み、前記1つのセンテンスの内容は、記憶された複数の前記音声認識装置毎に異なることを特徴とする。 In the voice recognition system according to the fifth invention, in the fourth invention, the plurality of activation sentences are one sentence used for the first recognition result indicating the start of voice recognition and the recognition different from the first recognition result. It includes a plurality of dummy sentences used in the result, and the content of the one sentence is different for each of the plurality of stored voice recognition devices.

発明に係る音声認識システムは、第1発明〜第発明の何れかにおいて、前記音声データに対するキャリブレーションを行うキャリブレーション手段を更に備え、前記キャリブレーション手段は、キャリブレーション用の音に基づく評価用音データを、複数生成する評価用音データ生成手段と、複数の前記評価用音データを前記無線通信により送信する評価用音データ送信手段と、複数の前記評価用音データを受信する評価用音データ受信手段と、前記音素認識を用いて、複数の前記評価用音データに対する評価結果を生成する評価手段と、前記評価結果を、前記無線通信により送信する評価結果送信手段と、前記評価結果を受信し、前記評価結果に基づく前記音声データの取得条件を設定する設定手段とを有することを特徴とする。 The voice recognition system according to the sixth invention further includes a calibration means for calibrating the voice data in any one of the first to fifth inventions, and the calibration means is based on the sound for calibration. Evaluation sound data generation means for generating a plurality of evaluation sound data, evaluation sound data transmission means for transmitting the plurality of evaluation sound data by the wireless communication, and evaluation for receiving the plurality of evaluation sound data. An evaluation means for generating evaluation results for a plurality of the evaluation sound data using the sound data receiving means, the sound element recognition, an evaluation result transmitting means for transmitting the evaluation results by the wireless communication, and the evaluation. It is characterized by having a setting means for receiving the result and setting the acquisition condition of the voice data based on the evaluation result.

発明に係る音声認識システムは、第発明において、前記取得条件は、マイクゲイン、オートゲインコントロール、ダイナミックレンジコントロール、及びアコースティックエコー除去の少なくとも何れかの条件を含むことを特徴とする。 The voice recognition system according to the seventh invention is characterized in that, in the sixth invention, the acquisition condition includes at least one of a microphone gain, an auto gain control, a dynamic range control, and an acoustic echo cancellation.

発明に係る音声認識装置は、無線通信を用いた音声認識装置であって、UHF帯域を利用した無線通信により送信された音声データを、連続した信号として一度に受信する受信部と、音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識部と、文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、を備え、前記認識部は、前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成部と、前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定部と、前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較部と、前記比較部の結果に基づき、前記認識結果を導出する導出部と、を有することを特徴とする。 The voice recognition device according to the eighth invention is a voice recognition device using wireless communication, and is a receiving unit that receives voice data transmitted by wireless communication using the UHF band at once as a continuous signal, and a sound element. A recognition unit that uses recognition to derive a recognition result that recognizes the contents of the voice data, a start-up database that stores a plurality of start-up sentences including character string information and a threshold value associated with the character string information of 1 or more, and a start-up database. The recognition unit includes a generation unit that uses the phonetic element recognition to generate candidate data corresponding to the content of the voice data, and a candidate sentence including one or more reliability associated with the candidate data, and the activation unit. The database is referred to, and among the plurality of the startup sentences, the designation unit that specifies the first startup sentence corresponding to the candidate sentence, the reliability, and the first threshold value included in the first startup sentence are compared. It is characterized by having a comparison unit and a derivation unit for deriving the recognition result based on the result of the comparison unit .

第1発明〜第発明によれば、受信手段は、音声データを連続した信号として一度に受信する。また、認識手段は、音素認識を用い、音声データの内容を認識した認識結果を導出する。このため、音声データの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信により送信された音声データにおける認識時間の削減を実現することが可能となる。 According to the first to seventh inventions, the receiving means receives the voice data as continuous signals at once. Further, the recognition means uses phoneme recognition to derive the recognition result of recognizing the content of the voice data. Therefore, the period from the start of receiving the voice data to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of voice data transmitted by wireless communication.

また、第1発明〜第発明によれば、送信手段は、UHF帯域を利用した無線通信により、音声データを送信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信を実現することができる。これにより、用途の拡大を図ることが可能となる。 Further, according to the first to seventh inventions, the transmitting means transmits voice data by wireless communication using the UHF band. Therefore, compared to wireless communication using a band with a high penetration rate such as Wi-Fi (registered trademark), the possibility of communication failure between the same bands is low. Further, even when it is used at the same time as wireless communication using Wi-Fi (registered trademark) or the like, wireless communication can be smoothly realized. This makes it possible to expand the applications.

特に、第2発明によれば、送信手段は、パケット化処理が行われていない音声データを送信する。このため、音声データを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理等を、実施する必要がない。これにより、無線通信により送信された音声データにおける認識時間の削減を容易に実現することが可能となる。 In particular, according to the second invention, the transmitting means transmits voice data that has not been packetized. Therefore, when receiving voice data, it is not necessary to perform error detection for each packet, processing for replacing each packet in a different order from the reception timing, and the like. As a result, it is possible to easily reduce the recognition time of the voice data transmitted by wireless communication.

特に、第1発明〜第7発明によれば、指定手段は、起動用データベースを参照し、候補センテンスに対応する第1起動センテンスを指定する。このため、起動用データベースに記憶された起動センテンスの内容を変更することで、導出される認識結果の内容を容易に変更することができる。これにより、用途に応じたカスタマイズを容易に実現することが可能となる。 In particular, according to the first to seventh inventions, the designating means refers to the start-up database and designates the first start-up sentence corresponding to the candidate sentence. Therefore, by changing the content of the startup sentence stored in the startup database, the content of the derived recognition result can be easily changed. This makes it possible to easily realize customization according to the application.

特に、第発明によれば、複数の起動センテンスは、音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、第1認識結果とは異なる認識結果の導出に用いられる複数のダミーセンテンスとを含む。このため、無線通信により送信された音声データに対し、第1認識結果を優先的に生成させることができる。これにより、音声認識精度の更なる向上を図ることが可能となる。 In particular, according to the third invention, the plurality of activation sentences are one sentence used for deriving the first recognition result indicating the start of speech recognition and a plurality of sentences used for deriving a recognition result different from the first recognition result. Includes dummy sentences and. Therefore, the first recognition result can be preferentially generated for the voice data transmitted by wireless communication. This makes it possible to further improve the voice recognition accuracy.

特に、第発明によれば、駆動装置は、認識手段により導出された認識結果に基づき制御される被制御部を有する。このため、音声データを1つの収音装置により送信することで、複数の駆動装置に対して遠隔操作を行うことができる。これにより、作業効率の向上を図ることが可能となる。 In particular, according to the fourth invention, the driving device has a controlled unit that is controlled based on the recognition result derived by the recognition means. Therefore, by transmitting the voice data by one sound collecting device, it is possible to remotely control a plurality of driving devices. This makes it possible to improve work efficiency.

特に、第発明によれば、1つのセンテンスの内容は、記憶された複数の音声認識装置毎に異なる。このため、音声認識装置を有する駆動装置毎に、被制御部を制御するタイミングを異ならせることができる。これにより、1つの収音装置を用いて複数の駆動装置に対して遠隔操作を行う際、駆動装置別に独立した遠隔操作を実現することが可能となる。 In particular, according to the fifth invention, the content of one sentence is different for each of the plurality of stored voice recognition devices. Therefore, the timing for controlling the controlled unit can be different for each drive device having the voice recognition device. As a result, when remote control is performed on a plurality of drive devices using one sound collecting device, it is possible to realize independent remote control for each drive device.

特に、第発明によれば、評価用音データ送信手段は、複数の評価用音データを無線通信により送信する。また、評価結果送信手段は、評価結果を、無線通信により送信する。このため、収音装置等のキャリブレーションを行う際に費やすデータの送受信回数を、最小限に抑えることができる。これにより、キャリブレーションの調整時間を大幅に削減することが可能となる。 In particular, according to the sixth invention, the evaluation sound data transmitting means transmits a plurality of evaluation sound data by wireless communication. Further, the evaluation result transmitting means transmits the evaluation result by wireless communication. Therefore, the number of times data is transmitted and received when calibrating the sound collecting device or the like can be minimized. This makes it possible to significantly reduce the calibration adjustment time.

特に、第発明によれば、取得条件は、マイクゲイン、オートゲインコントロール、ダイナミックレンジコントロール、及びアコースティックエコー除去の少なくとも何れかの条件を含む。このため、一度のキャリブレーション手段を行うことで、音声認識システムを利用する様々な状況に適した取得条件を、容易に特定することができる。これにより、利用環境の制限を抑制することが可能となる。 In particular, according to the seventh invention, the acquisition conditions include at least one of microphone gain, auto gain control, dynamic range control, and acoustic echo cancellation. Therefore, by performing the calibration means once, it is possible to easily identify the acquisition conditions suitable for various situations in which the voice recognition system is used. This makes it possible to suppress restrictions on the usage environment.

発明によれば、受信部は、音声データを連続した信号として一度に受信する。また、認識部は、音素認識を用い、音声データの内容を認識した認識結果を導出する。このため、音声データの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信により送信された音声データにおける認識時間の削減を実現することが可能となる。 According to the eighth invention, the receiving unit receives the voice data as continuous signals at once. In addition, the recognition unit uses phoneme recognition to derive a recognition result that recognizes the content of voice data. Therefore, the period from the start of receiving the voice data to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of voice data transmitted by wireless communication.

また、第発明によれば、受信部は、UHF帯域を利用した無線通信により送信された音声データを受信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信を実現することができる。これにより、用途の拡大を図ることが可能となる。 Further, according to the eighth invention, the receiving unit receives the voice data transmitted by wireless communication using the UHF band. Therefore, compared to wireless communication using a band with a high penetration rate such as Wi-Fi (registered trademark), the possibility of communication failure between the same bands is low. Further, even when it is used at the same time as wireless communication using Wi-Fi (registered trademark) or the like, wireless communication can be smoothly realized. This makes it possible to expand the applications.

図1は、第1実施形態における音声認識システムの構成の一例を示す模式図である。FIG. 1 is a schematic diagram showing an example of the configuration of the voice recognition system according to the first embodiment. 図2は、第1実施形態における音声認識システムの動作の一例を示す模式図である。FIG. 2 is a schematic diagram showing an example of the operation of the voice recognition system according to the first embodiment. 図3(a)は、第1実施形態における音声認識装置の構成の一例を示す模式図であり、図3(b)は、第1実施形態における音声認識装置の機能の一例を示す模式図である。FIG. 3A is a schematic diagram showing an example of the configuration of the voice recognition device according to the first embodiment, and FIG. 3B is a schematic diagram showing an example of the function of the voice recognition device according to the first embodiment. is there. 図4(a)は、第1実施形態における収音装置の一例を示す模式図であり、図4(b)は、第1実施形態における駆動装置の一例を示す模式図である。FIG. 4A is a schematic diagram showing an example of a sound collecting device according to the first embodiment, and FIG. 4B is a schematic diagram showing an example of a driving device according to the first embodiment. 図5は、第1実施形態における音声認識システムの動作の一例を示すフローチャートである。FIG. 5 is a flowchart showing an example of the operation of the voice recognition system according to the first embodiment. 図6は、起動用データベースの一例を示す模式図である。FIG. 6 is a schematic diagram showing an example of a startup database. 図7(a)は、第1実施形態における音声認識システムの動作の第1変形例を示すフローチャートであり、図7(b)は、認識部の第1変形例を示す模式図である。FIG. 7A is a flowchart showing a first modification of the operation of the voice recognition system according to the first embodiment, and FIG. 7B is a schematic view showing a first modification of the recognition unit. 図8は、文字列データベース、文法データベース、及び参照データベースの一例を示す模式図である。FIG. 8 is a schematic diagram showing an example of a character string database, a grammar database, and a reference database. 図9(a)は、第1実施形態における音声認識システムの動作の第2変形例を示すフローチャートであり、図9(b)は、認識部の第2変形例を示す模式図である。FIG. 9A is a flowchart showing a second modification of the operation of the voice recognition system in the first embodiment, and FIG. 9B is a schematic view showing a second modification of the recognition unit. 図10は、第1実施形態における音声認識システムの動作の第2変形例を示す模式図である。FIG. 10 is a schematic view showing a second modification of the operation of the voice recognition system according to the first embodiment. 図11は、第2実施形態における音声認識システムの動作の一例を示す模式図である。FIG. 11 is a schematic diagram showing an example of the operation of the voice recognition system according to the second embodiment. 図12(a)は、第2実施形態における音声認識システムの動作の一例を示すフローチャートであり、図12(b)は、第2実施形態における音声認識装置の機能の一例を示す模式図である。FIG. 12A is a flowchart showing an example of the operation of the voice recognition system in the second embodiment, and FIG. 12B is a schematic diagram showing an example of the function of the voice recognition device in the second embodiment. .. 図13は、参照用テーブルの一例を示す模式図である。FIG. 13 is a schematic view showing an example of a reference table.

以下、本発明の実施形態における音声認識システム及び音声認識装置の一例について、図面を参照しながら説明する。 Hereinafter, an example of the voice recognition system and the voice recognition device according to the embodiment of the present invention will be described with reference to the drawings.

(第1実施形態:音声認識システム100の構成)
図1、及び図2を参照して、第1実施形態における音声認識システム100の構成の一例について説明する。図1は、本実施形態における音声認識システム100の構成の一例を示す模式図であり、図2は、本実施形態における音声認識システム100の動作の一例を示す模式図である。
(First Embodiment: Configuration of voice recognition system 100)
An example of the configuration of the voice recognition system 100 according to the first embodiment will be described with reference to FIGS. 1 and 2. FIG. 1 is a schematic diagram showing an example of the configuration of the voice recognition system 100 in the present embodiment, and FIG. 2 is a schematic diagram showing an example of the operation of the voice recognition system 100 in the present embodiment.

音声認識システム100は、利用者が音声認識機能を備える装置から離れた場所にいても、利用者の音声を認識するために用いられる。音声認識システム100は、利用者の音声に基づく音声データDを、無線通信Wを介して取得して認識することができる。 The voice recognition system 100 is used to recognize the user's voice even when the user is away from the device having the voice recognition function. The voice recognition system 100 can acquire and recognize voice data D based on the user's voice via wireless communication W.

音声認識システム100は、例えば図1に示すように、音声認識装置1と、収音装置2とを備え、例えば駆動装置3を備えてもよい。音声認識システム100では、音声認識装置1と、収音装置2とが、UHF(Ultra High Frequency)帯域を利用した無線通信Wにより接続される。 The voice recognition system 100 may include, for example, a voice recognition device 1 and a sound collection device 2, and may include, for example, a drive device 3, as shown in FIG. In the voice recognition system 100, the voice recognition device 1 and the sound collection device 2 are connected by a wireless communication W using a UHF (Ultra High Frequency) band.

例えば1つの収音装置2は、複数の音声認識装置1(図1では音声認識装置1a、1b)と無線通信Wにより接続される。このため、利用者は、収音装置2を介して、1つ以上の音声認識装置1に対し、音声に基づく音声データDを送信して認識させることができる。 For example, one sound collecting device 2 is connected to a plurality of voice recognition devices 1 (voice recognition devices 1a and 1b in FIG. 1) by wireless communication W. Therefore, the user can transmit and recognize the voice data D based on the voice to one or more voice recognition devices 1 via the sound collecting device 2.

音声認識装置1は、例えば収音装置2に対して100m程度離間した場所に設けられ、例えば10〜30m程度離間した場所に設けられる。このため、音声認識システム100では、利用者が音声認識装置1に対して直接音声を発することができない環境においても、音声認識を実現することが可能となる。 The voice recognition device 1 is provided at a place separated from the sound collecting device 2, for example, by about 100 m, and is provided at a place separated from, for example, about 10 to 30 m. Therefore, in the voice recognition system 100, it is possible to realize voice recognition even in an environment in which the user cannot directly emit voice to the voice recognition device 1.

音声認識装置1は、例えば有線通信又は無線通信Wを介して、1つ以上の駆動装置3と接続される。このため、音声認識装置1は、音声データDに対する認識結果に基づき、駆動装置3を制御することができる。なお、駆動装置3は、例えば音声認識装置1を有し、駆動装置3に音声認識装置1が内蔵されてもよい。また、音声認識装置1は、例えばインターネット等の通信網に接続されずに、独立して音声認識を行うことができる。 The voice recognition device 1 is connected to one or more drive devices 3 via, for example, wired communication or wireless communication W. Therefore, the voice recognition device 1 can control the drive device 3 based on the recognition result for the voice data D. The drive device 3 may include, for example, a voice recognition device 1, and the voice recognition device 1 may be built in the drive device 3. Further, the voice recognition device 1 can independently perform voice recognition without being connected to a communication network such as the Internet.

認識結果は、駆動装置3を制御するための情報を含むほか、例えば利用者が確認できるテキストデータや、利用者に報知(返答)するための音声に関する情報(音声情報、発話情報)等を含んでもよい。 The recognition result includes information for controlling the drive device 3, for example, text data that can be confirmed by the user, information related to voice for notifying (replying) to the user (voice information, utterance information), and the like. It may be.

音声認識システム100は、例えば図2に示すように、収音装置2を介して、利用者の音声に基づく音声データDを取得する。その後、収音装置2は、例えばUHF帯域を利用した無線通信Wにより、音声認識装置1に対して音声データDを送信する。 As shown in FIG. 2, for example, the voice recognition system 100 acquires voice data D based on the user's voice via the sound collecting device 2. After that, the sound collecting device 2 transmits the voice data D to the voice recognition device 1 by, for example, the wireless communication W using the UHF band.

音声認識装置1は、音声データDを連続した信号として一度に受信する。音声認識装置1は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。このため、音声認識システム100では、音声データDの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を実現することが可能となる。なお、例えば音声認識装置1は、認識結果に基づき、駆動装置3を制御してもよい。 The voice recognition device 1 receives the voice data D as continuous signals at once. The voice recognition device 1 uses phoneme recognition to derive a recognition result that recognizes the content of the voice data D. Therefore, in the voice recognition system 100, the period from the start of receiving the voice data D to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of the voice data D transmitted by the wireless communication W. For example, the voice recognition device 1 may control the drive device 3 based on the recognition result.

音声認識装置1は、例えばJulius等の公知の音素認識技術を含む音声認識エンジンや、Python等のような公知の汎用プログラミング言語を用いて、音声データDの内容を認識した認識結果の導出を実現することができる。音声認識装置1は、例えば受信した音声データDに含まれる音素の配列(音素情報)を抽出し、音素情報に基づき認識結果を導出する。 The voice recognition device 1 realizes the derivation of the recognition result of recognizing the contents of the voice data D by using a voice recognition engine including a known phoneme recognition technology such as Julius or a known general-purpose programming language such as Python. can do. The voice recognition device 1 extracts, for example, an array of phonemes (phoneme information) included in the received voice data D, and derives a recognition result based on the phoneme information.

音素情報は、利用者が発する音素の配列(例えば「a/k/a/r/i」等)を複数含む。音素は、母音と、子音とを含む公知のものである。なお、音素情報は、例えば音声の開始を示す無音区間(例えば「silB」等で示される開始無音区間)、及び音声の終了を示す無音区間(例えば「silE」等で示される終了無音区間)の少なくとも何れかを含んでもよい。開始無音区間、及び終了無音区間は、公知の音素認識技術により抽出することができる。 The phoneme information includes a plurality of phoneme sequences (for example, "a / k / a / r / i", etc.) emitted by the user. Phonemes are known including vowels and consonants. Note that the phoneme information includes, for example, a silence section indicating the start of voice (for example, a start silence section indicated by "silB" or the like) and a silence section indicating the end of voice (for example, an end silence section indicated by "silE" or the like). At least any of them may be included. The start silence section and the end silence section can be extracted by a known phoneme recognition technique.

音素情報は、例えば休止区間を含んでもよい。休止区間は、開始無音区間及び終了無音区間よりも短い区間を示し、例えば音素の区間と同程度の区間(長さ)を示す。休止区間は、公知の音素認識技術により抽出することができる。 The phoneme information may include, for example, a pause section. The pause section indicates a section shorter than the start silence section and the end silence section, and indicates, for example, a section (length) similar to the phoneme section. The pause section can be extracted by a known phoneme recognition technique.

<音声認識装置1>
図3(a)は、音声認識装置1の構成の一例を示す模式図である。音声認識装置1として、Raspberry Pi(登録商標)等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ(PC)等のような公知の電子機器が用いられてもよい。音声認識装置1は、例えば筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105〜108とを備え、例えば通信機器111を備えてもよい。各構成101〜108は、内部バス110により接続される。
<Voice recognition device 1>
FIG. 3A is a schematic diagram showing an example of the configuration of the voice recognition device 1. As the voice recognition device 1, a single board computer such as Raspberry Pi (registered trademark) may be used, or a known electronic device such as a personal computer (PC) may be used. The voice recognition device 1 includes, for example, a housing 10, a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, a storage unit 104, and an I / F 105-108. For example, the communication device 111 may be provided. Each configuration 101 to 108 is connected by an internal bus 110.

CPU101は、音声認識装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、文字列データベース等の各種情報が保存される。保存部104として、例えばSDメモリーカードのほか、例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)等のような公知のデータ保存媒体が用いられる。 The CPU 101 controls the entire voice recognition device 1. The ROM 102 stores the operation code of the CPU 101. The RAM 103 is a work area used during the operation of the CPU 101. The storage unit 104 stores various information such as a character string database. As the storage unit 104, for example, in addition to an SD memory card, a known data storage medium such as an HDD (Hard Disk Drive) or SSD (Solid State Drive) is used.

I/F105は、通信機器111との各種情報の送受信を行うための公知のインターフェースである。通信機器111は、収音装置2等との無線通信Wを行うために用いられる。通信機器111として、例えばUHF帯域を利用できる公知の通信制御機器が用いられる。なお、通信機器111は、音声認識装置1に対して後付けで設けられるほか、音声認識装置1に内蔵されてもよい。 The I / F 105 is a known interface for transmitting and receiving various information to and from the communication device 111. The communication device 111 is used to perform wireless communication W with the sound collecting device 2 and the like. As the communication device 111, for example, a known communication control device that can use the UHF band is used. The communication device 111 may be retrofitted to the voice recognition device 1 or may be built into the voice recognition device 1.

通信機器111は、例えばアンテナと、受信機構とを有し、例えば送信機構を有してもよい。受信機構は、例えば変調されたデータを復調するデジタル復調部と、符号化されたデータを復号する復号化部とを有する。送信機構は、例えば音声をデジタルデータ(音声データD)に変換する変換部と、音声データDを必要に応じて処理する通信部とを有する。通信部は、音声データDを符号化する符号化部と、音声データDを変調する変調部とを有する。変調部は、例えばDQPSK(Differential Quadrature Phase-Shift Keying)等の位相変調方式を用いて、データを変調する。なお、上述した通信機器111における少なくとも一部の機能を、例えば受信部11が行ってもよい。 The communication device 111 has, for example, an antenna and a receiving mechanism, and may have, for example, a transmitting mechanism. The receiving mechanism includes, for example, a digital demodulation unit that demodulates the modulated data and a decoding unit that decodes the encoded data. The transmission mechanism includes, for example, a conversion unit that converts voice into digital data (voice data D) and a communication unit that processes voice data D as needed. The communication unit includes a coding unit that encodes the voice data D and a modulation unit that modulates the voice data D. The modulation unit modulates the data by using a phase modulation method such as DQPSK (Differential Quadrature Phase-Shift Keying). The receiving unit 11 may perform at least a part of the functions of the communication device 111 described above.

I/F106は、用途に応じて接続される入力部112との各種情報の送受信を行うための公知のインターフェースである。入力部112として、例えばキーボードが用いられ、音声認識システム100の管理等を行う管理者等は、入力部112を介して、各種情報又は音声認識装置1の制御コマンド等を入力又は選択する。 The I / F 106 is a known interface for transmitting and receiving various information to and from the input unit 112 connected according to the application. For example, a keyboard is used as the input unit 112, and an administrator or the like who manages the voice recognition system 100 inputs or selects various information or a control command of the voice recognition device 1 via the input unit 112.

I/F107は、用途に応じて接続される表示部113との各種情報の送受信を行うための公知のインターフェースである。表示部113は、保存部104に保存された各種情報や、音声認識装置1の処理状況等を出力する。表示部113として、例えばディスプレイが用いられ、例えばタッチパネル式でもよい。この場合、表示部113が入力部112を含む構成としてもよい。 The I / F 107 is a known interface for transmitting and receiving various information to and from the display unit 113 connected according to the application. The display unit 113 outputs various information stored in the storage unit 104, the processing status of the voice recognition device 1, and the like. As the display unit 113, for example, a display is used, and for example, a touch panel type may be used. In this case, the display unit 113 may be configured to include the input unit 112.

I/F108は、例えば駆動装置3のような外部機器との各種情報の送受信を行うための公知のインターフェースである。I/F108は、例えば複数設けられ、インターネット等の通信網を介した各種情報の送受信を行うために用いられてもよい。 The I / F 108 is a known interface for transmitting and receiving various information with an external device such as a drive device 3. A plurality of I / F 108s may be provided, for example, and may be used for transmitting and receiving various information via a communication network such as the Internet.

なお、I/F105〜I/F108として、例えば同一のものが用いられてもよく、各I/F105〜I/F108として、例えばそれぞれ複数のものが用いられてもよい。また、入力部112及び表示部113の少なくとも何れかは、状況に応じて取り外されてもよい。 As I / F105 to I / F108, for example, the same one may be used, and as each I / F105 to I / F108, for example, a plurality of ones may be used. Further, at least one of the input unit 112 and the display unit 113 may be removed depending on the situation.

図3(b)は、音声認識装置1の機能の一例を示す模式図である。音声認識装置1は、受信部11と、認識部12と、記憶部13と、出力部14とを備える。なお、図3(b)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現される。 FIG. 3B is a schematic diagram showing an example of the function of the voice recognition device 1. The voice recognition device 1 includes a receiving unit 11, a recognition unit 12, a storage unit 13, and an output unit 14. Each function shown in FIG. 3B is realized by the CPU 101 executing a program stored in the storage unit 104 or the like using the RAM 103 as a work area.

<<受信部11>>
受信部11は、例えば通信機器111を介して、音声データDを受信する。受信部11は、例えばUHF帯域を利用した無線通信Wにより送信された音声データDを、連続した信号として一度に受信する。即ち、受信部11は、例えば公知の無線パケット通信を用いた通信方式のような、受信したパケット毎に対する誤り検出や、各パケットの並べ替え等の処理を行わない。このため、受信部11は、音声データDを受信する際の通信期間を最小限に抑えることができる。
<< Receiver 11 >>
The receiving unit 11 receives the voice data D via, for example, the communication device 111. The receiving unit 11 receives, for example, the voice data D transmitted by the wireless communication W using the UHF band as a continuous signal at one time. That is, the receiving unit 11 does not perform processing such as error detection for each received packet and sorting of each packet, as in a communication method using known wireless packet communication, for example. Therefore, the receiving unit 11 can minimize the communication period when receiving the voice data D.

<<認識部12>>
認識部12は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。認識部12は、例えばJulius等の公知の音素認識技術を含む音声認識エンジンや、Python等のような公知の汎用プログラミング言語を用いて実現することができる。
<< Recognition unit 12 >>
The recognition unit 12 uses phoneme recognition to derive a recognition result that recognizes the content of the voice data D. The recognition unit 12 can be realized by using a voice recognition engine including a known phoneme recognition technique such as Julius, or a known general-purpose programming language such as Python.

<<記憶部13>>
記憶部13は、各種情報を保存部104に記憶させ、又は各種情報を保存部104から取出す。記憶部13は、例えば受信部11、認識部12、及び出力部14の処理内容に応じて、各種情報の記憶又は取出しを行う。
<< Memory 13 >>
The storage unit 13 stores various information in the storage unit 104, or retrieves various information from the storage unit 104. The storage unit 13 stores or retrieves various types of information according to the processing contents of the receiving unit 11, the recognition unit 12, and the output unit 14, for example.

<<出力部14>>
出力部14は、各種情報を表示部113等に出力する。出力部14は、例えば認識部12により導出された認識結果を、表示部113等に出力する。出力部14は、例えば認識結果に基づき、駆動装置3を制御するための制御情報を生成し、制御情報を駆動装置3に出力する。なお、出力部14は、例えば認識結果を制御情報として、駆動装置3に出力してもよい。
<< Output unit 14 >>
The output unit 14 outputs various information to the display unit 113 and the like. The output unit 14 outputs, for example, the recognition result derived by the recognition unit 12 to the display unit 113 or the like. The output unit 14 generates control information for controlling the drive device 3 based on, for example, the recognition result, and outputs the control information to the drive device 3. The output unit 14 may output the recognition result as control information to the drive device 3, for example.

<収音装置2>
図4(a)は、収音装置2の構成の一例を示す模式図である。収音装置2は、例えばマイクロフォンMと、制御部21と、変換部22と、通信部23と、アンテナAとを備え、例えば記憶部24を備えてもよい。収音装置2として、インカム(ヘッドセット付きトランシーバ)が用いられるほか、無線通信機能を備えた公知の収音機器が用いられる。
<Sound collecting device 2>
FIG. 4A is a schematic view showing an example of the configuration of the sound collecting device 2. The sound collecting device 2 may include, for example, a microphone M, a control unit 21, a conversion unit 22, a communication unit 23, and an antenna A, and may include, for example, a storage unit 24. As the sound collecting device 2, an intercom (transceiver with a headset) is used, and a known sound collecting device having a wireless communication function is used.

<<マイクロフォンM>>
マイクロフォンMは、利用者の音声を収音する。マイクロフォンMとして、公知の収音機器が用いられる。
<< Microphone M >>
The microphone M collects the user's voice. A known sound collecting device is used as the microphone M.

<<制御部21>>
制御部21は、収音装置2全体の制御を行い、例えば音声データDの送受信に関する動作制御を行う。制御部21は、例えば送信する音声データDの変調方式等を制御するほか、音声データDを送信するタイミング等を制御する。制御部21として、例えばDSP(Digital Signal Processor)等の公知のプロセッサが用いられる。
<< Control unit 21 >>
The control unit 21 controls the entire sound collecting device 2, and controls operations related to transmission / reception of voice data D, for example. The control unit 21 controls, for example, the modulation method of the voice data D to be transmitted, and also controls the timing of transmitting the voice data D and the like. As the control unit 21, a known processor such as a DSP (Digital Signal Processor) is used.

<<変換部22>>
変換部22は、マイクロフォンMにより収音された音声(アナログ信号)をデジタル信号(音声データD)に変換する。変換部22は、例えばPCM(Pulse Code Modulation)のような公知技術を用いて、アナログ信号をデジタル信号に変換し、音声データDとして取得する。変換部22として、A/Dコンバータが用いられる。
<< Conversion unit 22 >>
The conversion unit 22 converts the voice (analog signal) picked up by the microphone M into a digital signal (voice data D). The conversion unit 22 converts an analog signal into a digital signal and acquires it as voice data D by using a known technique such as PCM (Pulse Code Modulation). An A / D converter is used as the conversion unit 22.

<<通信部23>>
通信部23は、UHF帯域を利用した無線通信Wにより、音声データDを送信する。通信部23は、例えばアンテナAを介して、音声データDを送信する。通信部23は、例えば音声データDを符号化する符号化部と、音声データDを変調する変調部とを有する。変調部は、例えばDQPSK等の位相変調方式を用いて、データを変調する。
<< Communication Unit 23 >>
The communication unit 23 transmits voice data D by wireless communication W using the UHF band. The communication unit 23 transmits the voice data D via, for example, the antenna A. The communication unit 23 includes, for example, a coding unit that encodes the voice data D and a modulation unit that modulates the voice data D. The modulation unit modulates the data by using a phase modulation method such as DQPSK.

通信部23は、例えばパケット化処理が行われていない音声データDを送信する。即ち、収音装置2では、例えば音声データDに対してパケット化処理を行わない。このため、通信部23は、音声データDを連続した信号として一度に送信することができる。これにより、音声認識装置1の受信部11では、音声データDを連続した信号として一度に受信することが可能となる。 The communication unit 23 transmits, for example, voice data D that has not been packetized. That is, the sound collecting device 2 does not perform packetization processing on the voice data D, for example. Therefore, the communication unit 23 can transmit the voice data D as a continuous signal at once. As a result, the receiving unit 11 of the voice recognition device 1 can receive the voice data D as continuous signals at once.

収音装置2は、例えば上述した通信機器111と同様に、受信機構を有してもよい。なお、通信機器111の有する変換部、及び通信部は、変換部22、及び通信部23に対応させることができる。 The sound collecting device 2 may have a receiving mechanism, for example, like the above-mentioned communication device 111. The conversion unit and the communication unit of the communication device 111 can correspond to the conversion unit 22 and the communication unit 23.

<<記憶部24>>
記憶部24は、各種情報を図示しない保存部に記憶させ、又は各種情報を保存部から取出す。保存部は、例えば上述した保存部104と同様に、SDメモリーカード等の公知のデータ保存媒体が用いられる。
<< Memory unit 24 >>
The storage unit 24 stores various information in a storage unit (not shown), or retrieves various information from the storage unit. As the storage unit, for example, a known data storage medium such as an SD memory card is used as in the storage unit 104 described above.

<駆動装置3>
図4(b)は、駆動装置3の構成の一例を示す模式図である。駆動装置3は、例えば音声認識装置1を有し、例えば制御部31と、被制御部32とを有してもよい。
<Drive device 3>
FIG. 4B is a schematic view showing an example of the configuration of the drive device 3. The drive device 3 may have, for example, a voice recognition device 1, and may have, for example, a control unit 31 and a controlled unit 32.

駆動装置3として、例えば照明、エアコン等の家電製品が用いられるほか、例えば稼働式ベッド、ドア、窓、カーテン等の駆動可能な部分を有する構成が用いられる。駆動装置3として、例えばロボット、無人搬送車(AGV:Automated Guided Vehicle)、生産機械等が用いられてもよい。 As the drive device 3, for example, home appliances such as lighting and air conditioners are used, and for example, a configuration having a driveable portion such as a movable bed, a door, a window, and a curtain is used. As the drive device 3, for example, a robot, an automated guided vehicle (AGV), a production machine, or the like may be used.

<<制御部31>>
制御部31は、駆動装置3全体の制御を行う。制御部31は、例えば音声認識装置1から取得した認識結果、又は認識結果に基づき生成された制御情報に基づき、被制御部32を制御する。制御部31として、例えばCPU等のプロセッサが用いられる。
<< Control unit 31 >>
The control unit 31 controls the entire drive device 3. The control unit 31 controls the controlled unit 32 based on, for example, the recognition result acquired from the voice recognition device 1 or the control information generated based on the recognition result. As the control unit 31, for example, a processor such as a CPU is used.

<<被制御部32>>
被制御部32は、制御部31によって制御される。被制御部32は、例えば電気信号を用いて駆動する構成を示し、例えば空圧機構、油圧機構、モータ等を示すほか、制御回路等を示してもよい。
<< Controlled Unit 32 >>
The controlled unit 32 is controlled by the control unit 31. The controlled unit 32 shows, for example, a configuration in which it is driven by using an electric signal, and may show, for example, a pneumatic mechanism, a hydraulic mechanism, a motor, or the like, or a control circuit or the like.

(第1実施形態:音声認識システム100の動作の一例)
次に、第1実施形態における音声認識システム100の動作の一例について説明する。図5は、本実施形態における音声認識システム100の動作の一例を示すフローチャートである。
(First Embodiment: An example of the operation of the voice recognition system 100)
Next, an example of the operation of the voice recognition system 100 in the first embodiment will be described. FIG. 5 is a flowchart showing an example of the operation of the voice recognition system 100 in the present embodiment.

音声認識システム100は、取得手段S110と、送信手段S120と、受信手段S130と、認識手段S140とを備える。取得手段S110及び送信手段S120は、例えば収音装置2を用いて実施することができ、受信手段S130及び認識手段S140は、例えば音声認識装置1を用いて実施することができる。 The voice recognition system 100 includes acquisition means S110, transmission means S120, reception means S130, and recognition means S140. The acquisition means S110 and the transmission means S120 can be carried out by using, for example, the sound collecting device 2, and the receiving means S130 and the recognition means S140 can be carried out by using, for example, the voice recognition device 1.

<取得手段S110>
取得手段S110は、音声に基づき、音声データDを取得する。例えば収音装置2のマイクロフォンMは、利用者の音声を収音する。その後、例えば変換部22は、アナログデータの音声をデジタルデータに変換し、音声データDとして取得する。変換部22は、例えばマイクロフォンMで音声を収音したタイミングに沿って、音声データDを逐次取得する。
<Acquisition means S110>
The acquisition means S110 acquires voice data D based on the voice. For example, the microphone M of the sound collecting device 2 collects the user's voice. After that, for example, the conversion unit 22 converts the audio of the analog data into digital data and acquires it as the audio data D. The conversion unit 22 sequentially acquires the voice data D in accordance with the timing at which the voice is picked up by the microphone M, for example.

<送信手段S120>
送信手段S120は、UHF帯域を利用した無線通信Wにより、音声データDを送信する。例えば通信部23は、音声データDに対して符号化処理、及び変調処理を実施したあと、アンテナAを介して、音声認識装置1に対して音声データDを送信する。通信部23は、例えば変換部22で音声データDを取得したタイミングに沿って、音声データDを逐次送信する。通信部23は、例えば複数の音声認識装置1に対し、1つの音声データDを送信してもよい。
<Transmission means S120>
The transmission means S120 transmits voice data D by wireless communication W using the UHF band. For example, the communication unit 23 performs coding processing and modulation processing on the voice data D, and then transmits the voice data D to the voice recognition device 1 via the antenna A. The communication unit 23 sequentially transmits the voice data D, for example, at the timing when the conversion unit 22 acquires the voice data D. The communication unit 23 may transmit one voice data D to, for example, a plurality of voice recognition devices 1.

送信手段S120では、例えば通信部23は、音声データDに対してパケット化処理を行わない状態で、音声データDを送信する。このため、音声データDを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理を実施する必要がない。 In the transmission means S120, for example, the communication unit 23 transmits the voice data D in a state where the voice data D is not packetized. Therefore, when receiving the voice data D, it is not necessary to perform an error detection for each packet or a process of replacing each packet in a different order from the reception timing.

なお、例えばWi−Fi(登録商標)等のような無線パケット通信を用いて音声データDを受信する際、環境起因等の不具合によって一部のパケットが損失する場合がある。このとき、受信される音声データDに含まれる情報は、パケット単位で損失する。このため、不具合が音声データDに影響を及ぼした期間よりも長い期間に相当するデータ量の損失が発生し、音声認識の精度に影響を与え得る。従って、無線通信Wを用いて音声データDを送受信する場合、音声認識精度の著しい低下が発生し得る。 When receiving voice data D using wireless packet communication such as Wi-Fi (registered trademark), some packets may be lost due to a problem such as an environment. At this time, the information included in the received voice data D is lost in packet units. Therefore, a loss in the amount of data corresponding to a period longer than the period in which the defect affects the voice data D may occur, which may affect the accuracy of voice recognition. Therefore, when the voice data D is transmitted and received using the wireless communication W, the voice recognition accuracy may be significantly reduced.

これに対し、音声認識システム100において、送信手段S120は、音声データDに対してパケット化処理を行わずに、音声データDを送信する。即ち、無線通信Wによって音声データDを送受信する際、不具合によるデータの損失量は、不具合が音声データDに影響を及ぼした期間に相当する。このため、無線パケット通信を用いて音声データDを送信した場合に比べて、不具合によるデータの損失量を低減することができる。これにより、無線通信Wにより送信された音声データDにおける音声認識精度の低下の抑制が可能となる。 On the other hand, in the voice recognition system 100, the transmission means S120 transmits the voice data D without performing packetization processing on the voice data D. That is, when the voice data D is transmitted and received by the wireless communication W, the amount of data loss due to the defect corresponds to the period during which the defect affects the voice data D. Therefore, the amount of data loss due to a defect can be reduced as compared with the case where the voice data D is transmitted using wireless packet communication. As a result, it is possible to suppress a decrease in voice recognition accuracy in the voice data D transmitted by the wireless communication W.

<受信手段S130>
受信手段S130は、音声データDを連続した信号として一度に受信する。例えば音声認識装置1の受信部11は、通信機器111を介して音声データDを受信する。受信部11は、例えば通信部23で音声データDを送信したタイミングに沿って、音声データDを逐次受信する。受信部11は、例えば通信機器111を介して、音声データDの復調、及び復号の少なくとも何れかを行ってもよい。
<Receiving means S130>
The receiving means S130 receives the voice data D as a continuous signal at one time. For example, the receiving unit 11 of the voice recognition device 1 receives the voice data D via the communication device 111. The receiving unit 11 sequentially receives the voice data D, for example, at the timing when the communication unit 23 transmits the voice data D. The receiving unit 11 may perform at least one of demodulation and decoding of the voice data D, for example, via the communication device 111.

<認識手段S140>
認識手段S140は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。例えば認識部12は、公知の音声認識エンジンを用いて、音声データDの内容に対する認識結果を導出する。認識部12は、例えば受信部11で音声データDを受信したタイミングに沿って、音声データDの内容に対する認識結果を導出する。
<Recognition means S140>
The recognition means S140 uses phoneme recognition to derive a recognition result that recognizes the content of the voice data D. For example, the recognition unit 12 uses a known voice recognition engine to derive a recognition result for the content of the voice data D. The recognition unit 12 derives the recognition result for the content of the voice data D, for example, according to the timing when the reception unit 11 receives the voice data D.

例えば音声データDが休止区間を含む場合、認識部12は、休止区間を踏まえた認識結果を導出する。このため、受信手段S130において、音声データDを連続した信号として一度に受信することで、休止区間が損失する可能性を抑制できる。これにより、音声認識精度の向上を図ることが可能となる。 For example, when the voice data D includes a pause section, the recognition unit 12 derives a recognition result based on the pause section. Therefore, in the receiving means S130, by receiving the voice data D as continuous signals at once, the possibility of loss of the pause section can be suppressed. This makes it possible to improve the voice recognition accuracy.

特に、送信手段S120において、音声データDに対してパケット化処理を行わない状態で、音声データDを送信することで、音声認識精度の更なる向上を図ることが可能となる。例えば音声データDに従来のパケット化処理を行う場合、休止区間が失われる可能性が大幅に高くなる。これに対し、音声認識システム100において、認識手段S140では、パケット化処理を行われていない音声データDの内容に対し、認識結果を導出する。このため、休止区間の損失を抑制した状態で、音声認識を実現することができる。 In particular, in the transmission means S120, the voice recognition accuracy can be further improved by transmitting the voice data D in a state where the voice data D is not packetized. For example, when the conventional packetization processing is performed on the voice data D, the possibility that the pause section is lost is greatly increased. On the other hand, in the voice recognition system 100, the recognition means S140 derives the recognition result for the content of the voice data D that has not been packetized. Therefore, voice recognition can be realized while suppressing the loss of the pause section.

その後、例えば必要に応じて認識結果を出力する。例えば出力部14は、I/F107を介して、表示部113に認識結果を出力するほか、I/F108を介して、駆動装置3に認識結果を出力してもよい。 After that, for example, the recognition result is output as needed. For example, the output unit 14 may output the recognition result to the display unit 113 via the I / F 107, or may output the recognition result to the drive device 3 via the I / F 108.

これにより、音声認識システム100の動作が終了する。 As a result, the operation of the voice recognition system 100 ends.

(第1実施形態:音声認識システム100の第1変形例)
次に、第1実施形態における音声認識システム100の第1変形例について説明する。音声認識システム100の第1変形例では、音声認識装置1が、起動用データベースを参照し、音声データDに対する認識結果を導出する。
(First Embodiment: First modification of voice recognition system 100)
Next, a first modification of the voice recognition system 100 according to the first embodiment will be described. In the first modification of the voice recognition system 100, the voice recognition device 1 refers to the activation database and derives the recognition result for the voice data D.

<起動用データベース>
図6は、起動用データベースの一例を示す模式図である。起動用データベースは、音声認識装置1の保存部104に予め保存される。
<Startup database>
FIG. 6 is a schematic diagram showing an example of a startup database. The startup database is stored in advance in the storage unit 104 of the voice recognition device 1.

起動用データベースは、音声認識システム100における音声認識を開始する際に必要なキーワード(ウェイクワード)を認識する際に参照される。起動用データベースは、例えば利用される公知の音素認識技術との互換性を持たせた状態で、保存部104に保存されてもよい。 The activation database is referred to when recognizing a keyword (wake word) required for starting voice recognition in the voice recognition system 100. The startup database may be stored in the storage unit 104 in a state of being compatible with, for example, a known phoneme recognition technique used.

起動用データベースには、予め取得された起動センテンスが複数記憶される。起動センテンスは、1以上の文字列情報と、各文字列情報に紐づく閾値とを含む。起動用センテンスは、例えば文字列情報に紐づく音素情報を含んでもよく、例えば文字列情報の代わりに音素情報を含んでもよい。なお、閾値は、例えば起動センテンス毎に1つ紐づけられてもよい。 A plurality of boot sentences acquired in advance are stored in the boot database. The activation sentence includes one or more character string information and a threshold value associated with each character string information. The activation sentence may include, for example, phoneme information associated with the character string information, and may include, for example, phoneme information instead of the character string information. In addition, one threshold value may be associated with each activation sentence, for example.

起動センテンスは、音声データDの内容を推定するために用いられる。例えば1つの音声データDに対して、1つの起動センテンスが選択される。 The activation sentence is used to estimate the content of the voice data D. For example, one activation sentence is selected for one voice data D.

文字列情報として、単語や形態素等の意味を持つ表現要素が用いられるほか、意味を持たない文字列が用いられてもよい。なお、文字列情報は、日本語のほか、例えば2ヵ国以上の言語を含んでもよく、数字や利用箇所で用いられる略称等の文字列を含んでもよい。 As the character string information, an expression element having a meaning such as a word or a morpheme may be used, or a character string having no meaning may be used. In addition to Japanese, the character string information may include, for example, languages of two or more countries, and may include character strings such as numbers and abbreviations used in places of use.

音素情報として、例えば文字列情報に対応する音素の配列が用いられる。音素情報は、例えば休止区間(図6では「*」)を含んでもよい。音素情報は、例えば同一の文字列情報に対し、異なる音素の配列が紐づけられてもよい。 As the phoneme information, for example, an array of phonemes corresponding to character string information is used. The phoneme information may include, for example, a pause section (“*” in FIG. 6). As the phoneme information, for example, an array of different phonemes may be associated with the same character string information.

閾値は、音声データDに紐づく信頼度と比較を行う際に用いられる。信頼度は、音声データDから音素認識を用いて算出される値を示す。閾値は、例えば0以上1以下の範囲内で、任意の値が予め設定される。 The threshold value is used when comparing with the reliability associated with the voice data D. The reliability indicates a value calculated from the voice data D using phoneme recognition. The threshold value is set in advance, for example, in the range of 0 or more and 1 or less.

起動用データベースには、例えば各起動センテンスに紐づく認識情報が記憶されてもよい。この場合、音声データDに対して1つの起動センテンスを選択することで、選択された起動センテンスに紐づく認識情報を、認識結果として導出することができる。 For example, the recognition information associated with each startup sentence may be stored in the startup database. In this case, by selecting one activation sentence for the voice data D, the recognition information associated with the selected activation sentence can be derived as the recognition result.

例えば複数の起動センテンスは、1つのセンテンス(第1起動センテンス)と、複数のダミーセンテンスとを含んでもよい。第1起動センテンスは、音声認識の開始を示す認識結果(第1認識結果)の導出に用いられる。ダミーセンテンスは、第1認識結果とは異なる認識結果の導出に用いられる。 For example, a plurality of activation sentences may include one sentence (first activation sentence) and a plurality of dummy sentences. The first activation sentence is used to derive a recognition result (first recognition result) indicating the start of speech recognition. The dummy sentence is used to derive a recognition result different from the first recognition result.

例えば第1起動センテンスは、音声認識を開始する旨を示す情報(第1認識情報)と紐づいて、起動用データベースに保存される。このため、音声データDが第1起動センテンスに対応すると判断された場合には、第1認識情報が認識結果として導出され、音声認識を開始することができる。 For example, the first activation sentence is stored in the activation database in association with the information indicating that voice recognition is started (first recognition information). Therefore, when it is determined that the voice data D corresponds to the first activation sentence, the first recognition information is derived as the recognition result, and the voice recognition can be started.

例えばダミーセンテンスは、音声認識を開始しない(例えば「何もしない」)旨を示す情報と紐づいて、起動用データベースに保存される。このため、音声データDがダミーセンテンスに対応すると判断された場合には、音声認識を開始しないようにすることができる。 For example, a dummy sentence is stored in the startup database in association with information indicating that speech recognition is not started (for example, "do nothing"). Therefore, when it is determined that the voice data D corresponds to the dummy sentence, the voice recognition can be prevented from starting.

ここで、上述した無線通信(UHF帯域を利用した無線通信W)により受信した音声データDは、有線等で取得した音声データDに比べて、音声の特徴を認識し易いことを発明者は発見した。このため、音声データDを推定するために用いられる起動センテンスとして、1つの起動センテンスを用いるのみで十分であり、例えば1つの起動センテンスに類似する起動センテンスを設ける必要が無い。これにより、保存するデータ容量の低減を図ることが可能となる。また、1つの第1起動センテンスに対し、複数のダミーセンテンスを設定することで、第1起動センテンスが採用される可能性を高めることができる。これにより、音声認識装置1の誤動作を抑制することが可能となる。 Here, the inventor has discovered that the voice data D received by the above-mentioned wireless communication (wireless communication W using the UHF band) is easier to recognize the characteristics of voice than the voice data D acquired by wire or the like. did. Therefore, it is sufficient to use one activation sentence as the activation sentence used for estimating the voice data D, and it is not necessary to provide, for example, an activation sentence similar to one activation sentence. This makes it possible to reduce the amount of data to be stored. Further, by setting a plurality of dummy sentences for one first activation sentence, it is possible to increase the possibility that the first activation sentence is adopted. This makes it possible to suppress malfunction of the voice recognition device 1.

なお、例えば第1起動センテンスに含まれる閾値を、ダミーセンテンスに含まれる閾値よりも低く設定してもよい。この場合、音声データDに対応するセンテンスとして、第1起動センテンスがより優先的に採用されるようにすることができる。 For example, the threshold value included in the first activation sentence may be set lower than the threshold value included in the dummy sentence. In this case, the first activation sentence can be preferentially adopted as the sentence corresponding to the voice data D.

例えば音声認識システム100が複数の音声認識装置1を備える場合、1つのセンテンス(第1起動センテンス)の内容は、記憶された複数の音声認識装置1毎に異なる。このため、音声認識装置1毎に、認識させるタイミングを異ならせることができる。また、例えば音声認識装置1を有する駆動装置3毎に、被制御部32を制御するタイミングを異ならせることができる。 For example, when the voice recognition system 100 includes a plurality of voice recognition devices 1, the content of one sentence (first activation sentence) is different for each of the plurality of stored voice recognition devices 1. Therefore, the timing of recognition can be different for each voice recognition device 1. Further, for example, the timing of controlling the controlled unit 32 can be different for each drive device 3 having the voice recognition device 1.

(第1実施形態:音声認識システム100の動作の第1変形例)
次に、第1実施形態における音声認識システム100の動作の第1変形例について説明する。図7(a)は、本実施形態における音声認識システム100の動作における第1変形例の一部を示すフローチャートである。
(First Embodiment: First modification of the operation of the voice recognition system 100)
Next, a first modification of the operation of the voice recognition system 100 in the first embodiment will be described. FIG. 7A is a flowchart showing a part of the first modification in the operation of the voice recognition system 100 in the present embodiment.

音声認識システム100の第1変形例では、例えば認識手段S140は、生成手段S141と、指定手段S142と、比較手段S143と、導出手段S144とを有する。なお、音声認識システム100の第1変形例では、例えば図7(b)に示すように、認識部12は、生成部12aと、指定部12bと、比較部12cとを有してもよい。 In the first modification of the voice recognition system 100, for example, the recognition means S140 has a generation means S141, a designation means S142, a comparison means S143, and a derivation means S144. In the first modification of the voice recognition system 100, for example, as shown in FIG. 7B, the recognition unit 12 may have a generation unit 12a, a designation unit 12b, and a comparison unit 12c.

<生成手段S141>
生成手段S141は、上述した受信手段S130のあとに実施される。生成手段S141では、例えば生成部12aは、音素認識を用い、音声データDの内容に対応する候補センテンスを生成する。候補センテンスは、候補データ、及び信頼度をそれぞれ1以上含む。
<Generation means S141>
The generating means S141 is implemented after the receiving means S130 described above. In the generation means S141, for example, the generation unit 12a uses phoneme recognition to generate a candidate sentence corresponding to the content of the voice data D. The candidate sentence includes one or more candidate data and one or more reliability.

候補データは、音声データDから音素認識により抽出された音素情報、及び音素情報に対応する文字列の少なくとも何れかを示す。信頼度は、候補データに紐づき、音素認識により抽出された音素情報の確度(抽出精度)を示す。例えば生成部12aは、0以上1以下における範囲で、信頼度を算出する。生成部12aは、例えばJulius等の公知の音声認識エンジンを用いることで、候補センテンスの生成及び信頼度の算出を実現できる。 The candidate data indicates at least one of the phoneme information extracted from the voice data D by phoneme recognition and the character string corresponding to the phoneme information. The reliability indicates the accuracy (extraction accuracy) of the phoneme information extracted by the phoneme recognition in association with the candidate data. For example, the generation unit 12a calculates the reliability in the range of 0 or more and 1 or less. The generation unit 12a can generate a candidate sentence and calculate the reliability by using a known speech recognition engine such as Julius.

<指定手段S142>
指定手段S142では、例えば指定部12bは、起動用データベースを参照し、複数の起動センテンスのうち、候補センテンスに対応する起動センテンス(第1起動センテンス)を指定する。指定部12bは、例えば候補センテンスに含まれる候補データと、起動センテンス毎に含まれる文字列情報又は音素情報とを比較し、同一又は類似する起動センテンスを指定する。指定部12bは、例えば候補センテンスに最も類似する起動センテンスを指定する。
<Designation means S142>
In the designation means S142, for example, the designation unit 12b refers to the start-up database and designates a start-up sentence (first start-up sentence) corresponding to the candidate start-up sentence among the plurality of start-up sentences. For example, the designation unit 12b compares the candidate data included in the candidate sentence with the character string information or phoneme information included in each activation sentence, and designates the same or similar activation sentence. The designation unit 12b specifies, for example, an activation sentence that most closely resembles the candidate sentence.

<比較手段S143>
比較手段S143では、例えば比較部12cは、候補センテンスに含まれる信頼度と、指定された起動センテンスに含まれる閾値(第1閾値)とを比較する。比較部12cは、例えば信頼度が閾値以上の場合、候補センテンスが起動センテンスに対応すると判断する。比較部12cは、例えば信頼度が閾値未満の場合、候補センテンスが起動センテンスに対応しないと判断し、例えば再度指定手段S142を実施し、他の起動センテンスを指定してもよい。
<Comparison means S143>
In the comparison means S143, for example, the comparison unit 12c compares the reliability included in the candidate sentence with the threshold value (first threshold value) included in the designated start-up sentence. For example, when the reliability is equal to or higher than the threshold value, the comparison unit 12c determines that the candidate sentence corresponds to the activation sentence. For example, when the reliability is less than the threshold value, the comparison unit 12c determines that the candidate sentence does not correspond to the activation sentence, and may perform the designation means S142 again and specify another activation sentence, for example.

なお、候補センテンス及び起動センテンスに複数の信頼度が含まれる場合、比較部12cは、各信頼度と、各閾値とを比較する。この際、候補センテンスが起動センテンスに対応すると判断する基準として、少なくとも一部の信頼度が閾値以上の場合としてもよく、任意に設定することができる。 When the candidate sentence and the activation sentence include a plurality of reliabilitys, the comparison unit 12c compares each reliability with each threshold value. At this time, as a criterion for determining that the candidate sentence corresponds to the activation sentence, at least a part of the reliability may be equal to or higher than the threshold value, and can be arbitrarily set.

<導出手段S144>
導出手段S144では、例えば認識部12は、比較手段S143の結果に基づき、認識結果を導出する。例えば起動用データベースに認識情報が記憶される場合、認識部12は、候補センテンスに対応する起動センテンスに紐づく認識情報を、認識結果として導出する。
<Derivation means S144>
In the derivation means S144, for example, the recognition unit 12 derives the recognition result based on the result of the comparison means S143. For example, when the recognition information is stored in the startup database, the recognition unit 12 derives the recognition information associated with the startup sentence corresponding to the candidate sentence as the recognition result.

これにより、例えば音声認識を開始する旨の認識結果が導出された場合、音声認識システム100における音声認識動作が開始され、例えば上述した取得手段S110等を実施する。なお、例えば音声認識を開始しない旨の認識結果が導出された場合、取得手段S110等を実施した上で、起動用データベースを参照する指定手段S142等が再度実施される。 As a result, for example, when a recognition result indicating that voice recognition is started is derived, the voice recognition operation in the voice recognition system 100 is started, and for example, the above-mentioned acquisition means S110 or the like is implemented. For example, when a recognition result indicating that voice recognition is not started is derived, the acquisition means S110 or the like is executed, and then the designation means S142 or the like that refers to the startup database is executed again.

(第1実施形態:音声認識システム100の第2変形例)
次に、第1実施形態における音声認識システム100の第2変形例について説明する。音声認識システム100の第2変形例では、音声認識装置1が、文字列データベース、及び文法データベースを参照し、音声データDに対する認識結果を導出する。
(First Embodiment: Second modification of the voice recognition system 100)
Next, a second modification of the voice recognition system 100 according to the first embodiment will be described. In the second modification of the voice recognition system 100, the voice recognition device 1 refers to the character string database and the grammar database, and derives the recognition result for the voice data D.

音声認識システム100の第2変形例では、例えば音声認識装置1は、利用者の用途に応じて構築された文字列データベース、及び文法データベースを参照し、利用者の音声に対応する認識結果を導出する。音声認識装置1は、例えば上述した起動用データベースの代わりに、参照データベースを参照してもよい。 In the second modification of the voice recognition system 100, for example, the voice recognition device 1 refers to a character string database and a grammar database constructed according to the user's use, and derives a recognition result corresponding to the user's voice. To do. The voice recognition device 1 may refer to a reference database instead of the startup database described above, for example.

<データベース>
図8は、文字列データベース、文法データベース、及び参照データベースの一例を示す。各データベースは、音声認識装置1の保存部104に予め保存される。
<Database>
FIG. 8 shows an example of a character string database, a grammar database, and a reference database. Each database is stored in advance in the storage unit 104 of the voice recognition device 1.

<<文字列データベース>>
文字列データベースには、利用者が発すると想定される文字列(文字列情報)と、文字列情報に対応する音素(音素情報)が記憶される。このため、上記文字列及び音素を蓄積することで、用途に応じた認識を導出でき、様々な用途に展開することが可能となる。
<< Character string database >>
The character string database stores a character string (character string information) that is expected to be emitted by the user and a phoneme (phoneme information) corresponding to the character string information. Therefore, by accumulating the above character strings and phonemes, it is possible to derive recognition according to the application, and it is possible to develop it for various applications.

文字列データベースに記憶される音素の配列(音素情報)は、音声に含まれる休止区間を踏まえて分類することで、無線通信Wにより受信した音声データDに対する認識結果を導出する精度を飛躍的に向上させることが可能である。また、音声認識装置1では、例えば文字列データベースに記憶された文字列情報に限定して、音声に対する認識結果を導出する。このため、用途毎に文法データベースの内容を変更することで、用途に適した認識結果を高精度に導出することが可能となる。 By classifying the phoneme array (phoneme information) stored in the character string database based on the pause section included in the voice, the accuracy of deriving the recognition result for the voice data D received by the wireless communication W is dramatically improved. It is possible to improve. Further, in the voice recognition device 1, for example, the recognition result for the voice is derived only for the character string information stored in the character string database. Therefore, by changing the contents of the grammar database for each application, it is possible to derive a recognition result suitable for the application with high accuracy.

文字列データベースには、予め取得された文字列情報と、文字列情報に紐づく音素情報と、文字列情報に付与されたクラスIDとが記憶される。文字列データベースは、例えば後述する検出部12eによって候補データを検出するときに用いられる。 The character string database stores the character string information acquired in advance, the phonetic information associated with the character string information, and the class ID assigned to the character string information. The character string database is used, for example, when the detection unit 12e, which will be described later, detects candidate data.

クラスIDは、文字列情報に紐づき、文字列情報の単語等が文法上用いられると想定される配列箇所(例えば第1クラスID「1」等)を示す。例えば音声の文法(センテンス)が「対象」+「助詞」+「アクション」として表すことができる場合、クラスIDとして、音声の「対象」となる文字列情報に対して「1」が用いられ、音声の「助詞」となる文字列情報に対して「2」が用いられ、音声の「アクション」となる文字列情報に対して「3」が用いられる。 The class ID indicates an arrangement location (for example, first class ID "1" or the like) in which words or the like of the character string information are assumed to be used grammatically in association with the character string information. For example, when the speech grammar (sentence) can be expressed as "target" + "particle" + "action", "1" is used for the character string information that is the "target" of the speech as the class ID. "2" is used for the character string information that becomes the "particle" of the voice, and "3" is used for the character string information that becomes the "action" of the voice.

文字列データベースに記憶された音素情報は、例えば文字列情報に対応する音素の配列から、少なくとも1つの子音を除いた配列を示してもい。簡易音素情報は、例えば図8における文字列情報「明かり」に紐づいた「a/a/i」のように、文字列情報に対応する基本的な音素の配列「a/k/a/r/i」から、子音を除いた母音のみによる音素の配列を示す。また、簡易音素情報は、例えば文字列情報「弾いて」に紐づいた「i/*/i/e」のように、母音と休止区間との組み合わせによる配列を示してもよいほか、子音を1つ除いた「i/*/i/t/e」のような、少なくとも1つの子音を除いた配列を示してもよい。 The phoneme information stored in the character string database may indicate, for example, an array in which at least one consonant is removed from an array of phonemes corresponding to the character string information. The simple phoneme information is a basic phoneme array "a / k / a / r" corresponding to the character string information, such as "a / a / i" associated with the character string information "light" in FIG. An array of phonemes consisting only of vowels excluding consonants from "/ i" is shown. In addition, the simple phoneme information may indicate an array based on a combination of vowels and pause sections, such as "i / * / i / e" linked to the character string information "play", and consonants. An array excluding at least one consonant, such as "i / * / i / t / e" excluding one, may be shown.

簡易音素情報は、例えば文字列情報に対応する母音と、濁音、半濁音、促音、及び拗音の少なくとも何れかを組み合わせた配列を示してもよい。この場合、簡易音素情報は、上記以外の子音を除いた配列を示し、例えば文字列情報に対応する無声子音を除いた配列を示す。 The simple phoneme information may indicate, for example, an array in which at least one of a vowel corresponding to character string information, a voiced sound, a semi-voiced sound, a sokuon, and a yoon is combined. In this case, the simple phoneme information shows an array excluding consonants other than the above, for example, an array excluding unvoiced consonants corresponding to the character string information.

例えば濁音は、文字列「が」に対応する音素「g/a」等を示し、半濁音は、文字列「ぱ」に対応する音素「p/a」等を示し、促音は、文字列「勝った」に対応する音素「k/a/q/t/a」等を示し、拗音は、文字列「しょ」に対応する音素「s/h/o」等を示す。 For example, a muddy sound indicates a phoneme "g / a" or the like corresponding to the character string "ga", a handakuon indicates a phoneme "p / a" or the like corresponding to the character string "pa", and a prompting sound indicates a character string "p / a" or the like. The phoneme "k / a / q / t / a" and the like corresponding to "win" are shown, and the phoneme "s / h / o" and the like corresponding to the character string "sho" are shown.

簡易音素情報の示す配列に、濁音、半濁音、促音、及び拗音の少なくとも何れかを含ませることで、特徴的な音声に音声認識の対象を絞ることができ、認識精度を更に向上させることが可能となる。例えば簡易音素情報の配列に、濁音、及び半濁音の少なくとも何れかを含ませることで、方言等の特徴を踏まえた音声認識を実現することができる。また、例えば簡易音素情報の配列に、促音、及び拗音の少なくとも何れかを含ませることで、認識し難い音声に対して認識精度の低下を抑制することができる。 By including at least one of voiced sound, semi-voiced sound, sokuon, and yoon in the arrangement indicated by the simple phoneme information, it is possible to narrow down the target of voice recognition to characteristic voices and further improve the recognition accuracy. It will be possible. For example, by including at least one of voiced sound and semi-voiced sound in the array of simple phoneme information, voice recognition based on characteristics such as dialect can be realized. Further, for example, by including at least one of a sokuon and a yoon in the array of simple phoneme information, it is possible to suppress a decrease in recognition accuracy for a voice that is difficult to recognize.

また、文字列データベースに記憶された音素情報は、1つの文字列情報に紐づく2つ以上のそれぞれ異なる音素の配列を示す音素候補情報を含んでもよい。各音素候補情報は、例えば図8における文字列情報「消して」に紐づいた「k/e/s/i/t/e」及び「e/i/e」のように、1つの文字列情報に対応し、それぞれ異なる音素の配列を示す。なお、例えば音素候補情報が、上述した簡易音素情報を含んでもよい。この場合、複数の利用者の中で子音を発することが困難な利用者が含まれる状況等においても、認識精度の低下を抑制することができる。 Further, the phoneme information stored in the character string database may include phoneme candidate information indicating an array of two or more different phonemes associated with one character string information. Each phoneme candidate information is a single character string such as "k / e / s / i / t / e" and "e / i / e" linked to the character string information "erase" in FIG. Corresponds to the information and shows a different arrangement of phonemes. For example, the phonetic candidate information may include the above-mentioned simple phonetic information. In this case, it is possible to suppress a decrease in recognition accuracy even in a situation where a user who has difficulty in producing a consonant among a plurality of users is included.

なお、例えば標準語における音素の配列「k/e/s/i/t/e」と、方言における音素の配列「k/e/s/u/t/e」とを、2つの音素候補情報として1つの文字列情報に紐づけてもよい。また、互いに異なる言語を、2つの音素候補情報として1つの文字列情報に紐づけてもよい。 For example, the phoneme array "k / e / s / i / t / e" in the standard language and the phoneme array "k / e / s / u / t / e" in the dialect are two phoneme candidate information. May be associated with one character string information. Further, different languages may be associated with one character string information as two phoneme candidate information.

以下、音素情報には、上述した簡易音素情報及び音素候補情報の少なくとも何れか含んでもよい点は同様であり、適宜説明を省略する。 Hereinafter, the phoneme information may include at least one of the above-mentioned simple phoneme information and phoneme candidate information, and the description thereof will be omitted as appropriate.

<<文法データベース>>
文法データベースには、文字列情報を組み合わせたセンテンスを生成するために必要な文法情報が記憶される。文法情報は、文字列情報毎に紐づくクラスIDの配列順序を示す情報を複数含む。文法データベースを参照することで、休止区間を踏まえて分類された音素の配列に基づいて文字列情報を検出したあと、容易に各文字列情報を組み合わせることができる。これにより、音声に対する文法を考慮した認識結果を導出することができる。この結果、利用者等の発する音声の内容を踏まえた音声認識を、高精度に実現することが可能となる。
<< Grammar database >>
The grammar database stores the grammar information required to generate a sentence that combines character string information. The grammatical information includes a plurality of information indicating the arrangement order of the class IDs associated with each character string information. By referring to the grammar database, it is possible to easily combine each character string information after detecting the character string information based on the arrangement of phonemes classified based on the pause interval. As a result, it is possible to derive a recognition result in consideration of the grammar for speech. As a result, it becomes possible to realize highly accurate voice recognition based on the content of the voice emitted by the user or the like.

文法データベースには、予め取得された複数のクラスIDの配列順序を示す文法情報が記憶される。文法データベースは、例えば
生成部12aによって信頼度を算出するときに用いられる。文法情報として、例えば第1文法情報「1、2、3」が用いられる場合、音声の候補として「対象」+「助詞」+「アクション」を示すセンテンスを生成することができる。文法情報は、例えば第1文法情報「1、2、3」、第2文法情報「4、5、6」、第3文法情報「2、1、3」等のクラスIDの配列順序を複数含む。
The grammar database stores grammar information indicating the sequence order of a plurality of class IDs acquired in advance. The grammar database is used, for example, when the generation unit 12a calculates the reliability. When, for example, the first grammatical information "1, 2, 3" is used as the grammatical information, a sentence indicating "object" + "particle" + "action" can be generated as a voice candidate. The grammar information includes a plurality of class ID arrangement orders such as the first grammar information "1, 2, 3", the second grammar information "4, 5, 6", and the third grammar information "2, 1, 3". ..

<<参照データベース>>
参照データベースには、予め取得された文字列情報と、文字列を組み合わせた参照センテンスと、文字列情報毎に付与された閾値とが記憶され、例えば文字列情報に紐づく音素情報が記憶されてもよい。参照データベースは、上述した起動用データベースと同様に用いられる。参照データベースは、例えば起動用データベースを参照して音声認識を開始したあと、指定手段S142等を実施するときに起動用データベースの代わりに用いられる。なお、参照データベースに記憶される文字列情報及び音素情報は、例えば文字列データベースに記憶される文字列情報及び音素情報と等しくすることで、データ容量を少なくすることができる。
<< Reference database >>
The reference database stores the character string information acquired in advance, the reference sentence that combines the character strings, and the threshold value assigned to each character string information. For example, the phonetic information associated with the character string information is stored. May be good. The reference database is used in the same manner as the startup database described above. The reference database is used in place of the startup database when, for example, the designated means S142 or the like is implemented after starting voice recognition by referring to the startup database. The data capacity can be reduced by making the character string information and the phonetic element information stored in the reference database equal to, for example, the character string information and the phonetic element information stored in the character string database.

参照データベースに記憶された音素情報は、例えば上述した簡易音素情報、及び音素候補情報の少なくとも何れかを含んでもよい。この場合、例えば図8に示すように、1つの文字列情報「明かり」に紐づく2つの音素候補情報「a/k/a/r/i」、「a/a/i」毎に、異なるセンテンスに分類する(図8では第1、第3参照センテンス)ほか、同一のセンテンスとしてもよい。また、例えば1つの文字列情報「弾いて」に紐づく2つの音素候補情報「h/i/*/i/t/e」、「i/*/i/e」毎に異なる閾値「0.800」、「0.890」を設定してもよいほか、同一の閾値を設定してもよい。 The phoneme information stored in the reference database may include, for example, at least one of the above-mentioned simple phoneme information and phoneme candidate information. In this case, for example, as shown in FIG. 8, the two phoneme candidate information "a / k / a / r / i" and "a / a / i" associated with one character string information "light" are different. In addition to classifying the sentences (see the first and third sentences in FIG. 8), the same sentences may be used. Further, for example, a different threshold value "0." For each of the two phoneme candidate information "h / i / * / i / t / e" and "i / * / i / e" linked to one character string information "play". In addition to setting "800" and "0.890", the same threshold value may be set.

なお、例えば簡易音素情報が優先的に選択されるように、簡易音素情報に紐づく閾値を低くしてもよい。この場合、濁音、半濁音、促音、拗音等を含む音声を、特徴的な音声として優先的に認識させることもできる。 In addition, for example, the threshold value associated with the simple phoneme information may be lowered so that the simple phoneme information is preferentially selected. In this case, a voice including a voiced sound, a semi-voiced sound, a sokuon, a yoon, etc. can be preferentially recognized as a characteristic voice.

(第1実施形態:音声認識システム100の動作の第2変形例)
次に、第1実施形態における音声認識システム100の動作の第2変形例について説明する。図9(a)は、本実施形態における音声認識システム100の動作における第2変形例の一部を示すフローチャートである。
(First Embodiment: Second modification of the operation of the voice recognition system 100)
Next, a second modification of the operation of the voice recognition system 100 in the first embodiment will be described. FIG. 9A is a flowchart showing a part of the second modification in the operation of the voice recognition system 100 in the present embodiment.

音声認識システム100の第2変形例では、例えば認識手段S140は、抽出手段S145と、検出手段S146とを有する。なお、音声認識システム100の第2変形例では、例えば図9(b)に示すように、認識部12は、抽出部12dと、検出部12eとを有してもよい。 In the second modification of the voice recognition system 100, for example, the recognition means S140 has an extraction means S145 and a detection means S146. In the second modification of the voice recognition system 100, for example, as shown in FIG. 9B, the recognition unit 12 may have an extraction unit 12d and a detection unit 12e.

<抽出手段S145>
抽出手段S145は、上述した受信手段S130のあとに実施される。抽出手段S145では、例えば抽出部12dは、音素認識により、音声データDに含まれる開始無音区間及び終了無音区間を抽出する。また、抽出部12dは、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。即ち、抽出部12dの基本的な機能は、音素認識技術を用いることにより実現することができる。
<Extraction means S145>
The extraction means S145 is implemented after the reception means S130 described above. In the extraction means S145, for example, the extraction unit 12d extracts the start silence section and the end silence section included in the voice data D by phoneme recognition. Further, the extraction unit 12d extracts an array of phonemes and pause sections sandwiched between the start silence section and the end silence section as recognition target data by phoneme recognition. That is, the basic function of the extraction unit 12d can be realized by using the phoneme recognition technique.

抽出部12dは、例えば100ミリ秒以上1秒以下の非発話状態(無音区間)を、開始無音区間及び終了無音区間として抽出する。抽出部12dは、開始無音区間と終了無音区間との間に挟まれた区間(音声区間)に対し、音素及び休止区間を割り当てる。抽出部12dは、それぞれ割り当てられた音素及び休止区間の配列を、認識対象データとして抽出する。 The extraction unit 12d extracts, for example, a non-utterance state (silence section) of 100 milliseconds or more and 1 second or less as a start silence section and an end silence section. The extraction unit 12d allocates phonemes and pause sections to the sections (voice sections) sandwiched between the start silence section and the end silence section. The extraction unit 12d extracts the array of the assigned phonemes and pause sections as the recognition target data.

抽出部12dは、例えば各音素の長さ、又は認識対象データ全体の長さを判定したあと、休止区間の長さを設定した上で、音素及び休止区間を割り当てた配列を、認識対象データとして抽出してもよい。すなわち、抽出部12dは、音素の長さ又は認識対象データ全体の長さに応じて、休止区間の長さを設定してもよい。 The extraction unit 12d determines, for example, the length of each phoneme or the length of the entire recognition target data, sets the length of the pause section, and then uses an array to which the phonemes and the pause section are assigned as the recognition target data. It may be extracted. That is, the extraction unit 12d may set the length of the pause section according to the length of the phoneme or the length of the entire recognition target data.

抽出部12dは、例えば図10の抽出手段S145に示すように、開始無音区間「silB」及び終了無音区間「silE」を抽出し、音声区間における配列「a/k/a/r/i/*/w/o/*/ts/u/k/e/t/e」(*は休止区間を示す)を、対象認識データとして抽出する。抽出部12dは、例えば1つの音声データDからそれぞれ異なる配列の対象認識データを複数抽出してもよい。この場合、抽出部12dにおける音素及び休止区間の割り当てに伴うバラつきを考慮した音声認識を実施することができる。例えば抽出部12dは、1つ以上5つ以下の対象認識データを抽出することで、処理時間を抑えた上で、認識精度を高めることができる。なお、抽出部12dは、例えば開始無音区間及び終了無音区間の少なくとも何れかを含む配列を、対象認識データとして抽出してもよい。 As shown in the extraction means S145 of FIG. 10, the extraction unit 12d extracts the start silence section “silB” and the end silence section “silE”, and arranges them in the voice section “a / k / a / r / i / *”. / w / o / * / ts / u / k / e / t / e ”(* indicates a pause section) is extracted as target recognition data. The extraction unit 12d may, for example, extract a plurality of target recognition data having different sequences from one voice data D. In this case, it is possible to carry out voice recognition in consideration of variations due to the allocation of phonemes and pause sections in the extraction unit 12d. For example, the extraction unit 12d can improve the recognition accuracy while suppressing the processing time by extracting one or more and five or less target recognition data. The extraction unit 12d may extract, for example, an array including at least one of a start silence section and an end silence section as target recognition data.

休止区間は、例えば呼吸音及びリップノイズの少なくとも何れかを含んでもよい。即ち、抽出部12dは、例えば休止区間に含まれる呼吸音及びリップノイズの少なくとも何れかを、認識対象データとして抽出してもよい。この場合、後述する文字列データベース等に記憶された音素情報に、呼吸音及びリップノイズの少なくとも何れかを含ませることで、より精度の高い認識結果を導出することが可能となる。 The rest interval may include, for example, at least one of breath sounds and lip noise. That is, the extraction unit 12d may extract, for example, at least one of the breath sounds and the lip noise included in the pause section as the recognition target data. In this case, by including at least one of breath sounds and lip noise in the phoneme information stored in the character string database or the like described later, it is possible to derive a more accurate recognition result.

<検出手段S146>
検出手段S146では、例えば検出部12eは、文字列データベースを参照し、認識対象データの有する音素の配列に対応する音素情報を選択する。また、検出部12eは、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。
<Detecting means S146>
In the detection means S146, for example, the detection unit 12e refers to the character string database and selects phoneme information corresponding to the phoneme arrangement of the recognition target data. Further, the detection unit 12e detects a plurality of character string information and class IDs associated with the selected phoneme information as candidate data.

検出部12eは、例えば図10に示すように、認識対象データに対応する音素情報「a/k/a/r/i」、「w/o」、「ts/u/k/e/t/e」を選択し、各音素情報に紐づく文字列情報及びクラスID「明かり/1」、「を/2」、「つけて/3」を、それぞれ候補データとして検出する。このとき、認識対象データの数に応じて、候補データの数が増加する。なお、各音素の配列は、予め休止区間毎に区切られて分類されるほか、音素及び休止区間を含む音素情報に基づいて分類されてもよい。 As shown in FIG. 10, for example, the detection unit 12e has phoneme information "a / k / a / r / i", "w / o", and "ts / u / k / e / t /" corresponding to the recognition target data. Select "e" and detect the character string information associated with each phoneme information and the class IDs "light / 1", "o / 2", and "attach / 3" as candidate data, respectively. At this time, the number of candidate data increases according to the number of recognition target data. The arrangement of each phoneme may be classified in advance by dividing it into pause sections, or may be classified based on phoneme information including phonemes and pause sections.

<生成手段S141の変形例>
検出手段S146のあと、例えば生成手段S141が実施される。生成手段S141は、例えば上述した内容に加えて、文法データベースを参照し、候補センテンスを生成することができる。
<Modification example of generation means S141>
After the detection means S146, for example, the generation means S141 is implemented. The generation means S141 can generate a candidate sentence by referring to the grammar database, for example, in addition to the contents described above.

生成手段S141では、例えば生成部12aは、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、生成部12aは、センテンスに含まれる候補データ毎の文字列情報に対する信頼度を、文法データベースを用いて算出する。信頼度の算出には、例えば文法データベースを参照したスタックデコーディングサーチが行われる。 In the generation means S141, for example, the generation unit 12a refers to the grammar database and generates a sentence in which a plurality of candidate data are combined based on the grammar information. In addition, the generation unit 12a calculates the reliability of the character string information for each candidate data included in the sentence by using the grammar database. To calculate the reliability, for example, a stack decoding search with reference to a grammar database is performed.

生成部12aは、例えば図10に示すように、第1文法情報「1、2、3」に含まれるクラスID毎に、各候補データ「明かり/1」、「を/2」、「つけて/3」のクラスIDを対応させ、センテンス「明かり/1」「を/2」「つけて/3」を生成する。このとき、例えば文法情報が「3、1、2」の場合、センテンスとして「つけて/3」「明かり/1」「を/2」が生成される。 As shown in FIG. 10, for example, the generation unit 12a attaches each candidate data “light / 1”, “o / 2”, and “attach” for each class ID included in the first grammatical information “1, 2, 3”. Corresponds to the class ID of "/ 3" and generates sentences "light / 1", "to / 2", and "attach / 3". At this time, for example, when the grammatical information is "3, 1, 2", "Turn on / 3", "Light / 1", and "O / 2" are generated as sentences.

生成部12aは、センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」、に対応する信頼度「0.982」、「1.000」、「0.990」を算出する。生成部12aは、各候補データの文字列情報に対して0以上1以下の範囲で信頼度を算出する。 The generation unit 12a has reliabilitys "0.982", "1.000", and "0" corresponding to each candidate data "light / 1", "o / 2", and "attach / 3" included in the sentence. .990 "is calculated. The generation unit 12a calculates the reliability of the character string information of each candidate data in the range of 0 or more and 1 or less.

生成部12aは、例えば文法データベースの文法情報の種類に応じて、複数のセンテンスを生成することができる。また、生成部12aは、文法情報の種類を選択することで、状況に適した音声認識を高精度で実施することができる。 The generation unit 12a can generate a plurality of sentences according to, for example, the type of grammar information in the grammar database. Further, the generation unit 12a can perform voice recognition suitable for the situation with high accuracy by selecting the type of grammatical information.

生成部12aは、例えば各センテンスに対して、優先度を示すランクを設定(図10ではランク1〜ランク5)してもよい。ランクを設定することで、任意のランク下位にランク付けされたセンテンス(例えばランク6以下)を、評価対象から除外することができる。このため、後述する評価データとして選択される候補データの数を減らすことができ、処理速度の向上を図ることが可能となる。 For example, the generation unit 12a may set ranks indicating priorities for each sentence (ranks 1 to 5 in FIG. 10). By setting the rank, sentences ranked at any lower rank (for example, rank 6 or lower) can be excluded from the evaluation target. Therefore, the number of candidate data selected as the evaluation data described later can be reduced, and the processing speed can be improved.

生成部12aは、例えば内容の異なるセンテンスに同一の候補データが含まれる場合、各候補データにはそれぞれ異なる信頼度を算出してもよい。例えば、第1センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」に対応する信頼度「0.982」、「1.000」、「0.990」が算出された場合、第2センテンスに含まれる各候補データ「明かり/1」、「を/2」、「弾いて/3」に対応する信頼度「0.942」、「1.000」、「0.023」が算出される。すなわち、同一の候補データ「明かり」であっても、センテンスの内容や組み合わせの順序によって、異なる信頼度が算出されてもよい。 For example, when the same candidate data is included in sentences having different contents, the generation unit 12a may calculate different reliability for each candidate data. For example, the reliability "0.982", "1.000", "0.990" corresponding to each candidate data "light / 1", "o / 2", and "attach / 3" included in the first sentence. Is calculated, the reliability corresponding to each candidate data "light / 1", "o / 2", and "play / 3" included in the second sentence is "0.942", "1.000". , "0.023" is calculated. That is, even if the same candidate data "light" is used, different reliability may be calculated depending on the content of the sentence and the order of combinations.

例えば信頼度として、各文字列情報に対して予め設定された値が用いられてもよい。この場合、予め設定された値は、例えば文法データベースに記憶される。上記のほか、例えば信頼度として、検出部12eにおいて検出された候補データ(又は候補データの文字列情報)の種類及び数に応じた相対値が用いられてもよい。例えば検出部12eにおいて検出された複数の候補データにおいて、1つのクラスIDが付与された文字列情報の種類が多くなるにつれて、各文字列情報に対して低い信頼度を算出するようにしてもよい。 For example, as the reliability, a preset value may be used for each character string information. In this case, the preset value is stored in the grammar database, for example. In addition to the above, for example, as the reliability, a relative value according to the type and number of candidate data (or character string information of the candidate data) detected by the detection unit 12e may be used. For example, in a plurality of candidate data detected by the detection unit 12e, as the number of types of character string information to which one class ID is assigned increases, a low reliability may be calculated for each character string information. ..

その後、例えば生成部12aは、信頼度に基づき、複数の候補データから1つ以上の候補データを選択し、選択した候補データに紐づく信頼度を含めた候補センテンスとして生成する。生成部12aは、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを選択し、候補センテンスとして生成する。例えば生成部12aは、同じクラスID「3」における候補データ「つけて/3/0.990」、「弾いて/3/0.023」のうち、最も高い信頼度を有する候補データ「つけて/3/0.990」を選択し、候補センテンスとして生成する。 After that, for example, the generation unit 12a selects one or more candidate data from a plurality of candidate data based on the reliability, and generates a candidate sentence including the reliability associated with the selected candidate data. The generation unit 12a selects, for example, the candidate data for which the highest reliability is calculated for each class ID from a plurality of candidate data, and generates it as a candidate sentence. For example, the generation unit 12a has the highest reliability of the candidate data "attach / 3 / 0.990" and "play / 3 / 0.023" in the same class ID "3". Select "/ 3 / 0.990" and generate it as a candidate sentence.

その後、上述した指定手段S142等が実施される(例えば図7(a)、図10に示す指定手段S142、比較手段S143、導出手段S144)。なお、指定手段S142等においては、参照データベース又は起動用データベースが状況に応じて参照される。 After that, the above-mentioned designation means S142 and the like are implemented (for example, the designation means S142, the comparison means S143, and the derivation means S144 shown in FIG. 7A and FIG. 10). In the designating means S142 and the like, the reference database or the startup database is referred to depending on the situation.

なお、生成手段S141では、例えば候補センテンスを生成したあと、候補センテンスに基づき認識結果を導出してもよい。その場合、指定手段S142等は実施しなくてもよい。 In the generation means S141, for example, after generating a candidate sentence, the recognition result may be derived based on the candidate sentence. In that case, the designation means S142 and the like need not be implemented.

例えば生成部12aは、例えば候補センテンスをテキストや数値等のデータ形式に変換し、認識結果として導出するほか、例えば候補センテンスを音声データ形式や、駆動装置3を制御するための制御データ形式に変換し、認識結果として導出してもよい。なお、候補センテンスに基づくテキストや数値等のデータ形式、音声データ形式、又は制御データ形式に変換する方法は、公知の技術を用いることができ、必要に応じて各データ形式を蓄積したデータベース等を用いてもよい。 For example, the generation unit 12a converts the candidate sentence into a data format such as text or numerical value and derives it as a recognition result, and also converts the candidate sentence into a voice data format or a control data format for controlling the drive device 3, for example. However, it may be derived as a recognition result. As a method of converting to a data format such as text or numerical value, a voice data format, or a control data format based on a candidate sentence, a known technique can be used, and a database or the like accumulating each data format can be used as needed. You may use it.

本実施形態によれば、受信手段S130は、音声データDを連続した信号として一度に受信する。また、認識手段S140は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。このため、音声データDの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を実現することが可能となる。 According to the present embodiment, the receiving means S130 receives the voice data D as continuous signals at once. Further, the recognition means S140 uses phoneme recognition to derive the recognition result of recognizing the content of the voice data D. Therefore, the period from the start of receiving the voice data D to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of the voice data D transmitted by the wireless communication W.

また、本実施形態によれば、送信手段S120は、UHF帯域を利用した無線通信Wにより、音声データDを送信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信Wを実現することができる。これにより、用途の拡大を図ることが可能となる。 Further, according to the present embodiment, the transmission means S120 transmits the voice data D by the wireless communication W using the UHF band. Therefore, compared to wireless communication using a band with a high penetration rate such as Wi-Fi (registered trademark), the possibility of communication failure between the same bands is low. Further, even when it is used at the same time as wireless communication using Wi-Fi (registered trademark) or the like, wireless communication W can be smoothly realized. This makes it possible to expand the applications.

上記に加え、UHF帯域を利用した無線通信Wを用いることで、Wi−Fi(登録商標)やBluetooth(登録商標)等に比べ、認証コストが不要となるほか、プロトコルスタックが不要となる。このため、処理負荷を低減できるほか、及びリアルタイム性の向上を図ることができる。 In addition to the above, by using the wireless communication W using the UHF band, the authentication cost is not required and the protocol stack is not required as compared with Wi-Fi (registered trademark) and Bluetooth (registered trademark). Therefore, the processing load can be reduced and the real-time performance can be improved.

また、本実施形態によれば、送信手段S120は、パケット化処理が行われていない音声データDを送信する。このため、音声データDを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理等を、実施する必要がない。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を容易に実現することが可能となる。 Further, according to the present embodiment, the transmission means S120 transmits the voice data D that has not been packetized. Therefore, when receiving the voice data D, it is not necessary to perform error detection for each packet, processing for replacing each packet in a different order from the reception timing, and the like. This makes it possible to easily reduce the recognition time of the voice data D transmitted by the wireless communication W.

また、本実施形態によれば、指定手段S142は、起動用データベースを参照し、候補センテンスに対応する第1起動センテンスを指定する。このため、起動用データベースに記憶された起動センテンスの内容を変更することで、導出される認識結果の内容を容易に変更することができる。これにより、用途に応じたカスタマイズを容易に実現することが可能となる。 Further, according to the present embodiment, the designating means S142 refers to the startup database and designates the first startup sentence corresponding to the candidate sentence. Therefore, by changing the content of the startup sentence stored in the startup database, the content of the derived recognition result can be easily changed. This makes it possible to easily realize customization according to the application.

また、本実施形態によれば、複数の起動センテンスは、音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、第1認識結果とは異なる認識結果の導出に用いられる複数のダミーセンテンスとを含む。このため、無線通信Wにより送信された音声データDに対し、第1認識結果を優先的に生成させることができる。これにより、音声認識精度の更なる向上を図ることが可能となる。 Further, according to the present embodiment, the plurality of activation sentences are one sentence used for deriving a first recognition result indicating the start of speech recognition and a plurality of sentences used for deriving a recognition result different from the first recognition result. Includes dummy sentences and. Therefore, the first recognition result can be preferentially generated for the voice data D transmitted by the wireless communication W. This makes it possible to further improve the voice recognition accuracy.

また、本実施形態によれば、駆動装置3は、認識手段S140により導出された認識結果に基づき制御される被制御部32を有する。このため、音声データDを1つの収音装置2により送信することで、複数の駆動装置3に対して遠隔操作を行うことができる。これにより、作業効率の向上を図ることが可能となる。 Further, according to the present embodiment, the drive device 3 has a controlled unit 32 controlled based on the recognition result derived by the recognition means S140. Therefore, by transmitting the voice data D by one sound collecting device 2, it is possible to remotely control the plurality of driving devices 3. This makes it possible to improve work efficiency.

また、本実施形態によれば、1つのセンテンスの内容は、記憶された複数の音声認識装置1毎に異なる。このため、音声認識装置1を有する駆動装置3毎に、被制御部32を制御するタイミングを異ならせることができる。これにより、1つの収音装置2を用いて複数の駆動装置3に対して遠隔操作を行う際、駆動装置3別に独立した遠隔操作を実現することが可能となる。 Further, according to the present embodiment, the content of one sentence is different for each of the plurality of stored voice recognition devices 1. Therefore, the timing for controlling the controlled unit 32 can be different for each drive device 3 having the voice recognition device 1. As a result, when remote control is performed on a plurality of drive devices 3 using one sound collecting device 2, it is possible to realize independent remote control for each drive device 3.

また、本実施形態によれば、受信部11は、音声データDを連続した信号として一度に受信する。また、認識部12は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。このため、音声データDの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を実現することが可能となる。 Further, according to the present embodiment, the receiving unit 11 receives the voice data D as continuous signals at once. Further, the recognition unit 12 uses phoneme recognition to derive the recognition result of recognizing the content of the voice data D. Therefore, the period from the start of receiving the voice data D to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of the voice data D transmitted by the wireless communication W.

また、本実施形態によれば、受信部11は、UHF帯域を利用した無線通信Wにより送信された音声データDを受信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信Wを実現することができる。これにより、用途の拡大を図ることが可能となる。 Further, according to the present embodiment, the receiving unit 11 receives the voice data D transmitted by the wireless communication W using the UHF band. Therefore, compared to wireless communication using a band with a high penetration rate such as Wi-Fi (registered trademark), the possibility of communication failure between the same bands is low. Further, even when it is used at the same time as wireless communication using Wi-Fi (registered trademark) or the like, wireless communication W can be smoothly realized. This makes it possible to expand the applications.

(第2実施形態:音声認識システム100)
次に、第2実施形態における音声認識システム100の一例について説明する。上述した実施形態と、第2実施形態との違いは、音声データDのキャリブレーションを行う点である。なお、上述した実施形態と同様の内容については、説明を省略する。
(Second embodiment: voice recognition system 100)
Next, an example of the voice recognition system 100 according to the second embodiment will be described. The difference between the above-described embodiment and the second embodiment is that the voice data D is calibrated. The description of the same contents as those of the above-described embodiment will be omitted.

音声認識システム100では、例えば図11に示すように、収音装置2を介して、キャリブレーション用の音を収音し、複数の評価用音データDaを生成する。このとき、複数のキャリブレーション用の音毎に対し、評価用音データDaを生成するほか、例えば1つのキャリブレーション用の音に対し、複数の評価用音データDaを生成してもよい。その後、収音装置2は、例えばUHF帯域を利用した無線通信Wにより、音声認識装置1に対して複数の評価用音データDaを送信する。 In the voice recognition system 100, for example, as shown in FIG. 11, the sound for calibration is picked up via the sound collecting device 2, and a plurality of evaluation sound data Das are generated. At this time, in addition to generating evaluation sound data Da for each of a plurality of calibration sounds, for example, a plurality of evaluation sound data Das may be generated for one calibration sound. After that, the sound collecting device 2 transmits a plurality of evaluation sound data Das to the voice recognition device 1 by, for example, wireless communication W using the UHF band.

音声認識装置1は、複数の評価用音データDaを受信する。音声認識装置1は、音素認識を用い、各評価用音データDaの内容を認識し、各認識結果に基づく評価結果Rを導出する。その後、音声認識装置1は、例えばUHF帯域を利用した無線通信Wにより、収音装置2に対して評価結果Rを送信する。 The voice recognition device 1 receives a plurality of evaluation sound data Da. The voice recognition device 1 recognizes the content of each evaluation sound data Da by using phoneme recognition, and derives an evaluation result R based on each recognition result. After that, the voice recognition device 1 transmits the evaluation result R to the sound collecting device 2 by, for example, wireless communication W using the UHF band.

収音装置2は、評価結果Rを受信し、評価結果Rに基づく設定条件を設定する。このため、音声認識システム100では、キャリブレーションに必要な複数の評価用音データDaの評価結果Rを、一度の無線通信Wにより送受信することができる。これにより、従来のような1つの評価用音データに対する評価結果を受信し、評価結果に基づき設定を変更した上で再度1つの評価音データを送信し、評価結果を受信して設定を変更する、という動作を繰り返す場合に比べて、送信及びキャリブレーションの調整時間を大幅に削減することが可能となる。 The sound collecting device 2 receives the evaluation result R and sets the setting conditions based on the evaluation result R. Therefore, in the voice recognition system 100, the evaluation results R of the plurality of evaluation sound data Das required for calibration can be transmitted and received by one wireless communication W. As a result, the evaluation result for one evaluation sound data as in the conventional case is received, the setting is changed based on the evaluation result, one evaluation sound data is transmitted again, the evaluation result is received, and the setting is changed. Compared with the case of repeating the operation of ,, it is possible to significantly reduce the adjustment time of transmission and calibration.

(第2実施形態:音声認識システム100の動作の一例)
次に、第2実施形態における音声認識システム100の動作の一例について説明する。図12(a)は、本実施形態における音声認識システム100の動作における一例の一部を示すフローチャートである。
(Second Embodiment: Example of operation of voice recognition system 100)
Next, an example of the operation of the voice recognition system 100 in the second embodiment will be described. FIG. 12A is a flowchart showing a part of an example in the operation of the voice recognition system 100 according to the present embodiment.

音声認識システム100では、上述した実施形態の各手段に加え、キャリブレーション手段S200を更に備える。キャリブレーション手段S200は、主に上述した取得手段S110の前に実施され、音声認識精度の向上に繋げることができる。 The voice recognition system 100 further includes a calibration means S200 in addition to the means of the above-described embodiment. The calibration means S200 is mainly performed before the acquisition means S110 described above, and can lead to an improvement in voice recognition accuracy.

キャリブレーション手段S200は、収音手段S210と、評価用音データ生成手段S220と、評価用音データ送信手段S230と、評価用音データ受信手段S240と、評価手段S250と、評価結果送信手段S260と、設定手段S270とを有する。なお、音声認識装置1は、例えば図12(b)に示すように、上述した実施形態の各構成に加え、評価部15を更に備えてもよい。 The calibration means S200 includes a sound collecting means S210, an evaluation sound data generating means S220, an evaluation sound data transmitting means S230, an evaluation sound data receiving means S240, an evaluation means S250, and an evaluation result transmitting means S260. , And setting means S270. The voice recognition device 1 may further include an evaluation unit 15 in addition to the configurations of the above-described embodiments, for example, as shown in FIG. 12 (b).

<収音手段S210>
収音手段S210では、例えば収音装置2のマイクロフォンMは、キャリブレーション用の音を収音する。マイクロフォンMは、利用者の音声をキャリブレーション用の音として収音するほか、例えば予め録音された音声やキャリブレーション用の音源を、キャリブレーション用の音として収音してもよい。
<Sound collecting means S210>
In the sound collecting means S210, for example, the microphone M of the sound collecting device 2 picks up the sound for calibration. The microphone M may pick up the user's sound as a calibration sound, or may, for example, pick up a pre-recorded sound or a calibration sound source as a calibration sound.

<評価用音データ生成手段S220>
評価用音データ生成手段S220では、例えば変換部22は、キャリブレーション用の音に基づく評価用音データDaを、複数生成する。変換部22は、アナログデータのキャリブレーション用の音をデジタルデータに変換し、評価用音データDaとして生成する。
<Evaluation sound data generation means S220>
In the evaluation sound data generation means S220, for example, the conversion unit 22 generates a plurality of evaluation sound data Da based on the calibration sound. The conversion unit 22 converts the sound for calibration of analog data into digital data and generates it as evaluation sound data Da.

変換部22は、例えば収音手段S210において収音された、それぞれ異なる複数のキャリブレーション用の音に対し、それぞれデジタルデータに変換することで複数の評価用音データDaを生成する。この場合、例えば各キャリブレーションの音に対し、それぞれ異なる変換条件が、予め利用者等により設定されてもよい。 The conversion unit 22 generates a plurality of evaluation sound data Das by converting a plurality of different calibration sounds picked up by the sound collecting means S210 into digital data. In this case, for example, different conversion conditions may be set in advance by the user or the like for the sound of each calibration.

上記のほか、変換部22は、例えば図13に示すような参照用テーブルを参照し、1つのキャリブレーション用の音に対し、デジタルデータの変換条件が異なる複数の評価用音データDaを生成してもよい。なお、参照用テーブルの代わりに、予め利用者等により保存された任意の変換条件を参照してもよい。 In addition to the above, the conversion unit 22 refers to, for example, a reference table as shown in FIG. 13 and generates a plurality of evaluation sound data Das having different digital data conversion conditions for one calibration sound. You may. In addition, instead of the reference table, any conversion condition saved in advance by the user or the like may be referred to.

参照用テーブルには、アナログデータからデジタルデータへの変換条件(音声データDの取得条件)が予め記憶される。変換条件として、公知の変換パラメータが用いられ、例えば図13に示すように、マイクゲイン(MIC Gain)、オートゲインコントロール(AGC:Auto Gain Control)、ダイナミックレンジコントロール(DRC:Dynamic Range Control)、及びアコースティックエコー除去(AEC:Acoustic Echo Cancellation)の少なくとも何れかの条件を含み、例えば参照用テーブルには、各条件が設定された複数の組(No.)が記憶される。このため、変換部22は、参照用テーブルを参照することで、1つのキャリブレーション用の音に対し、それぞれ変換条件の異なる複数の評価用音データDaを生成することができる。 In the reference table, conversion conditions from analog data to digital data (acquisition conditions for audio data D) are stored in advance. Known conversion parameters are used as conversion conditions, for example, as shown in FIG. 13, microphone gain (MIC Gain), auto gain control (AGC: Auto Gain Control), dynamic range control (DRC: Dynamic Range Control), and A plurality of sets (No.) in which at least one of the conditions of Acoustic Echo Cancellation (AEC) is included and each condition is set are stored in the reference table, for example. Therefore, the conversion unit 22 can generate a plurality of evaluation sound data Das having different conversion conditions for one calibration sound by referring to the reference table.

<評価用音データ送信手段S230>
評価用音データ送信手段S230では、例えば通信部23は、例えばUHF帯域を利用した無線通信Wにより、複数の評価用音データDaを送信する。例えば通信部23は、複数の評価用音データDaに対して符号化処理、及び変調処理を実施したあと、アンテナAを介して、音声認識装置1に対して複数の評価用音データDaを送信する。
<Evaluation sound data transmission means S230>
In the evaluation sound data transmission means S230, for example, the communication unit 23 transmits a plurality of evaluation sound data Das by, for example, wireless communication W using the UHF band. For example, the communication unit 23 performs coding processing and modulation processing on the plurality of evaluation sound data Das, and then transmits the plurality of evaluation sound data Das to the voice recognition device 1 via the antenna A. To do.

例えば通信部23は、複数の評価用音データDaに対してパケット化処理を行わない状態で、評価用音データDaを送信する。このため、複数の評価用音データDaを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理を実施する必要がない。 For example, the communication unit 23 transmits the evaluation sound data Da without packetizing the plurality of evaluation sound data Das. Therefore, when receiving a plurality of evaluation sound data Das, it is not necessary to perform error detection for each packet or processing for replacing each packet in a different order from the reception timing.

<評価用音データ受信手段S240>
評価用音データ受信手段S240では、例えば音声認識装置1の受信部11は、通信機器111を介して複数の評価用音データDaを受信する。受信部11は、例えば通信部23で複数の評価用音データDaを送信したタイミングに沿って、複数の評価用音データDaを逐次受信する。受信部11は、例えば通信機器111を介して、評価用音データDaの復調、及び復号の少なくとも何れかを行ってもよい。
<Evaluation sound data receiving means S240>
In the evaluation sound data receiving means S240, for example, the receiving unit 11 of the voice recognition device 1 receives a plurality of evaluation sound data Da via the communication device 111. The receiving unit 11 sequentially receives a plurality of evaluation sound data Das, for example, in accordance with the timing at which the communication unit 23 transmits the plurality of evaluation sound data Das. The receiving unit 11 may perform at least one of demodulation and decoding of the evaluation sound data Da via, for example, the communication device 111.

<評価手段S250>
評価手段S250では、例えば評価部15は、音素認識を用いて、複数の評価用音データDaに対する評価結果Rを生成する。例えば評価部15は、公知の音声認識エンジンを用いて、複数の評価用音データDaの内容に対する評価を実施し、最も精度の高い評価が得られた評価用音データDaを選択し、選択した評価用音データDa(例えば第1データ)の情報を含む評価結果Rを生成する。
<Evaluation means S250>
In the evaluation means S250, for example, the evaluation unit 15 uses phoneme recognition to generate evaluation results R for a plurality of evaluation sound data Da. For example, the evaluation unit 15 evaluates the contents of a plurality of evaluation sound data Das using a known voice recognition engine, and selects and selects the evaluation sound data Das for which the most accurate evaluation is obtained. The evaluation result R including the information of the evaluation sound data Da (for example, the first data) is generated.

<評価結果送信手段S260>
評価結果送信手段S260では、例えば出力部14は、通信機器111を介して評価結果Rを送信する。出力部14は、例えばUHF帯域を利用した無線通信Wにより、収音装置2に対して評価結果Rを送信する。例えば出力部14は、評価結果Rに対して符号化処理、及び変調処理を実施したあと、収音装置2に対して評価結果Rを送信する。
<Evaluation result transmission means S260>
In the evaluation result transmitting means S260, for example, the output unit 14 transmits the evaluation result R via the communication device 111. The output unit 14 transmits the evaluation result R to the sound collecting device 2 by, for example, the wireless communication W using the UHF band. For example, the output unit 14 executes the coding process and the modulation process on the evaluation result R, and then transmits the evaluation result R to the sound collecting device 2.

<設定手段S270>
設定手段S270では、例えば収音装置2の通信部23は、評価結果Rを受信する。収音装置2は、例えばアンテナAを介して評価結果Rを受信し、評価結果Rの復調、及び復号を行う。
<Setting means S270>
In the setting means S270, for example, the communication unit 23 of the sound collecting device 2 receives the evaluation result R. The sound collecting device 2 receives the evaluation result R via, for example, the antenna A, and demodulates and decodes the evaluation result R.

その後、例えば制御部21は、評価結果Rに基づく音声データDの取得条件を設定する。制御部21は、例えば送信された複数の評価用音データDaのうち、評価結果Rに含まれる第1データに紐づく評価用音データDaを選択する。その後、制御部21は、選択した評価用音データDaの生成に用いられたデジタルデータの変換条件を特定することで、音声データDの取得条件を設定することができる。この際、制御部21は、参照用テーブルを参照して設定するほか、例えば予め設定された任意のパラメータを参照してもよい。 After that, for example, the control unit 21 sets the acquisition condition of the voice data D based on the evaluation result R. The control unit 21 selects, for example, the evaluation sound data Da associated with the first data included in the evaluation result R from among the plurality of transmitted evaluation sound data Das. After that, the control unit 21 can set the acquisition condition of the voice data D by specifying the conversion condition of the digital data used for generating the selected evaluation sound data Da. At this time, the control unit 21 may refer to the reference table for setting, or may refer to, for example, any preset parameter.

その後、上述した取得手段S110等が実施され、音声認識システム100が終了する。 After that, the above-mentioned acquisition means S110 and the like are implemented, and the voice recognition system 100 ends.

本実施形態によれば、上述した実施形態と同様の効果を得ることが可能となる。 According to this embodiment, it is possible to obtain the same effect as that of the above-described embodiment.

また、本実施形態によれば、評価用音データ送信手段S230は、複数の評価用音データDaを無線通信Wにより送信する。また、評価結果送信手段S260は、評価結果Rを、無線通信Wにより送信する。このため、収音装置2等のキャリブレーションを行う際に費やすデータの送受信回数を、最小限に抑えることができる。これにより、キャリブレーションの調整時間を大幅に削減することが可能となる。 Further, according to the present embodiment, the evaluation sound data transmission means S230 transmits a plurality of evaluation sound data Das by wireless communication W. Further, the evaluation result transmitting means S260 transmits the evaluation result R by the wireless communication W. Therefore, the number of times data is transmitted and received when calibrating the sound collecting device 2 and the like can be minimized. This makes it possible to significantly reduce the calibration adjustment time.

また、本実施形態によれば、取得条件は、マイクゲイン、オートゲインコントロール、ダイナミックレンジコントロール、及びアコースティックエコー除去の少なくとも何れかの条件を含む。このため、一度のキャリブレーション手段S200を行うことで、音声認識システム100を利用する様々な状況に適した取得条件を、容易に特定することができる。これにより、利用環境の制限を抑制することが可能となる。 Further, according to the present embodiment, the acquisition condition includes at least one of the conditions of microphone gain, auto gain control, dynamic range control, and acoustic echo cancellation. Therefore, by performing the calibration means S200 once, it is possible to easily specify the acquisition conditions suitable for various situations in which the voice recognition system 100 is used. This makes it possible to suppress restrictions on the usage environment.

本発明の実施形態を説明したが、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although the embodiments of the present invention have been described, the above-described embodiments are presented as examples and are not intended to limit the scope of the invention. The novel embodiment described above can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the gist of the invention. The above-described embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.

1 :音声認識装置
10 :筐体
11 :受信部
12 :認識部
13 :記憶部
14 :出力部
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :I/F
110 :内部バス
111 :通信機器
112 :入力部
113 :表示部
2 :収音装置
21 :制御部
22 :変換部
23 :通信部
24 :記憶部
3 :駆動装置
31 :制御部
32 :被制御部
100 :音声認識システム
A :アンテナ
M :マイクロフォン
S110 :取得手段
S120 :送信手段
S130 :受信手段
S140 :認識手段
W :無線通信
1: Voice recognition device 10: Housing 11: Reception unit 12: Recognition unit 13: Storage unit 14: Output unit 101: CPU
102: ROM
103: RAM
104: Preservation unit 105: I / F
106: I / F
107: I / F
108: I / F
110: Internal bus 111: Communication device 112: Input unit 113: Display unit 2: Sound collecting device 21: Control unit 22: Conversion unit 23: Communication unit 24: Storage unit 3: Drive device 31: Control unit 32: Controlled unit 100: Voice recognition system A: Antenna M: Microphone S110: Acquisition means S120: Transmission means S130: Reception means S140: Recognition means W: Wireless communication

Claims (8)

無線通信を用いた音声認識システムであって、
音声に基づき、音声データを取得する取得手段と、
UHF帯域を利用した無線通信により、前記音声データを送信する送信手段と、
前記音声データを連続した信号として一度に受信する受信手段と、
音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識手段と、
文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、
を備え
前記認識手段は、
前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成手段と、
前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定手段と、
前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較手段と、
前記比較手段の結果に基づき、前記認識結果を導出する導出手段と、
を有すること
を特徴とする音声認識システム。
A voice recognition system that uses wireless communication
An acquisition method for acquiring voice data based on voice,
A transmission means for transmitting the voice data by wireless communication using the UHF band, and
A receiving means for receiving the voice data as a continuous signal at once, and
A recognition means that uses phoneme recognition to derive a recognition result that recognizes the content of the voice data,
A start-up database that stores a plurality of start-up sentences including character string information and a threshold value associated with the character string information of 1 or more, and a start-up database.
Equipped with a,
The recognition means
A generation means that uses the phoneme recognition to generate candidate data corresponding to the content of the voice data and a candidate sentence including one or more reliability associated with the candidate data.
A designation means for designating the first startup sentence corresponding to the candidate sentence among the plurality of startup sentences by referring to the startup database.
A comparison means for comparing the reliability with the first threshold value included in the first activation sentence, and
A derivation means for deriving the recognition result based on the result of the comparison means,
A voice recognition system characterized by having .
前記送信手段は、パケット化処理が行われていない前記音声データを送信すること
を特徴とする請求項1記載の音声認識システム。
The voice recognition system according to claim 1, wherein the transmission means transmits the voice data that has not been packetized.
複数の前記起動センテンスは、
音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、
前記第1認識結果とは異なる前記認識結果の導出に用いられる複数のダミーセンテンスと
を含むこと
を特徴とする請求項1又は2記載の音声認識システム。
The plurality of said activation sentences
One sentence used to derive the first recognition result indicating the start of speech recognition,
The voice recognition system according to claim 1 or 2, wherein a plurality of dummy sentences used for deriving the recognition result different from the first recognition result are included.
1つの収音装置と、
音声認識装置を有する複数の駆動装置と、
を更に備え、
前記収音装置は、
前記取得手段を行う変換部と、
前記送信手段を行う通信部と、
を有し、
前記音声認識装置は、
前記受信手段を行う受信部と、
前記認識手段を行う認識部と、
前記起動用データベースが記憶された記憶部と、
を有し、
前記駆動装置は、前記認識手段により導出された前記認識結果に基づき制御される被制御部を有すること
を特徴とする請求項記載の音声認識システム。
One sound collecting device and
Multiple drive devices with voice recognition devices and
With more
The sound collecting device is
The conversion unit that performs the acquisition means and
The communication unit that performs the transmission means and
Have,
The voice recognition device is
The receiving unit that performs the receiving means and
A recognition unit that performs the recognition means and
The storage unit in which the startup database is stored and
Have,
The driving device, a speech recognition system according to claim 1, characterized in that it has a controlled unit that is controlled on the basis of the derived recognition result by the recognizing means.
複数の前記起動センテンスは、
音声認識の開始を示す第1認識結果に用いられる1つのセンテンスと、
前記第1認識結果とは異なる前記認識結果に用いられる複数のダミーセンテンスと
を含み、
前記1つのセンテンスの内容は、記憶された複数の前記音声認識装置毎に異なること
を特徴とする請求項記載の音声認識システム。
The plurality of said activation sentences
One sentence used for the first recognition result indicating the start of speech recognition,
It includes a plurality of dummy sentences used for the recognition result different from the first recognition result.
The voice recognition system according to claim 4 , wherein the content of the one sentence is different for each of the plurality of stored voice recognition devices.
前記音声データに対するキャリブレーションを行うキャリブレーション手段を更に備え、
前記キャリブレーション手段は、
キャリブレーション用の音に基づく評価用音データを、複数生成する評価用音データ生成手段と、
複数の前記評価用音データを前記無線通信により送信する評価用音データ送信手段と、
複数の前記評価用音データを受信する評価用音データ受信手段と、
前記音素認識を用いて、複数の前記評価用音データに対する評価結果を生成する評価手段と、
前記評価結果を、前記無線通信により送信する評価結果送信手段と、
前記評価結果を受信し、前記評価結果に基づく前記音声データの取得条件を設定する設定手段と
を有すること
を特徴とする請求項1〜の何れか1項記載の音声認識システム。
Further provided with a calibration means for calibrating the voice data,
The calibration means is
Evaluation sound data generation means for generating a plurality of evaluation sound data based on calibration sound, and
Evaluation sound data transmitting means for transmitting a plurality of the evaluation sound data by the wireless communication, and
Evaluation sound data receiving means for receiving a plurality of the evaluation sound data, and
An evaluation means that uses the phoneme recognition to generate evaluation results for a plurality of the evaluation sound data,
An evaluation result transmitting means for transmitting the evaluation result by the wireless communication,
The voice recognition system according to any one of claims 1 to 5 , further comprising a setting means for receiving the evaluation result and setting acquisition conditions for the voice data based on the evaluation result.
前記取得条件は、マイクゲイン、オートゲインコントロール、ダイナミックレンジコントロール、及びアコースティックエコー除去の少なくとも何れかの条件を含むこと
を特徴とする請求項記載の音声認識システム。
The voice recognition system according to claim 6 , wherein the acquisition condition includes at least one of a microphone gain, an auto gain control, a dynamic range control, and an acoustic echo cancellation condition.
無線通信を用いた音声認識装置であって、
UHF帯域を利用した無線通信により送信された音声データを、連続した信号として一度に受信する受信部と、
音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識部と、
文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、
を備え
前記認識部は、
前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成部と、
前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定部と、
前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較部と、
前記比較部の結果に基づき、前記認識結果を導出する導出部と、
を有すること
を特徴とする音声認識装置。
A voice recognition device that uses wireless communication
A receiver that receives voice data transmitted by wireless communication using the UHF band as continuous signals at once, and
A recognition unit that uses phoneme recognition to derive a recognition result that recognizes the contents of the voice data,
A start-up database in which a plurality of start-up sentences including character string information and one or more threshold values associated with the character string information are stored, and
Equipped with a,
The recognition unit
A generation unit that uses the phoneme recognition to generate candidate data corresponding to the content of the voice data and a candidate sentence including one or more reliability associated with the candidate data.
A designation unit that refers to the startup database and specifies the first startup sentence corresponding to the candidate sentence among the plurality of startup sentences.
A comparison unit that compares the reliability with the first threshold value included in the first activation sentence.
A derivation unit that derives the recognition result based on the result of the comparison unit,
A voice recognition device characterized by having .
JP2020034840A 2020-03-02 2020-03-02 Voice recognition system and voice recognition device Active JP6784859B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020034840A JP6784859B1 (en) 2020-03-02 2020-03-02 Voice recognition system and voice recognition device
PCT/JP2021/006156 WO2021177049A1 (en) 2020-03-02 2021-02-18 Voice recognition system and voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020034840A JP6784859B1 (en) 2020-03-02 2020-03-02 Voice recognition system and voice recognition device

Publications (2)

Publication Number Publication Date
JP6784859B1 true JP6784859B1 (en) 2020-11-11
JP2021139935A JP2021139935A (en) 2021-09-16

Family

ID=73043553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020034840A Active JP6784859B1 (en) 2020-03-02 2020-03-02 Voice recognition system and voice recognition device

Country Status (2)

Country Link
JP (1) JP6784859B1 (en)
WO (1) WO2021177049A1 (en)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4299768B2 (en) * 2004-11-18 2009-07-22 埼玉日本電気株式会社 Voice recognition device, method, and portable information terminal device using voice recognition method
US7792136B2 (en) * 2007-01-31 2010-09-07 Harris Corporation Carrier sense multiple access (CSMA) for non-packetized wireless digital voice networks using intelligent conversation boundary detection
JP2008281778A (en) * 2007-05-10 2008-11-20 Yaskawa Electric Corp Robot
JP2010041188A (en) * 2008-08-01 2010-02-18 Mitsubishi Electric Corp Speech recognition device
JP5476760B2 (en) * 2009-03-26 2014-04-23 ヤマハ株式会社 Command recognition device
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
WO2016157782A1 (en) * 2015-03-27 2016-10-06 パナソニックIpマネジメント株式会社 Speech recognition system, speech recognition device, speech recognition method, and control program

Also Published As

Publication number Publication date
WO2021177049A1 (en) 2021-09-10
JP2021139935A (en) 2021-09-16

Similar Documents

Publication Publication Date Title
EP3433855B1 (en) Speaker verification method and system
US11138974B2 (en) Privacy mode based on speaker identifier
CN110808039B (en) Information processing apparatus, information processing method, and recording medium
US20230410833A1 (en) User presence detection
US10074371B1 (en) Voice control of remote device by disabling wakeword detection
US10448115B1 (en) Speech recognition for localized content
JP6574169B2 (en) Speech recognition with multi-directional decoding
US10276149B1 (en) Dynamic text-to-speech output
WO2015098109A1 (en) Speech recognition processing device, speech recognition processing method and display device
US20140303958A1 (en) Control method of interpretation apparatus, control method of interpretation server, control method of interpretation system and user terminal
US10299278B1 (en) Channel selection for multi-radio device
JPWO2013027360A1 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device
EP1734509A1 (en) Method and system for speech recognition
CN104934031B (en) Speech recognition system and method for newly added spoken vocabularies
WO2019244385A1 (en) Speech recognition system and speech recognition device
US11348579B1 (en) Volume initiated communications
US10143027B1 (en) Device selection for routing of communications
US11693622B1 (en) Context configurable keywords
JP6784859B1 (en) Voice recognition system and voice recognition device
US11282495B2 (en) Speech processing using embedding data
US11495240B1 (en) Management of local devices
JP7178890B2 (en) Speech recognition system and speech recognition device
US11564194B1 (en) Device communication
US11172527B2 (en) Routing of communications to a device
US11392401B1 (en) Management of and resource allocation for local devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200302

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200302

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201023

R150 Certificate of patent or registration of utility model

Ref document number: 6784859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250