JP2009204872A - Creation system of dictionary for speech recognition - Google Patents
Creation system of dictionary for speech recognition Download PDFInfo
- Publication number
- JP2009204872A JP2009204872A JP2008046963A JP2008046963A JP2009204872A JP 2009204872 A JP2009204872 A JP 2009204872A JP 2008046963 A JP2008046963 A JP 2008046963A JP 2008046963 A JP2008046963 A JP 2008046963A JP 2009204872 A JP2009204872 A JP 2009204872A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- data
- speech recognition
- voice recognition
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は音声認識に用いる辞書を作成するに際して、例えば英語のような読み仮名情報を持たない言語の音声をできる限り正確に、且つ高速で認識できるようにした、音声認識用辞書生成システムに関する。 The present invention relates to a speech recognition dictionary generation system capable of recognizing speech in a language that does not have reading kana information such as English as accurately as possible when creating a dictionary used for speech recognition.
従来より例えば車両用ナビゲーション装置において、運転者が目的地を検索する場合等に、特に車両の運転中にでも入力を可能とするため、或いは通常の目的地の設定に際して手作業を行うことなく容易に入力できるように、運転者等が発声する音声を認識し、入力データを得る音声認識技術が開発され、広く用いられるようになっている。また、このようなナビゲーション装置に限らず、車両に搭載した各種機器を運転者が安全に操作ができるように、オーディオ装置を初めエアコン等も、利用者の発声する音声を認識し、各種作動を行うことができるようにしたものも提案されている。 Conventionally, for example, in a vehicle navigation device, when a driver searches for a destination, etc., it is possible to input even during driving of the vehicle, or without performing manual work when setting a normal destination. For example, a voice recognition technique for recognizing a voice uttered by a driver or the like and obtaining input data has been developed and widely used. In addition to such navigation devices, audio devices, air conditioners, etc. recognize voices uttered by users and perform various operations so that the driver can safely operate various devices mounted on the vehicle. Some have been proposed that can be done.
前記車両用オーディオ装置においては、近年ハードディスク等に大量のオーディオデータを蓄積したオーディオ機器が用いられるようになっており、それらのオーディオデータの中から所望のアーティストやアルバム、或いは曲を選択して聞くために検索を行い、検索した結果得られるプレイリストに従って再生することが行われる。その際にも運転者でも容易に操作ができるように、音声によって操作するため音声認識装置を用いることも提案されている。 In the above-mentioned audio apparatus for vehicles, an audio device storing a large amount of audio data on a hard disk or the like has recently been used, and a desired artist, album, or song is selected and listened to from the audio data. Therefore, a search is performed, and reproduction is performed according to a playlist obtained as a result of the search. At that time, it is also proposed to use a voice recognition device for operating by voice so that the driver can easily operate.
特に近年は携帯型オーディオプレーヤにおいて、大容量のメモリチップや小型ハードディスク等をデータ記録媒体として内蔵し、MP3等で圧縮した大量のオーディオデータをこのデータ記録媒体に記録して自由に持ち運び、いつでもどこでも自分の好みの曲を聴くことができるようになっている。このような大量のオーディオデータを記録したデータ記録媒体を内蔵した携帯型オーディオプレーヤは、車両にも持ち込まれることが多く、その際には車両に搭載した高性能のオーディオ装置で再生し出力して聞くことが望まれる。そのため車両用オーディオ装置では、これらの携帯型オーディオ装置を接続して内蔵しているオーディオデータを読み出し、これを再生して車両用オーディオ装置から出力する手段を備えるようになっている。 Particularly in recent years, portable audio players have built-in large-capacity memory chips, small hard disks, etc. as data recording media, and a large amount of audio data compressed with MP3 etc. can be recorded on this data recording medium and carried freely. You can listen to your favorite songs. Portable audio players that incorporate a data recording medium that records such a large amount of audio data are often brought into vehicles, in which case they are reproduced and output by a high-performance audio device installed in the vehicle. It is desirable to listen. Therefore, the vehicular audio apparatus is provided with means for connecting these portable audio apparatuses, reading out the built-in audio data, reproducing them, and outputting them from the vehicular audio apparatus.
このように車両用オーディオ装置に携帯型オーディオプレーヤを接続して、携帯型オーディオ装置が内蔵しているデータ記録媒体のオーディオデータを入力し再生して出力する際には、車両用オーディオ装置において携帯型オーディオ装置のデータ記録媒体に記録されているオーディオデータを検索して、任意のアーティストやアルバム、或いは曲を選択してプレイリストを作成し、再生することとなる。このときにも前記と同様に、運転者が容易に曲の選択を行うことができるように、音声によって選択操作を行うことが望まれる。 When the portable audio player is connected to the vehicle audio device as described above and the audio data of the data recording medium built in the portable audio device is input, reproduced, and output, the portable audio player carries the portable audio player. The audio data recorded on the data recording medium of the type audio apparatus is searched, and an arbitrary artist, album, or song is selected to create and play a playlist. Also at this time, it is desired that the selection operation is performed by voice so that the driver can easily select a song.
前記のように車両で使用する種々の機器は運転者が操作することが多いため、できる限り運転者が前方の安全の確認を妨げないように操作できるようにすることが求められ、そのために音声によって操作することが望まれる。このような音声による操作に際しては、利用者が発声した音声を認識するため、利用者が発声した音声データと、あらかじめ認識用辞書として登録している音声データとを比較し、最も適合する音声データの言葉を利用者が発声により指示した操作信号として出力することとなる。その際に用いる認識用辞書としては、利用者にあらかじめ音声認識で用いる言葉を発声させ、その音声データを辞書として蓄積することによっても作成することができる。 As described above, various devices used in a vehicle are often operated by a driver, and therefore, it is required that the driver can operate as much as possible so as not to prevent confirmation of safety ahead. It is desirable to operate by. In such a voice operation, the voice data uttered by the user is recognized. Therefore, the voice data uttered by the user is compared with the voice data registered in advance as a recognition dictionary, and the voice data most suitable is compared. Is output as an operation signal instructed by the user by speaking. The recognition dictionary used at that time can also be created by causing a user to utter words used in speech recognition in advance and storing the speech data as a dictionary.
しかしながらこの手法は、個人の住所録や電話帳のような、件数が比較的少ないものの場合には使用できるが、例えばハードディスクに録音した曲を音声認識で検索し再生するためにハードディスクに記録されている例えば10,000曲のアーティスト名やアルバム名、或いは曲名をあらかじめ登録しておくことは、登録の手間がかかり過ぎ、不可能に近い。特に車両用オーディオ装置に携帯型オーディオプレーヤを接続するときのように、時々異なったオーディオ記録媒体のオーディオデータを用いるときには、それぞれ収録している曲が異なるため、それらの曲を音声認識で検索するときには実質的に利用することができない。 However, this method can be used when the number of records is relatively small, such as a personal address book or a telephone directory. For example, a song recorded on the hard disk is recorded on the hard disk in order to search and play it back by voice recognition. For example, registering an artist name, an album name, or a song name of 10,000 songs in advance takes too much time for registration and is almost impossible. Especially when audio data from different audio recording media is used, such as when a portable audio player is connected to a vehicle audio device, the recorded songs are different, and those songs are searched by voice recognition. Sometimes it is virtually impossible to use.
音声認識用辞書の作成に際してはそのほか、文字列から音声合成(TTS:text−to−speech)技術を用いて読みデータをあらかじめ作成し、利用者が発声した音声と比較することにより認識を行うことも可能である。即ち、例えばナビゲーション装置において、利用者に案内を行うに際して音声で右左折の案内等を行っているが、その際にはテキストデータを音声に変換する音声合成技術が用いられている。この技術を用いて各曲に記録されているアーティスト名やアルバム名、或いは曲名等の文字列からなるテキストデータを読みデータとし、これを音声データ化して登録し、音声認識辞書を作成することが考えられる。 In addition to the creation of a dictionary for speech recognition, recognition is performed by previously creating reading data from a character string using a speech synthesis (TTS: text-to-speech) technique and comparing it with speech uttered by the user. Is also possible. That is, for example, in a navigation apparatus, guidance to a left or right turn is given by voice when guidance is given to a user, and at that time, a voice synthesis technique for converting text data into voice is used. Using this technology, text data consisting of character strings such as artist names, album names, or song names recorded in each song can be used as read data, which can be registered as voice data to create a voice recognition dictionary. Conceivable.
この手法は先の手法と比較して利用者が操作する手間が省ける利点はあるが、これらのデータには読み仮名がふられていないとき、読み文字の付与はTTS任せとなり、利用者が意図しない読みデータが付与されてしまう可能性がある。即ち、例えば「110」が本来「ワン テン(one ten)」という読みであって読み仮名が付与されていないときには、これを「ワンハンドレッド テン(one hundred ten)」と付与するなど、本来の読みが付与されないことがある。このことは特に曲に関する名称には、販売のアピール効果を高めるため特異な読み方にすることが多く、それに対して利用者は単に発音だけで覚えていることが多いため、利用者が発音した音声に対応した適切な曲が検索されないことが多くなる。 This method has the advantage that the user can save time and effort compared to the previous method. However, when these data are not marked with a reading pseudonym, it is up to the TTS to assign the reading character, and the user intends. Reading data may not be added. That is, for example, when “110” is originally read as “one ten” and no reading pseudonym is given, it is given as “one hundred ten”. May not be granted. This is especially true for names related to songs, which are often used in a unique way of reading to increase the appeal of sales, whereas users often remember only by pronunciation, so In many cases, an appropriate song corresponding to is not searched.
なお、「−」「?」「+」「/」等の読まれない記号を含むデータから適切な音声認識辞書を作成するため、利用者の発声に整合するように発音データを蓄積した音声認識辞書を生成する技術は特開2004−53978号に開示されており、また、言い換え語彙の発生状況を検出して、発声した言い換え語彙を登録して利用することができるようにした技術は特開2007−213005号公報に開示されている。
前記のように、特に車両用機器の操作に際しては、利用者の発声した音声を認識して種々の操作を行うことが望まれ、オーディオ装置においても音声認識により各種操作を行うことが望まれるのに対して、ハードディスク等のオーディオ記録媒体にオーディオデータと共に記録したアーティスト名やアルバム名、或いは曲名等の曲情報に基づき、TTSによって音声認識辞書を作成すると、本来の読みのとおりには読まれず、別異の音声認識辞書が作成されてしまうため、利用者が発声した曲に関する音声を正しく認識することができない場合が多くなる。 As described above, in particular, when operating a vehicle device, it is desired to perform various operations by recognizing a voice uttered by a user, and it is also desirable to perform various operations by voice recognition in an audio device. On the other hand, if a voice recognition dictionary is created by TTS based on artist information, album name, or song information recorded along with audio data on an audio recording medium such as a hard disk, it cannot be read as originally read, Since different speech recognition dictionaries are created, there are many cases where the speech related to the song uttered by the user cannot be correctly recognized.
これらの曲データにオーディオ機器の利用者が予め「読み仮名」を別途入力しておくこともあり、この場合にはその読み仮名のデータを用いることができるが、多くの場合このような「読み仮名」のデータが入力されておらず、その場合には特に前記のような問題を生じる。 In some cases, audio device users may input “Kana” in advance for these song data. In this case, the data of the Kana can be used. In this case, the above-described problem occurs.
更に、前記ハードディスクのような大容量のデータ記憶媒体にオーディオデータを記録するときのように、膨大なデータを取り扱うときには、TTSによって音声認識辞書を作成すると長時間かかることとなる。したがって、例えば車両用オーディオ装置に大量のオーディオデータを記録した携帯型オーディオプレーヤを接続し、音声認識により任意の曲を選択して聞こうとするときには、車両用オーディオ装置に携帯型オーディオプレーヤを接続したとき直ちに、自動的に音声認識用辞書を作成する処理を行うような場合には、その処理に多くの時間を要することとなり、音声認識辞書が作成されるまでは音声による機器操作が行われないため、利用性の悪い装置となり、利用者に不快感や不信感を与えることともなる。 Furthermore, when handling a huge amount of data, such as when recording audio data on a large-capacity data storage medium such as the hard disk, it takes a long time to create a speech recognition dictionary using TTS. Therefore, for example, when a portable audio player that records a large amount of audio data is connected to a vehicle audio device and an arbitrary song is to be selected and listened to by voice recognition, the portable audio player is connected to the vehicle audio device. When a process for automatically creating a dictionary for speech recognition is performed immediately, a long time is required for the process, and device operation with voice is performed until the speech recognition dictionary is created. Therefore, it becomes a device with poor usability, which may give the user discomfort and distrust.
このことは前記のような車両に搭載したオーディオ装置に限らず、例えばナビゲーション装置において新しい地図データ、或いは新しい地図の差分のデータをダウンロードして地図データの更新を行うときに提供される、新しい地名のデータを含んでいる際には、これを音声認識により検索を行うときも同様であり、単に地名のテキストデータから音声認識用の辞書を作成するときには本来の読みを付与することができず、利用者が発声する特有の本来の読みに対応することができず、適切な認識を行うことができないという問題を生じる。 This is not limited to the audio device mounted on the vehicle as described above. For example, a new place name provided when the map device is updated by downloading new map data or new map difference data in the navigation device. This is the same when searching by voice recognition, and when creating a dictionary for voice recognition from text data of place names, the original reading cannot be given, There is a problem that it is not possible to cope with a specific original reading uttered by the user, and appropriate recognition cannot be performed.
更に、近年は車両に携帯電話を持ち込むとき、これをナビゲーション装置と接続し、携帯電話を利用してインターネット網に接続し、各種情報の取り込んで表示し、また利用することができるようになっており、更に音声認識機能を用いて携帯電話の操作を行うことも提案されている。その際に携帯電話の電話帳を利用して電話をかけるとき、電話帳に登録されている氏名、社名等について、音声によって検索を行い、電話番号を出力し、電話をかける機能を備えることも提案されている。そのような場合にも、携帯電話が接続されたとき、直ちに電話帳の音声認識による検索が行われることを考慮して音声認識辞書を作成する場合にも、電話帳に存在するテキストデータでは特有の読みがわからないため、作成される音声認識辞書は必ずしも適切な辞書とはなっておらず、したがって適切な音声認識による検索を行異、電話をかけることができないこととなる。 Furthermore, in recent years, when a mobile phone is brought into a vehicle, it can be connected to a navigation device, connected to the Internet network using the mobile phone, and various information can be captured and displayed and used. In addition, it has also been proposed to operate a mobile phone using a voice recognition function. When making a call using the phone book of the mobile phone at that time, it is also possible to search by name for the name, company name, etc. registered in the phone book, output the phone number, and have the function to make a call Proposed. Even in such a case, when creating a speech recognition dictionary considering that the phone book is searched by voice recognition immediately when a mobile phone is connected, text data existing in the phone book is unique. Therefore, the created speech recognition dictionary is not necessarily an appropriate dictionary, and therefore, a search by appropriate speech recognition cannot be performed and a call cannot be made.
これらの問題は必ずしも車両用の機器に限らず、利用する装置に蓄積されている読み仮名の付与されていないデータを用いて音声認識用辞書を作成し、それを用いて音声認識を行うときには同様の問題を生じる。 These problems are not necessarily limited to devices for vehicles, but the same applies when a speech recognition dictionary is created using data that is stored in a device to which a reading device is not attached and speech recognition is performed using the dictionary. Cause problems.
したがって本発明は、利用する機器に蓄積されている読み仮名の付与されていないデータを用いて音声認識用辞書を作成し、それを用いて音声認識を行って各種の機器操作を行うとき、短時間で正しい音声認識用辞書を作成し、これを用いて正確に、且つ高速で音声認識を行うことができるようにした音声認識用辞書生成システムを提供することを主たる目的とする。 Accordingly, the present invention creates a speech recognition dictionary using data that is stored in a device to which reading is not assigned, and performs speech recognition using the dictionary to perform various device operations. A main object is to provide a speech recognition dictionary generation system that creates a correct speech recognition dictionary in time and can perform speech recognition accurately and at high speed using the dictionary.
本発明に係る音声認識用辞書生成システムは、上記課題を解決するため、利用者の発話音声を認識して機器操作を行うために用いる音声認識機器操作用辞書を、音声認識対象データ収集部で収集した音声認識辞書生成用元データに読み仮名を付与することにより生成する音声認識用辞書生成システムにおいて、前記音声認識対象データ収集部では、音声認識辞書生成用元データをデータの種類毎に分けて収集し、別途作成した音声認識辞書生成用基本辞書を用いて、前記音声認識辞書生成用元データに読み仮名を付与することにより前記音声認識機器操作用辞書を生成し、前記音声認識辞書生成用基本辞書は、予め前記音声認識装置で用いると予測される読み変換用元データを収集して読み仮名を付与し、前記音声認識辞書生成用元データを分ける種類と同じ種類に分けて作成されたものであり、前記音声認識機器操作用辞書の生成に際しては、前記音声認識対象データの種類に対応した前記音声認識辞書生成用基本辞書内の種類のデータを用いて読み仮名を付与して生成することを特徴とする。 In order to solve the above-described problem, the speech recognition dictionary generation system according to the present invention uses a speech recognition target data collection unit to create a speech recognition device operation dictionary used for device operation by recognizing a user's speech. In the speech recognition dictionary generation system that generates by adding reading kana to the collected speech recognition dictionary generation original data, the speech recognition target data collection unit divides the speech recognition dictionary generation source data for each type of data. Using the basic dictionary for speech recognition dictionary generation that is collected separately, and generating the speech recognition device operation dictionary by assigning a reading pseudonym to the original data for speech recognition dictionary generation, and generating the speech recognition dictionary The basic dictionary is used to collect the reading conversion original data predicted to be used in the voice recognition device in advance and give a reading pseudonym. In the generation of the voice recognition device operation dictionary, the type of data in the voice recognition dictionary generation basic dictionary corresponding to the type of the voice recognition target data is generated. It is characterized in that it is generated by assigning a reading pseudonym using.
また、本発明に係る他の音声認識用辞書生成システムは、前記音声認識用辞書生成システムにおいて、前記音声認識により操作する機器はオーディオ装置であり、前記音声認識対象データ収集部では、オーディオ装置の再生操作に必要なデータをデータの種類毎に収集し、前記音声認識辞書生成用基本辞書は、前記音声認識対象データ収集部で収集するデータを予測して基本読みデータをデータの種類毎に収集し、読みを付与して作成することを特徴とする。 Further, in another speech recognition dictionary generation system according to the present invention, in the speech recognition dictionary generation system, the device operated by the speech recognition is an audio device, and the speech recognition target data collection unit includes: Data necessary for playback operation is collected for each type of data, and the basic dictionary for speech recognition dictionary generation predicts data collected by the speech recognition target data collection unit and collects basic reading data for each type of data However, it is characterized by being given a reading.
また、本発明に係る他の音声認識用辞書生成システムは、前記音声認識用辞書生成システムにおいて、前記音声認識対象データ収集部では、前記オーディオ装置に他のオーディオプレーヤを接続したとき、該オーディオプレーヤのデータ記録媒体に記録されている曲の曲情報を取り込むことによって収集することを特徴とする。 In another speech recognition dictionary generation system according to the present invention, when the speech recognition target data collection unit of the speech recognition dictionary generation system is connected to another audio player in the audio device, the audio player It collects by taking in the music information of the music currently recorded on this data recording medium.
また、本発明に係る他の音声認識用辞書生成システムは、前記音声認識用辞書生成システムにおいて、前記音声認識辞書生成用基本辞書によって音声認識辞書生成用元データに読み仮名を付与できない単語は、音声合成手段によって読み仮名を付与して音声認識機器操作用辞書を生成することを特徴とする。 Further, in another dictionary generation system for speech recognition according to the present invention, in the dictionary generation system for speech recognition, a word that cannot be given a reading pseudonym to the original data for speech recognition dictionary generation by the basic dictionary for speech recognition dictionary generation, A voice recognition device operation dictionary is generated by adding a reading pseudonym by voice synthesis means.
また、本発明に係る他の音声認識用辞書生成システムは、前記音声認識用辞書生成システムにおいて、前記別途作成した音声認識辞書生成用基本辞書は、バイナリー処理することを特徴とする。 In another speech recognition dictionary generation system according to the present invention, the separately created basic dictionary for speech recognition dictionary generation is binary processed in the dictionary generation system for speech recognition.
また、本発明に係る他の音声認識用辞書生成システムは、前記音声認識用辞書生成システムにおいて、前記音声認識辞書生成用基本辞書は、前記音声認識対象データ収集部で収集したデータに読まれない記号を除いた処理を行うとき、読み変換用元データに読みを付与するときも同じ処理をして作成することを特徴とする。 In another speech recognition dictionary generation system according to the present invention, in the speech recognition dictionary generation system, the basic dictionary for speech recognition dictionary generation is not read by data collected by the speech recognition target data collection unit. When the processing excluding the symbols is performed, the same processing is performed when the reading is given to the reading conversion original data.
本発明は上記のように構成したので、利用する装置に蓄積されている読み仮名の付与されていないデータを用いて音声認識機器操作用辞書を作成し、それを用いて音声認識を行って各種の機器操作を行うとき、短時間で正しい音声認識用辞書を容易に作成し、これを用いて正確に、且つ高速で音声認識を行うことができるようにした音声認識用辞書生成システムとすることができる。 Since the present invention is configured as described above, a dictionary for operating a voice recognition device is created using data that is stored in a device to which a reading device is not attached and voice recognition is performed using the dictionary. When a device is operated, a correct speech recognition dictionary can be easily created in a short time, and a speech recognition dictionary generation system can be used to accurately and quickly perform speech recognition using the dictionary. Can do.
本発明は、利用する装置に蓄積されている読み仮名の付与されていないデータを用いて音声認識用辞書を作成し、それを用いて音声認識を行って各種操作を行うとき、短時間で正しい音声認識用辞書を作成し、これを用いて正確に、且つ高速で音声認識を行うことができるようにするという目的を、利用者の発話音声を認識して機器操作を行うために用いる音声認識機器操作用辞書を、音声認識対象データ収集部で収集した音声認識辞書生成用元データに読み仮名を付与することにより生成する音声認識用辞書生成システムにおいて、前記音声認識対象データ収集部では、音声認識辞書生成用元データをデータの種類毎に分けて収集し、別途作成した音声認識辞書生成用基本辞書を用いて、前記音声認識辞書生成用元データに読み仮名を付与することにより前記音声認識機器操作用辞書を生成し、前記音声認識辞書生成用基本辞書は、予め前記音声認識装置で用いると予測される読み変換用元データを収集して読み仮名を付与し、前記音声認識辞書生成用元データを分ける種類と同じ種類に分けて作成されたものであり、前記音声認識機器操作用辞書の生成に際しては、前記音声認識対象データの種類に対応した前記音声認識辞書生成用基本辞書内の種類のデータを用いて読み仮名を付与して生成することにより実現した。 The present invention creates a speech recognition dictionary using data that has not been given a reading pseudonym stored in a device to be used, and performs voice recognition using the dictionary for correct operation in a short time. Voice recognition used to create a voice recognition dictionary and use it to recognize voices of users and perform device operations for accurate and high-speed voice recognition. In the speech recognition dictionary generation system that generates the device operation dictionary by reading and adding kana to the voice recognition dictionary generation original data collected by the voice recognition target data collection unit, the voice recognition target data collection unit The recognition dictionary generation original data is collected separately for each type of data, and a reading pseudonym is given to the voice recognition dictionary generation original data using a separately created basic dictionary for speech recognition dictionary generation. The voice recognition device operation dictionary is generated by the above, the basic dictionary for voice recognition dictionary generation collects the reading conversion original data that is predicted to be used in the voice recognition device in advance and gives a reading pseudonym, The voice recognition dictionary is created by dividing the original data for generating the voice recognition dictionary into the same type, and when generating the voice recognition device operation dictionary, the voice recognition dictionary corresponding to the type of the voice recognition target data This was realized by using a type of data in the basic dictionary for generation and assigning it with a reading pseudonym.
本発明の実施例を図面に沿って説明する。図1は本発明をオーディオ装置に適用した実施例における機能ブロック図であり、本発明は図示するように、第1にオーディオ装置のメーカー等が行う、PCでの音声認識辞書生成用基本辞書6を作成する処理と、第2にオーディオ装置でこの音声認識辞書生成用基本辞書6を用いて、携帯型オーディオプレーヤ音声認識機器操作用辞書を生成する処理とに大別される。
Embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a functional block diagram of an embodiment in which the present invention is applied to an audio apparatus. As shown in the figure, the present invention first includes a
第1のPCでの音声認識辞書生成用基本辞書を作成する処理に際しては、図示の例においては、機器を操作する機器操作用データベース(DB)1と基本曲情報データベース(DB)2とを用い、基本読みデータ収集部3において読み変換用元データを収集している。この作業は原則として、オーディオ装置のメーカー等が、オーディオ装置の付加価値を高めるサービスとして行う。その収集に際してはデータの種類毎に収集を行い、オーディオ装置で曲の選択再生を行うためには図示するように、機器を操作するための機器操作基本データ、曲名データ、アーティスト名データ、アルバム名データ、その他必要に応じて追加される例えばジャンル名データ等を種類毎に収集する。
In the process of creating a basic dictionary for generating a speech recognition dictionary on the first PC, in the illustrated example, a device operation database (DB) 1 and a basic song information database (DB) 2 for operating devices are used. The basic reading
このような基本読みデータ収集部3における機器操作基本データの収集に際しては、機器を操作するために必要とされる単語を予め機器操作用データベース1として記憶させているときにはこれを用いることができ、このようなデータが存在しないときには、機器操作に必要とされると推定する単語をパソコンを用いて入力することにより行う。
In collecting the device operation basic data in the basic reading
その外の曲名データ、アーティスト名データ、アルバム名データは、基本曲情報データベース2に予め蓄積しているデータを用いる。基本曲情報データベース2としては種々のものを用いることができるが、例えばCDの曲情報を収集して公開しているCDDB(CDデータベース)を用いることができる。このデータにはCDのTOCデータが含まれているので、CDに記録された曲名、アーティスト名、アルバム名、ジャンル名、発売年月等のデータを容易に収集することができる。
For the other song name data, artist name data, and album name data, data stored in advance in the basic
図1の基本読みデータ収集部3における読み変換用元データは、例えば図2に示すようなデータである。即ち図2に示す読み変換用元データ収集例には、機器操作用データベースから機器操作基本データとして、「Play」「Vol」「Vol.」「Artist」「Song」「By」等を抽出した例を示している。ここでは音声認識による操作を行う利用者が、オーディオ装置に対して発声するこれらの音声を認識することができるように、また、後述するようなプログラムによって音声認識辞書を作成する処理を行うことができるように、使用される単語を予め調査し、更に推定して収集する。
The original data for reading conversion in the basic reading
基本曲情報データベースから収集する曲名の読みデータとしては、例えば図2においては「Anything for you」「Black & Blue」「Crazy 4 U」「DANCE2」等を抽出した例を示している。またアーティスト名の読みデータとしては「Bonnie Pink」「Cocco」「hide」「Mr.Children」等を抽出し、アルバム名読みデータとしては「Best−first−things[disc1]」「Best−first−things[disc2]」「Crispy!」「ULTRA BULE」等を抽出し、その他のデータとして「AC/DC」等を抽出した例を示している。
For example, FIG. 2 shows an example in which “Anything for you”, “Black & Blue”, “
図1における読み変換処理部4においては、基本読みデータ収集部3で収集した前記のように収集した読み変換用元データについて、読み仮名を付与して読み変換を行う処理をし、読み変換済元データを得る。ここでもデータの種類毎に作成するが、その読み仮名の付与に際しては、CDDBで読み仮名情報が付与されている場合はそれを利用することができ、付与されていないときにはこの音声認識辞書生成用基本辞書を作成する部署の人が適切なデータを入力することにより行う。その際に入力するデータは、必ずしも現在提供されている全ての楽曲に対して付与する必要はなく、有名なアーティストの曲で読みが特殊な曲名、アーティスト名、アルバム名等について付与するのみでも本発明を実施することができる。
In the reading
この処理の結果、例えば図3に示すような読み変換済元データを作成することとなる。即ち図3に示す例においては、機器操作基本データにおいて表記文字列が「Play」である文字を「プレイ」と読むものとし、以下同様に「Vol」及び「Vol.」を同じ「ボリューム」、「Artist」を「アーティスト」、「Song」を「ソング」、「By」を「バイ」と読むようにデータを作成した例を示している。曲名読みデータについては「Anything for you」を「エニシング フォー ユー」、「Black & Blue」を「ブラック アンド ブルー」、「Crazy 4 U」を「クレイジー フォー ユー」、「DANCE2」を「ダンス ダンス」と読むものとした例を示している。
As a result of this processing, for example, read-converted original data as shown in FIG. 3 is created. That is, in the example shown in FIG. 3, the character whose character string is “Play” in the device operation basic data is read as “play”, and hereinafter “Vol” and “Vol.” Are similarly referred to as “volume”, In this example, “Artist” is read as “Artist”, “Song” is read as “Song”, and “By” is read as “Bi”. For song title reading data, “Anything for you” is “Anything For You”, “Black & Blue” is “Black and Blue”, “
このように、通常「DANCE 2」は「ダンス ツー」と読まれることが多いのに対して、正式には「ダンス ダンス」と読むことを入力しておくことにより、従来のオーディオ装置では困難であった読み仮名が振られることが少ない英語文字についても、正確な読み仮名を予め付与することができ、その後の音声認識処理において利用者が「ダンス ダンス」と発生したとき、正しく「DANCE 2」の曲であることを認識し、直ちにその曲の再生が可能となる。
In this way, “
またアーティスト名の読みデータとしては「Bonnie Pink」を「ボニーピンク」、「Cocco」を「コッコ」、「hide」を「ヒデ」、「Mr.Children」を「ミスターチルドレン」と読むものとし、特に「Mr.Children」については、「ミスチル」と略称や愛称で呼ばれることが多いことを考慮してこの読みも別途入力している。このような略称や愛称も入力することにより、利用者が音声認識に際して同一のアーティストを種々の態様で発声することに柔軟に対応することができるようになる。 As the reading data of the artist name, “Bonnie Pink” should be read as “Bonnie Pink”, “Cocco” as “Koko”, “hide” as “Hide”, and “Mr. Children” as “Mr. Children”. “Mr. Children” is also input separately in consideration of the fact that it is often referred to as “mystil” by an abbreviation or nickname. By inputting such abbreviations and nicknames, it becomes possible to flexibly cope with the user uttering the same artist in various modes during voice recognition.
アルバム名読みデータとしては「Best−first−things[disc1]」を「ベスト ファースト シングス ディスク ワン」、「Best−first−things[disc2]」を「ベスト ファースト シングス ディスク ツー」、「Crispy!」を「クリスピー」、「ULTRA BULE」を「ウルトラブルー」と読むものとした例を示している。更にその他のデータとして「AC/DC」は「エーシーディーシー」と読み仮名を付与した例を示している。 As the album name reading data, “Best-first-things [disc1]” is “Best First Things Disc One”, “Best-first-things [disc2]” is “Best First Things Disc Two”, “Crispy!” In this example, “crispy” and “ULTRA BURE” are read as “ultra blue”. In addition, as other data, “AC / DC” indicates an example in which “AC” is read as “AC”.
バイナリー化処理部5では、読み変換処理部4で作成した読み変換済元データについて、前記の種類毎にバイナリーデータとする処理を行う。ここでバイナリー化するのは、このデータを直接利用することができるようにするためであり、これによりここで作成した音声認識辞書生成用基本辞書をオーディオ装置、或いはこのオーディオ装置と接続したナビゲーション装置において、他の各種処理を行うとき、一般のコンパイル処理がされることがないようにし、オーディオ装置やこれと接続するナビゲーション装置で読み込み以外の処理が発生しないようにすることができる。なお、バイナリー処理するに際しては、より正確には周知のように、コンパイル処理をしてバイナリー化を行うこととなる。
In the
このようにしてバイナリー処理化された、前記種類毎の音声認識辞書生成用基本辞書6は、オーディオ装置11として示している車両用オーディオ装置、或いはこれに接続したナビゲーション装置(以下オーディオ装置と略称する)における音声認識処理部21において用いられる。その際には、オーディオ装置等に備えたメモリに入力し、HDD等のデータ記録媒体にダウンロードし、或いはデータを記録したメモリを移動し、更には回路のチップとして供給することができる。
The
図1に示すオーディオ装置での携帯型オーディオプレーヤ音声認識機器操作用辞書29の作成処理の例においては、車両用等のオーディオ装置11に携帯型オーディオプレーヤ12を、携帯型オーディオプレーヤの外部機器接続部13と、オーディオ装置11の外部機器接続部14とを有線或いは無線で接続しており、それによりオーディオ装置11における外部機器操作信号出力部16の信号によって携帯型オーディオプレーヤ12を再生操作等の操作を行い、またその操作指示に従って、携帯型オーディオプレーヤの任意のデータをオーディオ装置11のデータ取込部14から取り込むことができるようになっている。
In the example of the creation process of the portable audio player voice recognition
図1に示すオーディオ装置11の音声認識処理部21は、音声認識対象データ収集部23を備えており、ここではオーディオ装置11に携帯型オーディオプレーヤを前記のように接続し、オーディオ装置11と携帯型オーディオプレーヤ間での前記のような通信が可能となったときに、自動的に音声認識対象データ収集部23が携帯型オーディオプレーヤ12に内蔵したメモリチップやハードディスク等のデータ記録媒体から、そこに記録しているオーディオデータについて、曲情報を取り込む。この曲情報の中には楽曲自体を記録したオーディオデータの取り込みは必要としない。これらの曲情報は、携帯型オーディオプレーヤのデータ記録媒体にMP3の形式でオーディオデータが記録されているときには、そのデータの中の曲情報を記録したタグ部分から抽出して収集することができる。
The speech
ここで収集する曲情報は、利用者が曲の選択を行うときに指示する、例えば曲名、アーティスト名、アルバム名、更にはジャンル名等の種類に分けて取り込む。これらの種類は全てデータ記録媒体にMP3等で記録している曲情報のデータから取り込むことができるが、それらのデータが存在しないものについては、予めオーディオ装置11にCDDBのデータを備えているときには、そのデータを検索して取り込むこともでき、更にはオーディオ装置11にインターネット等の通信機能を備えているときには、直接CDDBデータ提供サイトと接続し、データを取り込むこともできる。なお、前記のようにPC上で作業を行う音声認識辞書生成用基本辞書6を作成する際に収集する曲情報の種類は、音声認識辞書用データ収集部23の種類毎に収集する音声認識辞書生成用元データと同じ種類分けとし、両者のミスマッチを防止する。
The song information collected here is fetched by dividing it into types such as a song name, artist name, album name, and genre name, which are instructed when the user selects a song. All of these types can be taken in from the music information data recorded on the data recording medium by MP3 or the like. However, when the data does not exist, the
音声認識処理部21には前記PC上で作成した音声認識辞書生成用基本辞書6のデータを、オーディオ装置11の音声認識処理部でアクセスするデータ記録媒体にダウンロードし、或いは予めチップ等の形式で装備し、或いはメモリチップとして挿入する等により、この音声認識辞書生成用基本辞書6のデータを利用することができるようになる。なお、このようにして音声認識処理部21に音声認識辞書生成用基本辞書6が存在するとき、その後このデータを更新することができるようにし、このオーディオ装置11のメーカー等が更新データを提供して、年々多数の曲が作られることに対応することがより好ましい。
The voice
音声認識処理部21の読みデータ生成後処理部24では、音声認識対象データ収集部23で収集した曲情報について、音声認識辞書生成用基本辞書6を用いて読みデータを作成する。その際には音声認識対象データ収集部23で収集した曲情報の種類が例えばアーティスト名データであるとき、この読みデータを生成するに際して用いる音声認識辞書生成用基本辞書6についても同じ種類であるアーティスト名データ部分を検索する。このような処理を行うことにより、少ないデータから高速で、且つ正確な読みデータを付与することができる。
The reading data
この読みデータ生成後処理部24で、読みデータが音声認識辞書生成用基本辞書6にあったときには、読みデータ有り25の読みデータ付曲情報データとして携帯型オーディオプレーヤ音声認識機器操作用辞書29に記録する。また、読みデータ生成後処理部24で、読みデータが音声認識辞書生成用基本辞書6になかったときには、読みデータ無し26として次に行う後処理部としての、読みデータ生成後処理部27に出力する。読みデータ生成後処理部27においては、例えばナビゲーション装置等で広く用いている音声案内のための音声合成(TTS:text−to−speech)技術における音声合成辞書28、及び音声合成処理技術を用いて、例えばアーティスト名に対応する音声合成データがあるときにはそのデータを直接用い、無いときには通常読みと推定される読み方の読みデータを生成する。このようにして読みデータ生成後処理部27で生成した読みデータ付曲情報データとして携帯型オーディオプレーヤ音声認識機器操作用辞書29に記録する。なお、図1の例においてはオーディオ装置11の音声認識辞書部21において、携帯型オーディオプレーヤ12を音声認識により操作する例を示すため「携帯型オーディオプレーヤ音声認識機器操作用辞書29として示しているが、各種機器を操作するときには単に「音声認識機器操作用辞書29」と言い換えることができる。
When the reading data is generated in the voice recognition dictionary generating
携帯型オーディオプレーヤ音声認識機器操作用辞書29においては、前記のように読みデータ生成処理部24において音声認識辞書生成用基本辞書6を用いて生成した読みデータ付曲情報データと、読みデータ生成後処理部27で生成した読みデータ付曲情報データとにより、オーディオ装置11に接続した携帯型オーディオプレーヤ12が蓄積している曲について、携帯型オーディオプレーヤをオーディオ装置に接続したとき直ちに音声認識用の辞書を生成することができる。
In the portable audio player speech recognition
そのため、その後マイク17に対して利用者が、曲を再生するために「プレイ」「アーティスト」「ボニーピンク」と予め定めた順序で発音することにより、音声認識処理部30がこれらの音声について携帯型オーディオプレーヤ音声認識機器操作用辞書29を順に検索して認識し、「ボニーピンク」の曲を再生する、という音声認識結果31を得ることができる。この音声認識結果31により、外部機器操作信号出力部16では携帯型オーディオプレーヤ12に対して「ボニーピンク」の曲を選択して出力する指示の出力を両機器の外部機器接続部を介して行い、出力されたオーディオデータをオーディオ装置11が取り込んで再生処理を行う。
Therefore, after that, the user recognizes “voice”, “artist”, and “bonnie pink” in a predetermined order in order to reproduce the music, and the voice
前記のような機能ブロックで構成される本発明の音声認識用辞書生成システムにおいては、例えば図4〜図6に示す作動フローにより順に作動させることによって実施することができる。図4には音声認識辞書生成用基本辞書の作成処理の作動フローを示し、この作動は図1のPC上での音声認識辞書生成用基本辞書6の作成処理部分で行うものであり、最初音声認識辞書生成用基本辞書作成用の単語の収集を行う(ステップS1)。次いで収集した単語を、A.機器操作基本データ、B.曲名データ、C.アーティスト名データ、D.アルバム名データ、E.その他等の種類毎に分類した読み変換用元データを作成する(ステップS2)。これらの作動は、図1における基本読みデータ収集部3において、機器操作用の単語を機器操作用データベース1から、また各種の曲情報を基本曲情報データベースから収集することにより行う。
In the speech recognition dictionary generation system of the present invention configured by the functional blocks as described above, for example, it can be implemented by sequentially operating according to the operation flow shown in FIGS. FIG. 4 shows an operation flow of the creation process of the voice recognition dictionary generation basic dictionary. This operation is performed in the process of creating the voice recognition dictionary generation
その後元データの単語の読みを入力する(ステップS3)。この処理は図1の読み変換処理部4において、先に述べた手法により行うことができる。次いで、このようにして得られた読み変換用元データ、及びこれに対して付与された読みデータとをバイナリー化し(ステップS4)、単語の種類毎に分けた音声認識辞書生成用基本辞書を作成する(ステップS5)。
Thereafter, the word reading of the original data is input (step S3). This processing can be performed by the reading
このようにして得られた音声認識辞書生成用基本辞書を用いて音声認識機器操作用辞書を生成するには、図5に示す作動フローによって行うことができる。図5に示す音声認識機器操作用辞書生成処理においては、最初に携帯型オーディオプレーヤをオーディオ装置に接続する(ステップS11)。次いでオーディオ装置で携帯型オーディオプレーヤの曲情報をデータの種類毎に取得する(ステップS12)。この処理は図1のオーディオ装置11における音声認識処理部21の音声認識対象データ収集部23で行う。
Generation of the voice recognition device operation dictionary using the basic dictionary for voice recognition dictionary generation thus obtained can be performed by the operation flow shown in FIG. In the voice recognition device operation dictionary generation process shown in FIG. 5, the portable audio player is first connected to the audio device (step S11). Next, music information of the portable audio player is acquired for each data type by the audio device (step S12). This processing is performed by the voice recognition target data collection unit 23 of the voice
このデータ収集によって音声認識辞書生成用元データの作成がなされ(ステップS13)、次いで元データの認識用単語を順に選択出力し(ステップS14)、その際に元データの種類を判別する(ステップS15)。その後元データの種類に応じた音声認識辞書生成用基本辞書の種類を選択し(ステップS16)、選択した種類の音声認識辞書生成用基本辞書に読みデータはあるか否かを判別する(ステップS17)。その結果音声認識辞書生成用基本辞書に読みデータがないと判別したときには、音声合成(TTS)用辞書及びその処理技術によって読みデータを生成する。これらの処理は図1において読みデータ生成処理部24において音声認識辞書生成用基本辞書6を用いて、同じデータ種別の部分の読みデータを検索し、ここに読みデータがないと読みデータ生成後処理部27において音声合成(TTS)辞書28、及びその処理技術を用いて読みデータを得ることによって行う。
By this data collection, original data for generating a speech recognition dictionary is created (step S13), and then words for recognition of the original data are sequentially selected and output (step S14), and at that time, the type of the original data is determined (step S15). ). Thereafter, the type of the basic dictionary for speech recognition dictionary generation corresponding to the type of original data is selected (step S16), and it is determined whether or not there is reading data in the selected type of basic dictionary for speech recognition dictionary generation (step S17). ). As a result, when it is determined that there is no reading data in the voice recognition dictionary generation basic dictionary, reading data is generated by the voice synthesis (TTS) dictionary and its processing technology. In these processes, the reading data
ステップS17において、選択した種類の音声認識辞書生成用基本辞書に読みデータがあると判別したときには、音声認識辞書生成用基本辞書により読みデータを生成し(ステップS19)、その後ステップS18において読みデータの生成が行われた場合と共に、全ての音声認識用元データの読みデータを生成したか否かを判別し(ステップS20)、未だ音声認識用元データにおいて読みデータを生成していないものが存在すると判別したときにはステップS14に戻り、元データの認識用単語を順に選択出力する作動から以下同様の作動を繰り返す。最終的にステップS20において全ての音声認識用元データの読みデータを生成したと判別したときには、このデータを音声認識機器操作用辞書が完成し、図1の携帯型オーディオプレーヤ音声認識機器操作用辞書29が完成することとなる(ステップS21)。 If it is determined in step S17 that the selected type of speech recognition dictionary generation basic dictionary contains reading data, the reading data is generated by the speech recognition dictionary generation basic dictionary (step S19), and then in step S18, the reading data Along with the generation, it is determined whether or not the reading data of all the voice recognition original data has been generated (step S20), and there is still the voice recognition original data for which no reading data has been generated. When the determination is made, the process returns to step S14, and the same operation is repeated from the operation of selecting and outputting the recognition words of the original data in order. When it is finally determined in step S20 that the reading data of all the voice recognition original data has been generated, the voice recognition device operation dictionary is completed with this data, and the portable audio player voice recognition device operation dictionary of FIG. 29 is completed (step S21).
図5のようにして得られた携帯型オーディオプレーヤ音声認識機器操作用辞書を用いて行う、音声認識によるオーディオ機器の再生操作は、図6に示す作動フローにより行うことができる。即ち図6に示す音声認識によるオーディオ機器再生操作処理においては、最初に曲再生操作用音声の発声がなされ(ステップS31)、その後発声した音声を先に生成した音声認識機器操作用辞書のデータの検索を行い(ステップS32)、この検索によって音声認識処理がなされる(ステップS33)。 The reproduction operation of the audio device by voice recognition performed using the portable audio player voice recognition device operation dictionary obtained as shown in FIG. 5 can be performed by the operation flow shown in FIG. That is, in the audio device playback operation processing by voice recognition shown in FIG. 6, the music playback operation voice is first uttered (step S31), and then the voice recognition device operation dictionary data generated earlier is generated. A search is performed (step S32), and a speech recognition process is performed by this search (step S33).
この検索及び音声認識処理に際しては、前記のように予め携帯型オーディオプレーヤの機器操作を音声認識により行う、音声認識機器操作用辞書を生成する処理を行っている結果、オーディオ装置に接続した携帯型オーディオプレーヤが蓄積している曲情報は全て音声認識機器操作用辞書に存在することとなり、利用者が発声する曲の再生に関する音声において、携帯型オーディオプレーヤに存在する曲はほぼ確実に認識することができる。 In this search and voice recognition processing, as described above, the device operation of the portable audio player is performed by voice recognition in advance, and as a result of generating the voice recognition device operation dictionary, the portable type connected to the audio device is obtained. All the music information stored in the audio player is present in the voice recognition device operation dictionary, and the music existing in the portable audio player is almost certainly recognized in the voice related to the playback of the music uttered by the user. Can do.
その後曲再生操作の発声は終了したか否かの判別を行い(ステップS34)、例えば3秒間発声が途切れたか否かを検出することによりこの判別を行って、未だ終了していないと判別したとき、即ち続いて音声が発声されたときには再びステップS32に戻って、発声した音声を先に生成した音声認識機器操作用辞書を検索し、以下同様の作動を繰り返す。ステップS34で前記のように所定時間次の発声がなされないとき、或いは携帯型オーディオプレーヤの再生操作の音声ではないと判別したときのような場合は、曲再生操作の発声が終了したと判別し、認識した言葉により機器を操作し、指示した曲の再生操作を行う(ステップS35)。 Thereafter, it is determined whether or not the utterance of the music playback operation has ended (step S34). For example, by determining whether or not the utterance has been interrupted for 3 seconds, it is determined that the utterance has not yet ended. That is, when the voice is subsequently uttered, the process returns to step S32 again to search the voice recognition device operation dictionary that previously generated the uttered voice, and the same operation is repeated thereafter. When the next utterance is not made for a predetermined time in step S34 as described above, or when it is determined that the sound is not the playback operation of the portable audio player, it is determined that the utterance of the music playback operation has ended. Then, the device is operated with the recognized words, and the designated music is reproduced (step S35).
これらの処理は図1において音声認識処理部30がマイク17から入力した利用者の発話音声を入力し、携帯型オーディオプレーヤ音声認識機器操作用辞書29を検索することによって音声認識を行い、その処理による音声認識結果31を外部機器操作信号出力部16から携帯型オーディオプレーヤ12に出力し、所定の曲を検索してデータの出力を行い、オーディオ装置11ではこれをデータ取込部15で取り込んで再生処理を行うことによって実行する。
In these processes, the speech
前記のような音声認識辞書生成用基本辞書を用いる結果、認識辞書の元データが図7(a)に示すようなプログラムのデータであるとき、図3に示すような読み変換済みデータが得られた場合には、これをバイナリー処理して音声認識辞書生成用基本辞書として作成し、図1のオーディオ装置11における音声認識装置21で用いるとき、図7(b)の太字で示す部分のデータについて、この辞書により読みを付与することができる。
As a result of using the basic dictionary for speech recognition dictionary generation as described above, when the original data of the recognition dictionary is data of a program as shown in FIG. 7A, read-converted data as shown in FIG. 3 is obtained. In this case, this is binary processed to create a basic dictionary for speech recognition dictionary generation, and when used in the
図7(a)に示す例では、「Play by Song」の機器操作、即ち曲名を入力することによって作動する、という機器操作指示の元に、その曲名を順に取り込むとき、「Play」、「by」、「Song」の機器操作基本データについては、図3Aの読みデータによって読み仮名を付与することができ、曲名データ部分における「Anything for you」、「Black & Blue」、「Crazy 4U」、「DANCE2」については図3Bの読みデータによって読み仮名を付与し、その後音声認識機器操作用辞書とすることができる。
In the example shown in FIG. 7A, when the song names are sequentially fetched under the device operation instruction of “Play by Song”, that is, the device is operated by inputting the song name, “Play”, “by” "Song" device operation basic data can be given a reading pseudonym by the reading data of FIG. 3A, and "Anything for you", "Black & Blue", "
このような処理が行われる結果、図7(b)に示すように、図中太字で示す機器操作基本データ部分の全て、及び曲名データ部分の図中8つの曲名中太字で示す4つの曲名の読みデータを取得できたことになる。それにより、ここで読みデータを取得できなかった残り4つの曲名についてのみ音声合成(TTS)辞書、及びTTS処理手法によって読みデータを得る処理を行えば良くなる。その結果、例えば10,000件の曲データを対象に読みデータを付与した結果、全て音声合成(TTS)によって辞書生成処理を行うと作成時間が5分かかった場合、本発明の手法を用いると、読みデータが100%音声認識辞書生成用基本辞書から得られるとき(ヒット率100%)には十数秒で読み付与処理を終了することができ、ヒット率が50%の時でも数分に短縮することができ、本発明による音声認識辞書生成システムが極めて効果的であることを確認した。 As a result of such processing, as shown in FIG. 7 (b), all of the device operation basic data parts shown in bold in the figure, and four song names shown in bold in the eight song titles in the song name data part. Reading data can be acquired. As a result, only the remaining four music titles for which reading data could not be acquired need to be processed by the speech synthesis (TTS) dictionary and the TTS processing method to obtain reading data. As a result, for example, when reading data is added to 10,000 pieces of music data, and it takes 5 minutes to create a dictionary by performing speech synthesis (TTS), the method of the present invention is used. When reading data is obtained from the basic dictionary for 100% speech recognition dictionary generation (hit rate 100%), the reading process can be completed in a few dozen seconds, and even when the hit rate is 50%, it is shortened to several minutes. It was confirmed that the speech recognition dictionary generation system according to the present invention is extremely effective.
1 機器操作用データベース
2 基本曲情報データベース
3 基本読みデータ収集部
4 読み変換処理部
5 バイナリー化処理部
6 音声認識辞書生成用基本辞書
11 オーディオ装置
12 携帯型オーディオプレーヤ
13 外部機器接続部
14 外部機器接続部
15 データ取込部
16 外部機器操作信号出力部
17 マイク
21 音声認識処理部
23 音声認識対象データ収集部
24 読みデータ生成処理部
25 読みデータ有り
26 読みデータ無し
27 読みデータ生成後処理部
28 音声合成(TTS)辞書
29 帯型オーディオプレーヤ音声認識機器操作用辞書
30 音声認識処理部
31 音声認識結果
1 Equipment operation database
2 basic
Claims (6)
前記音声認識対象データ収集部では、音声認識辞書生成用元データをデータの種類毎に分けて収集し、
別途作成した音声認識辞書生成用基本辞書を用いて、前記音声認識辞書生成用元データに読み仮名を付与することにより前記音声認識機器操作用辞書を生成し、
前記音声認識辞書生成用基本辞書は、予め前記音声認識装置で用いると予測される読み変換用元データを収集して読み仮名を付与し、前記音声認識辞書生成用元データを分ける種類と同じ種類に分けて作成されたものであり、
前記音声認識機器操作用辞書の生成に際しては、前記音声認識対象データの種類に対応した前記音声認識辞書生成用基本辞書内の種類のデータを用いて読み仮名を付与して生成することを特徴とする音声認識用辞書生成システム。 A speech recognition device operation dictionary used for device operation by recognizing a user's uttered speech is generated by adding a pseudonym to the original data for speech recognition dictionary generation collected by the speech recognition target data collection unit. In the dictionary generation system for speech recognition,
The voice recognition target data collection unit collects voice recognition dictionary generation original data separately for each type of data,
Using the basic dictionary for voice recognition dictionary generation created separately, generating the voice recognition device operation dictionary by giving a reading pseudonym to the voice recognition dictionary generation original data,
The basic dictionary for speech recognition dictionary generation is the same type as the type that collects the reading conversion original data predicted to be used in the speech recognition apparatus in advance and assigns the reading pseudonym, and separates the speech recognition dictionary generation original data It was created separately,
When generating the dictionary for operating the voice recognition device, it is generated by adding a reading pseudonym using the type of data in the basic dictionary for voice recognition dictionary generation corresponding to the type of the voice recognition target data. Dictionary generation system for voice recognition.
前記音声認識対象データ収集部では、オーディオ装置の再生操作に必要なデータをデータの種類毎に収集し、
前記音声認識辞書生成用基本辞書は、前記音声認識対象データ収集部で収集するデータを予測して基本読みデータをデータの種類毎に収集し、読みを付与して作成することを特徴とする請求項1記載の音声認識用辞書生成システム。 The device operated by the voice recognition is an audio device,
The voice recognition target data collection unit collects data necessary for the playback operation of the audio device for each type of data,
The basic dictionary for voice recognition dictionary generation is created by predicting data collected by the voice recognition target data collection unit, collecting basic reading data for each type of data, and adding readings. Item 4. The dictionary generation system for speech recognition according to Item 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008046963A JP2009204872A (en) | 2008-02-28 | 2008-02-28 | Creation system of dictionary for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008046963A JP2009204872A (en) | 2008-02-28 | 2008-02-28 | Creation system of dictionary for speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009204872A true JP2009204872A (en) | 2009-09-10 |
Family
ID=41147212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008046963A Pending JP2009204872A (en) | 2008-02-28 | 2008-02-28 | Creation system of dictionary for speech recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009204872A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012112986A (en) * | 2010-11-19 | 2012-06-14 | Alpine Electronics Inc | Music data reproducing device |
CN110459245A (en) * | 2019-03-22 | 2019-11-15 | 兰溪正科锁具有限公司 | A kind of sound control music player |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005227545A (en) * | 2004-02-13 | 2005-08-25 | Matsushita Electric Ind Co Ltd | Dictionary creation system, program guide system and dictionary creation method |
WO2007066433A1 (en) * | 2005-12-07 | 2007-06-14 | Mitsubishi Electric Corporation | Audio recognizing device |
-
2008
- 2008-02-28 JP JP2008046963A patent/JP2009204872A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005227545A (en) * | 2004-02-13 | 2005-08-25 | Matsushita Electric Ind Co Ltd | Dictionary creation system, program guide system and dictionary creation method |
WO2007066433A1 (en) * | 2005-12-07 | 2007-06-14 | Mitsubishi Electric Corporation | Audio recognizing device |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012112986A (en) * | 2010-11-19 | 2012-06-14 | Alpine Electronics Inc | Music data reproducing device |
CN110459245A (en) * | 2019-03-22 | 2019-11-15 | 兰溪正科锁具有限公司 | A kind of sound control music player |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9153233B2 (en) | Voice-controlled selection of media files utilizing phonetic data | |
US7953504B2 (en) | Method and apparatus for selecting an audio track based upon audio excerpts | |
US20050216257A1 (en) | Sound information reproducing apparatus and method of preparing keywords of music data | |
US8719028B2 (en) | Information processing apparatus and text-to-speech method | |
KR20080000203A (en) | Method for searching music file using voice recognition | |
KR20080043358A (en) | Method and system to control operation of a playback device | |
EP1403852A1 (en) | Voice activated music playback system | |
JP5465926B2 (en) | Speech recognition dictionary creation device and speech recognition dictionary creation method | |
EP2507792B1 (en) | Vocabulary dictionary recompile for in-vehicle audio system | |
JP5693834B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4697432B2 (en) | Music playback apparatus, music playback method, and music playback program | |
JP2008077746A (en) | On-board audio system and recording medium | |
US20100222905A1 (en) | Electronic apparatus with an interactive audio file recording function and method thereof | |
JP2009204872A (en) | Creation system of dictionary for speech recognition | |
JP2002311986A (en) | Navigator | |
JP4721765B2 (en) | Content search apparatus and content search method | |
JP2009092977A (en) | In-vehicle device and music piece retrieval system | |
JPH11242496A (en) | Information reproducing device | |
JP5431817B2 (en) | Music database update device and music database update method | |
JP4631251B2 (en) | Media search device and media search program | |
KR101576683B1 (en) | Method and apparatus for playing audio file comprising history storage | |
EP2058799B1 (en) | Method for preparing data for speech recognition and speech recognition system | |
JP2011150169A (en) | Speech recognition device | |
JP2003150185A (en) | System and method for synthesizing voice and program for realizing the same | |
KR100655802B1 (en) | The method of recording sound data of the computer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120627 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130222 |