JP6896335B2 - Speech recognition device and speech recognition method - Google Patents

Speech recognition device and speech recognition method Download PDF

Info

Publication number
JP6896335B2
JP6896335B2 JP2017106225A JP2017106225A JP6896335B2 JP 6896335 B2 JP6896335 B2 JP 6896335B2 JP 2017106225 A JP2017106225 A JP 2017106225A JP 2017106225 A JP2017106225 A JP 2017106225A JP 6896335 B2 JP6896335 B2 JP 6896335B2
Authority
JP
Japan
Prior art keywords
voice recognition
dictionary
recognition
processing unit
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017106225A
Other languages
Japanese (ja)
Other versions
JP2018200452A (en
Inventor
大和 鈴木
大和 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2017106225A priority Critical patent/JP6896335B2/en
Publication of JP2018200452A publication Critical patent/JP2018200452A/en
Application granted granted Critical
Publication of JP6896335B2 publication Critical patent/JP6896335B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識装置および音声認識方法に関し、特に、ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う装置に用いて好適なものである。 The present invention relates to a voice recognition device and a voice recognition method, and is particularly suitable for use in a device that performs voice recognition based on the degree of similarity between a voice spoken by a user and a Yomi of a recognition target word registered in a voice recognition dictionary. It is a thing.

従来、車両に搭載されているナビゲーション装置を操作する際の片手運転等を回避するために、ナビゲーション装置の操作を音声認識により行えるようにしたシステムが提供されている。例えば、ナビゲーション装置のアプリケーションとして目的地の住所検索や施設名検索などを実行する場合、音声認識により特定した地名や施設名をナビゲーション装置に入力し、これをキーとして検索を行うことが可能である。 Conventionally, in order to avoid one-handed driving when operating a navigation device mounted on a vehicle, a system has been provided in which the navigation device can be operated by voice recognition. For example, when executing a destination address search or facility name search as an application of a navigation device, it is possible to input the place name or facility name specified by voice recognition into the navigation device and perform the search using this as a key. ..

通常、音声認識装置では、ユーザがマイクより入力した発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて認識が行われる。ここで、ナビゲーション装置を発話コマンドにより操作可能とするために、音声認識辞書に登録する地名や施設名の認識対象ワードのヨミ(音声パターン)は、地図データに登録されている地名や施設名の読み方と同じにするのが通常である。 Normally, the voice recognition device performs recognition based on the degree of similarity between the spoken voice input by the user from the microphone and the Yomi of the recognition target word registered in the voice recognition dictionary. Here, in order to enable the navigation device to be operated by the utterance command, the Yomi (voice pattern) of the recognition target word of the place name or facility name registered in the voice recognition dictionary is the place name or facility name registered in the map data. It is usually the same as the reading.

これに対し、地域によっては、地名や施設名に関して、その地域の住人による特有の読み方が存在することがある。この場合、その地域に住むユーザが特有の読み方で地名や施設名を発話しても、音声認識辞書に登録されている認識対象ワードのヨミと異なるため、ユーザによる発話音声を発話コマンドとして認識することができない。 On the other hand, depending on the area, there may be a peculiar reading by the residents of the area regarding the place name and facility name. In this case, even if the user living in the area speaks the place name or facility name in a peculiar reading, it is different from the Yomi of the recognition target word registered in the voice recognition dictionary, so the voice spoken by the user is recognized as the utterance command. Can't.

このような問題を解決するための方法として、地域特有の読み方に合わせたヨミも認識対象ワードとして音声認識辞書に追加登録することが考えられる。しかしながら、このようにすると、その地域以外の場所に、追加登録した地域特有のヨミと同じまたは類似の読み方をする地名や施設名が存在する場合、その地名や施設名のヨミも別の認識対象ワードとして音声認識辞書に登録されているため、入力された発話音声に対して誤認識が生じてしまう可能性がある。 As a method for solving such a problem, it is conceivable to additionally register Yomi according to the reading method peculiar to the region as a recognition target word in the speech recognition dictionary. However, in this way, if there is a place name or facility name that has the same or similar reading as the additionally registered area-specific Yomi in a place other than that area, that place name or facility name Yomi is also a different recognition target. Since it is registered as a word in the voice recognition dictionary, there is a possibility that erroneous recognition will occur for the input spoken voice.

なお、元データベースに格納された施設名称または市区町村名に対し、知名度に応じて複数段のレベル付けを行い、自車位置から遠い地域は全国的に有名な地名や施設のみを部分データベースに格納する一方、自車位置周辺の地域では有名な地名や施設のみならず知名度の低い施設や地名も部分データベースに格納し、部分データベースを対象として音声認識を行うようにしたナビゲーション装置が知られている(例えば、特許文献1参照)。 In addition, the facility names or city / ward / town / village names stored in the original database are leveled in multiple stages according to their name, and in areas far from the vehicle's location, only nationally famous place names and facilities are included in the partial database. On the other hand, in the area around the vehicle position, not only famous place names and facilities but also lesser-known facilities and place names are stored in the partial database, and a navigation device that performs voice recognition for the partial database is known. (See, for example, Patent Document 1).

また、音声認識辞書に記録された名称を知らなくても所望の検索ができるように、関連する語彙を効率よく蓄積する技術も知られている(例えば、特許文献2参照)。この特許文献2に記載のシステムでは、認識辞書データベースに予め記憶された初期キーワードに意味的な関連性をもつ関連キーワードをWEB情報から収集し、収集した関連キーワードを認識辞書データベースに追加する。音声検索部は、初期キーワードと関連キーワードとを認識対象として検索を実行する。 Further, there is also known a technique for efficiently accumulating related vocabularies so that a desired search can be performed without knowing the name recorded in the speech recognition dictionary (see, for example, Patent Document 2). In the system described in Patent Document 2, related keywords having a semantic relevance to the initial keywords stored in advance in the recognition dictionary database are collected from the WEB information, and the collected related keywords are added to the recognition dictionary database. The voice search unit executes a search with the initial keyword and the related keyword as recognition targets.

特開2000−74685号公報Japanese Unexamined Patent Publication No. 2000-74685 特開2009−169470号公報JP-A-2009-169470

本発明は、上述のような問題を解決するために成されたものであり、地域特有の読み方を知っているユーザがその読み方で発話した場合にも、地域特有の読み方を知らないユーザが発話した場合にも、それぞれの発話音声を適切に認識することができるようにすることを目的とする。 The present invention has been made to solve the above-mentioned problems, and even when a user who knows a region-specific reading speaks in that reading, a user who does not know the region-specific reading speaks. Even if this is the case, the purpose is to be able to appropriately recognize each uttered voice.

上記した課題を解決するために、本発明の音声認識装置は、認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書を記憶した基本辞書記憶部の他に、認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書を記憶した地域別辞書記憶部を備える。そして、地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化し、当該有効化した地域の音声認識辞書および基本の音声認識辞書を用いて音声認識を行うようにしている。その際、認識対象ワードは地名であり、ナビゲーション装置において住所検索の実行が指示された場合にのみ、地域の音声認識辞書を有効化する処理を行うようにしている。或いは、認識対象ワードは施設名であり、ナビゲーション装置において施設名検索の実行が指示された場合にのみ、地域の音声認識辞書を有効化する処理を行うようにしている。或いは、認識対象ワードは地名および施設名であり、ナビゲーション装置において住所検索または施設名検索の実行が指示された場合にのみ、地域の音声認識辞書を有効化する処理を行うようにしている。 In order to solve the above-mentioned problems, the speech recognition device of the present invention has a basic dictionary storage unit that stores a basic speech recognition dictionary in which basic readings are registered for the recognition target word, and a region for the recognition target word. It is equipped with a regional dictionary storage unit that stores regional voice recognition dictionaries in which unique Yomi is registered. Then, among the voice recognition dictionaries by region, the voice recognition dictionary of the region to which the position information acquired from the navigation device corresponds is enabled, and the voice recognition dictionary of the activated region and the basic voice recognition dictionary are used for voice recognition. I try to recognize it. At that time, the word to be recognized is a place name, and the process of activating the local voice recognition dictionary is performed only when the navigation device is instructed to execute the address search. Alternatively, the recognition target word is the facility name, and the process of activating the local voice recognition dictionary is performed only when the navigation device is instructed to execute the facility name search. Alternatively, the recognition target words are a place name and a facility name, and the process of activating the local voice recognition dictionary is performed only when the navigation device is instructed to execute the address search or the facility name search.

上記のように構成した本発明によれば、認識対象ワードに関して地域特有の読み方を知っているユーザが音声認識を行うときは、ナビゲーション装置から取得される位置情報に基づいて、該当する地域の音声認識辞書を有効化して音声認識を行うことができる。これにより、地域特有の読み方を知っているユーザが、その地域特有の読み方で認識対象ワードを発話した場合にも、その発話音声を適切に認識することができる。一方、認識対象ワードに関して地域特有の読み方を知らないユーザが音声認識を行うときは、地域の音声認識辞書を有効化せず、基本の音声認識辞書のみを用いて音声認識を行うことができる。これにより、地域特有の読み方を知らないユーザによる発話音声が、地域特有のヨミに該当すると誤認識されてしまうことを抑止することができる。以上により、本発明によれば、地域特有の読み方を知っているユーザがその読み方で発話した場合にも、地域特有の読み方を知らないユーザが発話した場合にも、それぞれの発話音声を適切に認識することができる。 According to the present invention configured as described above, when a user who knows a region-specific reading of a recognition target word performs voice recognition, the voice of the corresponding region is based on the position information acquired from the navigation device. Speech recognition can be performed by enabling the recognition dictionary. As a result, even when a user who knows the reading method peculiar to the area utters the recognition target word in the reading method peculiar to the area, the spoken voice can be appropriately recognized. On the other hand, when a user who does not know how to read the recognition target word peculiar to the region performs voice recognition, the voice recognition can be performed using only the basic voice recognition dictionary without activating the voice recognition dictionary of the region. As a result, it is possible to prevent the uttered voice by a user who does not know the reading method peculiar to the region from being misrecognized as corresponding to the Yomi peculiar to the region. Based on the above, according to the present invention, whether a user who knows a region-specific reading method speaks in that reading method or a user who does not know the region-specific reading method speaks, each spoken voice is appropriately spoken. Can be recognized.

本実施形態による音声認識装置の機能構成例を示すブロック図である。It is a block diagram which shows the functional structure example of the voice recognition apparatus by this Embodiment. 本実施形態による音声認識装置の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the voice recognition apparatus by this Embodiment.

以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態による音声認識装置100の機能構成例を示すブロック図である。本実施形態の音声認識装置100は、マイク200より入力されるユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行い、認識対象ワードに対応する発話音声を発話コマンドとして認識し、ナビゲーション装置300に対して発話コマンドを実行するものである。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a functional configuration example of the voice recognition device 100 according to the present embodiment. The voice recognition device 100 of the present embodiment performs voice recognition based on the similarity between the utterance voice by the user input from the microphone 200 and the Yomi of the recognition target word registered in the voice recognition dictionary, and performs voice recognition, and recognizes the recognition target word. The utterance voice corresponding to is recognized as an utterance command, and the utterance command is executed for the navigation device 300.

図1に示すように、本実施形態による音声認識装置100は、基本辞書記憶部101、地域別辞書記憶部102、認識処理部11および辞書有効化処理部12を備えて構成されている。なお、認識処理部11および辞書有効化処理部12は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、認識処理部11および辞書有効化処理部12は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。 As shown in FIG. 1, the voice recognition device 100 according to the present embodiment includes a basic dictionary storage unit 101, a regional dictionary storage unit 102, a recognition processing unit 11, and a dictionary activation processing unit 12. The recognition processing unit 11 and the dictionary activation processing unit 12 can be configured by any of hardware, DSP (Digital Signal Processor), and software. For example, when configured by software, the recognition processing unit 11 and the dictionary activation processing unit 12 are actually configured to include a computer CPU, RAM, ROM, etc., and may be used as a recording medium such as RAM, ROM, hard disk, or semiconductor memory. It is realized by operating the stored program.

基本辞書記憶部101は、認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書101Aを記憶する。基本の音声認識辞書101Aは、ナビゲーション装置300の地図データに登録されている地名や施設名から成る認識対象ワードと、その地名や施設名に関して通常のヨミ(音声パターン)とを対応付けた辞書データである。 The basic dictionary storage unit 101 stores the basic speech recognition dictionary 101A in which the basic Yomi is registered with respect to the recognition target word. The basic voice recognition dictionary 101A is dictionary data in which a recognition target word consisting of a place name or facility name registered in the map data of the navigation device 300 and a normal Yomi (voice pattern) for the place name or facility name are associated with each other. Is.

地域別辞書記憶部102は、認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書102A〜102Aを記憶する。地域別の音声認識辞書102A〜102Aは、基本の音声認識辞書101Aに登録されている認識対象ワードの一部と同じ認識対象ワードと、その認識対象ワードに係る地名や施設名に関して地域特有のヨミ(音声パターン)とを対応付けた辞書データである。 The regional dictionary storage unit 102 stores regional voice recognition dictionaries 102A 1 to 102A n in which region-specific Yomi is registered with respect to the recognition target word. By region of the speech recognition dictionary 102A 1 ~102A n is, and the same recognition target word as part of the recognition target word that is registered to the base of the speech recognition dictionary 101A, region-specific with respect to place name or facility name relating to the recognition target word It is dictionary data associated with the Yomi (voice pattern) of.

ここで、第1の音声認識辞書102Aは、第1の地域における地域特有のヨミを登録した辞書データである。また、第2の音声認識辞書102Aは、第2の地域における地域特有のヨミを登録した辞書データである。同様に、第nの音声認識辞書102Aは、第nの地域における地域特有のヨミを登録した辞書データである。 Here, the first speech recognition dictionary 102A 1 is dictionary data in which region-specific Yomi in the first region is registered. Further, the second voice recognition dictionary 102A 2 is dictionary data in which the region-specific Yomi in the second region is registered. Similarly, the nth speech recognition dictionary 102A n is dictionary data in which region-specific Yomi in the nth region is registered.

このように複数の音声認識辞書102A〜102Aに区切る地域は、例えば、都道府県や市区町村などの行政区画を単位とするものとすることが可能である。この場合、地域別の音声認識辞書102A〜102Aは、どの行政区画に対応するものかを示す情報と共に地域別辞書記憶部102に記憶される。 Regional delimiting Thus a plurality of speech recognition dictionaries 102A 1 ~102A n may, for example, be made in units of administrative areas such as prefectures or municipalities. In this case, regional speech recognition dictionary 102A 1 ~102A n is stored in the regional dictionary storage unit 102 along with information indicating what corresponds to which administrative district.

複数の音声認識辞書102A〜102Aに区切る地域は、所定サイズの矩形メッシュを単位とするものとすることも可能である。この場合、各メッシュに対してメッシュIDを付与するとともに、地図上の位置情報を関連付ける。例えば、矩形の各頂点の緯度経度情報を各メッシュに関連付ける。そして、地域別の音声認識辞書102A〜102Aは、対応するメッシュIDと共に地域別辞書記憶部102に記憶される。ここで、1つの音声認識辞書に対して1つまたは複数のメッシュIDを対応付けることが可能である。 Regional separating the plurality of speech recognition dictionaries 102A 1 ~102A n can also be assumed that the unit of square mesh of a predetermined size. In this case, a mesh ID is assigned to each mesh and position information on the map is associated with the mesh. For example, the latitude / longitude information of each vertex of the rectangle is associated with each mesh. The regional speech recognition dictionary 102A 1 ~102A n is stored along with the corresponding mesh ID to regional dictionary storage unit 102. Here, it is possible to associate one or more mesh IDs with one voice recognition dictionary.

認識処理部11は、音声認識辞書に登録されている認識対象ワードのヨミ(音声パターン)と、マイク200より入力された発話音声との類似度を示す指標を算出し、当該算出した指標が閾値に対して所定の条件を満たす場合に、発話音声が当該所定の条件を満たす認識対象ワードであると認識する。 The recognition processing unit 11 calculates an index indicating the degree of similarity between the Yomi (voice pattern) of the recognition target word registered in the voice recognition dictionary and the utterance voice input from the microphone 200, and the calculated index is the threshold value. When a predetermined condition is satisfied, the spoken voice is recognized as a recognition target word satisfying the predetermined condition.

本実施形態では指標の一例として、認識対象ワードの音声パターンと、マイク200より入力された発話音声との近さの程度(類似度)を示す距離値を用いる。距離値が小さいほど類似度が高いことを意味する。この場合、認識処理部11は、発話音声について算出した距離値が閾値よりも小さい場合に、その発話音声が、閾値を下回った認識対象ワードであると認識する。 In the present embodiment, as an example of the index, a distance value indicating the degree of closeness (similarity) between the voice pattern of the recognition target word and the spoken voice input from the microphone 200 is used. The smaller the distance value, the higher the similarity. In this case, when the distance value calculated for the spoken voice is smaller than the threshold value, the recognition processing unit 11 recognizes that the spoken voice is a recognition target word below the threshold value.

なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、認識処理部11は、発話音声について算出した指標が閾値よりも大きい場合に、その発話音声が、閾値を上回った認識対象ワードであると認識する。 When an index whose value increases as the degree of similarity increases is used, the recognition processing unit 11 recognizes that when the index calculated for the spoken voice is larger than the threshold value, the spoken voice exceeds the threshold value. Recognize as a word.

辞書有効化処理部12は、地域別辞書記憶部102に記憶されている地域別の音声認識辞書102A〜102Aのうち、ナビゲーション装置300から取得される位置情報が該当する地域の音声認識辞書を有効化する。すなわち、辞書有効化処理部12は、地域別辞書記憶部102に記憶されている地域別の音声認識辞書102A〜102Aの中に、位置情報が該当する地域の音声認識辞書があるか否かを判定し、あると判定された場合に、該当する地域の音声認識辞書を有効化する。 Dictionary validation processing unit 12, among the regional speech recognition dictionary 102A 1 ~102A n stored in the regional dictionary storage unit 102, areas of speech recognition dictionary location information obtained from the navigation device 300 corresponds To enable. That is, the dictionary activation processing unit 12 determines whether or not there is a voice recognition dictionary in the area to which the position information corresponds in the voice recognition dictionaries 102A 1 to 102A n for each area stored in the area-specific dictionary storage unit 102. If it is determined that there is, the voice recognition dictionary of the corresponding area is activated.

ナビゲーション装置300から取得される位置情報は、例えば、ナビゲーション装置300に登録されている自宅の位置情報である。なお、ナビゲーション装置300は、車両に搭載されている車載機であってもよいし、ナビゲーション機能を備えたアプリケーションがインストールされたスマートフォンのような携帯端末であってもよい。 The position information acquired from the navigation device 300 is, for example, home position information registered in the navigation device 300. The navigation device 300 may be an in-vehicle device mounted on a vehicle, or may be a mobile terminal such as a smartphone in which an application having a navigation function is installed.

上述のように、地域別の音声認識辞書102A〜102Aを行政区画情報と共に地域別辞書記憶部102に記憶した場合、ナビゲーション装置300から取得する自宅の位置情報は、例えば、自宅位置に対応する住所情報とするのが好ましい。辞書有効化処理部12は、ナビゲーション装置300から取得した住所情報に該当する行政区画を特定し、地域別の音声認識辞書102A〜102Aのうち、上記特定した行政区画の情報と共に記憶されている音声認識辞書を有効化する。 As described above, when storing the regional speech recognition dictionary 102A 1 ~102A n with administrative areas information by location dictionary storing unit 102, location information of the home to be acquired from the navigation device 300, for example, corresponds to the home position It is preferable to use the address information to be used. Dictionary validation processing unit 12 identifies the administrative district that corresponds to the acquired address information from the navigation device 300, among the regional speech recognition dictionary 102A 1 ~102A n, is stored together with the information of the specified administrative district Enable your voice recognition dictionary.

一方、地域別の音声認識辞書102A〜102AをメッシュIDと共に地域別辞書記憶部102に記憶した場合、ナビゲーション装置300から取得する自宅の位置情報は、例えば、自宅位置に対応する緯度経度情報とするのが好ましい。辞書有効化処理部12は、ナビゲーション装置300から取得した緯度経度情報に基づいて、当該緯度経度が矩形内に含まれるメッシュを特定し、地域別の音声認識辞書102A〜102Aのうち、上記特定したメッシュのメッシュIDと共に記憶されている音声認識辞書を有効化する。 On the other hand, when storing a regional voice recognition dictionary 102A 1 ~102A n By Location dictionary storage unit 102 together with the mesh ID, the position information of the home to be acquired from the navigation device 300, for example, latitude and longitude information corresponding to the home position Is preferable. The dictionary activation processing unit 12 identifies a mesh in which the latitude / longitude is included in the rectangle based on the latitude / longitude information acquired from the navigation device 300, and among the speech recognition dictionaries 102A 1 to 102A n for each region, the above Enable the speech recognition dictionary stored with the mesh ID of the specified mesh.

上述の認識処理部11は、基本辞書記憶部101に記憶されている基本の音声認識辞書101Aと、地域別辞書記憶部102に記憶されている地域別の音声認識辞書102A〜102Aのうち、辞書有効化処理部12により有効化された地域の音声認識辞書とを用いて、上述した音声認識を行う。 Recognition processing unit 11 described above, the voice recognition dictionary 101A of the base stored in the basic dictionary storage unit 101, among the regional speech recognition dictionary 102A 1 ~102A n stored in the regional dictionary storage unit 102 , The above-mentioned voice recognition is performed using the local voice recognition dictionary activated by the dictionary activation processing unit 12.

ここで、認識処理部11は、辞書有効化処理部12により有効化された地域の音声認識辞書がある場合、基本の音声認識辞書101Aよりも有効化された地域の音声認識辞書を優先的に用いて音声認識を行うのが好ましい。地域の音声認識辞書を優先的に用いるというのは、基本の音声認識辞書101Aに登録されている認識対象ワードの音声パターンと発話音声との類似度と、辞書有効化処理部12により有効化された地域の音声認識辞書に登録されている認識対象ワードの音声パターンと発話音声との類似度と同じであった場合に、地域の音声認識辞書に登録されている認識対象ワードを優先して認識するという意味である。 Here, when there is a local voice recognition dictionary activated by the dictionary activation processing unit 12, the recognition processing unit 11 gives priority to the activated local voice recognition dictionary over the basic voice recognition dictionary 101A. It is preferable to use it for voice recognition. The preferential use of the local voice recognition dictionary is enabled by the dictionary activation processing unit 12 and the similarity between the voice pattern of the recognition target word registered in the basic voice recognition dictionary 101A and the spoken voice. If the voice pattern of the recognition target word registered in the local voice recognition dictionary has the same degree of similarity to the spoken voice, the recognition target word registered in the local voice recognition dictionary is preferentially recognized. It means to do.

例えば、ユーザの自宅位置が第1の地域に属する場合、辞書有効化処理部12は、ナビゲーション装置300から取得される自宅位置の位置情報に基づいて、第1の地域の音声認識辞書102Aを有効化する。この第1の地域の音声認識辞書102Aには、ある地名に関して第1の地域に特有の読み方である「シルビン」というヨミ(音声パターン)が登録されていたとする。一方、基本の音声認識辞書101Aにも、別の地域にある地名に関して基本の読み方として「シルビン」というヨミが登録されていたとする。この場合、ユーザが「シルビン」と発話すると、第1の地域の音声認識辞書102Aに登録されている「シルビン」のヨミと発話音声との類似度と、基本の音声認識辞書101Aに登録されている「シルビン」のヨミと発話音声との類似度とが同じになる。この場合、認識処理部11は、第1の地域に特有のヨミが発話されたと認識する。 For example, when the user's home position belongs to the first area, the dictionary activation processing unit 12 uses the voice recognition dictionary 102A 1 in the first area based on the position information of the home position acquired from the navigation device 300. Activate. It is assumed that a Yomi (speech pattern) called "Sylvin", which is a reading peculiar to the first area, is registered in the voice recognition dictionary 102A 1 of the first area for a certain place name. On the other hand, it is assumed that the basic speech recognition dictionary 101A also has a Yomi called "Sylvin" registered as a basic reading for a place name in another area. In this case, when the user speaks "Sylvin", the similarity between the Yomi of "Sylvin" registered in the voice recognition dictionary 102A 1 of the first region and the spoken voice is registered in the basic voice recognition dictionary 101A. The degree of similarity between the Yomi of "Sylvin" and the spoken voice is the same. In this case, the recognition processing unit 11 recognizes that the Yomi peculiar to the first area has been uttered.

なお、ユーザの自宅位置が第1の地域にない場合、第1の地域の音声認識辞書102Aは有効化されない。他にも有効化された地域の音声認識辞書がない場合、認識処理部11は、基本辞書記憶部101に記憶されている基本の音声認識辞書101Aのみを用いて音声認識を行う。この場合、ユーザが「シルビン」と発話すると、認識処理部11は、基本の音声認識辞書101Aに登録されている「シルビン」のヨミが発話された、すなわち、第1の地域とは別の地域にある「シルビン」というヨミの地名が発話されたと認識する。 If the user's home location is not in the first area, the voice recognition dictionary 102A 1 in the first area is not activated. If there is no other activated regional speech recognition dictionary, the recognition processing unit 11 performs speech recognition using only the basic speech recognition dictionary 101A stored in the basic dictionary storage section 101. In this case, when the user utters "Sylvin", the recognition processing unit 11 utters the Yomi of "Sylvin" registered in the basic speech recognition dictionary 101A, that is, an area different from the first area. Recognize that Yomi's place name "Sylvin" was spoken.

また、ユーザの自宅位置が第1の地域にない場合、そのユーザは、第1の地域にある地名に「シルビン」という特有の読み方が存在することを知らないので、仮にその地名を発話したい場合は、基本の読み方で発話することになる。例えば、その地名の基本の読み方が「シルビアン」であったとすると、「シルビン」という地域特有の読み方を知らないユーザは、通常の読み方である「シルビアン」と発話する。この場合、認識処理部11は、基本の音声認識辞書101Aに登録されている「シルビアン」のヨミと発話音声との類似度から、「シルビアン」の地名を認識することが可能である。 Also, if the user's home location is not in the first area, the user does not know that the place name in the first area has a unique reading of "Sylvin", so if he / she wants to speak the place name. Will speak in the basic reading. For example, if the basic reading of a place name is "Sylvian", a user who does not know the region-specific reading of "Sylvin" speaks "Sylvian", which is the normal reading. In this case, the recognition processing unit 11 can recognize the place name of "Sylvian" from the similarity between the Yomi of "Sylvian" registered in the basic speech recognition dictionary 101A and the spoken voice.

ここでは、基本の音声認識辞書101Aに基づき算出される類似度と、地域別の音声認識辞書102A〜102Aに基づき算出される類似度とが同じであった場合に後者を優先して認識すると説明したが、本発明はこれに限定されない。例えば、基本の音声認識辞書101Aに基づき算出される類似度よりも、地域別の音声認識辞書102A〜102Aに基づき算出される類似度の方が小さい場合であっても、その差が所定値以下であるときには、地域別の音声認識辞書102A〜102Aを優先的に用いて音声認識を行うようにしてもよい。 Here, recognition in favor of the latter when the degree of similarity calculated based on the basic voice recognition dictionary 101A, and the degree of similarity is calculated based on the regional speech recognition dictionary 102A 1 ~102A n was the same However, the present invention is not limited to this. For example, than the degree of similarity calculated based on the basic voice recognition dictionary 101A, even when towards the similarity calculated based on regional speech recognition dictionary 102A 1 ~102A n is small, the difference is given when it is below that may perform speech recognition using the regional speech recognition dictionary 102A 1 ~102A n preferentially.

図2は、以上のように構成した本実施形態による音声認識装置100の動作例を示すフローチャートである。図2に示すフローチャートは、例えば、ナビゲーション装置300において音声認識機能をオンにするユーザ操作が行われたときに開始する。 FIG. 2 is a flowchart showing an operation example of the voice recognition device 100 according to the present embodiment configured as described above. The flowchart shown in FIG. 2 starts when, for example, a user operation for turning on the voice recognition function is performed in the navigation device 300.

まず、辞書有効化処理部12は、ナビゲーション装置300から自宅位置の位置情報を取得する(ステップS1)。次いで、辞書有効化処理部12は、地域別辞書記憶部102に記憶されている地域別の音声認識辞書102A〜102Aの中に、ステップS1で取得した位置情報が該当する地域の音声認識辞書があるか否かを判定する(ステップS2)。そして、該当する地域の音声認識辞書があると判定された場合、辞書有効化処理部12は、その該当する地域の音声認識辞書を有効化する(ステップS3)。 First, the dictionary activation processing unit 12 acquires the position information of the home position from the navigation device 300 (step S1). Next, the dictionary activation processing unit 12 performs voice recognition of the area to which the position information acquired in step S1 corresponds in the area- specific voice recognition dictionaries 102A 1 to 102A n stored in the area-specific dictionary storage unit 102. It is determined whether or not there is a dictionary (step S2). Then, when it is determined that there is a voice recognition dictionary in the corresponding area, the dictionary activation processing unit 12 activates the voice recognition dictionary in the corresponding area (step S3).

一方、該当する地域の音声認識辞書がないと判定された場合、ステップS3の処理は実行されず、処理はステップS4に遷移する。認識処理部11は、マイク200より発話音声を入力し(ステップS4)、基本辞書記憶部101に記憶されている基本の音声認識辞書101Aと、地域別辞書記憶部102に記憶されている地域別の音声認識辞書102A〜102Aのうち、辞書有効化処理部12により有効化された地域の音声認識辞書とを用いて、発話音声に対する音声認識を行う(ステップS5)。そして、その認識結果をナビゲーション装置300に出力して(ステップS6)、一連の処理を終了する。 On the other hand, if it is determined that there is no voice recognition dictionary in the corresponding area, the process of step S3 is not executed, and the process transitions to step S4. The recognition processing unit 11 inputs the uttered voice from the microphone 200 (step S4), and stores the basic voice recognition dictionary 101A stored in the basic dictionary storage unit 101 and the regional dictionary storage unit 102 for each region. of speech recognition dictionaries 102A 1 ~102A n, by using the validated local speech recognition dictionary by dictionary validation processing unit 12, performs the speech recognition for speech (step S5). Then, the recognition result is output to the navigation device 300 (step S6), and a series of processes is completed.

以上詳しく説明したように、本実施形態の音声認識装置100は、認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書100Aを記憶した基本辞書記憶部101の他に、認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書102A〜102Aを記憶した地域別辞書記憶部102を備える。そして、地域別の音声認識辞書102A〜102Aのうち、ナビゲーション装置300から取得される位置情報が該当する地域の音声認識辞書を有効化し、当該有効化した地域の音声認識辞書および基本の音声認識辞書101Aを用いて音声認識を行うようにしている。 As described in detail above, the voice recognition device 100 of the present embodiment has the recognition target word in addition to the basic dictionary storage unit 101 that stores the basic voice recognition dictionary 100A in which the basic readings are registered for the recognition target word. comprising a regional dictionary storage unit 102 which stores a regional voice recognition dictionary 102A 1 ~102A n the region-specific readings, which are registered for. Of the regional speech recognition dictionary 102A 1 ~102A n, position information obtained from the navigation device 300 will activate the voice recognition dictionary of the corresponding region, the activated voice speech recognition dictionary and basic regions Speech recognition is performed using the recognition dictionary 101A.

このように構成した本実施形態によれば、認識対象ワードに関して地域特有の読み方を知っているユーザが音声認識を行うときは、ナビゲーション装置300から取得される位置情報に基づいて、該当する地域の音声認識辞書を有効化して音声認識を行うことができる。これにより、地域特有の読み方を知っているユーザが、その地域特有の読み方で認識対象ワードを発話した場合にも、その発話音声を適切に認識することができる。 According to the present embodiment configured in this way, when a user who knows a region-specific reading of the recognition target word performs voice recognition, the region corresponds to the region based on the position information acquired from the navigation device 300. Speech recognition can be performed by enabling the speech recognition dictionary. As a result, even when a user who knows the reading method peculiar to the area utters the recognition target word in the reading method peculiar to the area, the spoken voice can be appropriately recognized.

一方、認識対象ワードに関して地域特有の読み方を知らないユーザが音声認識を行うときは、地域別の音声認識辞書102A〜102Aを有効化せず、基本の音声認識辞書101Aのみを用いて音声認識を行うことができる。これにより、地域特有の読み方を知らないユーザによる発話音声が、地域特有のヨミに該当すると誤認識されてしまうことを抑止することができる。 On the other hand, when the user does not know the region-specific reading with respect to the recognition objective word is speech recognition does not enable the regional speech recognition dictionary 102A 1 ~102A n, using only basic voice recognition dictionary 101A speech Can recognize. As a result, it is possible to prevent the uttered voice by a user who does not know the reading method peculiar to the region from being mistakenly recognized as corresponding to the Yomi peculiar to the region.

以上により、本実施形態によれば、地域特有の読み方を知っているユーザがその読み方で発話した場合にも、地域特有の読み方を知らないユーザが発話した場合にも、それぞれの発話音声を適切に認識することができる。 Based on the above, according to the present embodiment, each spoken voice is appropriate regardless of whether a user who knows the region-specific reading method speaks in that reading method or a user who does not know the region-specific reading method speaks. Can be recognized.

なお、上記実施形態では、ナビゲーション装置300から取得する位置情報として、ナビゲーション装置300に登録されている自宅の位置情報を用いる例について説明したが、本発明はこれに限らない。例えば、ナビゲーション装置300から取得される位置情報は、ナビゲーション装置300において検出される現在位置情報であってもよい。 In the above embodiment, an example in which the home position information registered in the navigation device 300 is used as the position information acquired from the navigation device 300 has been described, but the present invention is not limited to this. For example, the position information acquired from the navigation device 300 may be the current position information detected by the navigation device 300.

また、上記実施形態において、認識対象ワードを地名とし、辞書有効化処理部12は、ナビゲーション装置300において住所検索の実行が指示された場合にのみ、地域別の音声認識辞書102A〜102Aを有効化する処理を行うようにしてもよい。あるいは、認識対象ワードは施設名とし、辞書有効化処理部12は、ナビゲーション装置300において施設名検索の実行が指示された場合にのみ、地域別の音声認識辞書102A〜102Aを有効化する処理を行うようにしてもよい。あるいは、認識対象ワードを地名および施設名とし、辞書有効化処理部12は、ナビゲーション装置300において住所検索または施設名検索の実行が指示された場合にのみ、地域別の音声認識辞書102A〜102Aを有効化する処理を行うようにしてもよい。 In the above embodiment, the recognition target words as a place name, Dictionary validation processing unit 12 in the navigation device 300 only when the execution of the address search is instructed, the regional speech recognition dictionary 102A 1 ~102A n The process of activating may be performed. Alternatively, the recognition target words as a facility name dictionary validation processing unit 12, only when the execution of the facility name retrieval in the navigation apparatus 300 is instructed, to enable the regional voice recognition dictionary 102A 1 ~102A n The process may be performed. Alternatively, the recognition target word is a place name and a facility name, and the dictionary activation processing unit 12 sets the region-specific voice recognition dictionary 102A 1 to 102A only when the navigation device 300 is instructed to execute the address search or the facility name search. A process for activating n may be performed.

このようにすれば、ナビゲーション装置300の用途に応じて必要なときにのみ地域別の音声認識辞書102A〜102Aを有効化するようにすることができる。これにより、無用なときに地域別の音声認識辞書102A〜102Aが有効化されて、本来は基本の音声認識辞書101Aに基づき認識されるべき発話音声が、有効化された地域の音声認識辞書に基づき認識されてしまうといった誤認識が生じる可能性を低減することができる。 Thus, it can be made to enable the regional speech recognition dictionary 102A 1 ~102A n only when necessary depending on the application of the navigation device 300. Thereby, it is enabled the regional speech recognition dictionary 102A 1 ~102A n when unnecessary, the speech should originally be recognized based on the basic voice recognition dictionary 101A, voice recognition Enabled areas It is possible to reduce the possibility of erroneous recognition such as recognition based on a dictionary.

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。 In addition, the above embodiments are merely examples of embodiment of the present invention, and the technical scope of the present invention should not be construed in a limited manner. That is, the present invention can be implemented in various forms without departing from its gist or its main features.

11 認識処理部
12 辞書有効化処理部
100 音声認識装置
101 基本辞書記憶部
101A 基本の音声認識辞書
102 地域別辞書記憶部
102A〜102A 地域別の音声認識辞書
300 ナビゲーション装置
11 recognition processing section 12 Dictionary validation processing unit 100 the speech recognition apparatus 101 basic dictionary storage unit 101A basic speech recognition dictionary 102 Region dictionary storage unit 102A 1 ~102A n regional speech recognition dictionary 300 navigation device

Claims (9)

ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識装置であって、
上記認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書を記憶した基本辞書記憶部と、
上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書を記憶した地域別辞書記憶部と、
上記地域別辞書記憶部に記憶されている上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する辞書有効化処理部と、
上記基本辞書記憶部に記憶されている上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う認識処理部とを備え、
上記認識対象ワードは地名であり、
上記辞書有効化処理部は、上記ナビゲーション装置において住所検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行うことを特徴とする音声認識装置。
It is a voice recognition device that performs voice recognition based on the degree of similarity between the voice spoken by the user and the Yomi of the recognition target word registered in the voice recognition dictionary.
A basic dictionary storage unit that stores a basic speech recognition dictionary in which basic Yomi is registered for the above recognition target word,
A regional dictionary storage unit that stores regional voice recognition dictionaries in which region-specific Yomi is registered for the above recognition target words,
Among the above-mentioned area-specific voice recognition dictionaries stored in the above-mentioned area-specific dictionary storage unit, a dictionary activation processing unit that activates the area-specific voice recognition dictionary whose location information acquired from the navigation device corresponds
It is provided with a recognition processing unit that performs voice recognition using the basic voice recognition dictionary stored in the basic dictionary storage unit and the voice recognition dictionary in the area activated by the dictionary activation processing unit.
The above recognition target word is a place name,
The dictionary activation processing unit is a voice recognition device characterized in that it performs processing for activating a voice recognition dictionary in the area only when the navigation device is instructed to execute an address search.
ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識装置であって、
上記認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書を記憶した基本辞書記憶部と、
上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書を記憶した地域別辞書記憶部と、
上記地域別辞書記憶部に記憶されている上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する辞書有効化処理部と、
上記基本辞書記憶部に記憶されている上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う認識処理部とを備え、
上記認識対象ワードは施設名であり、
上記辞書有効化処理部は、上記ナビゲーション装置において施設名検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行うことを特徴とする音声認識装置。
It is a voice recognition device that performs voice recognition based on the degree of similarity between the voice spoken by the user and the Yomi of the recognition target word registered in the voice recognition dictionary.
A basic dictionary storage unit that stores a basic speech recognition dictionary in which basic Yomi is registered for the above recognition target word,
A regional dictionary storage unit that stores regional voice recognition dictionaries in which region-specific Yomi is registered for the above recognition target words,
Among the above-mentioned area-specific voice recognition dictionaries stored in the above-mentioned area-specific dictionary storage unit, a dictionary activation processing unit that activates the area-specific voice recognition dictionary whose location information acquired from the navigation device corresponds
It is provided with a recognition processing unit that performs voice recognition using the basic voice recognition dictionary stored in the basic dictionary storage unit and the voice recognition dictionary in the area activated by the dictionary activation processing unit.
The above recognition target word is the facility name,
The dictionary activation processing unit is a voice recognition device characterized in that it performs processing for activating a voice recognition dictionary in the area only when the navigation device is instructed to execute a facility name search.
ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識装置であって、
上記認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書を記憶した基本辞書記憶部と、
上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書を記憶した地域別辞書記憶部と、
上記地域別辞書記憶部に記憶されている上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する辞書有効化処理部と、
上記基本辞書記憶部に記憶されている上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う認識処理部とを備え、
上記認識対象ワードは地名および施設名であり、
上記辞書有効化処理部は、上記ナビゲーション装置において住所検索または施設名検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行うことを特徴とする音声認識装置。
It is a voice recognition device that performs voice recognition based on the degree of similarity between the voice spoken by the user and the Yomi of the recognition target word registered in the voice recognition dictionary.
A basic dictionary storage unit that stores a basic speech recognition dictionary in which basic Yomi is registered for the above recognition target word,
A regional dictionary storage unit that stores regional voice recognition dictionaries in which region-specific Yomi is registered for the above recognition target words,
Among the above-mentioned area-specific voice recognition dictionaries stored in the above-mentioned area-specific dictionary storage unit, a dictionary activation processing unit that activates the area-specific voice recognition dictionary whose location information acquired from the navigation device corresponds
It is provided with a recognition processing unit that performs voice recognition using the basic voice recognition dictionary stored in the basic dictionary storage unit and the voice recognition dictionary in the area activated by the dictionary activation processing unit.
The above recognition target words are place names and facility names.
The dictionary activation processing unit is a voice recognition device characterized in that it performs a process of activating a voice recognition dictionary in the area only when the navigation device is instructed to execute an address search or a facility name search.
上記辞書有効化処理部は、上記地域別辞書記憶部に記憶されている上記地域別の音声認識辞書の中に、上記位置情報が該当する地域の音声認識辞書があるか否かを判定し、あると判定された場合に、上記該当する地域の音声認識辞書を有効化するようになされ、
上記認識処理部は、上記辞書有効化処理部により有効化された地域の音声認識辞書がある場合、上記基本の音声認識辞書よりも上記有効化された地域の音声認識辞書を優先的に用いて上記音声認識を行うことを特徴とする請求項1〜3の何れか1項に記載の音声認識装置。
The dictionary activation processing unit determines whether or not there is a voice recognition dictionary for the area to which the location information corresponds in the voice recognition dictionary for each area stored in the dictionary storage unit for each area. When it is determined that there is, the voice recognition dictionary of the above applicable area is enabled.
When the recognition processing unit has a local voice recognition dictionary activated by the dictionary activation processing unit, the recognition processing unit preferentially uses the activated local voice recognition dictionary over the basic voice recognition dictionary. The voice recognition device according to any one of claims 1 to 3, wherein the voice recognition is performed.
上記ナビゲーション装置から取得される位置情報は、上記ナビゲーション装置に登録されている自宅の位置情報であることを特徴とする請求項1〜4の何れか1項に記載の音声認識装置。 The voice recognition device according to any one of claims 1 to 4, wherein the position information acquired from the navigation device is home position information registered in the navigation device. 上記ナビゲーション装置から取得される位置情報は、上記ナビゲーション装置において検出される現在位置情報であることを特徴とする請求項1〜4の何れか1項に記載の音声認識装置。 The voice recognition device according to any one of claims 1 to 4, wherein the position information acquired from the navigation device is the current position information detected by the navigation device. 認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書と、上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書とを有する音声認識装置において、ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識方法であって、
上記音声認識装置の辞書有効化処理部が、上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する第1のステップと、
上記音声認識装置の認識処理部が、上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う第2のステップとを有し、
上記認識対象ワードは地名であり、
前記第のステップにおいて、上記辞書有効化処理部は、上記ナビゲーション装置において住所検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行う
ことを特徴とする音声認識方法。
Speaking by the user in a voice recognition device having a basic voice recognition dictionary in which basic yomi is registered for the recognition target word and a region-specific voice recognition dictionary in which region-specific yomi is registered for the recognition target word. It is a voice recognition method that performs voice recognition based on the degree of similarity between voice and Yomi of the recognition target word registered in the voice recognition dictionary.
The first step in which the dictionary activation processing unit of the voice recognition device activates the voice recognition dictionary of the area to which the position information acquired from the navigation device is applicable among the voice recognition dictionaries for each area.
The recognition processing unit of the voice recognition device has a second step of performing the voice recognition using the basic voice recognition dictionary and the voice recognition dictionary of the area activated by the dictionary activation processing unit. And
The above recognition target word is a place name,
In the first step, the dictionary activation processing unit performs a process of activating the voice recognition dictionary in the area only when the navigation device is instructed to execute the address search. Recognition method.
認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書と、上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書とを有する音声認識装置において、ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識方法であって、
上記音声認識装置の辞書有効化処理部が、上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する第1のステップと、
上記音声認識装置の認識処理部が、上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う第2のステップとを有し、
上記認識対象ワードは施設名であり、
上記第のステップにおいて、上記辞書有効化処理部は、上記ナビゲーション装置において施設名検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行う
ことを特徴とする音声認識方法。
Speaking by the user in a voice recognition device having a basic voice recognition dictionary in which basic yomi is registered for the recognition target word and a region-specific voice recognition dictionary in which region-specific yomi is registered for the recognition target word. It is a voice recognition method that performs voice recognition based on the degree of similarity between voice and Yomi of the recognition target word registered in the voice recognition dictionary.
The first step in which the dictionary activation processing unit of the voice recognition device activates the voice recognition dictionary of the area to which the position information acquired from the navigation device is applicable among the voice recognition dictionaries for each area.
The recognition processing unit of the voice recognition device has a second step of performing the voice recognition using the basic voice recognition dictionary and the voice recognition dictionary of the area activated by the dictionary activation processing unit. And
The above recognition target word is the facility name,
In the first step, the dictionary activation processing unit performs a process of activating the voice recognition dictionary in the area only when the navigation device is instructed to execute the facility name search. Voice recognition method.
認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書と、上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書とを有する音声認識装置において、ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識方法であって、
上記音声認識装置の辞書有効化処理部が、上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する第1のステップと、
上記音声認識装置の認識処理部が、上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う第2のステップとを有し、
上記認識対象ワードは地名および施設名であり、
上記第のステップにおいて、上記辞書有効化処理部は、上記ナビゲーション装置において住所検索または施設名検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行う
ことを特徴とする音声認識方法。
Speaking by the user in a voice recognition device having a basic voice recognition dictionary in which basic yomi is registered for the recognition target word and a region-specific voice recognition dictionary in which region-specific yomi is registered for the recognition target word. It is a voice recognition method that performs voice recognition based on the degree of similarity between voice and Yomi of the recognition target word registered in the voice recognition dictionary.
The first step in which the dictionary activation processing unit of the voice recognition device activates the voice recognition dictionary of the area to which the position information acquired from the navigation device is applicable among the voice recognition dictionaries for each area.
The recognition processing unit of the voice recognition device has a second step of performing the voice recognition using the basic voice recognition dictionary and the voice recognition dictionary of the area activated by the dictionary activation processing unit. And
The above recognition target words are place names and facility names.
In the first step, the dictionary activation processing unit performs a process of activating the voice recognition dictionary in the area only when the navigation device is instructed to execute the address search or the facility name search. Characteristic voice recognition method.
JP2017106225A 2017-05-30 2017-05-30 Speech recognition device and speech recognition method Active JP6896335B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017106225A JP6896335B2 (en) 2017-05-30 2017-05-30 Speech recognition device and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017106225A JP6896335B2 (en) 2017-05-30 2017-05-30 Speech recognition device and speech recognition method

Publications (2)

Publication Number Publication Date
JP2018200452A JP2018200452A (en) 2018-12-20
JP6896335B2 true JP6896335B2 (en) 2021-06-30

Family

ID=64667158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017106225A Active JP6896335B2 (en) 2017-05-30 2017-05-30 Speech recognition device and speech recognition method

Country Status (1)

Country Link
JP (1) JP6896335B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7322782B2 (en) * 2020-03-27 2023-08-08 富士通株式会社 Information providing program, information providing method and information processing device
BR112022023901A2 (en) * 2020-05-28 2022-12-27 Jfe Steel Corp INFORMATION SEARCH SYSTEM
CN111651976B (en) * 2020-07-07 2023-08-25 中国银行股份有限公司 Name broadcasting method and device
US20230326453A1 (en) * 2022-04-08 2023-10-12 Palantir Technologies Inc. Approaches of augmenting outputs from speech recognition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005227369A (en) * 2004-02-10 2005-08-25 Matsushita Electric Ind Co Ltd Voice recognition device, and method, and vehicle mounted navigation system
JP4855421B2 (en) * 2005-12-14 2012-01-18 三菱電機株式会社 Voice recognition device
JP4816409B2 (en) * 2006-01-10 2011-11-16 日産自動車株式会社 Recognition dictionary system and updating method thereof
JP5009037B2 (en) * 2007-04-20 2012-08-22 クラリオン株式会社 Speech recognition apparatus and speech recognition method thereof
JP2010197644A (en) * 2009-02-25 2010-09-09 Gifu Univ Speech recognition system

Also Published As

Publication number Publication date
JP2018200452A (en) 2018-12-20

Similar Documents

Publication Publication Date Title
JP6896335B2 (en) Speech recognition device and speech recognition method
US20190370398A1 (en) Method and apparatus for searching historical data
JP5334178B2 (en) Speech recognition apparatus and data update method
US9779723B2 (en) Multi-pass vehicle voice recognition systems and methods
US8255216B2 (en) Speech recognition of character sequences
JP5957269B2 (en) Voice recognition server integration apparatus and voice recognition server integration method
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
US9202459B2 (en) Methods and systems for managing dialog of speech systems
US20090112593A1 (en) System for recognizing speech for searching a database
US8532990B2 (en) Speech recognition of a list entry
KR20080033070A (en) Adaptive context for automatic speech recognition systems
US8108215B2 (en) Speech recognition apparatus and method
US10950229B2 (en) Configurable speech interface for vehicle infotainment systems
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
WO2011121649A1 (en) Voice recognition apparatus
JP2013512476A (en) Speech recognition using multiple dictionaries
US20170270923A1 (en) Voice processing device and voice processing method
US20080126090A1 (en) Method For Speech Recognition From a Partitioned Vocabulary
US20200193985A1 (en) Domain management method of speech recognition system
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
JP6100101B2 (en) Candidate selection apparatus and candidate selection method using speech recognition
KR101063159B1 (en) Address Search using Speech Recognition to Reduce the Number of Commands
JP4661379B2 (en) In-vehicle speech recognition device
JP4282354B2 (en) Voice recognition device
JP2005031260A (en) Method and apparatus for information processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210608

R150 Certificate of patent or registration of utility model

Ref document number: 6896335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150