JP6805431B2 - Voice recognition device - Google Patents

Voice recognition device Download PDF

Info

Publication number
JP6805431B2
JP6805431B2 JP2017079219A JP2017079219A JP6805431B2 JP 6805431 B2 JP6805431 B2 JP 6805431B2 JP 2017079219 A JP2017079219 A JP 2017079219A JP 2017079219 A JP2017079219 A JP 2017079219A JP 6805431 B2 JP6805431 B2 JP 6805431B2
Authority
JP
Japan
Prior art keywords
voice recognition
utterance content
voice
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017079219A
Other languages
Japanese (ja)
Other versions
JP2018180260A (en
Inventor
謙太郎 中村
謙太郎 中村
貴章 伊藤
貴章 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Engineering and Consulting Ltd
Original Assignee
Computer Engineering and Consulting Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Engineering and Consulting Ltd filed Critical Computer Engineering and Consulting Ltd
Priority to JP2017079219A priority Critical patent/JP6805431B2/en
Publication of JP2018180260A publication Critical patent/JP2018180260A/en
Application granted granted Critical
Publication of JP6805431B2 publication Critical patent/JP6805431B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置に関する。 The present invention relates to a voice recognition device.

発話者の発話音声を取得し、取得した音声の発話内容に基づいて予め登録された音声認識データベース(音声認識辞書)を参照して、音声認識を行う音声認識装置が知られている。 There is known a voice recognition device that acquires a speaker's uttered voice and refers to a voice recognition database (speech recognition dictionary) registered in advance based on the utterance content of the acquired voice to perform voice recognition.

例えば、施設名全体の読みの第1の認識語と、施設名の先頭の音節を母音の音節に置き換えた第2の認識語を認識辞書内に準備し、施設名の先頭の子音を取りこぼした場合、第2の認識語との相関により音声認識を行う技術が知られている(例えば、特許文献1参照)。 For example, the first recognition word in the reading of the entire facility name and the second recognition word in which the first syllable of the facility name is replaced with a vowel syllable are prepared in the recognition dictionary, and the first consonant of the facility name is omitted. In this case, a technique for performing speech recognition by correlating with a second recognition word is known (see, for example, Patent Document 1).

特開2001−83983号公報Japanese Unexamined Patent Publication No. 2001-83983

特許文献1に開示された音声認識装置では、施設名の第2の認識語が、予め認識辞書内に登録されていない場合、第2の認識語を利用することができないため、認識率を上げることは困難である。 In the voice recognition device disclosed in Patent Document 1, if the second recognition word of the facility name is not registered in the recognition dictionary in advance, the second recognition word cannot be used, so that the recognition rate is increased. That is difficult.

本発明の実施の形態は、上記の問題点に鑑みてなされたものであって、取得した音声の発話内容に基づいて、音声認識データベースを参照して音声認識を行う音声認識装置において、音声認識データベースに予め登録されていない発話内容の認識率を向上させる。 An embodiment of the present invention has been made in view of the above problems, and is used in a voice recognition device that performs voice recognition by referring to a voice recognition database based on the utterance content of the acquired voice. Improve the recognition rate of speech content that is not registered in the database in advance.

上記の課題を解決するため、本発明の一実施形態に係る音声認識装置は、発話者の音声を取得し、取得した音声の発話内容に基づいて音声認識データベースを参照して、前記発話内容に対応する目的語を決定する音声認識を行う音声認識装置であって、前記音声認識に失敗し、かつ前記音声認識とは別の方法で前記目的語が設定された場合、前記音声認識に失敗した前記発話内容、及び前記設定された目的語を母音に変換する変換部と、前記音声認識に失敗した前記発話内容の母音と、前記設定された目的語の母音との一致率を判定する判定部と、前記判定部が判定した一致率が閾値以上である場合、前記音声認識に失敗した前記発話内容と、前記設定された目的語とを対応付けて前記音声認識データベースに登録する登録部と、を有する。 In order to solve the above problem, the voice recognition device according to the embodiment of the present invention acquires the voice of the speaker, refers to the voice recognition database based on the utterance content of the acquired voice, and obtains the utterance content. A voice recognition device that performs voice recognition to determine a corresponding object, and when the voice recognition fails and the target word is set by a method different from the voice recognition, the voice recognition fails. A determination unit that determines the matching rate between the utterance content and the conversion unit that converts the set target word into a vowel, the vowel of the utterance content that failed in voice recognition, and the vowel of the set target word. When the match rate determined by the determination unit is equal to or greater than the threshold value, the registration unit that registers the utterance content that failed in the voice recognition and the set target word in the voice recognition database. Have.

本発明の実施形態では、音声認識装置が音声認識に失敗した場合でも、母音の認識は正しい傾向があることに着目し、音声認識に失敗した発話内容と、設定された目的語の母音の一致率が閾値以上である場合、両者を対応付けて音声認識データベースに登録する。 In the embodiment of the present invention, attention is paid to the fact that the recognition of vowels tends to be correct even when the voice recognition device fails in voice recognition, and the utterance content in which the voice recognition fails and the vowels of the set object match. If the rate is equal to or higher than the threshold value, both are associated and registered in the speech recognition database.

これにより、音声認識に失敗した発話内容に対応する目的語が、音声認識データベースに自動的に登録されるので、音声認識データベースに予め登録されていない発話内容の認識率を向上させることができるようになる。 As a result, the object corresponding to the utterance content that failed in voice recognition is automatically registered in the voice recognition database, so that the recognition rate of the utterance content that is not registered in advance in the voice recognition database can be improved. become.

本発明の実施の形態によれば、取得した音声の発話内容に基づいて、音声認識データベースを参照して音声認識を行う音声認識装置において、予め音声認識データベースに登録されていない発話内容の認識率を向上させることができる。 According to the embodiment of the present invention, in the voice recognition device that performs voice recognition by referring to the voice recognition database based on the acquired voice utterance content, the recognition rate of the utterance content that is not registered in the voice recognition database in advance. Can be improved.

一実施形態に係る音声認識装置の構成と処理の一例を示す図(1)である。It is a figure (1) which shows an example of the structure and processing of the voice recognition apparatus which concerns on one Embodiment. 一実施形態に係る母音への変換、及び認識データベースへの登録について説明するための図である。It is a figure for demonstrating the conversion into a vowel and the registration in a recognition database which concerns on one Embodiment. 一実施形態に係る音声認識装置の構成と処理の一例を示す図(2)である。It is a figure (2) which shows an example of the structure and processing of the voice recognition apparatus which concerns on one Embodiment. 一実施形態に係る音声認識装置の処理の流れを示すフローチャートである。It is a flowchart which shows the process flow of the voice recognition apparatus which concerns on one Embodiment.

以下、図面を参照して発明を実施するための形態について説明する。 Hereinafter, modes for carrying out the invention will be described with reference to the drawings.

<音声認識装置の構成>
図1は、一実施形態に係る音声認識装置の構成と処理の一例を示す図(1)である。音声認識装置100は、発話者の音声を取得し、取得した音声の発話内容に基づいて音声認識データベース(以下、認識DBと呼ぶ)140を参照して、発話内容に対応する目的語(例えば、目的地等)を決定する音声認識を行う情報処理装置である。
<Configuration of voice recognition device>
FIG. 1 is a diagram (1) showing an example of the configuration and processing of the voice recognition device according to the embodiment. The voice recognition device 100 acquires the voice of the speaker, refers to the voice recognition database (hereinafter referred to as recognition DB) 140 based on the utterance content of the acquired voice, and refers to the object word (for example, for example) corresponding to the utterance content. It is an information processing device that performs voice recognition to determine the destination, etc.).

音声認識装置100は、一般的なコンピュータのハードウェア構成を有しており、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、ストレージ装置、表示装置、及び入力装置等を有する。 The voice recognition device 100 has a general computer hardware configuration, for example, a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), a storage device, a display device, and a display device. It has an input device and the like.

また、音声認識装置100は、CPUで所定のプログラムを実行することにより、図1に示す音声認識部110、目的語設定部120、登録処理部130、及び認識DB140等を実現している。 Further, the voice recognition device 100 realizes the voice recognition unit 110, the object setting unit 120, the registration processing unit 130, the recognition DB 140, and the like shown in FIG. 1 by executing a predetermined program on the CPU.

音声認識部110は、音声認識装置100の外部又は内部に設けられたマイク等を用いて発話者の音声を取得し、取得した音声の発話内容(例えば、音声データ)で認識DB140を検索して、発話内容に対応する目的語を決定する音声認識を行う。音声認識部110は、例えば、音声認識装置100のCPUで実行されるプログラムによって実現される。或いは、音声認識部110は、専用のモジュールやマイコン(マイクロコンピュータ)等によって実現されるものであっても良い。 The voice recognition unit 110 acquires the voice of the speaker using a microphone or the like provided outside or inside the voice recognition device 100, and searches the recognition DB 140 for the utterance content (for example, voice data) of the acquired voice. , Performs voice recognition to determine the target word corresponding to the utterance content. The voice recognition unit 110 is realized by, for example, a program executed by the CPU of the voice recognition device 100. Alternatively, the voice recognition unit 110 may be realized by a dedicated module, a microcomputer (microcomputer), or the like.

音声認識部110によって決定される目的語は、例えば、ナビゲーション装置等に設定する「目的地」等の情報である。また、目的語は、目的地に限られず、例えば、ナビゲーション装置等の情報処理装置に対する操作の指示等の情報であっても良い。ここでは、目的語が、ナビゲーション装置に設定する目的地であるものとして、以下の説明を行う。 The object determined by the voice recognition unit 110 is, for example, information such as a "destination" set in a navigation device or the like. Further, the object is not limited to the destination, and may be, for example, information such as an operation instruction to an information processing device such as a navigation device. Here, the following description will be given assuming that the object is the destination set in the navigation device.

音声認識部110は、取得した音声の発話内容で認識DB140を検索し、発話内容に対応する目的語が検索された場合(音声認識に成功した場合)、検索された目的語を、例えば、ナビゲーション装置の目的地として設定(決定)する。一方、音声認識部110は、発話内容に対応する目的語が検索されなかった場合(音声認識に失敗した場合)、音声認識に失敗した発話内容を、音声認識装置100のRAMやストレージ装置等の記憶部に記憶する。 The voice recognition unit 110 searches the recognition DB 140 based on the utterance content of the acquired voice, and when the object corresponding to the utterance content is searched (when the voice recognition is successful), the searched object is navigated, for example. Set (determine) as the destination of the device. On the other hand, when the target word corresponding to the utterance content is not searched (when the voice recognition fails), the voice recognition unit 110 transmits the utterance content for which the voice recognition fails to the RAM, the storage device, or the like of the voice recognition device 100. Store in the storage section.

目的語設定部120は、例えば、音声認識装置100のCPUで実行されるプログラムによって実現され、音声認識部110が音声認識に失敗したときに、失敗した音声認識とは別の方法で目的語の設定を行うための手段である。 The object setting unit 120 is realized by, for example, a program executed by the CPU of the voice recognition device 100, and when the voice recognition unit 110 fails in voice recognition, the object is set by a method different from the failed voice recognition. It is a means for making settings.

なお、目的語設定部120による、目的語の設定を行う別の方法は、任意の方法であって良い。 The other method for setting the object by the object setting unit 120 may be any method.

例えば、目的語設定部120は、音声認識部110を用いて、音声認識のリトライにより、目的語を設定するものであって良い。この場合、発話者は、例えば、声の大きさ、アクセント、発話速度等を代えて、発話を繰り返すことにより、目的語を設定する。 For example, the object setting unit 120 may use the voice recognition unit 110 to set the object by retrying voice recognition. In this case, the speaker sets the object by repeating the utterance, for example, by changing the loudness, accent, utterance speed, and the like of the voice.

また、別の一例として、発話者は、音声認識に失敗した発話内容(例えば「モレロ皮膚」)の一部(例えば「モレロ」)を発話し、表示装置に表示された「モレロ」に対応する1つ以上の候補の中から、目的語(例えば「モレロ岐阜」)を選択し目的語を設定するもの等であっても良い。 Further, as another example, the speaker utters a part (for example, "Morero") of the utterance content (for example, "Morero skin") that fails in voice recognition, and corresponds to the "Morero" displayed on the display device. From one or more candidates, an object (for example, "Morero Gifu") may be selected and the object may be set.

さらに、別の一例として、発話者は、音声認識装置100の表示装置に表示されたソフトウェアキーボードや、リモコン等を用いて、目的語を示す文字列を音声認識装置100に入力し目的語を設定するもの等であっても良い。 Further, as another example, the speaker sets the object by inputting the character string indicating the object into the voice recognition device 100 by using the software keyboard displayed on the display device of the voice recognition device 100, the remote controller, or the like. It may be something that does.

目的語設定部120は、設定された目的語を、例えば、ナビゲーション装置の目的地として設定(決定)すると共に、設定された目的語を、音声認識装置100のRAMやストレージ装置等の記憶部に記憶する。 The object setting unit 120 sets (determines) the set object as, for example, the destination of the navigation device, and sets the set object in a storage unit such as a RAM or a storage device of the voice recognition device 100. Remember.

登録処理部130は、音声認識部110が音声認識に失敗し、かつ目的語設定部120により目的語が設定された場合、音声認識に失敗した発話内容と、設定された目的語とを対応付けて認識DB140に登録する登録処理を実行する。登録処理部130は、例えば、音声認識装置100のCPUで実行されるプログラムによって実現され、図1に示すように、変換部131、判定部132、及び登録部133等を含む。 When the voice recognition unit 110 fails in voice recognition and the object is set by the object setting unit 120, the registration processing unit 130 associates the utterance content in which the voice recognition fails with the set object. The registration process for registering in the recognition DB 140 is executed. The registration processing unit 130 is realized by, for example, a program executed by the CPU of the voice recognition device 100, and includes a conversion unit 131, a determination unit 132, a registration unit 133, and the like, as shown in FIG.

変換部131は、音声認識部110が記憶部に記憶した「音声認識に失敗した発話内容」、及び目的語設定部120が記憶部に記憶した「設定された目的語」を、それぞれ、母音に変換する。 The conversion unit 131 converts the "speech content that failed in voice recognition" stored in the storage unit by the voice recognition unit 110 and the "set object" stored in the storage unit by the object setting unit 120 into vowels, respectively. Convert.

例えば、音声認識に失敗した発話内容が、「モレロ皮膚」である場合、変換部131は、例えば、取得した音声の発話内容を解析し、図2(a)に示すように、「モレロ皮膚」のカナ「モレロヒフ」を抽出する。例えば、変換部131は、発話内容「モレロ皮膚」を音声認識し、文字変換することにより、カナ「モレロヒフ」を抽出する。 For example, when the utterance content for which voice recognition has failed is "morero skin", the conversion unit 131 analyzes, for example, the utterance content of the acquired voice, and as shown in FIG. 2A, "morero skin". Extract the kana "Morerohifu". For example, the conversion unit 131 extracts the kana "Morerohifu" by voice-recognizing the utterance content "Morero skin" and converting the characters.

さらに、変換部131は、抽出したカナ「モレロヒフ」を、母音「オエオイウ」に変換する。 Further, the conversion unit 131 converts the extracted kana "Morerohifu" into the vowel "Oeoiu".

同様に、設定された目的語が、「モレロ岐阜」である場合、変換部131は、図2(b)に示すように、「モレロ岐阜」のカナ「モレロギフ」を、母音「オエオイウ」に変換する。 Similarly, when the set object is "Morero Gifu", the conversion unit 131 converts the kana "Morerogif" of "Morero Gifu" into the vowel "Oeoiu" as shown in FIG. 2 (b). To do.

なお、カナを母音に変換する方法は任意の方法であって良いが、例えば、全てのカナと、各カナに対応する母音とを記憶部に予め記憶しておくことにより、カナから母音に変換することができる。 The method of converting katakana to vowels may be any method, but for example, all katakana and vowels corresponding to each katakana are stored in the storage unit in advance to convert katakana to vowels. can do.

なお、撥音である「ん」は、直前に母音を伴う子音であり、母音に変換することができないので、例えば、母音に変換せず、そのまま「ん」として扱われる。(例えば、撥音「ん」は、母音と同様に扱われる。)
判定部132は、変換部131によって変換された、音声認識に失敗した発話内容の母音と、設定された目的語の母音との一致率を判定する。
The sound-repellent "n" is a consonant accompanied by a vowel immediately before, and cannot be converted into a vowel. Therefore, for example, it is treated as "n" without being converted into a vowel. (For example, the nasal "n" is treated in the same way as a vowel.)
The determination unit 132 determines the matching rate between the vowel of the utterance content that failed in voice recognition and the vowel of the set object, which is converted by the conversion unit 131.

例えば、図2(a)に示す、「モレロ皮膚」の母音「オエオイウ」と、図2(b)に示す「モレロ岐阜」の母音「オエオイウ」は、全ての母音が一致するので、一致率は100%となる。また、母音の数が5個であり、4つの母音が一致する場合、一致率は80%となる。この一致率は、例えば、次の式(1)で表される。
(一致率)=(一致した母音の数)/(母音の数)…(1)
なお、音声認識に失敗した発話内容の母音の数と、設定された目的語の母音の数が異なる場合は、例えば、設定された目的語の母音の数を、(母音の数)として用いることができる。或いは、音声認識に失敗した発話内容の母音の数と、設定された目的語の母音の数が異なる場合、例えば、母音の数が多い方(又は少ない方)を、(母音の数)として用いるもの等であっても良い。
For example, the vowel "Oeoiu" of "Morero skin" shown in FIG. 2A and the vowel "Oeoiu" of "Morero Gifu" shown in FIG. 2B match all the vowels, so the matching rate is high. It becomes 100%. Further, when the number of vowels is 5, and the four vowels match, the matching rate is 80%. This matching rate is expressed by, for example, the following equation (1).
(Match rate) = (Number of matched vowels) / (Number of vowels) ... (1)
If the number of vowels in the utterance that failed in speech recognition and the number of vowels in the set object are different, for example, the number of vowels in the set object should be used as (the number of vowels). Can be done. Alternatively, when the number of vowels of the utterance content for which voice recognition has failed and the number of vowels of the set object are different, for example, the one with the larger number (or the smaller number) of the vowels is used as the (number of vowels). It may be a thing or the like.

登録部133は、判定部132によって判定された一致率が、予め定められた閾値以上である場合、音声認識に失敗した発話内容(例えば「モレロ皮膚」)と、設定された目的語(例えば「モレロ岐阜」)とを対応付けて認識DB140に登録する。 When the matching rate determined by the determination unit 132 is equal to or higher than a predetermined threshold value, the registration unit 133 includes the utterance content (for example, "morero skin") that failed in voice recognition and the set object (for example, "" Morero Gifu ") is associated and registered in the recognition DB 140.

ここで、予め定められた閾値は、例えば、音声認識に失敗した発話内容の母音と、設定された目的語の母音とが一致すると判断するための値が、予め設定されているものとする。ここでは、予め定められた閾値が100%であるものとして、以下の説明を行う。なお、予め定められた閾値は、100%より小さい値(例えば、80〜99%等)であっても良い。 Here, it is assumed that the predetermined threshold value is set in advance, for example, a value for determining that the vowel of the utterance content for which voice recognition has failed and the vowel of the set object match. Here, the following description will be given assuming that the predetermined threshold value is 100%. The predetermined threshold value may be a value smaller than 100% (for example, 80 to 99%).

図2(c)は、発話内容と目的語とを対応付けて、認識DB140に登録された情報(以下、対応情報と呼ぶ)201のイメージを示している。図2(c)の例では、対応情報201には、音声認識に失敗した発話内容「モレロ皮膚」(音声データ、又は音声データから抽出された文字列)と、設定された目的語「モレロ岐阜」(例えば、文字列)とが対応付けられて記憶されている。これにより、音声認識部110は、発話内容「モレロ皮膚」で認識DB140を検索した場合、検索結果として「モレロ岐阜」を取得することができるようになる。 FIG. 2C shows an image of information (hereinafter referred to as correspondence information) 201 registered in the recognition DB 140 by associating the utterance content with the object. In the example of FIG. 2C, the correspondence information 201 includes the utterance content "Morero skin" (voice data or a character string extracted from the voice data) for which voice recognition failed, and the set target word "Morero Gifu". "(For example, a character string) is stored in association with it. As a result, when the voice recognition unit 110 searches the recognition DB 140 based on the utterance content "Morero skin", the voice recognition unit 110 can acquire "Morero Gifu" as the search result.

認識DB(認識データベース)140は、音声認識部110による音声認識で用いられる音声認識辞書であり、音声認識の対象となる複数の目的語が予め登録されている。また、認識DB140には、目的語毎に、ナビゲーション装置等で用いられる様々な情報、例えば、座標情報、電話番号、施設情報等が、さらに記憶されているもの等であっても良い。 The recognition DB (recognition database) 140 is a voice recognition dictionary used in voice recognition by the voice recognition unit 110, and a plurality of objects to be voice recognition are registered in advance. Further, the recognition DB 140 may further store various information used in the navigation device or the like for each object, for example, coordinate information, telephone number, facility information, and the like.

音声認識部110は、例えば、発話者が発話した音声を取得し、取得した音声の発話内容(例えば、音声データ)で、認識DB140に登録された目的語を検索する。これにより、音声認識部110は、認識DB140に予め登録された複数の目的語の中から、取得した音声の発話内容に対応する目的語を、検索結果として取得することができる。 The voice recognition unit 110 acquires, for example, the voice spoken by the speaker, and searches for the target word registered in the recognition DB 140 from the utterance content (for example, voice data) of the acquired voice. As a result, the voice recognition unit 110 can acquire the object corresponding to the utterance content of the acquired voice as a search result from the plurality of objects registered in advance in the recognition DB 140.

さらに、本実施形態では、音声認識部110は、認識DB140に予め登録された複数の目的語の中に、取得した音声の発話内容に対応する目的語がない場合、図2(c)に示すような対応情報201から、発話内容に対応する目的語を検索結果として取得する。 Further, in the present embodiment, the voice recognition unit 110 shows in FIG. 2C when there is no object corresponding to the utterance content of the acquired voice among the plurality of objects registered in advance in the recognition DB 140. From such correspondence information 201, the object corresponding to the utterance content is acquired as a search result.

<処理の概要>
続いて、図1〜3を用いて、音声認識装置100の具体的な処理の一例について説明する。図1に示す音声認識装置100において、利用者(発話者)が、例えば、「モレロ岐阜」をナビゲーション装置の目的地に設定するために、音声認識装置100に対して、「モレロ岐阜」と発話するものとする。
<Outline of processing>
Subsequently, an example of specific processing of the voice recognition device 100 will be described with reference to FIGS. In the voice recognition device 100 shown in FIG. 1, the user (speaker) utters "Morero Gifu" to the voice recognition device 100 in order to set, for example, "Morero Gifu" as the destination of the navigation device. It shall be.

図1の(1)において、音声認識部110は、例えば、利用者が発話した発話内容「モレロ岐阜」で、認識DB140を検索するが、認識結果が「モレロ皮膚」となってしまい、検索(音声認識)に失敗したものとする。 In (1) of FIG. 1, the voice recognition unit 110 searches the recognition DB 140 with, for example, the utterance content "Morero Gifu" spoken by the user, but the recognition result becomes "Morero skin" and the search ( It is assumed that voice recognition) has failed.

図1の(2)において、目的語設定部120は、音声認識部110による音声認識が失敗した場合、失敗した音声認識とは別の方法で、利用者による目的語「モレロ岐阜」の設定を受付する。例えば、発話者は、声の大きさ、アクセント、発話速度等を代えて、「モレロ岐阜」の音声認識をリトライすることにより、目的語「モレロ岐阜」を設定する。 In (2) of FIG. 1, when the voice recognition by the voice recognition unit 110 fails, the object setting unit 120 sets the object "Morero Gifu" by the user by a method different from the failed voice recognition. To accept. For example, the speaker sets the object "Morero Gifu" by retrying the voice recognition of "Morero Gifu" by changing the loudness, accent, speech speed, etc. of the voice.

図1の(3)において、目的語設定部120は、利用者によって設定された目的語「モレロ岐阜」を、ナビゲーション装置等の目的地に決定する。 In (3) of FIG. 1, the object setting unit 120 determines the object "Morero Gifu" set by the user as the destination of the navigation device or the like.

また、音声認識装置100の登録処理部130は、音声認識部110による音声認識に失敗し、かつ目的語設定部120により目的語が設定された場合、(4)〜(6)に示す登録処理を実行する。 Further, when the voice recognition unit 130 fails in voice recognition by the voice recognition unit 110 and the object is set by the object setting unit 120, the registration processing unit 130 of the voice recognition device 100 performs the registration processing shown in (4) to (6). To execute.

図1の(4)において、変換部131は、音声認識に失敗した発話内容、及び設定された目的語を、それぞれ、母音に変換する。例えば、図2(a)に示すように、音声認識に失敗した発話内容「モレロ皮膚」は、母音「オエオイウ」に変換され、図2(b)に示すように、設定された目的地「モレロ岐阜」は、母音「オエオイウ」に変換される。 In (4) of FIG. 1, the conversion unit 131 converts the utterance content that failed in voice recognition and the set object into vowels, respectively. For example, as shown in FIG. 2 (a), the utterance content "Morero skin" that failed in voice recognition is converted into the vowel "Oeoiu", and as shown in FIG. 2 (b), the set destination "Morero" is converted. "Gifu" is converted to the vowel "Oeoiu".

図1の(5)において、判定部132は、変換部131が変換した、音声認識に失敗した発話内容の母音と、設定された目的語の母音との一致率を判定する。ここでは、音声認識に失敗した発話内容「モレロ皮膚」の母音「オエオイウ」と、設定された目的地「モレロ岐阜」の母音「オエオイウ」が一致するので、一致率は100%と判定される。 In (5) of FIG. 1, the determination unit 132 determines the matching rate between the vowel of the utterance content that failed in voice recognition and the vowel of the set object, which is converted by the conversion unit 131. Here, since the vowel "Oeoiu" of the utterance content "Morero skin" that failed in voice recognition and the vowel "Oeoiu" of the set destination "Morero Gifu" match, the match rate is determined to be 100%.

図1の(6)において、登録部133は、判定部132が判定した一致率が、閾値(例えば、100%)以上である場合、音声認識に失敗した発話内容「モレロ皮膚」と、設定された目的語「モレロ岐阜」とを対応付けて、認識DB140に登録する。ここでは、判定部132が判定した一致率100%は、閾値(100%)以上なので、登録部133は、例えば、図2(c)に示すように、「モレロ皮膚」と「モレロ岐阜」とを対応付けて、認識DB140の対応情報201に登録する。 In (6) of FIG. 1, when the match rate determined by the determination unit 132 is equal to or greater than a threshold value (for example, 100%), the registration unit 133 is set as the utterance content "morero skin" in which voice recognition fails. It is registered in the recognition DB 140 in association with the object "Morero Gifu". Here, since the matching rate of 100% determined by the determination unit 132 is equal to or greater than the threshold value (100%), the registration unit 133 refers to, for example, "Morero skin" and "Morero Gifu" as shown in FIG. 2C. Are associated with each other and registered in the corresponding information 201 of the recognition DB 140.

上記の処理により、認識DB140に、「モレロ皮膚」と「モレロ岐阜」とが対応付けて記憶され、認識DB140に予め登録されていなかった発話内容「モレロ皮膚」を用いて、検索結果として目的語「モレロ岐阜」を取得することができるようになる。 By the above processing, "Morero skin" and "Morero Gifu" are stored in the recognition DB 140 in association with each other, and the object word is used as the search result using the utterance content "Morero skin" that has not been registered in the recognition DB 140 in advance. You will be able to acquire "Morero Gifu".

これにより、例えば、図3の(7)に示すように、音声認識部110が、例えば、発話内容「モレロ皮膚」で認識DB140を検索すると、発話内容「モレロ皮膚」が、認識DB140で目的語「モレロ岐阜」に変換され、検索されるようになる。 As a result, for example, as shown in (7) of FIG. 3, when the voice recognition unit 110 searches for the recognition DB 140 in the utterance content "morero skin", the utterance content "morero skin" is the object in the recognition DB 140. It will be converted to "Morero Gifu" and will be searched.

このように、音声認識装置100は、音声認識に失敗した場合でも、母音の認識は正しい傾向があることに着目し、音声認識に失敗した発話内容と、設定された目的語の母音の一致率が閾値以上である場合、両者を対応付けて音声認識データベースに登録する。 In this way, the voice recognition device 100 pays attention to the fact that the recognition of vowels tends to be correct even when the voice recognition fails, and the matching rate between the utterance content in which the voice recognition fails and the vowel of the set target word. If is greater than or equal to the threshold value, the two are associated and registered in the speech recognition database.

従って、本実施形態によれば、取得した音声の発話内容に基づいて、音声認識データベース140を参照して音声認識を行う音声認識装置100において、音声認識データベースに予め登録されていない発話内容の認識率を向上させることができるようになる。 Therefore, according to the present embodiment, the voice recognition device 100 that performs voice recognition by referring to the voice recognition database 140 based on the acquired voice utterance content recognizes the utterance content that is not registered in the voice recognition database in advance. You will be able to improve the rate.

<処理の流れ>
続いて、本実施形態に係る音声認識方法の処理の流れについて説明する。この処理は、図1〜3で説明した処理の一例を一般化した処理の流れを示している。
<Processing flow>
Subsequently, the processing flow of the voice recognition method according to the present embodiment will be described. This process shows a generalized flow of an example of the process described with reference to FIGS. 1 to 3.

ステップS401において、音声認識装置100の音声認識部110は、発話者の音声を取得し、取得した音声の発話内容で認識DB140を検索する。 In step S401, the voice recognition unit 110 of the voice recognition device 100 acquires the voice of the speaker and searches the recognition DB 140 based on the utterance content of the acquired voice.

ステップS402において、音声認識部110は、取得した音声の発話内容に対応する目的語が検索されたか(音声認識に成功したか)を判断する。 In step S402, the voice recognition unit 110 determines whether the object corresponding to the utterance content of the acquired voice has been searched (successful voice recognition).

対応する目的語が検索された場合(音声認識に成功した場合)、音声認識部110は、処理をステップS403に移行させる。一方、対応する目的語が検索されなかった場合(音声認識に失敗した場合)、音声認識部110は、処理をステップS404、S405に移行させる。 When the corresponding object is searched (when the voice recognition is successful), the voice recognition unit 110 shifts the process to step S403. On the other hand, when the corresponding object is not searched (when the voice recognition fails), the voice recognition unit 110 shifts the process to steps S404 and S405.

ステップS403に移行すると、音声認識部110は、ステップS401で検索された目的語を、例えば、目的地に設定(決定)する。 When moving to step S403, the voice recognition unit 110 sets (determines), for example, the object searched in step S401 as the destination.

ステップS404に移行すると、音声認識部110は、音声認識に失敗した発話内容を、音声認識装置100のRAM、ストレージ装置等の記憶部に記憶する。 When the process proceeds to step S404, the voice recognition unit 110 stores the utterance content that failed in voice recognition in a storage unit such as a RAM or a storage device of the voice recognition device 100.

ステップS405に移行すると、音声認識装置100の目的語設定部120は、失敗した音声認識とは別の方法で目的語の設定を受付し、別の方法で設定された目的語を、例えば、目的地に設定(決定)する。 When the process proceeds to step S405, the object setting unit 120 of the voice recognition device 100 accepts the setting of the object by a method different from the failed voice recognition, and sets the object by another method, for example, the object. Set (decide) on the ground.

ステップS406において、目的語設定部120は、ステップS405で設定された目的語を、音声認識装置100のRAM、ストレージ装置等の記憶部に記憶する。 In step S406, the object setting unit 120 stores the object set in step S405 in a storage unit such as a RAM or a storage device of the voice recognition device 100.

上記の処理により、音声認識装置100が、利用者の発話、又は操作に応じて、目的地を設定する1つのセッション(処理)が完了する。一方、音声認識装置100の登録処理部130は、目的地を設定するセッションとは別に、図1の(4)〜(6)で説明した登録処理を、例えば、バッチ処理等で実行する。 By the above processing, one session (processing) in which the voice recognition device 100 sets the destination according to the utterance or operation of the user is completed. On the other hand, the registration processing unit 130 of the voice recognition device 100 executes the registration processing described in FIGS. 1 (4) to (6) separately from the session for setting the destination, for example, by batch processing or the like.

例えば、登録処理部130は、1つのセッションの中で、音声認識部110による音声認識に失敗し、かつ失敗した音声認識とは別の方法で目的語が設定された場合、ステップS407において、登録処理部130による登録処理を実行する。 For example, when the registration processing unit 130 fails in voice recognition by the voice recognition unit 110 in one session and the object is set by a method different from the failed voice recognition, the registration processing unit 130 registers in step S407. The registration process by the processing unit 130 is executed.

具体的には、図1を用いて前述したように、登録処理部130の変換部131は、ステップS404で記憶した音声認識に失敗した発話内容、及びステップS406で記憶した設定された目的語を、それぞれ、母音に変換する。 Specifically, as described above with reference to FIG. 1, the conversion unit 131 of the registration processing unit 130 transmits the utterance content that failed in voice recognition stored in step S404 and the set object stored in step S406. , Convert to vowels, respectively.

また、登録処理部130の判定部132は、変換部131が変換した、音声認識に失敗した発話内容の母音と、設定された目的語の母音との一致率を判定する。 Further, the determination unit 132 of the registration processing unit 130 determines the matching rate between the vowel of the utterance content that has failed in voice recognition and the vowel of the set object, which is converted by the conversion unit 131.

さらに、登録処理部130の登録部133は、判定部132が判定した一致率が閾値以上である場合、音声認識に失敗した発話内容と、設定された目的語とを対応付けて認識DB140に登録する。 Further, when the match rate determined by the determination unit 132 is equal to or greater than the threshold value, the registration unit 133 of the registration processing unit 130 registers the utterance content that failed in voice recognition and the set object in the recognition DB 140 in association with each other. To do.

上記の処理により、認識DB140には、予め登録された目的語に加えて、音声認識に失敗した発話内容に対応する目的語が、自動的に追加される。 By the above processing, in addition to the object registered in advance, the object corresponding to the utterance content in which the voice recognition fails is automatically added to the recognition DB 140.

これにより、音声認識装置100は、取得した音声の発話内容に基づいて、音声認識データベース140を参照して音声認識を行う音声認識装置100において、音声認識データベースに予め登録されていない発話内容の認識率を向上させることができるようになる。 As a result, the voice recognition device 100 recognizes the utterance content that is not registered in the voice recognition database in advance in the voice recognition device 100 that performs voice recognition by referring to the voice recognition database 140 based on the utterance content of the acquired voice. You will be able to improve the rate.

100 音声認識装置
110 音声認識部
120 目的語設定部
131 変換部
132 判定部
133 登録部
140 認識DB(音声認識データベース)
100 Speech recognition device 110 Speech recognition unit 120 Object setting unit 131 Conversion unit 132 Judgment unit 133 Registration unit 140 Recognition DB (speech recognition database)

Claims (1)

発話者の音声を取得し、取得した音声の発話内容に基づいて音声認識データベースを参照して、前記発話内容に対応する目的語を決定する音声認識を行う音声認識装置であって、
前記音声認識に失敗し、かつ前記音声認識とは別の方法で前記目的語が設定された場合、前記音声認識に失敗した前記発話内容、及び前記設定された目的語を母音に変換する変換部と、
前記音声認識に失敗した前記発話内容の母音と、前記設定された目的語の母音との一致率を判定する判定部と、
前記判定部が判定した一致率が閾値以上である場合、前記音声認識に失敗した前記発話内容と、前記設定された目的語とを対応付けて前記音声認識データベースに登録する登録部と、
を有する、音声認識装置。
A voice recognition device that acquires the voice of a speaker, refers to a voice recognition database based on the utterance content of the acquired voice, and performs voice recognition to determine an object corresponding to the utterance content.
When the voice recognition fails and the object is set by a method different from the voice recognition, the utterance content for which the voice recognition fails and the conversion unit that converts the set object into a vowel. When,
A determination unit that determines the matching rate between the vowel of the utterance content that failed in voice recognition and the vowel of the set object.
When the match rate determined by the determination unit is equal to or greater than the threshold value, the registration unit that registers the utterance content that failed in the voice recognition and the set object in the voice recognition database.
A voice recognition device.
JP2017079219A 2017-04-12 2017-04-12 Voice recognition device Active JP6805431B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017079219A JP6805431B2 (en) 2017-04-12 2017-04-12 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017079219A JP6805431B2 (en) 2017-04-12 2017-04-12 Voice recognition device

Publications (2)

Publication Number Publication Date
JP2018180260A JP2018180260A (en) 2018-11-15
JP6805431B2 true JP6805431B2 (en) 2020-12-23

Family

ID=64275341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017079219A Active JP6805431B2 (en) 2017-04-12 2017-04-12 Voice recognition device

Country Status (1)

Country Link
JP (1) JP6805431B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554298B (en) * 2020-05-18 2023-03-28 阿波罗智联(北京)科技有限公司 Voice interaction method, voice interaction equipment and electronic equipment

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276187A (en) * 1999-03-25 2000-10-06 Fuji Heavy Ind Ltd Method and device for voice recognition
JP2004094158A (en) * 2002-09-04 2004-03-25 Ntt Comware Corp Voiceprint authentication system utilizing vowel retrieval
JP2005331882A (en) * 2004-05-21 2005-12-02 Pioneer Electronic Corp Voice recognition device, method, and program
JP4816409B2 (en) * 2006-01-10 2011-11-16 日産自動車株式会社 Recognition dictionary system and updating method thereof
JP2008059389A (en) * 2006-08-31 2008-03-13 Mizuho Information & Research Institute Inc Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program
JP5263875B2 (en) * 2008-09-16 2013-08-14 インターナショナル・ビジネス・マシーンズ・コーポレーション Computer system, speech recognition method and computer program for speech recognition
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback

Also Published As

Publication number Publication date
JP2018180260A (en) 2018-11-15

Similar Documents

Publication Publication Date Title
JP5480760B2 (en) Terminal device, voice recognition method and voice recognition program
CN106663424B (en) Intention understanding device and method
JP6251958B2 (en) Utterance analysis device, voice dialogue control device, method, and program
US9275635B1 (en) Recognizing different versions of a language
US9558741B2 (en) Systems and methods for speech recognition
US20170263242A1 (en) Information processing device, information processing method, computer program product, and recognition system
JP6245846B2 (en) System, method and program for improving reading accuracy in speech recognition
JP4516112B2 (en) Speech recognition program
WO2013134641A2 (en) Recognizing speech in multiple languages
JP5868544B2 (en) Speech recognition apparatus and speech recognition method
JP2012194245A (en) Speech recognition device, speech recognition method and speech recognition program
US20120221335A1 (en) Method and apparatus for creating voice tag
JP2003504706A (en) Multi-mode data input device
EP3005152A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP6805431B2 (en) Voice recognition device
JP5901694B2 (en) Dictionary database management device, API server, dictionary database management method, and dictionary database management program
JP5611270B2 (en) Word dividing device and word dividing method
JP5343744B2 (en) Speech translation apparatus and speech translation method
KR101250897B1 (en) Apparatus for word entry searching in a portable electronic dictionary and method thereof
JP5596869B2 (en) Voice recognition device
JP3378547B2 (en) Voice recognition method and apparatus
US20150206539A1 (en) Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning
JP2010197709A (en) Voice recognition response method, voice recognition response system and program therefore
JP5474723B2 (en) Speech recognition apparatus and control program therefor
JP2006343405A (en) Speech-understanding device, speech-understanding method, method for preparing word/semantic expression merge database, its program and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20201026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201026

R150 Certificate of patent or registration of utility model

Ref document number: 6805431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250