JP2008046260A - Voice recognition device - Google Patents

Voice recognition device Download PDF

Info

Publication number
JP2008046260A
JP2008046260A JP2006220448A JP2006220448A JP2008046260A JP 2008046260 A JP2008046260 A JP 2008046260A JP 2006220448 A JP2006220448 A JP 2006220448A JP 2006220448 A JP2006220448 A JP 2006220448A JP 2008046260 A JP2008046260 A JP 2008046260A
Authority
JP
Japan
Prior art keywords
speech recognition
paraphrase
name
word
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006220448A
Other languages
Japanese (ja)
Other versions
JP4967519B2 (en
Inventor
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006220448A priority Critical patent/JP4967519B2/en
Publication of JP2008046260A publication Critical patent/JP2008046260A/en
Application granted granted Critical
Publication of JP4967519B2 publication Critical patent/JP4967519B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice recognition device which can register only the vocabularies actually used by a user as the target vocabularies for voice recognition. <P>SOLUTION: The signal processing unit 1 has an external memory 15 storing legitimate names as the target vocabularies for voice recognition. It creates other synonymous words from the legitimate names through the signal processor 11, and registers them in the external memory 15 as the vocabularies for voice recognition after evaluating how often they are used. It registers only the synonymous words estimated to be actually used often as the target vocabularies for voice recognition. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、使用者が発話した音声を認識する音声認識装置に関する。   The present invention relates to a speech recognition apparatus that recognizes speech uttered by a user.

従来より、音声認識装置としては、下記の特許文献1や特許文献2に記載された技術が知られている。   Conventionally, as a speech recognition apparatus, techniques described in Patent Document 1 and Patent Document 2 below are known.

特許文献1には、辞書作成ルールを定義することによって、効率的でかつユーザ発話様式に適した辞書を作成する技術が記載されている。また、特許文献1には、施設の正式名称を入力し、入力された施設の正式名称を形態素に分割し、分割された形態素から地域名称及び施設の正式名称の一部を抽出し、抽出された地域名称と抽出された施設名称の一部とを連結単語で連結した単語を辞書用単語として登録することが記載されている。   Patent Document 1 describes a technique for creating a dictionary that is efficient and suitable for a user utterance style by defining a dictionary creation rule. Further, in Patent Document 1, the official name of the facility is input, the official name of the input facility is divided into morphemes, and the region name and a part of the official name of the facility are extracted and extracted from the divided morphemes. Registering a word obtained by concatenating a region name and a part of the extracted facility name with a concatenated word as a dictionary word.

特許文献2には、長い言葉も容易に確実に認識することを目的とし、使用者の発話に対する負荷低減や使用者の発話様式に適合した音声認識をすることが記載されている。また、特許文献2には、長い施設名称に区切りを入れて認識用単語を短く言い換え、この言い換え語を辞書登録して、使用者の言いよどみや発話単語を短縮化した音声を認識可能とすることが記載されている。
特開2005−202198号公報 特開2001−083982号公報
Patent Document 2 describes that a long word is easily and surely recognized, and that the load on the user's utterance is reduced and the voice recognition adapted to the user's utterance style is performed. Also, in Patent Document 2, a long facility name is segmented to rephrase the recognition word, and the paraphrase word is registered in the dictionary so that the user can recognize the voice that shortens the stagnation of the user or the spoken word. Is described.
JP 2005-202198 A JP 2001/083982 A

しかしながら、上述した音声認識技術では、使用者が実際にその言い換え語を使用するかどうか分からないにも拘わらず、言い換え語を認識辞書に加えていたために、必要以上に認識語彙の数が多くなってしまい、その結果、認識率が低下してしまうという問題点があった。   However, in the speech recognition technology described above, the number of recognized vocabularies increases more than necessary because the paraphrased word is added to the recognition dictionary even though the user does not know whether to actually use the paraphrase. As a result, there is a problem that the recognition rate is lowered.

そこで、本発明は、上述した実情に鑑みて提案されたものであり、実際に使用者によって使用される語彙のみを音声認識対象語彙として登録することができる音声認識装置を提供することを目的とする。   Therefore, the present invention has been proposed in view of the above-described circumstances, and an object thereof is to provide a speech recognition apparatus that can register only a vocabulary actually used by a user as a speech recognition target vocabulary. To do.

本発明は、使用者から発せられた音声を認識する音声認識手段を備えた音声認識装置であって、正式名称を音声認識対象語彙として記憶した記憶手段と、記憶手段に記憶された正式名称から言い換え語を生成する言い換え語生成手段と、言い換え語生成手段によって生成された言い換え語の実使用度を評価する実使用度評価手段と、言い換え語生成手段によって生成された言い換え語を音声認識対象語彙として記憶手段に登録する登録手段とを有する。このような音声認識装置は、上述の課題を解決するために、登録手段により、実用度評価手段によって実使用度が高いと評価された言い換え語のみを音声認識対象語彙として登録する。   The present invention is a speech recognition apparatus including speech recognition means for recognizing speech uttered by a user, the storage means storing a formal name as a speech recognition target vocabulary, and the formal name stored in the storage means A paraphrase word generating means for generating a paraphrase word, an actual usage evaluation means for evaluating the actual usage of the paraphrase word generated by the paraphrase word generating means, and the paraphrase word generated by the paraphrase word generating means as a speech recognition target vocabulary Registration means for registering in the storage means. In order to solve the above-described problem, such a speech recognition apparatus registers only paraphrased words that have been evaluated as having high actual usage by the practicality evaluation unit by the registration unit as a speech recognition target vocabulary.

本発明に係る音声認識装置によれば、実使用度の高い言い換え語を音声認識対象語彙として登録するので、実際に使用者によって使用される語彙のみを音声認識対象語彙として登録することができ、必要以上に音声認識対象語彙が多くなってしまう問題がない。   According to the speech recognition apparatus according to the present invention, since the paraphrase word having high actual usage is registered as the speech recognition target vocabulary, only the vocabulary actually used by the user can be registered as the speech recognition target vocabulary. There is no problem that the vocabulary for speech recognition increases more than necessary.

以下、本発明の実施の形態について図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[第1実施形態]
本発明は、例えば図1に示すように構成された第1実施形態に係る音声認識装置に適用される。この音声認識装置は、信号処理ユニット1に、マイク2とタッチパネルディスプレイ3とスピーカ4と入力装置5とが接続されて構成されている。この音声認識装置は、正式名称に対する言い換え語を登録するに際して、使用者が実際に使用する度合い(実使用度)が高い言い換え語のみを登録するものである。
[First Embodiment]
The present invention is applied to, for example, the speech recognition apparatus according to the first embodiment configured as shown in FIG. This speech recognition apparatus is configured by connecting a signal processing unit 1 to a microphone 2, a touch panel display 3, a speaker 4, and an input device 5. This speech recognition apparatus registers only paraphrases that have a high degree of actual use (actual usage) by users when registering paraphrases for official names.

信号処理ユニット1は、信号処理装置11に、A/Dコンバータ12とD/Aコンバータ13とアンプ14と外部記憶装置(記憶手段)15とが接続されている。   In the signal processing unit 1, an A / D converter 12, a D / A converter 13, an amplifier 14, and an external storage device (storage means) 15 are connected to a signal processing device 11.

信号処理装置11には、マイク2で検出された使用者の音声信号がA/Dコンバータ12を介して供給される。また、信号処理装置11は、タッチパネルディスプレイ3に操作名称及び音声認識結果等を表示すると共に、タッチパネルディスプレイ3から使用者の操作入力信号を入力する。更に、信号処理装置11は、各種情報を音声案内するために、D/Aコンバータ13及びアンプ14を介して音声信号をスピーカ4に供給して、操作名称を選択することを命令する告知音声及び音声認識結果の告知音声をスピーカ4から放音させる。   The signal processing device 11 is supplied with the user's voice signal detected by the microphone 2 via the A / D converter 12. Further, the signal processing device 11 displays an operation name, a voice recognition result, and the like on the touch panel display 3 and inputs a user operation input signal from the touch panel display 3. Further, the signal processing device 11 supplies a voice signal to the speaker 4 via the D / A converter 13 and the amplifier 14 to give voice guidance of various information, and gives a notification voice for instructing to select an operation name. The announcement sound of the voice recognition result is emitted from the speaker 4.

信号処理装置11は、CPU(Central Processing Unit)21及びメモリ22からなる。信号処理装置11は、メモリ22を作業領域として使用して、CPU21によって、音声認識処理(音声認識手段)、言い換え語を生成する処理(言い換え語生成手段)、言い換え語の実使用度を評価する処理(実使用度評価手段)、言い換え語を登録する処理(登録手段)を行う。   The signal processing device 11 includes a CPU (Central Processing Unit) 21 and a memory 22. The signal processing apparatus 11 uses the memory 22 as a work area, and the CPU 21 evaluates speech recognition processing (speech recognition means), processing to generate paraphrase words (paraphrase word generation means), and actual usage of paraphrase words. Processing (actual usage evaluation means), processing to register paraphrases (registration means) is performed.

入力装置5は、音声認識を開始するに際して操作される発話スイッチ5a、信号処理ユニット1によって使用者が意図する音声とは異なる音声認識結果を生成した場合に音声認識結果を訂正するに際して操作される訂正スイッチ5b(訂正指示手段)とを備えている。発話スイッチ5a及び訂正スイッチ5bが操作されると、当該操作は、信号処理装置11によって検出される。また、訂正スイッチ5bを一定期間押し続けた場合、信号処理ユニット1は、使用者から発せられる音声による処理を途中で終了させる。   The input device 5 is operated when correcting the speech recognition result when a speech recognition result different from the speech intended by the user is generated by the speech switch 5a and the signal processing unit 1 which are operated when starting the speech recognition. And a correction switch 5b (correction instruction means). When the speech switch 5a and the correction switch 5b are operated, the operation is detected by the signal processing device 11. In addition, when the correction switch 5b is kept pressed for a certain period, the signal processing unit 1 terminates the processing by the voice emitted from the user halfway.

外部記憶装置15は、施設等の正式名称情報、言い換え語情報である音声認識対象語彙及び当該施設等の位置情報を登録した音声認識対象語彙データベースと、操作時の操作名称を登録した操作名称データベースとを記憶している。例えば図2に示すように、信号処理ユニット1に対する操作名称である行き先、検索条件等の上位層の操作名称を登録した操作名称データベース31と、行き先の下位層の住所、施設等の下位層の操作名称を登録した操作名称データベース32と、当該操作名称データベース31,32の下位層に相当する正式名称、言い換え語を登録した音声認識対象語彙データベース33とからなる。   The external storage device 15 is a speech recognition target vocabulary database in which formal name information of facilities, etc., speech recognition target vocabulary as paraphrase information and position information of the facilities are registered, and an operation name database in which operation names at the time of operation are registered. Is remembered. For example, as shown in FIG. 2, an operation name database 31 in which destination names, which are operation names for the signal processing unit 1, and operation names of higher layers such as search conditions are registered, addresses of lower layers of destinations, lower layers of facilities, etc. It consists of an operation name database 32 in which operation names are registered, and a speech recognition target vocabulary database 33 in which formal names and paraphrased words corresponding to lower layers of the operation name databases 31 and 32 are registered.

例えば使用者の行き先が「北海道大学」という施設名である場合、操作名称データベース31に、最上位層の行き先、探索条件等の操作名称が登録され、操作名称データベース32に、行き先の下位層の住所、施設等の操作名称が登録されているとすると、操作名称データベース31から「行き先」の操作名称が選択され、操作名称データベース32から「施設名」の操作名称が選択されることになる。また、音声認識対象語彙データベース33は、操作名称データベース31,32に対する最下位層の施設名称「北海道大学」を登録しているものである。   For example, when the destination of the user is a facility name “Hokkaido University”, the operation name database 31 stores the operation name of the highest layer destination, search conditions, etc., and the operation name database 32 stores the lower layer of the destination. Assuming that operation names such as addresses and facilities are registered, the operation name “destination” is selected from the operation name database 31, and the operation name “facility name” is selected from the operation name database 32. The speech recognition target vocabulary database 33 is registered with the facility name “Hokkaido University” in the lowest layer for the operation name databases 31 and 32.

また、外部記憶装置15には、正式名称、言い換え語及び操作名称データベースの一部を音声認識対象として登録した音声認識対象語彙データベースを記憶している。この音声認識対象語彙データベースは、信号処理装置11によって書き換えられる。   Further, the external storage device 15 stores a speech recognition target vocabulary database in which a part of the formal name, paraphrase word, and operation name database is registered as a speech recognition target. This speech recognition target vocabulary database is rewritten by the signal processing device 11.

つぎに、上述の音声認識装置において、使用者が「北海道大学」という正式名称の施設に行きたい又は地図表示させたい場合に、「北大」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。   Next, in the speech recognition apparatus described above, when the user wants to go to the facility with the official name “Hokkaido University” or display the map, the paraphrase “Hokkaido” is not registered in the speech recognition target vocabulary database. The operation at the time will be described.

このような音声認識装置においては、発話スイッチ5aが操作されて、図3(a)に示す音声入力用の音声メニュー画像41をタッチパネルディスプレイ3に表示している時に、音声入力を受け付ける。この音声メニュー画像41は、信号処理ユニット1による音声認識結果を表示する音声認識結果表示欄45、操作名称を示すメニューリスト46を含む。メニューリスト46は、外部記憶装置15の音声認識対象語彙データベースに登録されている行き先、検索条件等の操作名称である音声認識対象語彙を羅列している。   In such a voice recognition device, the voice input is accepted when the speech switch 5a is operated and the voice menu image 41 for voice input shown in FIG. The voice menu image 41 includes a voice recognition result display column 45 for displaying a voice recognition result by the signal processing unit 1 and a menu list 46 indicating operation names. The menu list 46 lists voice recognition target words that are operation names such as destinations and search conditions registered in the voice recognition target word database of the external storage device 15.

この音声メニュー画像41を表示させている状態において、信号処理ユニット1は、図4の(1)のように使用者が「行き先」との操作名称を発話し、当該「行き先」との音声認識結果を得ると、信号処理ユニット1は、図4の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させて、図3(b)の複数の操作名称を示すメニューリスト46を含む行き先選択メニュー画像42をタッチパネルディスプレイ3に表示させる。   In the state where the voice menu image 41 is displayed, the signal processing unit 1 allows the user to speak the operation name “destination” as shown in (1) of FIG. When the result is obtained, the signal processing unit 1 emits an announcement voice “Please give destination command” from the speaker 4 as shown in (2) of FIG. Is displayed on the touch panel display 3.

図3(b)の行き先選択メニュー画像42を表示させている状態において、図4の(3)のように行き先選択メニュー画像42のメニューリスト46に含まれる「施設」という操作名称を使用者が発話し、信号処理ユニット1によって「施設」との音声認識結果を得た場合には、図4の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させて、図3(c)に示す施設名入力画像43を表示させる。   In the state where the destination selection menu image 42 of FIG. 3B is displayed, the user selects the operation name “facility” included in the menu list 46 of the destination selection menu image 42 as shown in FIG. When a speech recognition result of “facility” is obtained by utterance and signal processing unit 1, an announcement voice “Please name the facility” is emitted from speaker 4 as shown in FIG. The facility name input image 43 shown in FIG.

図3(c)の施設名入力画像43を表示させている状態において、図4の(5)のように「北大」と使用者が発話した場合、信号処理ユニット1は、外部記憶装置15の音声認識対象語彙データベースには「北大」が音声認識対象語彙として登録されていないことから、当該「北大」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている国分駅を選択して、図3(d)に示すように、音声認識結果表示欄45に音声認識結果「国分駅」を含む音声認識結果画像44を表示する。この音声認識結果画像44には、音声認識結果表示欄45に含まれる音声認識結果が指し示す位置に行くための最適経路を探索するコマンドを発生させる「そこへ行く」ボタン47及び音声認識結果が指し示す位置付近の地図を表示するコマンドを発生させる「地図を見る」ボタン48とを含んでいる。   In the state where the facility name input image 43 of FIG. 3C is displayed, when the user speaks “Hokkaido University” as shown in FIG. 4 (5), the signal processing unit 1 is stored in the external storage device 15. Since “Hokkaido University” is not registered as a speech recognition target vocabulary in the speech recognition target vocabulary database, select the Kokubun station registered in the speech recognition target vocabulary database closest to the speech recognition result for “Hokkaido University”. As shown in FIG. 3D, the speech recognition result image 44 including the speech recognition result “Kokubun Station” is displayed in the speech recognition result display field 45. In this voice recognition result image 44, a “go to there” button 47 for generating a command for searching for an optimum route to go to the position indicated by the voice recognition result included in the voice recognition result display field 45 and the voice recognition result indicate. And a “view map” button 48 that generates a command to display a map near the location.

この音声認識結果画像44を表示している状態において、図4の(7)のように入力装置5の訂正スイッチ5bを使用者が操作すると、図4の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させて、再度図3(c)の施設名入力画像43を表示させる。そして、図4の(5)〜(8)のように(9)〜(12),(13)〜(16)の手順を行い、図4の(17)において使用者が「北海道大学」と発話した場合、音声認識対象語彙データベースに正式名称「北海道大学」が音声認識対象語彙として登録されているので、信号処理ユニット1によって「北海道大学」との音声認識結果を図3(d)の音声認識結果画像44における音声認識結果表示欄45に表示させることができる。   When the user operates the correction switch 5b of the input device 5 as shown in FIG. 4 (7) in the state where the voice recognition result image 44 is displayed, the "4" is displayed from the speaker 4 as shown in FIG. “Speak again” is sounded and the facility name input image 43 of FIG. 3C is displayed again. Then, the steps (9) to (12) and (13) to (16) are performed as in (5) to (8) in FIG. 4, and in (17) in FIG. When speaking, since the official name “Hokkaido University” is registered as the speech recognition target vocabulary in the speech recognition target vocabulary database, the speech recognition result of “Hokkaido University” by the signal processing unit 1 is shown in FIG. It can be displayed in the speech recognition result display field 45 in the recognition result image 44.

このように、「北海道大学」の言い換え語である「北大」が外部記憶装置15の音声認識対象語彙データベースに登録されていない場合、音声認識装置は、使用者が「北大」と発話しても、「北海道大学」との音声認識結果を出力できない。   As described above, when “Hokkaido University”, which is the paraphrase word of “Hokkaido University”, is not registered in the speech recognition target vocabulary database of the external storage device 15, the speech recognition device can recognize even if the user utters “Hokkaido University”. , Voice recognition results with “Hokkaido University” cannot be output.

これに対し、本発明を適用した音声認識装置は、使用者が実際に使用する言い換え語の実使用度を評価して、例えば「北大」という言い換え語の実使用度が高い場合には、当該言い換え語の「北大」を音声認識対象語彙データベースに登録することを特徴とするものである。すなわち、音声認識装置は、図5に示すように、(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「北大」と発話すると、当該「北大」の音声認識対象語彙が正式名称「北海道大学」の言い換え語として音声認識対象語彙データベースに登録されているので、(6)で「北海道大学」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「北海道大学」と表示させることができる。   On the other hand, the speech recognition apparatus to which the present invention is applied evaluates the actual usage of the paraphrase actually used by the user. For example, when the actual usage of the paraphrase “Hokkaido” is high, The paraphrase word “Hokkaido University” is registered in the speech recognition target vocabulary database. That is, as shown in FIG. 5, the voice recognition device emits a notification voice from the speaker 4 that the user speaks “destination” in (1) and “please give a destination command” in (2). In (3), the user utters “facility”, and in (4), when the user utters “Hokkaido Univ.” Since the speech recognition target vocabulary of the “Hokkaido University” is registered in the speech recognition target vocabulary database as the paraphrase of the official name “Hokkaido University”, sound emission from “Hokkaido University” and the speaker 4 in FIG. In the speech recognition result image 44 shown in d), “Hokkaido University” can be displayed in the speech recognition result display field 45.

以下、このように音声認識対象語彙データベースに実使用度の高い言い換え語を登録する処理について、図6を参照して説明する。   Hereinafter, a process for registering a paraphrase word having a high actual use degree in the speech recognition target vocabulary database will be described with reference to FIG.

先ずステップS1において、信号処理装置11のCPU21は、使用者が発話スイッチ5aを操作したことを検出し、発話開始が指示されたことを判定して、処理をステップS2に進める。   First, in step S1, the CPU 21 of the signal processing device 11 detects that the user has operated the speech switch 5a, determines that the start of speech has been instructed, and advances the processing to step S2.

ステップS2において、CPU21は、音声認識処理のための待ち受け設定を行う。CPU21は、音声入力用のメニューとして図3(a)〜(d)の何れかの画像を表示して音声入力の待ち受け状態となる。なお、ステップS1で発話スイッチ5aが操作された直後においては、最上位階層である図3(a)の音声メニュー画像41を表示して待ち受け状態となるが、例えば「行き先」、「施設名」と操作名称を選択して下位層に向かうに従って図3(b)〜(d)の画像を表示させることになる。   In step S2, the CPU 21 performs standby setting for voice recognition processing. The CPU 21 displays one of the images shown in FIGS. 3A to 3D as a voice input menu and enters a voice input standby state. Immediately after the utterance switch 5a is operated in step S1, the voice menu image 41 of FIG. 3A, which is the highest hierarchy, is displayed and enters a standby state. For example, “destination”, “facility name” The operation names are selected and the images shown in FIGS. 3B to 3D are displayed as the operation name is moved to the lower layer.

また、CPU21は、音声認識対象語彙データベースに登録されている音声認識対象語彙を外部記憶装置15からメモリ22に読み込む。そして、使用者の発話とともに操作名称データベース31,32といったように下位層に階層が進み、図2の音声認識対象語彙データベース33に登録されている語彙すなわち施設名称が音声認識対象語彙として読み込まれているとする。なお、全国全ての施設名称をメモリ22に読み込むことはメモリ容量及び音声認識演算速度の増加などの理由で難しいが、使用者の位置の近傍県内の施設および予め定められた全国の代表的な施設名称が読み込まれているとする。   Further, the CPU 21 reads the speech recognition target vocabulary registered in the speech recognition target vocabulary database from the external storage device 15 into the memory 22. Then, with the user's utterance, the hierarchy advances to a lower layer such as the operation name databases 31 and 32, and the vocabulary registered in the speech recognition target vocabulary database 33 in FIG. 2, that is, the facility name is read as the speech recognition target vocabulary. Suppose that In addition, it is difficult to read all facility names in the country into the memory 22 for reasons such as an increase in memory capacity and voice recognition calculation speed, but facilities in the vicinity of the user's location and typical facilities nationwide that have been determined in advance. Suppose the name has been read.

次のステップS3において、CPU21は、プロンプト、すなわち音声認識処理を開始した旨を使用者に告知する為に、外部記憶装置15に記憶されている告知音声信号をD/Aコンバータ13及びアンプ14を介してスピーカ4に出力し、告知音声をスピーカ4から放音させる。例えば施設名を発話させる場合、「施設名をどうぞ」などが告知音声に該当する。   In the next step S3, the CPU 21 sends a notification voice signal stored in the external storage device 15 to the D / A converter 13 and the amplifier 14 in order to notify the user that the voice recognition process has been started. To the speaker 4 and the announcement sound is emitted from the speaker 4. For example, when a facility name is uttered, “Please name the facility” corresponds to the announcement voice.

この告知音声に対し、例えば、図3(c)の施設名入力画像43を表示している場面において、図4の(5)のように正式名称「北海道大学」の言い換え語の「北大」と発話したとする。この場合、信号処理ユニット1は、マイク2からの音声信号をA/Dコンバータ12でディジタル信号に変換し、信号処理装置11に入力させると、CPU21によって発話スイッチ5aの操作がなされるまで、ディジタル信号の平均パワーを演算している。発話スイッチ5aが操作された後、信号処理装置11は、平均パワーと比較してディジタル信号の瞬間パワーが所定値以上大きくなった時に、使用者が発話したと判断して、音声取り込みを開始する。   For example, in the scene where the facility name input image 43 shown in FIG. 3C is displayed in response to the announcement voice, the paraphrase “Hokkaido University” of the official name “Hokkaido University” as shown in FIG. Suppose you speak. In this case, when the signal processing unit 1 converts the audio signal from the microphone 2 into a digital signal by the A / D converter 12 and inputs the digital signal to the signal processing device 11, the signal processing unit 1 is digital until the speech switch 5 a is operated by the CPU 21. The average power of the signal is calculated. After the utterance switch 5a is operated, the signal processing device 11 determines that the user has uttered when the instantaneous power of the digital signal is greater than a predetermined value as compared with the average power, and starts to capture voice. .

次のステップS4において、CPU21は、ステップS3で音声信号の読み取りを開始して読み取った音声信号と、メモリ22に記憶されている音声認識対象語彙との一致度の演算を開始する。この一致度、すなわち音声区間部分と個々の音声認識対象語彙を示す音声信号が一致している度合いは、CPU21によって、音声区間ごとにスコアとして得られる。このスコアは、値が大きいほど、一致度が高いとする。なお、この音声区間ごとに一致度を求めている処理に平行して、音声取り込みを継続している。   In the next step S <b> 4, the CPU 21 starts reading the audio signal in step S <b> 3 and starts calculating the degree of coincidence between the read audio signal and the speech recognition target vocabulary stored in the memory 22. The degree of coincidence, that is, the degree of coincidence between the speech segments and the speech signals indicating the individual speech recognition target words, is obtained as a score for each speech segment by the CPU 21. It is assumed that the greater the score, the higher the degree of matching. Note that voice capturing is continued in parallel with the processing for obtaining the degree of coincidence for each voice section.

次のステップS5において、CPU21は、A/Dコンバータ12から得られた音声のディジタル信号の瞬間パワーが所定時間以上に亘って所定値以下になった時に、使用者の発話が終了したと判断し、音声の取り込みを終了する。   In the next step S5, the CPU 21 determines that the user's utterance has ended when the instantaneous power of the digital audio signal obtained from the A / D converter 12 has fallen below a predetermined value over a predetermined time. , End audio capture.

次のステップS6において、CPU21は、図3(c)のように音声認識結果表示欄45を表示させている所定の名称入力階層であるか否かを判定する。すなわち、図3(a)、(b)のような音声メニュー画像41、行き先選択メニュー画像42を表示させる階層のように行き先、探索条件等の操作名称が入力される階層ではなく、行き先の施設名や住所等の正式名称や当該正式名称の言い換え語が入力される階層であるか否かを判定する。例えば発話とともに階層が進み、音声の取り込みが完了した時点の階層が、図3(c)の施設名入力画像43が表示されている階層である場合、正式名称、言い換え語が発話される可能性がある階層であると判定して、ステップS7に処理を進める。一方、音声メニュー画像41や行き先選択メニュー画像42のようにメニューリスト46から選択する操作名称を選択する階層であると判定した場合には、ステップS6からステップS8に処理を進める。   In the next step S6, the CPU 21 determines whether or not the predetermined name input hierarchy is displaying the voice recognition result display field 45 as shown in FIG. That is, the destination facility is not a hierarchy in which operation names such as a destination and a search condition are input like the hierarchy in which the voice menu image 41 and the destination selection menu image 42 are displayed as shown in FIGS. It is determined whether or not it is a hierarchy in which a formal name such as a name and address and a paraphrase of the formal name are input. For example, when the hierarchy advances with the utterance and the hierarchy at the time when the voice capturing is completed is the hierarchy where the facility name input image 43 of FIG. 3C is displayed, there is a possibility that the formal name and the paraphrase are uttered. It is determined that there is a certain hierarchy, and the process proceeds to step S7. On the other hand, when it is determined that the operation name to be selected from the menu list 46 is determined as in the voice menu image 41 or the destination selection menu image 42, the process proceeds from step S6 to step S8.

ステップS7において、CPU21は、後のステップS14において使用者の発話「北大」が言い換え語である可能性を考慮するために、ステップS5で音声取り込みを終了した「北大」の音声を示すディジタル信号をメモリ22に一時保存する。   In step S7, the CPU 21 considers the possibility that the user's utterance “Hokkaido University” is a paraphrase word in the subsequent step S14, and outputs a digital signal indicating the voice of “Hokkaido University” that has finished the voice capture in step S5. Temporarily stored in the memory 22.

次のステップS8において、CPU21は、音声認識対象語彙データベースに記憶されている音声認識対象語彙と、「北大」の音声を示すディジタル信号との一致度を求め、一致度の大きい順番で音声認識結果の候補を取得する。   In the next step S8, the CPU 21 obtains the degree of coincidence between the speech recognition target vocabulary stored in the speech recognition target vocabulary database and the digital signal indicating the speech of “Hokkaido University”, and the speech recognition results in descending order of coincidence. Get candidates for.

そして、次のステップS9において、CPU21は、ステップS8で取得した音声認識結果の候補を出力する。例えば図3(d)に示すように、CPU21は、音声認識結果画像44の音声認識結果表示欄45に、「北大」の音声を示すディジタル信号と最も一致度が高い音声認識対象語彙「国分駅」を音声認識結果として出力する。なお、音声認識結果の出力の仕方としては、CPU21の音声合成機能によって音声認識結果の「国分駅」を音声信号に変換して、D/Aコンバータ13及びアンプ14を介して、スピーカ4で「国分駅」と放音させても良い。   In the next step S9, the CPU 21 outputs the speech recognition result candidate acquired in step S8. For example, as shown in FIG. 3 (d), the CPU 21 displays in the speech recognition result display field 45 of the speech recognition result image 44 the speech recognition target vocabulary “Kokubun Station” having the highest degree of coincidence with the digital signal indicating “Hokkaido University” speech. Is output as a speech recognition result. As a method of outputting the voice recognition result, “Kokubun Station” of the voice recognition result is converted into a voice signal by the voice synthesizing function of the CPU 21, and “D / A converter 13 and the amplifier 14 are used to output“ Kokubun Station "may be sounded.

その後、音声認識結果として「国分駅」を出力したことに対して、使用者によって、訂正スイッチ5bが操作される。その結果、信号処理装置11は、ステップS10において、ステップS9で音声認識結果を出力した後の所定時間(例えば数10秒)内に訂正スイッチ5bが操作されたことを検出したか否かを判定する。所定時間内に訂正スイッチ5bが操作されたことを検出した場合、処理をステップS10からステップS11に進め、所定時間内に訂正スイッチ5bが操作されたことが検出されなかった場合、処理をステップS10からステップS12に進める。   Thereafter, the correction switch 5b is operated by the user in response to outputting “Kokubun Station” as the voice recognition result. As a result, in step S10, the signal processing device 11 determines whether or not it has been detected that the correction switch 5b has been operated within a predetermined time (for example, several tens of seconds) after outputting the speech recognition result in step S9. To do. If it is detected that the correction switch 5b has been operated within a predetermined time, the process proceeds from step S10 to step S11. If it is not detected that the correction switch 5b has been operated within the predetermined time, the process proceeds to step S10. To step S12.

ステップS11において、CPU21は、訂正スイッチ5bの操作回数をインクリメントして記録して、ステップS3に処理を進めて、ステップS3〜ステップS10の処理を繰り返して行う。その後、図4の(9)〜(16)のように、使用者から「北大」という発話が繰り返されて、その後に、図4の(17)にて「北海道大学」という正式名称を発話したとする。この場合、ステップS8において、音声認識対象語彙データベース33に「北海道大学」という正式名称が登録されていることから、当該「北海道大学」という音声認識対象語彙が最も一致度が高くなり、ステップS9において「北海道大学」という音声認識結果を出力できる。   In step S11, the CPU 21 increments and records the number of operations of the correction switch 5b, advances the process to step S3, and repeats the processes of steps S3 to S10. After that, the utterance “Hokkaido University” was repeated from the user as shown in (9) to (16) of FIG. 4, and then the official name “Hokkaido University” was uttered in (17) of FIG. And In this case, since the official name “Hokkaido University” is registered in the speech recognition target vocabulary database 33 in step S8, the speech recognition target vocabulary “Hokkaido University” has the highest degree of coincidence, and in step S9. The speech recognition result “Hokkaido University” can be output.

このように、「北海道大学」という音声認識結果を出力した後のステップS10においては、訂正スイッチ5bが操作されずに、CPU21は、処理をステップS10からステップS12に進める。   Thus, in step S10 after outputting the speech recognition result “Hokkaido University”, the correction switch 5b is not operated, and the CPU 21 advances the process from step S10 to step S12.

ステップS12において、CPU21は、ステップS9で音声認識結果を出力した音声認識対象語彙が操作名称であるか、正式名称又は言い換え語であるかを判定して、次の階層が有るか否かを判定する。次の階層がある場合には、ステップS2に処理を戻し、次の階層が無い場合には、ステップS13に処理を進める。例えば行き先として施設名の「北海道大学」を音声認識結果として出力した場合には、ステップS13に処理を進める。   In step S12, the CPU 21 determines whether the speech recognition target vocabulary for which the speech recognition result is output in step S9 is an operation name, a formal name, or a paraphrase, and determines whether there is a next hierarchy. To do. If there is a next hierarchy, the process returns to step S2. If there is no next hierarchy, the process proceeds to step S13. For example, when “Hokkaido University” of the facility name is output as the speech recognition result as the destination, the process proceeds to step S13.

ステップS13において、CPU21は、図3(d)の音声認識結果画像44に含まれる「そこへ行く」ボタン47又は「地図を見る」ボタン48が選択されたことによって、音声認識結果を決定する。「そこへ行く」ボタン47又は「地図を見る」ボタン48が選択された場合、北海道大学の位置情報及びコマンドをナビゲーション装置(図示せずに)に供給して、ルート探索又は地図表示をさせる。   In step S <b> 13, the CPU 21 determines the speech recognition result when the “go there” button 47 or the “view map” button 48 included in the speech recognition result image 44 of FIG. 3D is selected. When the “go to there” button 47 or the “view map” button 48 is selected, the location information and commands of Hokkaido University are supplied to a navigation device (not shown) to search for a route or display a map.

次のステップS14において、CPU21は、使用者から発話された「北大」が、正式名称「北海道大学」の言い換え語である可能性を評価する。   In the next step S <b> 14, the CPU 21 evaluates the possibility that “Hokkaido University” uttered by the user is a paraphrase of the official name “Hokkaido University”.

先ず、CPU21は、正式名称「北海道大学」から言い換え語を生成する。CPU21は、正式名称を、形態素解析プログラムにより形態素に分割し、「北海道」と「大学」に分割する。なお、形態素解析は、汎用プログラム(例えば、ChaSen-http://Chasen.aist-nara.ac.jp/)をCPU21で実行することで実現される。CPU21は、この2分割された2つの形態素「北海道」、「大学」から、それぞれ部分文字列を取り出して連結することで複数の言い換え語を生成する。例えば、2文字の言い換え語としては「北大」、「海大」、「道大」、「北学」、「海学」、「道学」が生成され、さらに他の文字数の言い換え語も生成される。   First, the CPU 21 generates a paraphrase from the official name “Hokkaido University”. The CPU 21 divides the official name into morphemes by a morpheme analysis program, and divides them into “Hokkaido” and “University”. The morphological analysis is realized by executing a general-purpose program (for example, ChaSen-http: //Chasen.aist-nara.ac.jp/) on the CPU 21. The CPU 21 generates a plurality of paraphrases by taking out and concatenating partial character strings from the two divided morphemes “Hokkaido” and “University”. For example, two-letter paraphrases are “Hokkaido University”, “Umi Univ.”, “Michidai”, “Hokkaido”, “Oceanology”, “Dogaku”, and other paraphrasing numbers are also generated. The

次にCPU21は、使用者が発話した言い換え語であって、ステップS7でメモリ22に一時記憶された言い換え語の実使用度を評価する。このとき、CPU21は、ステップS10で訂正スイッチ5bが操作されて、ステップS11で訂正スイッチ5bの操作回数が多いほど、当該言い換え語に対する使用者の使用意図が高く、当該言い換え語の実使用度が高いと評価する。そして、CPU21は、訂正スイッチ5bの操作回数が所定値以上であるか否かを判定して、所定値以上の場合には、当該言い換え語の実使用度が高く、言い換え語を音声認識対象語彙データベースに登録することを決定する。   Next, the CPU 21 evaluates the actual usage of the paraphrase words spoken by the user and temporarily stored in the memory 22 in step S7. At this time, the CPU 21 operates the correction switch 5b in step S10, and the greater the number of operations of the correction switch 5b in step S11, the higher the user's intention to use the paraphrase, and the actual usage of the paraphrase is higher. Evaluate as high. Then, the CPU 21 determines whether or not the number of operations of the correction switch 5b is equal to or greater than a predetermined value. If the number of operations of the correction switch 5b is equal to or greater than the predetermined value, the actual usage of the paraphrase is high. Decide to register in the database.

なお、使用者の使用意図は、訂正スイッチ5bの操作回数に限らず、同じ言い換え語「北大」を発話した回数であっても良い。例えば、正式名称「北海道大学」に対する言い換え語「北大」、「北海道大」とがステップS7でメモリ22に一時記憶され、言い換え語「北大」の方が多く発話されていた場合には、「北大」の方が使用意図が高いと判定できる。   The user's intention to use is not limited to the number of operations of the correction switch 5b, but may be the number of times the same paraphrase “Hokkaido” is spoken. For example, if the paraphrase words “Hokkaido University” and “Hokkaido University” for the official name “Hokkaido University” are temporarily stored in the memory 22 in step S7, and the paraphrase word “Hokkaido University” is spoken more frequently, Can be determined to have a higher intended use.

次にCPU21は、ステップS7でメモリ22に一時記憶された使用者の音声「北大」を入力音声とし、「北海道」、「大学」の2個の形態素から生成した言い換え語の全てを音声認識対象語彙とし、入力音声と音声認識対象語彙との一致度を演算する。その結果、CPU21は、一致度のスコアが所定の閾値以上の言い換え語が存在した場合には、当該入力音声を音声認識対象語彙として音声認識対象語彙データベースに登録する。   Next, the CPU 21 uses the user's speech “Hokkaido University” temporarily stored in the memory 22 in step S7 as the input speech, and recognizes all of the paraphrases generated from the two morphemes “Hokkaido” and “University” as speech recognition targets. The vocabulary is used, and the degree of coincidence between the input speech and the speech recognition target vocabulary is calculated. As a result, when there is a paraphrase having a matching score equal to or higher than a predetermined threshold, the CPU 21 registers the input speech as a speech recognition target vocabulary in the speech recognition target vocabulary database.

また、CPU21は、「北海道大学」と同一カテゴリーである他の大学名称にも同様の言い換え語を生成して登録しても良い。すなわち、「北大」を音声認識対象語彙として音声認識対象語彙データベースに登録した場合、CPU21は、形態素解析した結果である「北海道」、「大学」それぞれの一文字目を連結して「北大」という言い換え語を作成するという規則を生成し、当該規則を他の大学の正式名称に適用して、音声認識対象語彙として登録してもよい。   Further, the CPU 21 may generate and register a similar paraphrase for another university name in the same category as “Hokkaido University”. That is, when “Hokkaido University” is registered as a speech recognition target vocabulary in the speech recognition target vocabulary database, the CPU 21 connects the first characters of “Hokkaido” and “University”, which are the results of morphological analysis, and rephrases “Hokkaido University”. A rule for creating a word may be generated, and the rule may be applied to a formal name of another university and registered as a speech recognition target vocabulary.

これにより、正式名称「北海道大学」と言い換え語「北大」とを音声認識対象語彙データベースに登録した後には、図5の(5)示すように、「北大」と使用者が発話したことに対する応答として、「北海道大学」という正式名称を音声認識結果として出力することができる。また、CPU21は、「北海道大学」と使用者が発話したことに対する応答として、「北海道大学」との音声認識結果を出力すると同時に、正式名称「北海道大学」の言い換え語として「北大」と発話しても正式名称「北海道大学」を音声認識結果として出力できることを図3(d)の音声認識結果画像44内で表示しても良い。   Thus, after registering the official name “Hokkaido University” and the paraphrase word “Hokkaido University” in the speech recognition target vocabulary database, as shown in FIG. 5 (5), the response to the user speaking “Hokkaido University” The official name “Hokkaido University” can be output as a speech recognition result. In addition, the CPU 21 outputs a speech recognition result with “Hokkaido University” as a response to what the user spoke with “Hokkaido University”, and at the same time, speaks “Hokkaido University” as the paraphrase for the official name “Hokkaido University”. However, the fact that the official name “Hokkaido University” can be output as the voice recognition result may be displayed in the voice recognition result image 44 of FIG.

[第1実施形態の効果]
以上詳細に説明したように、本発明を適用した第1実施形態に係る音声認識装置によれば、実使用度の高い言い換え語を音声認識対象語彙として登録するので、実際に使用される可能性が高い言い換え語のみを音声認識対象語彙として追加登録でき、必要以上に音声認識対象語彙が多くなってしまう問題がなく、音声操作の使い勝手を大きく向上できる。
[Effect of the first embodiment]
As described above in detail, according to the speech recognition apparatus according to the first embodiment to which the present invention is applied, a paraphrase with high actual usage is registered as a speech recognition target vocabulary, so that it may be actually used. Only high paraphrasing words can be additionally registered as speech recognition target vocabulary, and there is no problem that the number of speech recognition target vocabularies increases more than necessary, and the usability of voice operation can be greatly improved.

また、この音声認識装置によれば、訂正スイッチ5bによって訂正された言い換え語(第1の音声認識結果)を記憶しておき、その後に入力した音声に基づく音声認識結果(第2の音声認識結果)が訂正されなかった場合に、訂正された音声認識結果(第1の音声認識結果)が訂正されなかった音声認識結果(第2の音声認識結果)の言い換え語として実使用度が高いという評価をするので、訂正された言い換え語のみを音声認識対象語彙として登録でき、必要以上に音声認識対象語彙を多くすることを回避できる。   In addition, according to this speech recognition apparatus, the paraphrase (first speech recognition result) corrected by the correction switch 5b is stored, and then the speech recognition result (second speech recognition result) based on the input speech. ) Is not corrected, it is evaluated that the corrected speech recognition result (first speech recognition result) is highly used as a paraphrase for the uncorrected speech recognition result (second speech recognition result). Therefore, only the corrected paraphrase word can be registered as the speech recognition target vocabulary, and it is possible to avoid increasing the speech recognition target vocabulary more than necessary.

更に、この音声認識装置によれば、訂正スイッチ5bを操作した操作回数から、言い換え語の使用意図が高い場合に、言い換え語を登録するので、多くの操作を費やして入力に至った、より使用意図の高い言い換え語のみを音声認識結果に追加登録でき、必要以上に音声認識結果が多くなることを回避できる。   Furthermore, according to this speech recognition apparatus, since the paraphrase word is registered when the intended use of the paraphrase word is high from the number of times the correction switch 5b has been operated, the operation is led to input by using many operations. Only paraphrases with high intent can be additionally registered in the speech recognition result, and an increase in the speech recognition result can be avoided.

更にまた、この音声認識装置によれば、言い換え語を音声認識対象語彙として登録した場合に、正式名称から当該言い換え語が生成された規則を求めて、当該言い換え語と同一カテゴリーに分類される他の正式名称の言い換え語を、当該規則に従って登録するので、例えば大学といったカテゴリーにおいて正式名称「北海道大学」が「北大」として登録された場合、同じカテゴリーの正式名称「ABC大学」から「A大」という言い換え語を登録できる。これにより、言い換え語を用いて音声認識装置を使いやすいものとできる。   Furthermore, according to this speech recognition apparatus, when a paraphrase word is registered as a speech recognition target vocabulary, a rule for generating the paraphrase word from the official name is obtained and classified into the same category as the paraphrase word. Since the official name “Hokkaido University” is registered as “Hokkaido University” in a category such as a university, for example, the official name “ABC University” to “A University” in the same category is registered. Can be registered. This makes it easy to use the speech recognition apparatus using paraphrased words.

更にまた、音声認識装置によれば、音声認識対象語彙として登録された言い換え語が、使用可能となったことを使用者に提示するので、次回使用時から言い換え語を速やかに使用させることが可能となる。   Furthermore, according to the speech recognition apparatus, since the paraphrase registered as the speech recognition target vocabulary is presented to the user, it is possible to promptly use the paraphrase from the next use. It becomes.

[第2実施形態]
つぎに、第2実施形態に係る音声認識装置について説明する。なお、第2実施形態に係る音声認識装置は、その構成が上述の第1実施形態と同様であるので、同一符号を付することによりその詳細な説明を省略する。
[Second Embodiment]
Next, a speech recognition apparatus according to the second embodiment will be described. In addition, since the structure of the speech recognition apparatus according to the second embodiment is the same as that of the above-described first embodiment, detailed description thereof is omitted by attaching the same reference numerals.

音声認識装置において、使用者が「厚木国際カントリー倶楽部」という正式名称の場所に行きたい又は地図表示させたい場合に、「厚木カントリー」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。   When the user wants to go to a place with the official name “Atsugi International Country Club” or display a map, the paraphrase “Atsugi Country” is not registered in the speech recognition target vocabulary database. The operation will be described.

このような音声認識装置においては、図3(a)に示す音声入力用の音声メニュー画像41をタッチパネルディスプレイ3に表示している時に、音声入力を受け付ける。   In such a voice recognition device, voice input is accepted when the voice menu image 41 for voice input shown in FIG.

この音声メニュー画像41を表示させている状態において、CPU21は、図7の(1)のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、CPU21は、図7の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させて、図3(b)の複数の操作名称を示すメニューリスト46を含む行き先選択メニュー画像42をタッチパネルディスプレイ3に表示させる。   In a state where the voice menu image 41 is displayed, when the user speaks “destination” as shown in (1) of FIG. 7 and obtains a voice recognition result of the “destination”, the CPU 21 7, a notification voice saying “Please give a destination command” is emitted from the speaker 4, and a destination selection menu including a menu list 46 showing a plurality of operation names in FIG. The image 42 is displayed on the touch panel display 3.

図3(b)の行き先選択メニュー画像42を表示させている状態において、図7の(3)のように行き先選択メニュー画像42のメニューリスト46に含まれる「施設」という操作名称を使用者が発話し、CPU21によって「施設」との音声認識結果を得た場合には、図7の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させて、図3(c)に示す施設名入力画像43を表示させる。   In the state where the destination selection menu image 42 of FIG. 3B is displayed, the user selects the operation name “facility” included in the menu list 46 of the destination selection menu image 42 as shown in FIG. When the speech recognition result of “facility” is obtained by the utterance and the CPU 21, an announcement voice “Please name the facility” is emitted from the speaker 4 as shown in FIG. The facility name input image 43 shown in (c) is displayed.

図3(c)の施設名入力画像43を表示させている状態において、図7の(5)のように「厚木カントリー」と使用者が発話した場合、CPU21は、外部記憶装置15の音声認識対象語彙データベースには「厚木カントリー」が音声認識対象語彙として登録されていないことから、当該「厚木カントリー」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている厚木駅を選択して、図3(d)の音声認識結果表示欄45に音声認識結果「厚木駅」を含む音声認識結果画像44を表示する。   When the user utters “Atsugi Country” as shown in (5) of FIG. 7 while the facility name input image 43 of FIG. 3C is displayed, the CPU 21 recognizes the voice of the external storage device 15. Since “Atsugi Country” is not registered as a speech recognition target vocabulary in the target vocabulary database, select the Atsugi station registered in the speech recognition target vocabulary database closest to the speech recognition result for “Atsugi Country”. Then, the voice recognition result image 44 including the voice recognition result “Atsugi Station” is displayed in the voice recognition result display field 45 of FIG.

この音声認識結果画像44を表示している状態において、図7の(7)のように訂正スイッチ5bを使用者が操作すると、図7の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させて、再度図3(c)の施設名入力画像43を表示させる。そして、再度使用者によって「厚木カントリー」と発話したことに対して、図7の(10)で「厚木駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図7の(11)にて、タッチパネルディスプレイ3を用いた手操作入力で「厚木国際カントリー倶楽部」と入力させる。   When the user operates the correction switch 5b as shown in (7) of FIG. 7 in the state where the voice recognition result image 44 is displayed, “speak again” from the speaker 4 as shown in (8) of FIG. The notification voice “Please” is emitted and the facility name input image 43 of FIG. 3C is displayed again. If the user again utters “Atsugi Country” and outputs the speech recognition result “Atsugi Station” in (10) of FIG. 7, the user gives up the input by voice, 7 (11), “Atsugi International Country Club” is input by manual operation using the touch panel display 3.

このように、第2実施形態に係る音声認識装置は、音声認識に代わる代替入力手段を備えて、当該代替入力手段によって、音声認識結果とは異なる正式名称が入力された場合に、当該音声認識結果を、代替入力手段により入力した正式名称の言い換え語として実使用度が高いと評価して、音声認識対象語彙として登録することを特徴とする。   As described above, the speech recognition apparatus according to the second embodiment includes the alternative input unit that replaces the speech recognition, and when the formal input different from the speech recognition result is input by the alternative input unit, the speech recognition The result is evaluated as having high actual usage as a paraphrase of the formal name input by the alternative input means, and is registered as a speech recognition target vocabulary.

そして、音声認識装置は、図8の(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「厚木カントリー」と発話すると、当該「厚木カントリー」の音声認識結果が音声認識対象語彙データベースに登録されているので、図8の(6)で「厚木国際カントリー倶楽部」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「厚木国際カントリー倶楽部」と表示させることができる。   Then, the voice recognition device utters “Destination” in (1) in FIG. 8 and emits a notification voice from the speaker 4 that “Please give a destination command” in (2). (3) When the user utters “facility” in (4) and utters an announcement sound “Please name the facility” from the speaker 4, the user utters “Atsugi country”. Since the speech recognition result of “Country” is registered in the speech recognition target vocabulary database, sound is output from “Atsugi International Country Club” and the speaker 4 in FIG. 8 (6), and the speech recognition result image shown in FIG. 44, “Atsugi International Country Club” can be displayed in the voice recognition result display field 45.

以下、第2実施形態に係る音声認識装置の動作について図9及び図10を参照して説明する。   Hereinafter, the operation of the speech recognition apparatus according to the second embodiment will be described with reference to FIGS. 9 and 10.

第2実施形態に係る音声認識装置は、図9に示すように、図3(a)、(b)のように操作名称を含むメニューリスト46を表示させて操作を選択させる処理及び図3(c)、(d)のように正式名称又は言い換え語の音声認識結果を得る処理を行う。音声認識装置は、第1実施形態の音声認識装置と同様に、ステップS1〜ステップS9の処理を行い、ステップS10において、所定時間内に訂正スイッチ5bが操作されたことを検出した場合には、ステップS3に処理を戻し、所定時間内に訂正スイッチ5bが操作されなかった場合には、ステップS12に処理を進める。上述したように、第2実施形態に係る音声認識装置は、代替入力手段によって正式名称が入力されたことによって言い換え語の実使用度が高いことを評価するので、図6のステップS11のような訂正スイッチ5bの操作回数を記録する処理は行わない。そして、ステップS12において、次の下位層がないと判定した後のステップS13において、ステップS9で出力した音声認識結果を決定して処理を終了する。   As shown in FIG. 9, the speech recognition apparatus according to the second embodiment displays a menu list 46 including operation names as shown in FIGS. 3 (a) and 3 (b) and selects an operation as shown in FIG. c) A process for obtaining a speech recognition result of a formal name or paraphrase as in (d) is performed. Similar to the speech recognition device of the first embodiment, the speech recognition device performs the processing of step S1 to step S9, and when it is detected in step S10 that the correction switch 5b has been operated within a predetermined time, The process returns to step S3, and if the correction switch 5b is not operated within a predetermined time, the process proceeds to step S12. As described above, since the speech recognition apparatus according to the second embodiment evaluates that the actual usage of the paraphrase word is high when the formal name is input by the alternative input unit, as shown in step S11 of FIG. The process of recording the number of operations of the correction switch 5b is not performed. Then, in step S13 after determining that there is no next lower layer in step S12, the speech recognition result output in step S9 is determined, and the process ends.

ここで、上述のように、使用者が言い換え語「厚木カントリー」の音声入力をあきらめて、タッチパネルディスプレイ3による操作入力によって正式名称「厚木国際カントリー倶楽部」を音声認識装置に認識させる場合、音声認識装置は、図10に示す処理を行うことによって、音声認識対象語彙データベースに実使用度の高い言い換え語を登録する。   Here, as described above, when the user gives up the voice input of the paraphrase word “Atsugi Country” and causes the voice recognition device to recognize the official name “Atsugi International Country Club” by the operation input by the touch panel display 3, the voice recognition is performed. The apparatus registers a paraphrase word having a high actual use degree in the speech recognition target vocabulary database by performing the processing shown in FIG.

図10に示すように、CPU21は、先ず、ステップS21において、図示しない入力装置5のメニュースイッチが操作されたことを検出した場合に、ステップS22に処理を進めて、メニュースイッチの操作に従ったメニュー画面を設定表示し、ステップS23において、タッチパネルディスプレイ3によって正式名称を入力する画面に遷移させるために、使用者による操作入力が確定すると、ステップS24において、現在表示している画面の下位層が存在するかを判定する。   As shown in FIG. 10, when the CPU 21 first detects in step S21 that a menu switch of the input device 5 (not shown) has been operated, it proceeds to step S22 and follows the operation of the menu switch. When the menu screen is set and displayed, and the operation input by the user is confirmed in order to make a transition to the screen for inputting the formal name by the touch panel display 3 in step S23, the lower layer of the currently displayed screen is displayed in step S24. Determine if it exists.

CPU21は、ステップS24において、図11に示すように、音声入力に代替して正式名称を入力する代替入力画面51のように、下位層の画面が存在しないと判定した場合に、ステップS25に処理を進める。代替入力画面51には、使用者が入力しようとする正式名称のカテゴリー情報52、正式名称入力欄53、50音の文字入力ボタン54、リスト表示ボタン55が含まれる。カテゴリー情報52は、ステップS22及びステップS23において使用者によって選択されたカテゴリーである施設、当該施設の下位層のカテゴリーであるゴルフ場を示している。   If the CPU 21 determines in step S24 that there is no lower layer screen, such as an alternative input screen 51 for inputting a formal name instead of voice input, as shown in FIG. 11, the process proceeds to step S25. To proceed. The alternative input screen 51 includes category information 52 of a formal name to be input by the user, a formal name input field 53, a 50-sound character input button 54, and a list display button 55. The category information 52 indicates the facility that is the category selected by the user in step S22 and step S23, and the golf course that is the lower-level category of the facility.

ステップS25において、CPU21は、代替入力画面51の文字入力ボタン54及びリスト表示ボタン55が使用者に操作されることを検出して、操作結果を決定する処理を行う。このとき、図11に示すように、施設の正式名称「厚木国際カントリー倶楽部」の一部の「あつぎ」が文字入力ボタン54の操作によって入力された後、リスト表示ボタン55が操作されると、図12に示すように、「あつぎ」を先頭に含む音声認識対象語彙をリスト化したリスト表示画面61を表示する。このとき、CPU21は、カテゴリーが施設の音声認識対象語彙のうち、「あつぎ」を含む部分一致検索を行って、外部記憶装置15の音声認識対象語彙データベースから「あつぎ」を含む音声認識対象語彙を抽出する。リスト表示画面61には、検索キーの「あつぎ」を含むリスト表示62と、「そこへ行く」ボタン63及び「地図を見る」ボタン64とを含む。   In step S25, the CPU 21 detects that the character input button 54 and the list display button 55 on the alternative input screen 51 are operated by the user, and performs a process of determining the operation result. At this time, as shown in FIG. 11, when a part of the official name “Atsugi International Country Club” of the facility is input by operating the character input button 54 and then the list display button 55 is operated. As shown in FIG. 12, a list display screen 61 in which the speech recognition target vocabulary including “Ajito” at the head is listed is displayed. At this time, the CPU 21 performs a partial match search including “Aki” in the speech recognition target vocabulary whose category is the facility, and the speech recognition target including “Aso” from the speech recognition target vocabulary database of the external storage device 15. Extract vocabulary. The list display screen 61 includes a list display 62 including a search key “Aki”, a “go there” button 63 and a “view map” button 64.

このリスト表示画面61を表示させた後、使用者によってリスト表示62のうち「厚木国際カントリー倶楽部」が選択された場合、CPU21は、当該操作を検出して、操作結果を決定する。また、使用者が「厚木国際カントリー倶楽部」を選択し、更に、「そこへ行く」ボタン63又は「地図を見る」ボタン64が選択された時に、操作内容を決定しても良い。   After the list display screen 61 is displayed, when “Atsugi International Country Club” is selected from the list display 62 by the user, the CPU 21 detects the operation and determines the operation result. In addition, when the user selects “Atsugi International Country Club” and further selects the “go there” button 63 or the “view map” button 64, the operation content may be determined.

次に、CPU21は、ステップS26において、ステップS25で操作結果が決定される直前の時間帯(例えば数分)で図9の音声を入力する処理を行っていたか否かを判定する。このとき、CPU21は、例えばメモリ22に一時記憶した音声のディジタル信号を所定期間だけ保持するように構成した場合には、図9のステップS7で一時的にメモリ22に音声のディジタル信号が記憶されていると判定した時に、直前に音声入力が有ったと判定する。   Next, in step S <b> 26, the CPU 21 determines whether or not the process of inputting the voice in FIG. 9 has been performed in the time zone (for example, several minutes) immediately before the operation result is determined in step S <b> 25. At this time, for example, if the CPU 21 is configured to hold the audio digital signal temporarily stored in the memory 22 for a predetermined period, the audio digital signal is temporarily stored in the memory 22 in step S7 of FIG. When it is determined that there is a voice input, it is determined that there was a voice input immediately before.

次のステップS27において、CPU21は、ステップS26で判定したように、代替入力画面51からリスト表示画面61に遷移して正式名称を選択した直前に入力された音声から、言い換え語を生成して、音声認識対象語彙データベースに登録する処理を行う。例えば、使用者にとって正式名称が分からないために、音声入力によって正式名称を音声認識装置に認識させることができずに中断し、代替入力画面51から正式名称を入力した可能性があるので、言い換え語を生成する処理を行う。   In the next step S27, as determined in step S26, the CPU 21 generates a paraphrase from the voice input immediately before the transition from the alternative input screen 51 to the list display screen 61 and the official name is selected, Processing to register in the speech recognition target vocabulary database is performed. For example, since the user does not know the official name, there is a possibility that the voice recognition apparatus cannot recognize the official name by voice input, and the process is interrupted and the official name may be input from the alternative input screen 51. Process to generate words.

このステップS27において、CPU21は、直前に行われていた音声入力に関わる音声のディジタル信号をメモリ22から読み出し、この音声のディジタル信号から言い換え語を生成する。次に、CPU21は、生成した言い換え語と、メモリ22に記憶されていた音声のディジタル信号とを比較して、一致度が高い言い換え語を、正式名称に対する言い換え語であると判定する。このとき、CPU21は、例えば正式名称「厚木国際カントリー倶楽部」から、「厚木」、「国際」、「カントリー」、「倶楽部」という形態素を組み合わせて、「厚木カントリー」という言い換え語の候補を作成し、メモリ22に「厚木カントリー」が記憶されている場合には、当該「厚木カントリー」が「厚木国際カントリー倶楽部」の言い換え語であると判定して、音声認識対象語彙データベースに登録する。   In step S27, the CPU 21 reads out from the memory 22 a voice digital signal related to the voice input performed immediately before, and generates a paraphrase from the voice digital signal. Next, the CPU 21 compares the generated paraphrase with the digital audio signal stored in the memory 22 and determines that the paraphrase having a high degree of coincidence is a paraphrase for the formal name. At this time, the CPU 21 creates a candidate for the paraphrase “Atsugi Country” by combining the morphemes “Atsugi”, “International”, “Country”, “Club” from the official name “Atsugi International Country Club”, for example. When “Atsugi Country” is stored in the memory 22, it is determined that the “Atsugi Country” is a paraphrase of “Atsugi International Country Club”, and is registered in the speech recognition target vocabulary database.

また、メモリ22に記憶されている音声のディジタル信号のうち、使用者の初期発話の音声のディジタル信号を選択して、正式名称から生成した言い換え語と照合し、初期発話の音声のディジタル信号と言い換え語との尤度の高い場合に、当該言い換え語を音声認識対象語彙データベースに登録することが望ましい。   In addition, the digital signal of the voice of the initial utterance of the user is selected from the digital signals of the voice stored in the memory 22 and collated with the paraphrase generated from the official name, and the digital signal of the voice of the initial utterance is When the likelihood of a paraphrase word is high, it is desirable to register the paraphrase word in the speech recognition target vocabulary database.

[第2実施形態の効果]
以上詳細に説明したように、本発明を適用した第2実施形態に係る音声認識装置によれば、代替入力画面51によって正式名称を入力した場合に、当該正式名称の入力よりも前に音声入力があった時には、当該音声の言い換え語を実使用度が高い言い換え語として音声認識対象語彙データベースに登録できるので、音声入力に代替する手段を用いてまで入力を継続したより使用意図の高い言い換え語のみを音声認識対象語彙データベースに登録でき、必要以上に音声認識対象語彙が多くなることを回避できる。
[Effects of Second Embodiment]
As described above in detail, according to the speech recognition apparatus according to the second embodiment to which the present invention is applied, when an official name is input on the alternative input screen 51, speech input is performed before the official name is input. If there is a word, the paraphrase word of the speech can be registered in the speech recognition target vocabulary database as a paraphrase word having a high actual usage rate. Can be registered in the speech recognition target vocabulary database, and the number of speech recognition target vocabulary can be prevented from being increased more than necessary.

また、この音声認識装置によれば、代替入力画面51によって正式名称が入力された場合に、当該正式名称から生成した言い換え語と、メモリ22に記憶された使用者の初期発話の音声とを照合して、尤度の高い場合に言い換え語の実使用度が高いと評価して登録するので、使用者の固有の言い換え語を音声認識対象語彙データベースに登録でき、且つ必要以上に音声認識対象語彙が多くなることを回避できる。   Further, according to this speech recognition apparatus, when a formal name is input on the alternative input screen 51, the paraphrase generated from the formal name is collated with the voice of the user's initial utterance stored in the memory 22. Then, when the likelihood is high, the actual usage of the paraphrase word is evaluated and registered, so that the user's unique paraphrase word can be registered in the speech recognition target vocabulary database, and the speech recognition target vocabulary is more than necessary. Can be avoided.

[第3実施形態]
つぎに、第3実施形態に係る音声認識装置について説明する。なお、上述の実施形態と同様の部分については同一符号を付することによりその詳細な説明を省略する。
[Third Embodiment]
Next, a speech recognition apparatus according to the third embodiment will be described. Note that parts similar to those in the above-described embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.

第3実施形態に係る音声認識装置は、図13に示すように、信号処理ユニット1に、ネットワークを介して情報コンテンツ記憶サーバ(情報コンテンツ記憶手段、図示せず)に接続された通信装置(通信手段)70が接続されている点で、上述した実施形態に係る音声認識装置とは異なる。この通信装置70は、信号処理ユニット1の命令に従って、例えばIP(Internet Protocol)等の通信プロトコルに従って通信処理を行う。   As shown in FIG. 13, the speech recognition apparatus according to the third embodiment includes a communication device (communication device) connected to an information content storage server (information content storage means, not shown) via a network. Means) 70 is connected to the speech recognition apparatus according to the above-described embodiment. The communication device 70 performs communication processing according to a communication protocol such as IP (Internet Protocol), for example, in accordance with an instruction from the signal processing unit 1.

この音声認識装置は、例えば行き先の施設名の正式名称が「関西学院大学」であり、言い換え語の「関学」が音声認識対象語彙データベースに登録されていない場合には、図14に示すような動作となり、後述するように言い換え語「関学」を音声認識対象語彙データベースに登録した場合には、図15に示す処理を行う。   For example, if the official name of the destination facility name is “Kwansei Gakuin University” and the paraphrase word “Kangaku” is not registered in the speech recognition target vocabulary database, this speech recognition apparatus has a name as shown in FIG. When the paraphrase word “Kakaku” is registered in the speech recognition target vocabulary database as described later, the processing shown in FIG. 15 is performed.

信号処理ユニット1は、図14の(1)のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、図14の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させる。次に図14の(3)のように「施設」という操作名称を使用者が発話し、信号処理ユニット1によって「施設」との音声認識結果を得た場合には、図14の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させる。   When the user utters “destination” as shown in (1) of FIG. 14 and obtains a voice recognition result of the “destination” as shown in (1) of FIG. Announcement voice “Please command” is emitted from speaker 4. Next, as shown in FIG. 14 (3), when the user speaks the operation name “facility” and the signal processing unit 1 obtains a speech recognition result of “facility”, the operation (4) in FIG. As shown, the announcement sound “Please name the facility” is emitted from the speaker 4.

次に、信号処理ユニット1は、図14の(5)のように「関学」と使用者が発話した場合、外部記憶装置15の音声認識対象語彙データベースには「関学」が音声認識対象語彙として登録されていないことから、当該「関学」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている甲府駅を選択する。次に、信号処理ユニット1は、図14の(7)のように訂正スイッチ5bを使用者が操作すると、図14の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させ、再度使用者によって「関学」と発話したことに対して、図14の(10)で「甲府駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図14の(11)にて、タッチパネルディスプレイ3を用いた手操作入力で「関西学院大学」と入力させる。   Next, when the user utters “Sekigaku” as shown in FIG. 14 (5), the signal processing unit 1 has “Sekigaku” as a speech recognition target vocabulary in the speech recognition target vocabulary database of the external storage device 15. Since it is not registered, the Kofu station registered in the speech recognition target vocabulary database closest to the speech recognition result for the “Sekigaku” is selected. Next, when the user operates the correction switch 5b as shown in FIG. 14 (7), the signal processing unit 1 notifies the speaker 4 “Please speak again” as shown in FIG. 14 (8). When the voice is emitted and the user speaks “Sekigaku” again, when the voice recognition result “Kofu Station” is output in (10) of FIG. 14, the user gives up the voice input. Then, in (11) of FIG. 14, “Kwansei Gakuin University” is input by manual operation using the touch panel display 3.

この図14の(11)において、信号処理ユニット1は、図16に示すように、カントリー「大学」の代替入力画面51から、文字入力ボタン54を操作させて正式名称入力欄53に「かん」が入力され、更にリスト表示ボタン55が操作された場合、図17に示すリスト表示画面61を表示する。そして、リスト表示画面61のリスト表示62のうち、「関西学院大学」が選択されて、正式名称「関西学院大学」が入力される。   In (11) of FIG. 14, the signal processing unit 1 operates the character input button 54 on the alternative input screen 51 of the country “University” as shown in FIG. When the list display button 55 is further operated, a list display screen 61 shown in FIG. 17 is displayed. Then, “Kwansei Gakuin University” is selected from the list display 62 of the list display screen 61, and the official name “Kwansei Gakuin University” is input.

次に、信号処理ユニット1は、正式名称「関西学院大学」から言い換え語「関学」を生成し、当該生成した言い換え語「関学」を検索キーとしてネットワーク上の情報コンテンツ記憶サーバに記憶されている情報コンテンツを検索するように通信装置70を制御する。そして、信号処理ユニット1は、生成された言い換え語「関学」が通信装置70で接続した情報コンテンツ記憶サーバに記憶されている情報コンテンツに含まれている場合に、当該言い換え語「関学」の実使用度が高いと評価して、音声認識対象語彙データベースに登録する。   Next, the signal processing unit 1 generates the paraphrase word “Kangaku” from the official name “Kwansei Gakuin University” and stores the generated paraphrase word “Kangaku” as a search key in the information content storage server on the network. The communication device 70 is controlled to search for information content. Then, when the generated paraphrase word “Sekigaku” is included in the information content stored in the information content storage server connected by the communication device 70, the signal processing unit 1 executes the actual wording of the paraphrase word “Sekigaku”. Assess that the usage is high and register it in the speech recognition target vocabulary database.

そして、音声認識装置は、図15の(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「関学」と発話すると、当該「関学」の音声認識結果が音声認識対象語彙データベースに登録されているので、図15の(6)で「関西学院大学」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「関西学院大学」と表示させることができる。   Then, the voice recognition device utters “Destination” in (1) in FIG. 15, and emits a notification voice from the speaker 4 that “Please give a destination command” in (2). (3) When the user utters “facilities” in (4) and utters the announcement sound from the speaker 4 that “please name the facility”, the user utters “Sekigaku”. 15 is registered in the speech recognition target vocabulary database, so that “Kwansei Gakuin University” and sound are emitted from the speaker 4 in (6) of FIG. 15 and the speech recognition result image 44 shown in FIG. “Kwansei Gakuin University” can be displayed in the recognition result display field 45.

この音声認識装置の処理は、図18に示すように、ステップS1〜ステップS5の処理によって使用者から発話された音声を取り込んだ後に、ステップS8〜ステップS10、ステップS12及びステップS13を行う。ここで、第2実施形態に係る音声認識装置が行う図9の処理に対して、ステップS6及びステップS7の処理を第3実施形態に係る音声認識装置では行っていない。この理由としては、第3実施形態に係る音声認識装置が、代替入力画面51及びリスト表示画面61を表示して入力された正式名称から、実使用度の高い言い換え語を生成するために、使用者から発話された言い換え語の音声をメモリ22に記憶するステップS7を行わないことによる。   As shown in FIG. 18, the voice recognition apparatus performs the steps S8 to S10, S12, and S13 after capturing the voice uttered by the user in the processes of steps S1 to S5. Here, in contrast to the process of FIG. 9 performed by the speech recognition apparatus according to the second embodiment, the processes of step S6 and step S7 are not performed by the speech recognition apparatus according to the third embodiment. The reason for this is that the speech recognition apparatus according to the third embodiment uses the alternative input screen 51 and the list display screen 61 to generate a paraphrase having a high actual usage rate from the formal name input. This is because step S7 for storing the voice of the paraphrase word spoken by the person in the memory 22 is not performed.

また、第3実施形態に係る音声認識装置は、第2実施形態において説明した図10と同様に、ステップS21〜ステップS26の処理を行い、ステップS26において、直前に図18に示す処理が行われたと判定した場合には、ステップS27にて言い換え語を生成して、実使用度の高い言い換え語を音声認識対象語彙データベースに登録する処理を行う。   In addition, the speech recognition apparatus according to the third embodiment performs the processing of step S21 to step S26 as in FIG. 10 described in the second embodiment, and in step S26, the processing illustrated in FIG. 18 is performed immediately before. If it is determined that the paraphrase word is generated in step S27, a process of registering the paraphrase word having a high actual usage in the speech recognition target vocabulary database is performed.

このステップS27において、信号処理ユニット1は、先ず、正式名称「関西学院大学」から言い換え語を生成する。このとき、信号処理ユニット1は、正式名称「関西学院大学」を形態素解析プログラムによって形態素に分割させ、「関西」と「学院」と「大学」に分割させる。次に信号処理ユニット1は、3個の形態素からそれぞれ部分文字列を取り出して、連結することで複数の言い換え語を生成する。例えば、2文字の言い換え語として「関学」、「西学」、「関院」、「西院」、「関大」、「西大」、「学大」、「院大」、「関学」、「西学」、「学学」、「院学」を生成し、さらに他の文字数の言い換え語も生成する。   In step S27, the signal processing unit 1 first generates a paraphrase from the official name “Kwansei Gakuin University”. At this time, the signal processing unit 1 divides the official name “Kwansei Gakuin University” into morphemes by the morphological analysis program, and divides them into “Kansai”, “Gakuin”, and “University”. Next, the signal processing unit 1 extracts partial character strings from the three morphemes and connects them to generate a plurality of paraphrases. For example, the two-letter paraphrases are "Sekigaku", "Nishigaku", "Sekiin", "Saiin", "Sekidai", "Nishidai", "Gakudai", "Shondai", "Sekigaku", "Nishigaku" ”,“ Study ”, and“ Study ”, and generate other paraphrasing words.

次に信号処理ユニット1は、通信装置70を制御して、ネットワーク上の情報コンテンツにアクセスさせて、言い換え語が実際に使われているかを評価する。このとき、信号処理ユニット1は、先ず、通信装置70によって、生成した言い換え語を検索キーとして、Webホームページ等の情報コンテンツを検索させる。次に信号処理ユニット1は、検索結果件数を通信装置70から取得し、当該検索結果件数が所定の閾値以上であるか否かを判定して、閾値以上である場合に当該検索結果の情報コンテンツに正式名称が存在する情報コンテンツが存在するか否かを判定する。情報コンテンツに正式名称が存在した場合、信号処理ユニット1は、検索キーとした言い換え語が実際に使用されているものと判断して、当該言い換え語を音声認識対象語彙として登録する。   Next, the signal processing unit 1 controls the communication device 70 to access information content on the network and evaluates whether the paraphrase is actually used. At this time, the signal processing unit 1 first causes the communication device 70 to search for information content such as a Web homepage using the generated paraphrase as a search key. Next, the signal processing unit 1 acquires the number of search results from the communication device 70, determines whether or not the number of search results is equal to or greater than a predetermined threshold, and if the number is greater than or equal to the threshold, information content of the search result It is determined whether there is information content having a formal name. When the formal name exists in the information content, the signal processing unit 1 determines that the paraphrase used as the search key is actually used, and registers the paraphrase as a speech recognition target vocabulary.

このように、信号処理ユニット1によって、正式名称「関西学院大学」から生成した言い換え語のうちの「関学」を検索キーとして情報コンテンツを検索した結果、検索結果である情報コンテンツの数が所定数以上となった実使用度の高い言い換え語であり、当該情報コンテンツに正式名称「関西学院大学」が含まれている場合に、言い換え語「関学」を音声認識対象語彙として登録できる。   As described above, as a result of searching the information content by using “Kan Gaku” among the paraphrases generated from the official name “Kwansei Gakuin University” by the signal processing unit 1 as a search key, the number of information contents as the search result is a predetermined number. The paraphrase with high actual usage as described above, and when the information content includes the official name “Kwansei Gakuin University”, the paraphrase “Kangaku” can be registered as a speech recognition target vocabulary.

また、信号処理ユニット1は、通信装置70によって検索キーを言い換え語として検索した結果として得られた情報コンテンツがHTML(Hypertext Markup Language)などの構造化言語で記述されている場合、当該HTMLデータのタイトル部分に正式名称が存在するかを判定する。そして、HTMLデータのタイトル部分に正式名称が存在した場合、当該検索キーとした言い換え語の実使用度が高いと評価して、音声認識対象語彙として登録するとしても良い。   In addition, when the information content obtained as a result of searching the search key as a paraphrase by the communication device 70 is described in a structured language such as HTML (Hypertext Markup Language), the signal processing unit 1 Judge whether the official name exists in the title part. If the formal name exists in the title portion of the HTML data, it may be evaluated that the actual usage of the paraphrase word as the search key is high and registered as a speech recognition target vocabulary.

更に、信号処理ユニット1は、代替入力画面51及びリスト表示画面61によって得られた正式名称のカテゴリーが地点名称である場合に、通信装置70によって情報コンテンツを検索する検索キーとして正式名称である地点名称のみならず、当該地点名称の位置情報を加えることが望ましい。   Further, when the category of the formal name obtained from the alternative input screen 51 and the list display screen 61 is the location name, the signal processing unit 1 uses the location name that is the official name as a search key for retrieving information content by the communication device 70. It is desirable to add not only the name but also the location information of the point name.

[第3実施形態の効果]
以上詳細に説明したように、本発明を適用した第3実施形態に係る音声認識装置によれば、通信装置70によって検索した言い換え語が複数の情報コンテンツに含まれている場合に、当該言い換え語の実使用度が高いと評価するので、設計時に認知できなかったより一般的に用いられている言い換え語を登録することが可能になり、言い換え語の認識率を高くすることができ、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。
[Effect of the third embodiment]
As described above in detail, according to the speech recognition apparatus according to the third embodiment to which the present invention is applied, when a paraphrase searched by the communication device 70 is included in a plurality of information contents, the paraphrase It is possible to register paraphrasing words that are more commonly used than those that were not recognized at the time of design, so that the recognition rate of paraphrasing words can be increased and necessary. As described above, an increase in the number of speech recognition target words can be avoided.

また、音声認識装置によれば、言い換え語が含まれている情報コンテンツ数が所定値以上である場合に、当該言い換え語の実使用度が高いと評価するので、実使用度が高いと評価する所定値を高くすることによって言い換え語を登録する精度を向上でき、使いやすさを大きく向上でき、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。   Further, according to the speech recognition apparatus, when the number of information contents including a paraphrase word is equal to or greater than a predetermined value, it is evaluated that the actual usage of the paraphrase word is high. By increasing the predetermined value, the accuracy of registering paraphrased words can be improved, the ease of use can be greatly improved, and an increase in the vocabulary for speech recognition can be avoided.

更にまた、音声認識装置によれば、通信装置70で検索された情報コンテンツ中に、正式名称と当該正式名称から生成された言い換え語との両方が共起している場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を大きく向上でき、使いやすさを大きく向上できる。   Furthermore, according to the speech recognition apparatus, when both the formal name and the paraphrase generated from the formal name co-occur in the information content retrieved by the communication device 70, the paraphrase word Since it is evaluated that the actual usage is high, the accuracy of registering paraphrased words can be greatly improved, and the usability can be greatly improved.

更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、検索された情報コンテンツに正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、個人的な情報コンテンツであっても、検索結果として得ることができ、新たな言い換え語をより迅速に登録することが可能となり、使いやすさを大きく向上できる。   Furthermore, according to the speech recognition apparatus, when the information content is searched using the paraphrase word as a search condition and the official name is included in the searched information content, it is evaluated that the actual usage of the paraphrase word is high. Even personal information content can be obtained as a search result, a new paraphrase can be registered more quickly, and the usability can be greatly improved.

更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、情報コンテンツのタイトル部分に正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を極めて高くすることができる。   Furthermore, according to the speech recognition apparatus, when the information content is searched using the paraphrase word as a search condition, and the official name is included in the title portion of the information content, it is evaluated that the actual usage of the paraphrase word is high. The accuracy of registering paraphrased words can be made extremely high.

更にまた、音声認識装置によれば、正式名称のカテゴリが地点名称である場合に、情報コンテンツの検索条件に当該地点名称の情報コンテンツを含めて検索するので、誤検索を少なくでき、誤った言い換え語の登録を避けることができる。   Furthermore, according to the speech recognition apparatus, when the category of the official name is a spot name, the search is performed by including the information content of the spot name in the information content search condition. Avoid registering words.

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。   The above-described embodiment is an example of the present invention. For this reason, the present invention is not limited to the above-described embodiment, and various modifications can be made depending on the design and the like as long as the technical idea according to the present invention is not deviated from this embodiment. Of course, it is possible to change.

本発明を適用した第1実施形態に係る音声認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition apparatus which concerns on 1st Embodiment to which this invention is applied. 本発明を適用した第1実施形態に係る音声認識装置における操作名称データベース、音声認識対象語彙データベースを示す図である。It is a figure which shows the operation name database and speech recognition object vocabulary database in the speech recognition apparatus which concerns on 1st Embodiment to which this invention is applied. 本発明を適用した第1実施形態に係る音声認識装置における画面遷移を説明する図であり、(a)は音声メニュー画像、(b)は行き先選択メニュー画像、(c)は施設名入力画像、(d)は音声認識結果画像である。It is a figure explaining the screen transition in the speech recognition device concerning a 1st embodiment to which the present invention is applied, (a) is a voice menu image, (b) is a destination selection menu image, (c) is a facility name input image, (D) is a speech recognition result image. 本発明を適用した第1実施形態に係る音声認識装置において、言い換え語が登録されていない場合の動作を示す図である。It is a figure which shows operation | movement when the paraphrase word is not registered in the speech recognition apparatus which concerns on 1st Embodiment to which this invention is applied. 本発明を適用した第1実施形態に係る音声認識装置において、言い換え語が登録されている場合の動作を示す図である。It is a figure which shows operation | movement when the paraphrase word is registered in the speech recognition apparatus which concerns on 1st Embodiment to which this invention is applied. 本発明を適用した第1実施形態に係る音声認識装置の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the speech recognition apparatus which concerns on 1st Embodiment to which this invention is applied. 本発明を適用した第2実施形態に係る音声認識装置において、言い換え語が登録されていない場合の動作を示す図である。It is a figure which shows operation | movement when the paraphrase word is not registered in the speech recognition apparatus which concerns on 2nd Embodiment to which this invention is applied. 本発明を適用した第2実施形態に係る音声認識装置において、言い換え語が登録されている場合の動作を示す図である。It is a figure which shows operation | movement when the paraphrase word is registered in the speech recognition apparatus which concerns on 2nd Embodiment to which this invention is applied. 本発明を適用した第2実施形態に係る音声認識装置による音声認識時の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence at the time of the speech recognition by the speech recognition apparatus which concerns on 2nd Embodiment to which this invention is applied. 本発明を適用した第2実施形態に係る音声認識装置による言い換え語の登録時の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence at the time of registration of the paraphrase word by the speech recognition apparatus which concerns on 2nd Embodiment to which this invention is applied. 本発明を適用した第2実施形態に係る音声認識装置における代替入力画面を示す図である。It is a figure which shows the alternative input screen in the speech recognition apparatus which concerns on 2nd Embodiment to which this invention is applied. 本発明を適用した第2実施形態に係る音声認識装置におけるリスト表示画面を示す図である。It is a figure which shows the list display screen in the speech recognition apparatus which concerns on 2nd Embodiment to which this invention is applied. 本発明を適用した第3実施形態に係る音声認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition apparatus which concerns on 3rd Embodiment to which this invention is applied. 本発明を適用した第3実施形態に係る音声認識装置において、言い換え語が登録されていない場合の動作を示す図である。It is a figure which shows operation | movement when the paraphrase word is not registered in the speech recognition apparatus which concerns on 3rd Embodiment to which this invention is applied. 本発明を適用した第3実施形態に係る音声認識装置において、言い換え語が登録されている場合の動作を示す図である。It is a figure which shows operation | movement when the paraphrase word is registered in the speech recognition apparatus which concerns on 3rd Embodiment to which this invention is applied. 本発明を適用した第3実施形態に係る音声認識装置における代替入力画面を示す図である。It is a figure which shows the alternative input screen in the speech recognition apparatus which concerns on 3rd Embodiment to which this invention is applied. 本発明を適用した第2実施形態に係る音声認識装置におけるリスト表示画面を示す図である。It is a figure which shows the list display screen in the speech recognition apparatus which concerns on 2nd Embodiment to which this invention is applied. 本発明を適用した第3実施形態に係る音声認識装置による音声認識時の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence at the time of the speech recognition by the speech recognition apparatus which concerns on 3rd Embodiment to which this invention is applied.

符号の説明Explanation of symbols

1 信号処理ユニット
2 マイク
3 タッチパネルディスプレイ
4 スピーカ
5 入力装置
5a 発話スイッチ
5b 訂正スイッチ
11 信号処理装置
12 A/Dコンバータ
13 D/Aコンバータ
14 アンプ
15 外部記憶装置
21 CPU
22 メモリ
31,32 操作名称データベース
33 音声認識対象語彙データベース
41 音声メニュー画像
42 先選択メニュー画像
43 施設名入力画像
44 音声認識結果画像
45 音声認識結果表示欄
46 メニューリスト
47,63 「そこへ行く」ボタン
48,64 「地図を見る」ボタン
51 代替入力画面
52 カテゴリー情報
53 正式名称入力欄
54 文字入力ボタン
55 リスト表示ボタン
61 リスト表示画面
62 リスト表示
70 通信装置
DESCRIPTION OF SYMBOLS 1 Signal processing unit 2 Microphone 3 Touch panel display 4 Speaker 5 Input device 5a Speech switch 5b Correction switch 11 Signal processing device 12 A / D converter 13 D / A converter 14 Amplifier 15 External storage device 21 CPU
22 Memory 31, 32 Operation name database 33 Voice recognition target vocabulary database 41 Voice menu image 42 Pre-selected menu image 43 Facility name input image 44 Voice recognition result image 45 Voice recognition result display column 46 Menu list 47, 63 “Go there” Buttons 48 and 64 “View Map” Button 51 Alternative Input Screen 52 Category Information 53 Formal Name Input Field 54 Character Input Button 55 List Display Button 61 List Display Screen 62 List Display 70 Communication Device

Claims (13)

使用者から発せられた音声を認識する音声認識手段を備えた音声認識装置であって、
正式名称を音声認識対象語彙として記憶した記憶手段と、
前記記憶手段に記憶された正式名称から言い換え語を生成する言い換え語生成手段と、
前記言い換え語生成手段によって生成された言い換え語の実使用度を評価する実使用度評価手段と、
前記言い換え語生成手段によって生成された言い換え語を音声認識対象語彙として前記記憶手段に登録する登録手段とを有し、
前記登録手段は、前記実用度評価手段によって実使用度が高いと評価された言い換え語のみを音声認識対象語彙として登録することを特徴とする音声認識装置。
A speech recognition device comprising speech recognition means for recognizing speech emitted from a user,
Storage means for storing the official name as a speech recognition target vocabulary;
Paraphrase word generating means for generating a paraphrase word from the formal name stored in the storage means;
Actual usage evaluation means for evaluating the actual usage of the paraphrase generated by the paraphrase generation means;
Registration means for registering the paraphrase word generated by the paraphrase word generation means in the storage means as a speech recognition target vocabulary;
The said registration means registers only the paraphrase word evaluated that the actual usage is high by the said practicality evaluation means as a speech recognition object vocabulary, The speech recognition apparatus characterized by the above-mentioned.
使用者から発せられた音声に対して前記音声認識手段で生成した音声認識結果を訂正する指示を入力する訂正指示手段を更に備え、
前記実使用度評価手段は、前記訂正指示手段で第1の音声認識結果を訂正する指示を入力した場合に当該第1の音声認識結果を一時記憶しておき、その後に、前記音声認識手段で生成した第2の音声認識結果に対して前記訂正指示手段で訂正されずに確定された場合に、前記第1の音声認識結果を、前記第2の音声認識結果の言い換え語として実使用度が高いと評価することを特徴とする請求項1に記載の音声認識装置。
A correction instruction means for inputting an instruction to correct the voice recognition result generated by the voice recognition means for the voice emitted from the user;
The actual usage evaluation means temporarily stores the first voice recognition result when an instruction to correct the first voice recognition result is input by the correction instruction means, and then the voice recognition means When the generated second speech recognition result is determined without being corrected by the correction instruction means, the first speech recognition result is used as a paraphrase for the second speech recognition result. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus is evaluated as being high.
使用者の前記訂正指示手段の操作量から言い換え語の使用意図の高さを判断する使用意図判断手段を更に備え、
前記実使用度評価手段は、前記使用意図判断手段で使用意図が高いと判断された言い換え語を実使用度が高い言い換え語と評価することを特徴とする請求項2に記載の音声認識装置。
A use intention judging means for judging the use intention of the paraphrase word from the operation amount of the correction instruction means of the user;
The speech recognition apparatus according to claim 2, wherein the actual usage evaluation unit evaluates a paraphrase that has been determined to have a high use intention by the use intention determination unit as a paraphrase having a high actual usage.
前記登録手段は、前記言い換え語を登録した場合に、正式名称から当該言い換え語が生成された規則を求めて、当該言い換え語と同一カテゴリーに分類される他の正式名称の言い換え語を、当該規則に従って登録することを特徴とする請求項1に記載の音声認識装置。   When the paraphrase word is registered, the registration means obtains a rule in which the paraphrase word is generated from the formal name, and converts the paraphrase word of another formal name classified into the same category as the paraphrase word. The speech recognition apparatus according to claim 1, wherein registration is performed according to the following. 音声に代えて使用者の操作によって正式名称を入力する代替入力手段を更に備え、
前記実使用度評価手段は、前記音声認識手段の音声認識結果とは異なる正式名称を前記代替入力手段により入力した場合に、前記音声認識手段の音声認識結果を、前記代替入力手段により入力された正式名称の言い換え語として実使用度が高いと評価することを特徴とする請求項1に記載の音声認識装置。
It further comprises an alternative input means for inputting a formal name by a user operation instead of voice,
When the actual usage evaluation means inputs a formal name different from the voice recognition result of the voice recognition means by the alternative input means, the voice recognition result of the voice recognition means is input by the alternative input means. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus evaluates that the actual usage is high as a paraphrase of the official name.
前記実使用度評価手段は、前記音声認識手段の音声認識結果のうち使用者の初期発話と前記言い換え語生成手段で生成した言い換え語とを照合し、使用者の初期発話と尤度の高い言い換え語の実使用度が高いと評価することを特徴とする請求項1に記載の音声認識装置。   The actual usage evaluation means collates the initial utterance of the user with the paraphrase generated by the paraphrase generating means in the speech recognition result of the speech recognition means, and the user's initial utterance and the paraphrase having a high likelihood. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus evaluates that the word usage is high. ネットワークに含まれる情報コンテンツを検索する通信手段を更に備え、
前記実使用度評価手段は、前記通信手段によって前記言い換え語生成手段で生成された言い換え語を前記情報コンテンツから検索した結果、当該言い換え語が複数の情報コンテンツに含まれている場合に、当該言い換え語の実使用度が高いと評価することを特徴とする請求項1に記載の音声認識装置。
A communication means for searching for information content included in the network;
If the paraphrase word is included in a plurality of information contents as a result of searching the information content for the paraphrase word generated by the paraphrase word generation unit by the communication unit, The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus evaluates that the word usage is high.
前記実使用度評価手段は、前記言い換え語生成手段で生成された言い換え語が含まれている情報コンテンツ数が所定値以上である場合に、当該言い換え語の実使用度が高いと判定することを特徴とする請求項7に記載の音声認識装置。   The actual usage evaluation unit determines that the actual usage of the paraphrase word is high when the number of information contents including the paraphrase word generated by the paraphrase word generation unit is equal to or greater than a predetermined value. The speech recognition apparatus according to claim 7, wherein 前記実使用度評価手段は、前記情報コンテンツ中に、正式名称と当該正式名称から前記言い換え語生成手段で生成された言い換え語との両方が共起している場合に、当該言い換え語の実使用度が高いと評価することを特徴とする請求項7に記載の音声認識装置。   The actual usage evaluation means, when both the formal name and the paraphrase generated by the paraphrase generation means from the official name co-occur in the information content, the actual use of the paraphrase word The speech recognition apparatus according to claim 7, wherein the speech recognition apparatus evaluates that the degree is high. 前記実使用度評価手段は、前記通信手段によって前記言い換え語生成手段で生成された言い換え語を検索条件として前記情報コンテンツの検索を行わせ、前記通信手段によって検索された情報コンテンツに正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価することを特徴とする請求項7に記載の音声認識装置。   The actual usage evaluation unit causes the information content to be searched by using the paraphrase word generated by the paraphrase word generation unit as a search condition by the communication unit, and the formal name is included in the information content searched by the communication unit The speech recognition apparatus according to claim 7, wherein, when it is determined, the actual usage of the paraphrase word is evaluated as being high. 前記実使用度評価手段は、前記通信手段によって前記言い換え語生成手段で生成された言い換え語を検索条件として前記情報コンテンツの検索を行わせ、前記通信手段によって検索された情報コンテンツのタイトル部分に正式名称が含まれる場合に、当該言い換え語の実使用度が高いと判定することを特徴とする請求項7に記載の音声認識装置。   The actual usage evaluation unit causes the information content to be searched by using the paraphrase word generated by the paraphrase word generation unit by the communication unit as a search condition, and the title part of the information content searched by the communication unit is officially displayed. The speech recognition apparatus according to claim 7, wherein when the name is included, it is determined that the actual usage of the paraphrase is high. 前記通信手段は、正式名称のカテゴリが地点名称である場合に、前記情報コンテンツの検索条件に当該地点名称の位置情報を含めて検索をすることを特徴とする請求項7に記載の音声認識装置。   8. The speech recognition apparatus according to claim 7, wherein, when the category of the official name is a spot name, the communication unit performs a search by including position information of the spot name in the search condition of the information content. . 前記登録手段によって登録された言い換え語が、使用可能となったことを使用者に提示することを特徴とする請求項1に記載の音声認識装置。   The speech recognition apparatus according to claim 1, wherein the paraphrase word registered by the registration unit is presented to the user that it can be used.
JP2006220448A 2006-08-11 2006-08-11 Voice recognition device Expired - Fee Related JP4967519B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006220448A JP4967519B2 (en) 2006-08-11 2006-08-11 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006220448A JP4967519B2 (en) 2006-08-11 2006-08-11 Voice recognition device

Publications (2)

Publication Number Publication Date
JP2008046260A true JP2008046260A (en) 2008-02-28
JP4967519B2 JP4967519B2 (en) 2012-07-04

Family

ID=39180077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006220448A Expired - Fee Related JP4967519B2 (en) 2006-08-11 2006-08-11 Voice recognition device

Country Status (1)

Country Link
JP (1) JP4967519B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010156925A (en) * 2009-01-05 2010-07-15 Alpine Electronics Inc Information processing apparatus and speech recognition dictionary creation method
WO2011030817A1 (en) * 2009-09-09 2011-03-17 クラリオン株式会社 Information retrieving apparatus, information retrieving method and navigation system
JP2011064969A (en) * 2009-09-17 2011-03-31 Alpine Electronics Inc Device and method of speech recognition
JP2012226299A (en) * 2011-04-14 2012-11-15 Hyundai Motor Co Ltd Apparatus and method for processing voice command
JP2013174644A (en) * 2012-02-23 2013-09-05 Ntt Docomo Inc Communication terminal, control method and program
JPWO2014103568A1 (en) * 2012-12-28 2017-01-12 ソニー株式会社 Information processing apparatus, information processing method, and program
JP2017161644A (en) * 2016-03-08 2017-09-14 トヨタ自動車株式会社 Speech processing system and speech processing method
WO2024019186A1 (en) * 2022-07-19 2024-01-25 엘지전자 주식회사 Display device and operating method thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126096A (en) * 1984-07-16 1986-02-05 富士通株式会社 Preliminary evaluation system for voice recognition word
WO2004044887A1 (en) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation device and speech recognition device
JP2005031255A (en) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp Dictionary creating device and speech recognizing device
JP2005338274A (en) * 2004-05-25 2005-12-08 Mitsubishi Electric Corp Voice interaction device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126096A (en) * 1984-07-16 1986-02-05 富士通株式会社 Preliminary evaluation system for voice recognition word
WO2004044887A1 (en) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation device and speech recognition device
JP2005031255A (en) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp Dictionary creating device and speech recognizing device
JP2005338274A (en) * 2004-05-25 2005-12-08 Mitsubishi Electric Corp Voice interaction device

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010156925A (en) * 2009-01-05 2010-07-15 Alpine Electronics Inc Information processing apparatus and speech recognition dictionary creation method
WO2011030817A1 (en) * 2009-09-09 2011-03-17 クラリオン株式会社 Information retrieving apparatus, information retrieving method and navigation system
JP2011059313A (en) * 2009-09-09 2011-03-24 Clarion Co Ltd Information retrieval device, information retrieval method and navigation system
CN102549652A (en) * 2009-09-09 2012-07-04 歌乐株式会社 Information retrieving apparatus, information retrieving method and navigation system
US8949133B2 (en) 2009-09-09 2015-02-03 Clarion Co., Ltd. Information retrieving apparatus
EP2477186A4 (en) * 2009-09-09 2015-09-16 Clarion Co Ltd Information retrieving apparatus, information retrieving method and navigation system
JP2011064969A (en) * 2009-09-17 2011-03-31 Alpine Electronics Inc Device and method of speech recognition
JP2012226299A (en) * 2011-04-14 2012-11-15 Hyundai Motor Co Ltd Apparatus and method for processing voice command
JP2013174644A (en) * 2012-02-23 2013-09-05 Ntt Docomo Inc Communication terminal, control method and program
JPWO2014103568A1 (en) * 2012-12-28 2017-01-12 ソニー株式会社 Information processing apparatus, information processing method, and program
JP2017161644A (en) * 2016-03-08 2017-09-14 トヨタ自動車株式会社 Speech processing system and speech processing method
WO2024019186A1 (en) * 2022-07-19 2024-01-25 엘지전자 주식회사 Display device and operating method thereof

Also Published As

Publication number Publication date
JP4967519B2 (en) 2012-07-04

Similar Documents

Publication Publication Date Title
JP4967519B2 (en) Voice recognition device
CN106663424B (en) Intention understanding device and method
US8949133B2 (en) Information retrieving apparatus
JP5824829B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JPWO2006040971A1 (en) Dialogue support device
JP4867622B2 (en) Speech recognition apparatus and speech recognition method
JP4466379B2 (en) In-vehicle speech recognition device
JP2013109061A (en) Voice data retrieval system and program for the same
JP4634156B2 (en) Voice dialogue method and voice dialogue apparatus
JP2002123290A (en) Speech recognition device and speech recognition method
JP2009198614A (en) Interaction device and program
JP5217838B2 (en) In-vehicle device operating device and in-vehicle device operating method
JP4914632B2 (en) Navigation device
JP2015038526A (en) Speech processing device and speech processing method
JP4639990B2 (en) Spoken dialogue apparatus and speech understanding result generation method
JP2003162293A (en) Device and method for voice recognition
JP6499228B2 (en) Text generating apparatus, method, and program
JP2011039185A (en) Voice interactive device and voice interactive program
JP6746886B2 (en) Learning support device and program for the learning support device
JP2004029354A (en) Speech recognition device, speech recognition method, and speech recognition program
JP2005322148A (en) Browser device
JP2000089782A (en) Device and method for recognizing voice, navigation system and recording medium
JP2002268667A (en) Presentation system and control method therefor
WO2011030404A1 (en) Operating system and operating method
JP2009175233A (en) Speech recognition device, navigation device, and destination setting program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees