JPH10143191A - Speech recognition system - Google Patents

Speech recognition system

Info

Publication number
JPH10143191A
JPH10143191A JP8301802A JP30180296A JPH10143191A JP H10143191 A JPH10143191 A JP H10143191A JP 8301802 A JP8301802 A JP 8301802A JP 30180296 A JP30180296 A JP 30180296A JP H10143191 A JPH10143191 A JP H10143191A
Authority
JP
Japan
Prior art keywords
dictionary
speech recognition
voice
words
dictionaries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8301802A
Other languages
Japanese (ja)
Inventor
Shinji Wakizaka
新路 脇坂
Kazuyoshi Ishiwatari
一嘉 石渡
Koji Ito
功二 伊東
Tetsuji Toushita
哲司 塔下
Makoto Tanaka
田中  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Microcomputer System Ltd
Hitachi Ltd
Original Assignee
Hitachi Microcomputer System Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Microcomputer System Ltd, Hitachi Ltd filed Critical Hitachi Microcomputer System Ltd
Priority to JP8301802A priority Critical patent/JPH10143191A/en
Priority to KR1019970058986A priority patent/KR100274276B1/en
Priority to TW086116852A priority patent/TW360858B/en
Priority to US08/970,109 priority patent/US6112174A/en
Publication of JPH10143191A publication Critical patent/JPH10143191A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

PROBLEM TO BE SOLVED: To actualize an excellent speech recognition interface by limiting words and documents as objects of speech recognition and performing the speech recognition. SOLUTION: A speech analysis part 106 performs a noise process and takes a speech analysis of a speech inputted through a microphone 106. A speech recognition part 107 collates the input speech with the speech analytic result of the input speech calculated by the speech analysis part 106 by using a dictionary 105 and a sound model 108 in sequence to calculate the closest word in the dictionary 105. In this case, a dictionary switching part 103 selects one of dictionaries or switches them for the speech recognition according to the contents of dictionary switching information 102. For example, plural dictionaries are stored on a memory card or in a ROM 104, and when the speech recognition is performed, only a necessary dictionary is transferred to a RAM 105 to perform a speech recognizing process. Namely, words and documents to be recognized are limited and the speech recognition is performed.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、カーナビゲーショ
ンシステム、PDA(Personal Digital Assistant)に
代表される小型情報機器、携帯型音声翻訳機などに用い
て好適な音声認識システムに係り、特に、カーナビゲー
ションシステムにおける地名、交差点名、通り名等の膨
大な単語の音声認識に用いて好適な、音声認識誘導シス
テムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition system suitable for use in a car navigation system, a small information device represented by a PDA (Personal Digital Assistant), a portable speech translator, and the like. The present invention relates to a speech recognition guidance system suitable for speech recognition of huge words such as place names, intersection names, and street names in a system.

【0002】[0002]

【従来の技術】音声認識技術を用いた小型情報システム
が、近時普及しつつある。すなわち、カーナビゲション
システムをはじめとして、PDAに代表される携帯型情
報機器、携帯型翻訳機等である。ただし、従来の技術で
は、認識率や認識応答時間の性能を低下させないため
に、認識する語数の制約がある。
2. Description of the Related Art Small information systems using voice recognition technology have recently become widespread. That is, portable information devices represented by PDAs, portable translators, and the like, as well as car navigation systems. However, in the related art, there is a restriction on the number of words to be recognized in order not to lower the performance of the recognition rate and the recognition response time.

【0003】また、特開平5−35776号公報(名
称;「言語自動選択機能付翻訳装置」)には、マイクか
ら入力した操作者の音声を認識して、翻訳し、翻訳した
言語の音声を出力するようにした携帯用の翻訳装置が開
示されている。
[0003] Japanese Patent Application Laid-Open No. 5-35776 (name: "Translator with automatic language selection function") recognizes and translates an operator's voice input from a microphone, and translates the translated language voice. A portable translator for outputting is disclosed.

【0004】図8は、このような従来の音声翻訳装置の
1例を示すブロック図である。同図において、801は
制御部、802は音声区間切出し部、803は音声認識
部、804は表示部、805は音声合成部、806は翻
訳語データ用メモリカード、807は音声認識辞書部、
808はスピーカ、809はマイク、810はスピーカ
アンプ、811は操作信号である。
FIG. 8 is a block diagram showing an example of such a conventional speech translator. In the figure, reference numeral 801 denotes a control unit, 802 denotes a voice section cutout unit, 803 denotes a voice recognition unit, 804 denotes a display unit, 805 denotes a voice synthesis unit, 806 denotes a memory card for translated word data, 807 denotes a voice recognition dictionary unit,
808 is a speaker, 809 is a microphone, 810 is a speaker amplifier, and 811 is an operation signal.

【0005】制御部801はマイクロプロセッサ等から
なり、装置の各部を制御する。音声区間切出し部802
は、マイク809から入力された音声をデジタル信号に
変換して切り出し、音声認識部803に送る。音声認識
部803は、キーボード又はスイッチ等による操作信号
811を受けた制御部801の指示により、マイク80
9、音声区間切出し部802を経て、切り出された音声
を分析する。そして、その結果を、音声認識辞書部80
7に格納された標準音声パターンと比較することによ
り、音声認識を行う。
[0005] The control unit 801 is composed of a microprocessor or the like, and controls each unit of the apparatus. Voice section extraction unit 802
Converts the voice input from the microphone 809 into a digital signal, cuts out the digital signal, and sends the digital signal to the voice recognition unit 803. The voice recognition unit 803 receives an operation signal 811 from a keyboard, a switch, or the like, and receives an instruction from the control unit 801 to receive the operation signal 811.
9. Analyze the cut-out voice via the voice section cut-out unit 802. Then, the result is input to the speech recognition dictionary unit 80.
The voice recognition is performed by comparing with the standard voice pattern stored in.

【0006】音声合成部805は、音声認識部803に
より認識された音声に対応した翻訳語を、翻訳語データ
用メモリカード806から読み込み、これを音声信号に
変換して、スピーカアンプ810、スピーカ808を経
て音声として出力させる。
A speech synthesizer 805 reads a translated word corresponding to the speech recognized by the speech recognizer 803 from the translated word data memory card 806, converts this into a speech signal, and outputs the speech signal to the speaker amplifier 810 and the speaker 808. And output as audio.

【0007】表示部804は、翻訳装置の使用者への指
示や翻訳語の文字による表示等を行う。翻訳語データ用
メモリカード806は、ROMカード等からなり、翻訳
語を音声合成して出力する場合には、音声データを格納
している。また、この翻訳語データ用メモリカード80
6から、翻訳語に対応したキャラクターコードを読み込
み、表示部804に表示する。そして、この翻訳語デー
タ用メモリカード806を他の言語のものと交換するこ
とにより、複数の言語に翻訳することが可能となる。音
声認識辞書部807は、RAM等からなり、操作者の発
生に応じた標準音声パターンを格納している。この標準
音声パターンは、操作者があらかじめ格納しておく。
[0007] The display unit 804 gives instructions to the user of the translation apparatus, displays translated characters, and the like. The translated word data memory card 806 is composed of a ROM card or the like, and stores voice data when the translated word is synthesized and output. Also, the memory card 80 for this translated word data
From 6, a character code corresponding to the translated word is read and displayed on the display unit 804. By exchanging the translated word data memory card 806 with one for another language, translation into a plurality of languages becomes possible. The voice recognition dictionary unit 807 includes a RAM or the like, and stores a standard voice pattern according to the occurrence of the operator. This standard voice pattern is stored in advance by the operator.

【0008】[0008]

【発明が解決しようとする課題】上述したように、音声
認識技術を用いた小型情報システムは、カーナビゲショ
ンシステムをはじめとして、PDAに代表される携帯型
情報機器、携帯型翻訳機等として、今後ますます普及し
てくると予想される。ところで、音声認識を用いたヒュ
ーマンインターフェースの向上においては、認識率およ
び認識応答時間が問題となる。
As described above, a small information system using a speech recognition technique is used as a portable information device represented by a PDA, a portable translator, etc., including a car navigation system. It is expected to become more and more popular in the future. By the way, in improving a human interface using voice recognition, a recognition rate and a recognition response time are problems.

【0009】しかしながら、従来の技術では、認識率や
認識応答時間の性能を低下させないために、認識する語
数を制約しなければならない。一方、認識する語数を増
やすと、音声の特徴が似通った単語が増加して認識率が
低下する。また、認識対象となるすべての単語に対し
て、音声認識処理を行うので、そのために必要なワーク
メモリや辞書メモリ等の規模が大きくなり、処理時間も
増加する。
However, in the prior art, the number of words to be recognized must be restricted in order not to lower the performance of the recognition rate and the recognition response time. On the other hand, when the number of words to be recognized is increased, words having similar voice characteristics increase, and the recognition rate decreases. In addition, since speech recognition processing is performed on all words to be recognized, the size of a work memory, a dictionary memory, and the like required for the processing increases, and the processing time also increases.

【0010】なお将来的には、音声認識技術の革新や、
それを実現するソフトウエア、ハードウエアの性能向上
により、認識する語数の制約がなくなることも考えられ
るが、当面は、認識率や認識応答時間の性能を低下させ
ないために、認識する語数を制約せざるを得ないのが現
状である。
In the future, innovations in speech recognition technology,
It is conceivable that the limitation of the number of words to be recognized may be removed by improving the performance of software and hardware that realizes this, but for the time being, the number of words to be recognized must be limited in order not to reduce the performance of the recognition rate and recognition response time. At present it is inevitable.

【0011】斯様な現状においても、音声認識技術を用
いた小型情報システムでは、特に、カーナビゲションシ
ステムなどでは、使い勝手を良くするために、音声認識
する語彙数を増加させたいという要求がある。
[0011] Even in such a current situation, there is a demand for increasing the number of vocabulary words for voice recognition in a small information system using voice recognition technology, particularly in a car navigation system, etc., in order to improve the usability. .

【0012】本発明は上記の点に鑑みなされたもので、
その目的とするところは、音声認識する語彙数を増加さ
せても、認識率や認識応答時間の性能を低下させない
で、音声認識できるシステムを実現することにある。ま
た、本発明の目的とするところは、音声認識を用いたカ
ーナビゲーションシステムおいて、良好な音声認識イン
ターフェースを実現することにある。
The present invention has been made in view of the above points,
An object of the present invention is to realize a system capable of performing voice recognition without reducing the performance of the recognition rate and the recognition response time even when the number of words to be recognized is increased. Another object of the present invention is to realize a good voice recognition interface in a car navigation system using voice recognition.

【0013】[0013]

【課題を解決するための手段】上記した目的を達成する
ため、本発明による音声認識システムは、音声認識の対
象となる単語や文章を任意の数、あるいは、指定された
数だけ用意して、それらを1つの辞書として定義し、ま
た、別な音声認識の対象となる単語や文章を任意の数、
あるいは、指定された数だけ用意して、それらをもう1
つの辞書として定義し、これらの辞書を複数用意して、
複数の辞書を格納しておく第1の記憶部と、複数の辞書
から1つだけ辞書を選択し、格納しておく第2の記憶部
と、複数の辞書から1つだけ辞書を選択する辞書切り変
え情報を受けて、辞書を切り変える辞書切り変え部と、
取り込んだ音声に対して、音声分析処理を行う音声分析
部と、この音声分析部による音声分析結果に対して、辞
書切り変え部により選択され第2の記憶部に格納された
辞書と、音響モデルとから、音声認識処理を行う音声認
識部とを備え、音声認識の対象となる単語や文章を限定
して、音声認識を行うように、構成する。
In order to achieve the above object, a speech recognition system according to the present invention prepares an arbitrary number or a specified number of words or sentences to be subjected to speech recognition. They are defined as one dictionary, and any number of words or sentences to be recognized by another
Alternatively, prepare the specified number, and
Defined as one dictionary, prepare multiple of these dictionaries,
A first storage unit for storing a plurality of dictionaries, a second storage unit for selecting and storing only one dictionary from the plurality of dictionaries, and a dictionary for selecting only one dictionary from the plurality of dictionaries A dictionary switching unit that receives the switching information and switches the dictionary;
A voice analysis unit that performs voice analysis processing on the captured voice, a dictionary selected by the dictionary switching unit and stored in the second storage unit based on the voice analysis result by the voice analysis unit, Therefore, a speech recognition unit that performs speech recognition processing is provided, and the speech recognition is performed by limiting the words and sentences to be subjected to speech recognition.

【0014】また、複数の辞書を格納しておく前記第1
の記憶部は、メモリカードまたはROMで構成し、複数
の辞書から1つだけ辞書を選択し格納しておく前記第2
の記憶部は、RAMで構成する。
Further, the first dictionary storing a plurality of dictionaries.
Is a memory card or a ROM, and selects and stores only one dictionary from a plurality of dictionaries.
Is composed of a RAM.

【0015】また、複数の辞書から1つだけ辞書を選択
する前記辞書切り変え情報は、カーナビゲーションシス
テムで用いられている衛星測位システムGPS(Global
Positioning system )からの位置情報を、用いるよう
にされる。
The dictionary switching information for selecting only one dictionary from a plurality of dictionaries is a satellite positioning system GPS (Global Positioning System) used in a car navigation system.
The position information from the positioning system is used.

【0016】また、音声認識システムは、カーナビゲー
ションシステムにおける音声認識システムとされ、音声
認識の対象となる単語や文章を任意の数、あるいは、指
定された数だけ用意して、それらを1つの辞書として作
成する際に、辞書は、任意のエリア、あるいは、指定さ
れたエリアに存在する地名、交差点名、通り名、建物
名、ガソリンスタンド、コンビニエンスストア、ファミ
リーレストラン等の単語から構成し、これらの辞書をエ
リアごとに用意しておくように、構成する。
The speech recognition system is a speech recognition system in a car navigation system. An arbitrary number or a designated number of words or sentences to be subjected to speech recognition are prepared, and these are prepared in one dictionary. When creating a dictionary, the dictionary is composed of words such as place names, intersection names, street names, building names, gas stations, convenience stores, family restaurants, etc. existing in an arbitrary area or a specified area. The dictionary is prepared for each area.

【0017】また、前記目的を達成するため、本発明に
よる音声認識システムは、音声認識の対象となる単語や
文章を任意の数、あるいは、指定された数だけ用意し
て、それらを1つの辞書として定義し、さらに、別な音
声認識の対象となる単語や文章を任意の数、あるいは、
指定された数だけ用意して、それらをもう1つの辞書と
して定義し、これらの辞書を複数用意して、複数の辞書
を格納しておく第1の記憶部と、複数の辞書から1つだ
け辞書を選択し、格納しておく第2の記憶部と、複数の
辞書から1つだけ辞書を選択する辞書切り変え情報、ま
たは、認識した結果を受けて、辞書を切り変える辞書切
り変え部と、取り込んだ音声に対して、音声分析処理を
行う音声分析部と、この音声分析部による音声分析結果
に対して、辞書切り変え部により選択され第2の記憶部
に格納された辞書と、音響モデルとから、音声認識処理
を行う音声認識部とを備え、音声認識の対象となる単語
や文章を限定して、音声認識を行うように、構成する。
In order to achieve the above object, a speech recognition system according to the present invention prepares an arbitrary number or a designated number of words and sentences to be subjected to speech recognition, and stores them in one dictionary. , And any number of words or sentences to be subjected to another speech recognition, or
Prepare a designated number of them, define them as another dictionary, prepare a plurality of these dictionaries, and store a plurality of dictionaries in the first storage unit, and only one of the dictionaries A second storage unit for selecting and storing dictionaries; a dictionary switching unit for switching dictionaries in response to dictionary switching information for selecting only one dictionary from a plurality of dictionaries or a recognized result; A voice analysis unit that performs a voice analysis process on the captured voice, a dictionary selected by the dictionary switching unit and stored in the second storage unit based on the voice analysis result obtained by the voice analysis unit, A speech recognition unit that performs speech recognition processing is provided from the model, and the speech recognition is performed by limiting words and sentences to be subjected to speech recognition.

【0018】また、音声認識システムは、カーナビゲー
ションシステムにおける音声認識システムとされ、音声
認識の対象となる単語や文章を任意の数、あるいは、指
定された数だけ用意して、それらを1つの辞書として作
成する際に、辞書は、任意のエリア、あるいは、指定さ
れたエリアに存在する地名、交差点名、通り名、建物
名、ガソリンスタンド、コンビニエンスストア、ファミ
リーレストラン等の単語から構成し、これらの辞書をエ
リアごとに用意して音声認識し、音声認識結果におい
て、辞書の中に該当する単語が存在しない場合には、次
の音声認識の対象となる辞書に切り変えて、音声認識を
行うように、構成する。
The voice recognition system is a voice recognition system in a car navigation system. An arbitrary number or a specified number of words or sentences to be subjected to voice recognition are prepared, and they are stored in one dictionary. When creating a dictionary, the dictionary is composed of words such as place names, intersection names, street names, building names, gas stations, convenience stores, family restaurants, etc. existing in an arbitrary area or a specified area. A dictionary is prepared for each area and speech recognition is performed. If there is no corresponding word in the dictionary in the speech recognition result, the dictionary is switched to the next dictionary for speech recognition, and speech recognition is performed. Then, configure.

【0019】また、音声認識システムは、カーナビゲー
ションシステムにおける音声認識システムとされ、音声
認識の対象となる単語や文章を任意の数、あるいは、指
定された数だけ用意して、それらを1つの辞書として作
成する際に、辞書は、任意のエリア、あるいは、指定さ
れたエリアに存在する地名、交差点名、通り名、建物
名、ガソリンスタンド、コンビニエンスストア、ファミ
リーレストラン等の単語から構成し、これらの辞書をエ
リアごとに用意して音声認識し、音声認識結果が、辞書
のインデックスを示す場合には、インデックスが示す音
声認識の対象となる辞書に切り変えて、音声認識を行う
ように、構成する。
The speech recognition system is a speech recognition system in a car navigation system. An arbitrary number or a specified number of words or sentences to be subjected to speech recognition are prepared, and these are prepared in one dictionary. When creating a dictionary, the dictionary is composed of words such as place names, intersection names, street names, building names, gas stations, convenience stores, family restaurants, etc. existing in an arbitrary area or a specified area. A dictionary is prepared for each area and speech recognition is performed. When the speech recognition result indicates a dictionary index, the dictionary is switched to a dictionary to be recognized by the speech indicated by the index, and speech recognition is performed. .

【0020】[0020]

【発明の実施の形態】以下、本発明の実施の形態を、図
面を用いて説明する。図1は、本発明の第1実施形態に
係る音声認識システムの処理機能を示すブロックロック
である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block lock showing a processing function of the speech recognition system according to the first embodiment of the present invention.

【0021】図1において、101は、音声を取り込む
ためのマイクである。102は、辞書切り変え情報であ
る。ここで、本発明でいう辞書とは、音声認識の対象と
なる言葉、単語(名詞、動詞等)の集合体であり、例え
ば、カーナビゲションシステムにおいては、通り名、地
名、建造物名、町名、番地、交差点名、ガソリンスタン
ド、コンビニエンスストア、ファミリーレストラン等
や、必要最小限の会話に必要な言葉の集合体である。そ
して例えば、1つの辞書は、1000〜5000語の単
語で構成する。この辞書を複数用意して、音声認識の対
象として、複数の辞書から1つの辞書を選択して音声認
識を行う。
In FIG. 1, reference numeral 101 denotes a microphone for taking in voice. Reference numeral 102 denotes dictionary switching information. Here, the dictionary in the present invention is a set of words and words (nouns, verbs, etc.) to be subjected to speech recognition. For example, in a car navigation system, a street name, a place name, a building name, It is a collection of words necessary for a minimum necessary conversation, such as street names, street addresses, intersection names, gas stations, convenience stores, and family restaurants. And, for example, one dictionary is composed of words of 1000 to 5000 words. A plurality of the dictionaries are prepared, and one dictionary is selected from the plurality of dictionaries as a target of the voice recognition to perform the voice recognition.

【0022】103は、辞書切り変え部であり、辞書切
り変え情報102の内容にしたがって、音声認識の対象
として、複数の辞書から1つの辞書を選択するか、また
は、切り変える。例えば、複数の辞書がメモリカードや
ROM(Read Only Memory)に格納されていて、音声認
識するときに必要な辞書だけRAM(Random AccessMem
ory)に転送して音声認識処理を行う。
Reference numeral 103 denotes a dictionary switching unit, which selects or switches one dictionary from a plurality of dictionaries as a speech recognition target according to the contents of the dictionary switching information 102. For example, a plurality of dictionaries are stored in a memory card or a ROM (Read Only Memory), and only dictionaries necessary for voice recognition are stored in a RAM (Random Access Memory).
ory) to perform voice recognition processing.

【0023】104は、複数の辞書を格納しておく記憶
装置あるいは記憶領域であり、メモリカードやROMで
構成する。105は、音声認識の対象として、複数の辞
書から1つの辞書を選択して格納するための記憶装置あ
るいは記憶領域であり、RAMで構成する。
Reference numeral 104 denotes a storage device or storage area for storing a plurality of dictionaries, which is constituted by a memory card or a ROM. Reference numeral 105 denotes a storage device or storage area for selecting and storing one dictionary from a plurality of dictionaries as a target of voice recognition, and is configured by a RAM.

【0024】106は、音声分析部であり、マイク10
1で取り込んだ音声に対して、ノイズ処理や音声分析を
行う。107は、音声認識部であり、音声分析部106
で算出された入力音声の音声分析結果に対して、逐次、
辞書105および音響モデル108から、入力音声の照
合を行い、辞書105の中で、一番近い単語を計算す
る。
Reference numeral 106 denotes a voice analysis unit, and the microphone 10
Noise processing and voice analysis are performed on the voice captured in step 1. Reference numeral 107 denotes a voice recognition unit, and a voice analysis unit 106
The voice analysis results of the input voice calculated in
The input voice is collated from the dictionary 105 and the acoustic model 108, and the closest word in the dictionary 105 is calculated.

【0025】108は、不特定話者の音声認識に対応し
た音響モデルであり、例えば隠れマルコフモデル(HM
M:Hidden Markov Model )である。109は、音声認
識部107で計算された音声認識結果である。
Reference numeral 108 denotes an acoustic model corresponding to speech recognition of an unspecified speaker, such as a hidden Markov model (HM)
M: Hidden Markov Model). Reference numeral 109 denotes a speech recognition result calculated by the speech recognition unit 107.

【0026】なお、図1に示す各処理ブロックは、複数
のLSIやメモリで構成されたシステムであっても、半
導体素子上に構成された1つないし複数のシステムオン
チップであってもよい。
Each processing block shown in FIG. 1 may be a system constituted by a plurality of LSIs or memories, or one or a plurality of system-on-chips constituted on semiconductor elements.

【0027】図2は、本実施形態における、辞書切り変
え/音声認識処理のフローチャートである。
FIG. 2 is a flowchart of the dictionary switching / speech recognition processing in the present embodiment.

【0028】ステップST201は、辞書切り変え情報
102が更新されたか否かを問う判定処理である。辞書
切り変え情報102は、例えば、カーナビゲーションシ
ステムであれば、衛星測位システム(GPS:Global P
ositioning System )からの位置を示す信号である。
Step ST201 is a determination process for asking whether or not the dictionary switching information 102 has been updated. The dictionary switching information 102 is, for example, a satellite positioning system (GPS: Global P
ositioning system).

【0029】辞書切り変え部103は、GPSからの位
置を示す信号を受けて、その位置が認識対象の単語辞書
を切り換える必要がある事を示している場合には(ステ
ップST201でYESの場合には)、ステップST2
03で認識対象の単語の辞書に切り変える。また、その
位置が認識対象の単語辞書を切り換える必要がない事を
示している場合には(ステップST201でNOの場合
には)、辞書を変更せずに、そのままステップST20
2で音声認識処理を実行する。
The dictionary switching unit 103 receives the signal indicating the position from the GPS, and if the position indicates that the word dictionary to be recognized needs to be switched (in the case of YES in step ST201). ), Step ST2
At 03, it switches to the dictionary of the word to be recognized. If the position indicates that it is not necessary to switch the word dictionary to be recognized (NO in step ST201), the dictionary is not changed and the process proceeds to step ST20.
In step 2, a voice recognition process is executed.

【0030】例えば、辞書を切り変える条件としては、
次のようにすればよい。すなわち、車がX地点からY地
点へ向かって走行しているとしたときには、車の現在位
置がX地点を含むあらかじめ定められたエリアEX 内に
ある場合には、エリアEX 内で用いる辞書DX を用い、
車の現在位置がY地点を含むあらかじめ定められたエリ
アEY 内に入った場合には、エリアEY 内で音声認識に
使用する辞書DY に切り変える。
For example, conditions for switching the dictionary include:
You can do as follows. That is, when the car was running toward the point X to point Y, when the current position of the vehicle is in the predetermined area E X including X point is used in the area E X Dictionary using the D X,
If the current position of the vehicle has entered the predetermined area E Y including point Y is changed over to the dictionary D Y to be used for speech recognition in the area E Y.

【0031】図3は、カーナビゲーションにおける辞書
の切り変えについて説明するための図である。
FIG. 3 is a diagram for explaining switching of dictionaries in car navigation.

【0032】図3の(a)において、301は、カーナ
ビゲーションシステムを搭載した車が実際に走行してい
る道路を表示している。また、302は、カーナビゲー
ションシステムを搭載した車が現在走行しているポイン
ト(A地点)と走行方向とを表示している。
In FIG. 3A, reference numeral 301 denotes a road on which a car equipped with a car navigation system is actually traveling. Reference numeral 302 denotes a point (point A) where the vehicle equipped with the car navigation system is currently traveling and a traveling direction.

【0033】A地点において、音声認識可能な単語は、
304が示すエリア1の中に存在する地名、通り名、交
差点名、建造物名、ガソリンスタンド、コンビニエンス
ストア、レストラン等である。ここで、表示されている
縮尺度によって、エリアの中に存在する地名、通り名、
交差点名、建造物名、ガソリンスタンド、コンビニエン
スストア、レストラン等の数は異なる。また、表示して
いるエリアが、市街地である場合と、田舎や山間部等の
過疎地帯である場合とでも、エリアの中に存在する地
名、通り名、交差点名、建造物名、ガソリンスタンド、
コンビニエンスストア、レストラン等の数は異なる。
At the point A, the words that can be voice-recognized are:
There are a place name, a street name, an intersection name, a building name, a gas station, a convenience store, a restaurant, and the like existing in the area 1 indicated by 304. Here, depending on the displayed scale, the place name, street name,
The numbers of intersection names, building names, gas stations, convenience stores, restaurants, etc. are different. Also, whether the displayed area is an urban area or a depopulated area such as a countryside or a mountainous area, the place name, street name, intersection name, building name, gas station,
The number of convenience stores, restaurants, etc. is different.

【0034】そこで、縮尺度1/kのkが大きい場合に
は、広範囲なエリアを表示していることから、単語数は
増える。例えば、音声認識において、認識率と認識応答
時間の性能を低下させない単語数が、最大3000語と
すると、3000語単位にエリアを分割する。ただし、
広範囲のエリアの場合には、大きな通り名や交差点名、
有名な建造物名の単語で辞書を構成する。
Therefore, when k of the reduced scale 1 / k is large, a wide area is displayed, and the number of words increases. For example, in speech recognition, if the number of words that does not lower the performance of the recognition rate and the recognition response time is 3000 words at the maximum, the area is divided into 3000 word units. However,
In the case of a large area, large street names, intersection names,
Construct a dictionary with words of famous building names.

【0035】逆に、縮尺度1/kのkが小さい場合に
は、狭い範囲のエリアを表示していることから、単語数
は減少する。しかし、細かい通り名や交差点名、ローカ
ルな建造物名まで含めると、単語数は増大する。よっ
て、縮尺度1/kのkが小さい場合にも、運転者は、よ
り詳細な通り名や交差点名、建造物名を知りたがること
から、辞書の単語数は、例えば最大3000語に限定さ
れるものとする。
Conversely, when k of the reduced scale 1 / k is small, a narrow area is displayed, and the number of words is reduced. However, including detailed street names, intersection names, and local building names will increase the number of words. Therefore, even when k of the reduced scale 1 / k is small, the driver wants to know more detailed street names, intersection names, and building names, so the number of words in the dictionary is, for example, up to 3000 words. Shall be limited.

【0036】いま例えば、表示されているエリア1にお
いて、運転者が、カーナビゲーションシステムに対し
て、例えば「〇〇〇」と発声すると(ここで、〇〇〇は
ある特定のガソリン供給メーカを指すものとする)、エ
リア1内に〇〇〇系のガソリンスタンドが5km先に存
在すれば、「5km先にあります。」と音声合成で答え
てくれる。
Now, for example, in the displayed area 1, when the driver utters, for example, “〇〇〇” to the car navigation system (here, 〇〇〇 indicates a specific gasoline supply maker). If there is a 5km gas station in Area 1 located 5km away, he will respond with voice synthesis saying "It is 5km away."

【0037】次に、過去A地点を走行していた車が、現
在はB地点を走行しているものとする。この場合には、
図3の(a)において、303が、カーナビゲーション
システムを搭載した車が現在走行しているポイント(B
地点)と走行方向を表示している。B地点においては、
音声認識可能な単語は、305が示すエリア2の中に存
在する地名、通り名、交差点名、建造物名、ガソリンス
タンド、コンビニエンスストア、レストラン等である。
Next, it is assumed that a car that has been traveling at point A in the past is now traveling at point B. In this case,
In FIG. 3A, reference numeral 303 denotes a point (B) at which the vehicle equipped with the car navigation system is currently running.
Point) and the driving direction are displayed. At point B,
The words that can be voice-recognized include a place name, a street name, an intersection name, a building name, a gas station, a convenience store, a restaurant, and the like existing in the area 2 indicated by 305.

【0038】図3の(b)は、上記したエリアと辞書と
の関係を示すテーブル306であり、カーナビゲーショ
ンシステムが具備している。辞書1は、エリア1の中に
存在する地名、通り名、交差点名、建造物名、ガソリン
スタンド、コンビニエンスストア、レストラン等の単語
で構成されている。また、辞書2は、エリア2の中に存
在する地名、通り名、交差点名、建造物名、ガソリンス
タンド、コンビニエンスストア、レストラン等の単語で
構成されている。以下同様に、辞書nは、エリアnの中
に存在する地名、通り名、交差点名、建造物名、ガソリ
ンスタンド、コンビニエンスストア、レストラン等の単
語で構成されている。
FIG. 3B is a table 306 showing the relationship between the above-mentioned area and the dictionary, which is provided in the car navigation system. The dictionary 1 includes words such as a place name, a street name, an intersection name, a building name, a gas station, a convenience store, and a restaurant existing in the area 1. The dictionary 2 includes words such as a place name, a street name, an intersection name, a building name, a gas station, a convenience store, and a restaurant existing in the area 2. Similarly, the dictionary n is composed of words such as place names, street names, intersection names, building names, gas stations, convenience stores, and restaurants existing in the area n.

【0039】図4は、本発明の第2実施形態に係る音声
認識システムの処理機能を示すブロックロックであり、
同図において、前記図1と均等なものには同一符号を付
し、その説明は重複を避けるために割愛する。図4にお
いて、401は、音声認識部107から、辞書切り変え
部103へ音声認識結果109をフィードバックするた
めの認識結果を示す情報または信号である。
FIG. 4 is a block lock showing a processing function of the speech recognition system according to the second embodiment of the present invention.
In the figure, components equivalent to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted to avoid duplication. In FIG. 4, reference numeral 401 denotes information or a signal indicating a recognition result for feeding back the voice recognition result 109 from the voice recognition unit 107 to the dictionary switching unit 103.

【0040】なお、本実施形態においても、図4に示す
各処理ブロックは、複数のLSIやメモリで構成された
システムであっても、半導体素子上に構成された1つな
いし複数のシステムオンチップであってもよい。
In this embodiment, each processing block shown in FIG. 4 may be implemented by one or more system-on-chips formed on a semiconductor device, even in a system constituted by a plurality of LSIs and memories. It may be.

【0041】図5は、本実施形態における、辞書切り変
え/音声認識処理のフローチャートである。
FIG. 5 is a flowchart of dictionary switching / speech recognition processing in the present embodiment.

【0042】ステップST501は、辞書切り変え情報
102が更新されたか否かを問う判定処理である。辞書
切り変え情報102は、例えば、カーナビゲーションシ
ステムであれば、先にも述べたように、衛星測位システ
ム(GPS:Global Positioning System )からの位置
を示す信号である。
Step ST501 is a determination process for asking whether or not the dictionary switching information 102 has been updated. For example, in the case of a car navigation system, the dictionary switching information 102 is a signal indicating a position from a satellite positioning system (GPS: Global Positioning System) as described above.

【0043】辞書切り変え部103は、GPSからの位
置を示す信号を受けて、その位置が認識対象の単語辞書
を切り換える必要がある事を示している場合には(ステ
ップST501でYESの場合には)、ステップST5
03で認識対象の単語の辞書に切り変える。また、その
位置が認識対象の単語辞書を切り換える必要がない事を
示している場合には(ステップST501でNOの場合
には)、辞書を変更せずに、そのままステップST50
2で音声認識処理を実行する。
Receiving the signal indicating the position from the GPS, dictionary switching unit 103 determines that the position indicates that it is necessary to switch the word dictionary to be recognized (in the case of YES in step ST501). ), Step ST5
At 03, it switches to the dictionary of the word to be recognized. If the position indicates that it is not necessary to switch the word dictionary to be recognized (NO in step ST501), the dictionary is not changed and the process proceeds to step ST50.
In step 2, a voice recognition process is executed.

【0044】ステップST502に続くステップST5
04は、音声認識結果として該当するものがあるか否か
を問う判定処理である。
Step ST5 following step ST502
04 is a determination process for asking whether or not there is a corresponding voice recognition result.

【0045】入力した音声に対して、辞書の中に該当す
る単語がない場合には(ステップST504でYESの
場合には)、辞書切り変え部103は、音声認識部10
7から該当なしの認識結果401を受けて、ステップS
T505で、次の候補の認識対象の単語辞書に切り変え
る。また、入力した音声に対して、辞書の中に該当する
単語がある場合には(ステップST504でNOの場合
には)、音声認識処理を終了し、認識結果に対して、シ
ステムにおける次の処理へ移行する。
If there is no corresponding word in the dictionary with respect to the input speech (in the case of YES in step ST504), dictionary switching section 103 sets speech recognition section 10
Receiving the recognition result 401 indicating that there is no corresponding information from Step 7
At T505, the word dictionary is switched to the next candidate recognition target word dictionary. If there is a corresponding word in the dictionary with respect to the input speech (NO in step ST504), the speech recognition processing ends, and the next processing in the system is performed on the recognition result. Move to.

【0046】図6は、上述したカーナビゲーションシス
テムの音声認識システムに限ることなく、さらに、PD
A(Personal Digital Assistants )に代表されるよう
な携帯型情報機器、携帯型翻訳機等のシステムに、本発
明の音声認識システムを搭載した場合の、本発明の第3
実施形態における辞書切り変え/音声認識処理のフロー
チャートである。
FIG. 6 is not limited to the voice recognition system of the car navigation system described above, and further includes a PD.
A (third embodiment) of the present invention when the speech recognition system of the present invention is mounted on a system such as a portable information device or a portable translator represented by A (Personal Digital Assistants).
5 is a flowchart of dictionary switching / speech recognition processing in the embodiment.

【0047】ステップST601は、音声認識処理であ
り、コマンド、インデックス等を辞書として登録してお
き、辞書に対して音声認識させる。
Step ST601 is a speech recognition process in which commands, indexes, and the like are registered as a dictionary, and the dictionary is subjected to speech recognition.

【0048】ステップST602では、コマンド、イン
デックス等の認識結果に対して、例えば、「住所録」の
認識結果が示す辞書に切り変える。辞書は、各コマンド
やインデックスごとに分類された辞書が作成されてお
り、住所録辞書は、登録されている人名で構成されてい
る。
In step ST602, the recognition result of the command, the index and the like is switched to, for example, a dictionary indicated by the recognition result of "address book". As the dictionary, a dictionary classified for each command or index is created, and the address book dictionary is composed of registered person names.

【0049】そこで例えば、ステップST603におい
て「富士山太郎」と音声入力すると、「富士山太郎」を
音声認識処理して、富士山太郎の住所が出力される。
Therefore, for example, when "Taro Fujiyama" is voice-inputted in step ST603, "Taro Fujiyama" is subjected to voice recognition processing, and the address of Taro Fujiyama is output.

【0050】図7は、本発明による音声認識システムを
構築するためのハードウエア構成の1例を示す図であ
る。
FIG. 7 is a diagram showing an example of a hardware configuration for constructing a speech recognition system according to the present invention.

【0051】図7において、701は、音声を取り込む
ためのマイクであり、カーナビゲーションシステム等で
は、周囲の雑音を取り込まないために指向性をもたせた
指向性マイクである。
In FIG. 7, reference numeral 701 denotes a microphone for taking in voice, and in a car navigation system or the like, a directional microphone having directivity so as not to take in ambient noise.

【0052】702は、辞書を切り変えるためのデータ
または制御信号であり、カーナビゲーションシステムで
は、GPSから送られてくる位置データである。
Reference numeral 702 denotes data or control signals for switching dictionaries, and in a car navigation system, position data sent from the GPS.

【0053】703は、カーナビゲーションシステムや
PDA等のメインシステムの制御と、音声認識システム
における音声認識処理とを行う、CPUやRISCマイ
コンである。
Reference numeral 703 denotes a CPU or a RISC microcomputer that controls a main system such as a car navigation system or a PDA and performs voice recognition processing in a voice recognition system.

【0054】704は、マイク701により取り込まれ
たアナログ音声データをデジタル音声データに変換する
A/D変換ICである。
Reference numeral 704 denotes an A / D conversion IC for converting analog audio data captured by the microphone 701 into digital audio data.

【0055】705は、辞書切り変えデータ702を受
けて、CPU703に対して、辞書切り変え情報を読み
込ませるためのインターフェースである。
An interface 705 receives the dictionary switching data 702 and causes the CPU 703 to read the dictionary switching information.

【0056】706は、辞書、音響モデル、プログラム
を格納しておくROMやメモリカードである。
Reference numeral 706 denotes a ROM or a memory card for storing a dictionary, an acoustic model, and a program.

【0057】707は、ROM706に比べて、アクセ
ス時間の短いRAMであり、ROM706から転送され
た一部の辞書や、音響モデル、プログラムが格納され、
また、音声認識処理に必要な必要最小限のワークメモリ
である。
Reference numeral 707 denotes a RAM which has a shorter access time than the ROM 706, and stores a part of the dictionary, the acoustic model, and the program transferred from the ROM 706.
Further, it is a minimum necessary work memory required for the speech recognition processing.

【0058】708は、システムにおけるデータバス、
アドレスバス、制御信号バスなどのバスである。
708 is a data bus in the system,
It is a bus such as an address bus and a control signal bus.

【0059】マイク701から取り込まれた音声は、辞
書切り変えデータ702により、切り変えられた辞書に
対して音声認識される。辞書の切り変えは、CPU70
3が行い、ROM706の全体の辞書の中から、必要に
応じて、一部の辞書をRAM707へ転送して、一連の
音声認識処理は、CPU703とRAM707の間でデ
ータ処理されることにより実行される。
The voice fetched from the microphone 701 is recognized by the dictionary switching data 702 for the switched dictionary. Switching of the dictionary is performed by the CPU 70.
3 and transfers some of the dictionaries from the entire dictionary of the ROM 706 to the RAM 707 as necessary, and a series of speech recognition processing is executed by data processing between the CPU 703 and the RAM 707. You.

【0060】[0060]

【発明の効果】以上のように、本発明によれば、カーナ
ビゲーションシステムや、PDA等の携帯型情報機器、
携帯型翻訳機などで、音声認識を用いた人にやさしいイ
ンターフェースが実現でき、特に、認識する語彙数が増
加しても、認識率や認識速度を低下させることのない、
性能の高い音声認識システムが実現できる。
As described above, according to the present invention, a car navigation system, a portable information device such as a PDA,
With a portable translator, a human-friendly interface using speech recognition can be realized. Especially, even if the number of words to be recognized increases, the recognition rate and the recognition speed do not decrease.
A high-performance speech recognition system can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施形態に係る音声認識システム
の処理機能を示すを示すブロックロックである。
FIG. 1 is a block lock showing a processing function of a speech recognition system according to a first embodiment of the present invention.

【図2】本発明の第1実施形態における、辞書切り変え
/音声認識処理を示すフローチャート図である。
FIG. 2 is a flowchart illustrating dictionary switching / speech recognition processing according to the first embodiment of the present invention.

【図3】本発明の第1実施形態における、カーナビゲー
ションシステムでの辞書の切り変えについて示す説明図
である。
FIG. 3 is an explanatory diagram showing switching of dictionaries in the car navigation system according to the first embodiment of the present invention.

【図4】本発明の第2実施形態に係る音声認識システム
の処理機能を示すを示すブロックロックである。
FIG. 4 is a block lock showing a processing function of a speech recognition system according to a second embodiment of the present invention.

【図5】本発明の第2実施形態における、辞書切り変え
/音声認識処理を示すフローチャート図である。
FIG. 5 is a flowchart illustrating dictionary switching / speech recognition processing according to the second embodiment of the present invention.

【図6】本発明の第3実施形態における、辞書切り変え
/音声認識処理を示すフローチャート図である。
FIG. 6 is a flowchart illustrating dictionary switching / speech recognition processing according to a third embodiment of the present invention.

【図7】本発明による音声認識システムを構築するため
のハードウエア構成の1例を示すブロック図である。
FIG. 7 is a block diagram showing an example of a hardware configuration for constructing a speech recognition system according to the present invention.

【図8】従来の音声認識を用いた携帯型音声翻訳装置の
構成を示すブロック図である。
FIG. 8 is a block diagram showing a configuration of a conventional portable speech translator using speech recognition.

【符号の説明】[Explanation of symbols]

101 マイク 102 辞書切り変え情報 103 辞書切り変え部 104 辞書を格納する第1のメモリ 105 辞書を格納する第2のメモリ 106 音声分析部 107 音声認識部 108 音響モデル 109 音声認識結果 Reference Signs List 101 microphone 102 dictionary switching information 103 dictionary switching unit 104 first memory 105 for storing dictionary 105 second memory 106 for storing dictionary 106 voice analysis unit 107 voice recognition unit 108 acoustic model 109 voice recognition result

フロントページの続き (72)発明者 伊東 功二 東京都小平市上水本町五丁目20番1号 株 式会社日立製作所半導体事業部内 (72)発明者 塔下 哲司 東京都小平市上水本町五丁目20番1号 株 式会社日立製作所半導体事業部内 (72)発明者 田中 誠 東京都小平市上水本町五丁目22番1号 株 式会社日立マイコンシステム内Continuing on the front page (72) Koji Ito, Inventor 5-2-1, Kamizuhoncho, Kodaira-shi, Tokyo Inside Semiconductor Division, Hitachi, Ltd. No. 1 Hitachi Semiconductor Co., Ltd. Semiconductor Division (72) Inventor Makoto Tanaka 5-2-1, Kamisumihonmachi, Kodaira-shi, Tokyo Inside Hitachi Microcomputer System Co., Ltd.

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 音声認識の対象となる単語や文章を任意
の数、あるいは、指定された数だけ用意して、それらを
1つの辞書として定義し、 また、別な音声認識の対象となる単語や文章を任意の
数、あるいは、指定された数だけ用意して、それらをも
う1つの辞書として定義し、 これらの辞書を複数用意して、 複数の辞書を格納しておく第1の記憶部と、 複数の辞書から1つだけ辞書を選択し、格納しておく第
2の記憶部と、 複数の辞書から1つだけ辞書を選択する辞書切り変え情
報を受けて、辞書を切り変える辞書切り変え部と、 取り込んだ音声に対して、音声分析処理を行う音声分析
部と、 この音声分析部による音声分析結果に対して、上記辞書
切り変え部により選択され上記第2の記憶部に格納され
た辞書と、音響モデルとから、音声認識処理を行う音声
認識部と、を備え、 音声認識の対象となる単語や文章を限定して、音声認識
を行うことを特徴とする音声認識システム。
1. An arbitrary number or a designated number of words or sentences to be subjected to speech recognition are prepared, defined as one dictionary, and words to be subjected to another speech recognition are defined. An arbitrary number or a designated number of words and sentences are prepared, defined as another dictionary, a plurality of these dictionaries are prepared, and a first storage unit for storing a plurality of dictionaries is prepared. And a second storage unit for selecting and storing only one dictionary from the plurality of dictionaries, and receiving dictionary switching information for selecting only one dictionary from the plurality of dictionaries; A voice analysis unit that performs voice analysis processing on the captured voice; a voice analysis result obtained by the voice analysis unit selected by the dictionary switching unit and stored in the second storage unit From a dictionary and an acoustic model Speech recognition system and a speech recognition unit for performing recognition processing by limiting the words and sentences to be speech recognition, and performs voice recognition.
【請求項2】 請求項1記載において、 前記第1の記憶部はメモリカードまたはROMで構成
し、また、前記第2の記憶部はRAMで構成したことを
特徴とする音声認識システム。
2. The speech recognition system according to claim 1, wherein the first storage unit is configured by a memory card or a ROM, and the second storage unit is configured by a RAM.
【請求項3】 請求項1記載において、 複数の辞書から1つだけ辞書を選択する前記辞書切り変
え情報は、カーナビゲーションシステムで用いられてい
る衛星測位システムGPS(Global Positioning syste
m )からの位置情報であることを特徴とする音声認識シ
ステム。
3. The system according to claim 1, wherein the dictionary switching information for selecting only one dictionary from a plurality of dictionaries is a satellite positioning system GPS (Global Positioning System) used in a car navigation system.
m) a speech recognition system, characterized in that it is position information from
【請求項4】 請求項1または2または3記載におい
て、 音声認識システムは、カーナビゲーションシステムにお
ける音声認識システムであり、 音声認識の対象となる単語や文章を任意の数、あるい
は、指定された数だけ用意して、それらを1つの辞書と
して作成する際に、 辞書は、任意のエリア、あるいは、指定されたエリアに
存在する地名、交差点名、通り名、建物名、ガソリンス
タンド、コンビニエンスストア、ファミリーレストラン
等の単語から構成し、これらの辞書をエリアごとに用意
しておくことを特徴とする音声認識システム。
4. The voice recognition system according to claim 1, 2 or 3, wherein the voice recognition system is a voice recognition system in a car navigation system, wherein an arbitrary number or a specified number of words and sentences to be subjected to voice recognition are provided. When preparing them as a single dictionary, the dictionaries can be created in any area or in a specified area, such as place names, intersection names, street names, building names, gas stations, convenience stores, and families. A speech recognition system comprising words of restaurants and the like, and preparing these dictionaries for each area.
【請求項5】 音声認識の対象となる単語や文章を任意
の数、あるいは、指定された数だけ用意して、それらを
1つの辞書として定義し、 また、別な音声認識の対象となる単語や文章を任意の
数、あるいは、指定された数だけ用意して、それらをも
う1つの辞書として定義し、 これらの辞書を複数用意して、 複数の辞書を格納しておく第1の記憶部と、 複数の辞書から1つだけ辞書を選択し、格納しておく第
2の記憶部と、 複数の辞書から1つだけ辞書を選択する辞書切り変え情
報、または、認識した結果を受けて、辞書を切り変える
辞書切り変え部と、 取り込んだ音声に対して、音声分析処理を行う音声分析
部と、 音声分析結果に対して、辞書切り変え部により選択され
第2の記憶部に格納された辞書と、音響モデルとから、
音声認識処理を行う音声認識部と、 を備え、 音声認識の対象となる単語や文章を限定して、音声認識
を行うことを特徴とする音声認識システム。
5. An arbitrary number or a designated number of words and sentences to be subjected to speech recognition are prepared, defined as one dictionary, and another word to be subjected to speech recognition. An arbitrary number or a designated number of words and sentences are prepared, defined as another dictionary, a plurality of these dictionaries are prepared, and a first storage unit for storing a plurality of dictionaries is prepared. And a second storage unit for selecting and storing only one dictionary from the plurality of dictionaries, receiving dictionary switching information for selecting only one dictionary from the plurality of dictionaries, or receiving a recognized result, A dictionary switching unit for switching a dictionary, a voice analysis unit for performing a voice analysis process on the captured voice, and a voice analysis result selected by the dictionary switching unit and stored in the second storage unit From the dictionary and the acoustic model,
A voice recognition system comprising: a voice recognition unit that performs voice recognition processing; and performing voice recognition by limiting words and sentences to be subjected to voice recognition.
【請求項6】 請求項5記載において、 音声認識システムは、カーナビゲーションシステムにお
ける音声認識システムであり、 音声認識の対象となる単語や文章を任意の数、あるい
は、指定された数だけ用意して、それらを1つの辞書と
して作成する際に、 辞書は、任意のエリア、あるいは、指定されたエリアに
存在する地名、交差点名、通り名、建物名、ガソリンス
タンド、コンビニエンスストア、ファミリーレストラン
等の単語から構成し、 これらの辞書をエリアごとに用意して音声認識し、 音声認識結果において、辞書の中に該当する単語が存在
しない場合には、 次の音声認識の対象となる辞書に切り変えて、音声認識
を行うことを特徴とする音声認識システム。
6. The voice recognition system according to claim 5, wherein the voice recognition system is a voice recognition system in a car navigation system, and an arbitrary number or a specified number of words or sentences to be subjected to voice recognition are prepared. When they are created as a single dictionary, the dictionary is used for words such as place names, intersection names, street names, building names, gas stations, convenience stores, and family restaurants that exist in any area or specified area. These dictionaries are prepared for each area and speech recognition is performed. If there is no corresponding word in the dictionary in the speech recognition result, the dictionary is switched to the next dictionary for speech recognition. And a voice recognition system for performing voice recognition.
【請求項7】 請求項5記載において、 音声認識システムは、カーナビゲーションシステムにお
ける音声認識システムであり、 音声認識の対象となる単語や文章を任意の数、あるい
は、指定された数だけ用意して、それらを1つの辞書と
して作成する際に、 辞書は、任意のエリア、あるいは、指定されたエリアに
存在する地名、交差点名、通り名、建物名、ガソリンス
タンド、コンビニエンスストア、ファミリーレストラン
等の単語から構成し、 これらの辞書をエリアごとに用意して音声認識し、 音声認識結果が、辞書のインデックスを示す場合には、 インデックスが示す音声認識の対象となる辞書に切り変
えて、音声認識を行うことを特徴とする音声認識システ
ム。
7. The voice recognition system according to claim 5, wherein the voice recognition system is a voice recognition system in a car navigation system, and an arbitrary number or a specified number of words or sentences to be subjected to voice recognition are prepared. When they are created as a single dictionary, the dictionary is used for words such as place names, intersection names, street names, building names, gas stations, convenience stores, and family restaurants that exist in any area or specified area. These dictionaries are prepared for each area and speech recognition is performed. If the speech recognition result indicates a dictionary index, the dictionary is switched to the dictionary for speech recognition indicated by the index, and speech recognition is performed. A speech recognition system characterized by performing.
JP8301802A 1996-11-13 1996-11-13 Speech recognition system Withdrawn JPH10143191A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP8301802A JPH10143191A (en) 1996-11-13 1996-11-13 Speech recognition system
KR1019970058986A KR100274276B1 (en) 1996-11-13 1997-11-10 Speech recognition system
TW086116852A TW360858B (en) 1996-11-13 1997-11-11 Speech recognition system
US08/970,109 US6112174A (en) 1996-11-13 1997-11-13 Recognition dictionary system structure and changeover method of speech recognition system for car navigation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8301802A JPH10143191A (en) 1996-11-13 1996-11-13 Speech recognition system

Publications (1)

Publication Number Publication Date
JPH10143191A true JPH10143191A (en) 1998-05-29

Family

ID=17901350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8301802A Withdrawn JPH10143191A (en) 1996-11-13 1996-11-13 Speech recognition system

Country Status (4)

Country Link
US (1) US6112174A (en)
JP (1) JPH10143191A (en)
KR (1) KR100274276B1 (en)
TW (1) TW360858B (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243675B1 (en) 1999-09-16 2001-06-05 Denso Corporation System and method capable of automatically switching information output format
EP1163664A1 (en) * 1999-02-25 2001-12-19 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
JP2002318136A (en) * 2001-02-15 2002-10-31 Navigation Technol Corp Space construction word list for automatic voice recognition program and its forming method
WO2007069372A1 (en) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation Voice recognition device

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
DK175911B1 (en) * 1997-05-26 2005-06-20 Metax Olie As Automatic fuel release system and method of refueling a vehicle
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US6598016B1 (en) * 1998-10-20 2003-07-22 Tele Atlas North America, Inc. System for using speech recognition with map data
US7233321B1 (en) * 1998-12-15 2007-06-19 Intel Corporation Pointing device with integrated audio input
US6292743B1 (en) * 1999-01-06 2001-09-18 Infogation Corporation Mobile navigation system
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
CA2387079C (en) * 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
JP2001325252A (en) * 2000-05-12 2001-11-22 Sony Corp Portable terminal, information input method therefor, dictionary retrieval device and method and medium
JP2001331195A (en) * 2000-05-19 2001-11-30 Sony Corp Onboard apparatus, car navigation system and monitor device
DE10036851A1 (en) * 2000-07-28 2002-02-28 Mannesmann Vdo Ag Method for selecting a place name in a navigation system by voice input
US6553379B1 (en) * 2000-08-16 2003-04-22 Caa Ag Address data storage device
JP4116233B2 (en) * 2000-09-05 2008-07-09 パイオニア株式会社 Speech recognition apparatus and method
DE10043531A1 (en) * 2000-09-05 2002-03-14 Philips Corp Intellectual Pty Voice control system
JP4283984B2 (en) * 2000-10-12 2009-06-24 パイオニア株式会社 Speech recognition apparatus and method
US20020072917A1 (en) * 2000-12-11 2002-06-13 Irvin David Rand Method and apparatus for speech recognition incorporating location information
US20020133336A1 (en) * 2001-01-24 2002-09-19 Mikael Berner System, method and computer program product for supporting the delivery of localized content
US6789065B2 (en) * 2001-01-24 2004-09-07 Bevocal, Inc System, method and computer program product for point-to-point voice-enabled driving directions
US7010490B2 (en) * 2001-01-26 2006-03-07 International Business Machines Corporation Method, system, and apparatus for limiting available selections in a speech recognition system
DE60222413T2 (en) * 2001-04-19 2008-06-12 British Telecommunications P.L.C. VOICE RECOGNITION
WO2002086737A1 (en) * 2001-04-20 2002-10-31 Wordsniffer, Inc. Method and apparatus for integrated, user-directed web site text translation
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7698228B2 (en) * 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
DE10133333C1 (en) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Producing fingerprint of audio signal involves setting first predefined fingerprint mode from number of modes and computing a fingerprint in accordance with set predefined mode
DE10143292B4 (en) * 2001-09-04 2015-06-03 Deutsche Telekom Ag language window
KR100434065B1 (en) * 2001-12-18 2004-06-04 엘지전자 주식회사 Voice recognition method of robot
KR100445907B1 (en) * 2001-12-26 2004-08-25 한국전자통신연구원 Language identification apparatus and the method thereof
FR2837971B1 (en) * 2002-03-26 2004-11-05 Peugeot Citroen Automobiles Sa VOICE RECOGNITION SYSTEM ON BOARD ON A MOTOR VEHICLE
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
DE10329546A1 (en) * 2003-06-30 2005-01-20 Daimlerchrysler Ag Lexicon driver past language model mechanism e.g. for automatic language detection, involves recognizing pure phonetic inputs which are compared for respective application and or respective user relevant words against specific encyclopedias
US20050119892A1 (en) * 2003-12-02 2005-06-02 International Business Machines Corporation Method and arrangement for managing grammar options in a graphical callflow builder
JP4040573B2 (en) * 2003-12-12 2008-01-30 キヤノン株式会社 Speech recognition apparatus and method
US7427024B1 (en) 2003-12-17 2008-09-23 Gazdzinski Mark J Chattel management apparatus and methods
GB2443981B (en) * 2004-04-01 2008-09-03 Honda Motor Co Ltd Simulation apparatus
US7085635B2 (en) * 2004-04-26 2006-08-01 Matsushita Electric Industrial Co., Ltd. Enhanced automotive monitoring system using sound
US20060074660A1 (en) * 2004-09-29 2006-04-06 France Telecom Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words
US7630900B1 (en) * 2004-12-01 2009-12-08 Tellme Networks, Inc. Method and system for selecting grammars based on geographic information associated with a caller
JP2006170769A (en) * 2004-12-15 2006-06-29 Aisin Aw Co Ltd Method and system for providing guidance information, navigation device, and input-output device
US7805317B2 (en) * 2005-03-03 2010-09-28 Navteq North America, Llc Method of organizing map data for affinity relationships and application for use thereof
US8117041B1 (en) 2005-03-03 2012-02-14 Navteq B.V. Method of using map data that has been organized for affinity relationships
KR100738414B1 (en) * 2006-02-06 2007-07-11 삼성전자주식회사 Method for improving performance of speech recognition in telematics environment and device for executing the method
US7831431B2 (en) 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
TWI349266B (en) * 2007-04-13 2011-09-21 Qisda Corp Voice recognition system and method
US8645143B2 (en) * 2007-05-01 2014-02-04 Sensory, Inc. Systems and methods of performing speech recognition using global positioning (GPS) information
US8532871B2 (en) * 2007-06-05 2013-09-10 Mitsubishi Electric Company Multi-modal vehicle operating device
US8219399B2 (en) * 2007-07-11 2012-07-10 Garmin Switzerland Gmbh Automated speech recognition (ASR) tiling
US20090018842A1 (en) * 2007-07-11 2009-01-15 Garmin Ltd. Automated speech recognition (asr) context
US7983913B2 (en) * 2007-07-31 2011-07-19 Microsoft Corporation Understanding spoken location information based on intersections
US8401780B2 (en) * 2008-01-17 2013-03-19 Navteq B.V. Method of prioritizing similar names of locations for use by a navigation system
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
KR101597289B1 (en) * 2009-07-31 2016-03-08 삼성전자주식회사 Apparatus for recognizing speech according to dynamic picture and method thereof
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
US8315799B2 (en) 2010-05-11 2012-11-20 International Business Machines Corporation Location based full address entry via speech recognition
JP5771002B2 (en) * 2010-12-22 2015-08-26 株式会社東芝 Speech recognition apparatus, speech recognition method, and television receiver equipped with speech recognition apparatus
KR101270010B1 (en) * 2011-01-14 2013-06-07 차재권 Method and the system of learning words based on speech recognition
US9263045B2 (en) * 2011-05-17 2016-02-16 Microsoft Technology Licensing, Llc Multi-mode text input
JP6155592B2 (en) * 2012-10-02 2017-07-05 株式会社デンソー Speech recognition system
US9293132B2 (en) 2014-08-06 2016-03-22 Honda Motor Co., Ltd. Dynamic geo-fencing for voice recognition dictionary
DE102015014206B4 (en) * 2015-11-04 2020-06-25 Audi Ag Method and device for selecting a navigation destination from one of several language regions by means of voice input
JP6597527B2 (en) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 Speech recognition apparatus and speech recognition method
US20190019516A1 (en) * 2017-07-14 2019-01-17 Ford Global Technologies, Llc Speech recognition user macros for improving vehicle grammars

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4717261A (en) * 1985-01-16 1988-01-05 Casio Computer Co., Ltd. Recording/reproducing apparatus including synthesized voice converter
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US5182765A (en) * 1985-11-26 1993-01-26 Kabushiki Kaisha Toshiba Speech recognition system with an accurate recognition function
US4827520A (en) * 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
JP2845876B2 (en) * 1987-06-26 1999-01-13 キヤノン株式会社 Voice information processing method
JPH0225898A (en) * 1988-07-15 1990-01-29 Toshiba Corp Voice recognizing device
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JP2920639B2 (en) * 1989-03-31 1999-07-19 アイシン精機株式会社 Moving route search method and apparatus
US5274560A (en) * 1990-12-03 1993-12-28 Audio Navigation Systems, Inc. Sensor free vehicle navigation system utilizing a voice input/output interface for routing a driver from his source point to his destination point
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
US5181250A (en) * 1991-11-27 1993-01-19 Motorola, Inc. Natural language generation system for producing natural language instructions
EP0588082B1 (en) * 1992-08-19 2002-01-23 Aisin Aw Co., Ltd. Navigation system for vehicle
JP2602158B2 (en) * 1992-12-04 1997-04-23 株式会社エクォス・リサーチ Audio output device
US5717738A (en) * 1993-01-11 1998-02-10 Texas Instruments Incorporated Method and device for generating user defined spoken speed dial directories
US5719771A (en) * 1993-02-24 1998-02-17 Amsc Subsidiary Corporation System for mapping occurrences of conditions in a transport route
US5454063A (en) * 1993-11-29 1995-09-26 Rossides; Michael T. Voice input system for data retrieval
WO1995019030A1 (en) * 1994-01-05 1995-07-13 Pois, Inc. Apparatus and method for a personal onboard information system
JP3311460B2 (en) * 1994-01-28 2002-08-05 富士通株式会社 Voice recognition device
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
JP2768274B2 (en) * 1994-09-08 1998-06-25 日本電気株式会社 Voice recognition device
US5699056A (en) * 1994-12-28 1997-12-16 Omron Corporation Traffic information system
JPH10504116A (en) * 1995-06-02 1998-04-14 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ Apparatus for reproducing encoded audio information in a vehicle

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1163664A1 (en) * 1999-02-25 2001-12-19 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
EP1163664A4 (en) * 1999-02-25 2005-07-27 Speechworks Int Inc Dynamic semantic control of a speech recognition system
US6243675B1 (en) 1999-09-16 2001-06-05 Denso Corporation System and method capable of automatically switching information output format
JP2002318136A (en) * 2001-02-15 2002-10-31 Navigation Technol Corp Space construction word list for automatic voice recognition program and its forming method
WO2007069372A1 (en) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation Voice recognition device
JPWO2007069372A1 (en) * 2005-12-14 2009-05-21 三菱電機株式会社 Voice recognition device
JP4855421B2 (en) * 2005-12-14 2012-01-18 三菱電機株式会社 Voice recognition device
US8112276B2 (en) 2005-12-14 2012-02-07 Mitsubishi Electric Corporation Voice recognition apparatus

Also Published As

Publication number Publication date
TW360858B (en) 1999-06-11
US6112174A (en) 2000-08-29
KR19980042248A (en) 1998-08-17
KR100274276B1 (en) 2000-12-15

Similar Documents

Publication Publication Date Title
JPH10143191A (en) Speech recognition system
KR100769029B1 (en) Method and system for voice recognition of names in multiple languages
KR100679042B1 (en) Method and apparatus for speech recognition, and navigation system using for the same
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
US20070156405A1 (en) Speech recognition system
JP2006023860A (en) Information browser, information browsing program, information browsing program recording medium, and information browsing system
JP2004510239A (en) How to improve dictation and command distinction
JP2002116796A (en) Voice processor and method for voice processing and storage medium
JPH06208389A (en) Method and device for information processing
JP2003504706A (en) Multi-mode data input device
KR100654183B1 (en) Letter input system and method using voice recognition
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
JP2005249829A (en) Computer network system performing speech recognition
WO2000010160A1 (en) Speech recognizing device and method, navigation device, portable telephone, and information processor
JPH10282987A (en) Speech recognition device
JPH08278972A (en) Speech input translation device
WO2006137246A1 (en) Speech recognizing device, speech recognizing method, speech recognizing program, and recording medium
JPH07319383A (en) Map display device
US20040015354A1 (en) Voice recognition system allowing different number-reading manners
JP3296783B2 (en) In-vehicle navigation device and voice recognition method
JP2003141113A (en) Translating device, voice translating method and program
JP2001141500A (en) On-vehicle agent process system
KR100910302B1 (en) Apparatus and method for searching information based on multimodal
JPH11325946A (en) On-vehicle navigation system
JPH10320397A (en) Portable voice translation terminal

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040203