JP2018031985A

JP2018031985A - 音声認識補完システム

Info

Publication number: JP2018031985A
Application number: JP2016166087A
Authority: JP
Inventors: 恒次國分; Tsuneji Kokubu
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2018-03-01

Abstract

【課題】発声する特定者専用の音響モデル、言語モデルを生成し、音声認識システムを補完することを目的とする。【解決手段】単語をデジタル波形として記録した参照用データ部と、特定者の音声と発生区間を検出する音響処理部と、認識されたデジタル波形より前記参照用データ部及び後記特定者用参照データ記録部に記録されたデジタル波形を認識するマッチング部と、前記マッチング部において検出されたデジタル波形によって特定された単語をモニタ上にテキスト表示する対話処理部と、当該対話処理部に出力された単語を確認又は正しい単語に修正するサンプリング適応化部と、前記サンプリング適応化部において確認又は修正された単語とを関連付けてデータベースに記録特定者用参照データ記憶部と、を有する音声認識補完システムである。【選択図】図１

Description

この発明は、特定者（情報端末を利用する者）における個別の音声の特徴を適切な単語又は言葉として認識し、適切な情報を出力することができる音声認識補完システムに関する。特に本発明に係る音声認識補完システムを利用することによって、特定者との対話を介して機能する装置等の利用に供することができる。

現在、音声認識システムは、例えばカーナビゲーションシステム、携帯端末用アプリケーション、調理家電等に利用されている。又、今後は音声認識を内蔵したロボット、会話をしながら進行するゲーム機、大量のアーカイブから目的の映像を探したり、放送禁止用語のチェックを効率的に行う等、広汎な技術分野での利用が見込まれている。
以下、一般的な利用が進んでいる自動車に関する技術を例にとって説明する。現在、自動車業界においては、音声認識システムと自動車等の移動体に通信システムを組み合せ、移動体内で交通情報、地図情報、ナビゲーション、故障時の連絡、盗難時の自動通報といったリアルタイムな情報をサービスを提供できるシステムが汎用されている。かかる情報システムにおいては、車載情報端末、いわゆるカーナビゲーションシステムがシステムの中心に配置される。
かかる車載情報端末は、使用者が車載情報端末にデータを入力することによって、必要な情報をモニターに表示し、時には音声ガイドによって、出力するのが一般的である。
使用者が車載情報端末を利用する際、使用者個別により滑舌、呂律、方言、抑揚、アクセント等が相違するため、入力された音声を車載情報端末が認識できなかったり、誤って認識されることが問題となっている。

このような問題点を解決する方法としては、現在、種々の方法が知られている。例えば、特許文献１には、音声認識で処理する認識語彙を、入力される文章の分野ごとに相関関係を設定し、入力された文章に応じた適切な語彙が優先される技術が開示されている。また特許文献２には、外部から入力された音声情報を変化情報を蓄積して、音声の変化に応じて臨機応変に対応する音声認識システムが開示されている。
しかしながら、現状の情報端末においては、使用者が情報端末に併せて、ゆっくりと明確な言葉を適正な文法とイントネーションで発声して使用することが一般的である。すなわち、使用者個別による滑舌、呂律、方言、抑揚、アクセント等に対しては、相変わらず正確に対応できていないのが現状である。
またＡＩ（人工知能）技術を利用した学習能力のある音声認識システムも検討されているが、製造費用の高騰といった問題や解決しなければいけない技術的な問題点が散見されているのが現状である。

特開２００３−２８０６８３号公報特許第３４３８８６９号公報

現在の音声認識システムは、記録された音響モデルや声紋データ等による参照用音声データと、新規に入力された音響や声紋等を照合し、入力された言葉を確定するシステムとなっている。
しかし、入力される音声データと紹介される参照用音声データが乖離する場合には、入力された音声データが正しく確定されないという問題があった。すなわち、入力データと参照用データが乖離し、入力データが他の文字や文章と誤認されるという問題があった。本発明は、かかる問題点を解決することを課題とする。
特に高齢者、疾患者、子供、外国語、方言、声帯や口内の身体的な特徴により、従来の音声認識システムが求めている発音を行えない者がおり、音声認識システムを利用できないといった問題があった。本発明は、発声する特定者専用の音響モデル、言語モデルを生成し、音声認識システムを補完することを目的とする。

（１）五十音と特定者が使用する複数の単語をデジタル波形として記録した参照用データ部と、前記特定者が入力するアナログ波形をデジタル波形に変換した音響パラメータを認識することによって音声と発生区間を検出する音響処理部と、前記音響処理部において認識されたデジタル波形より前記参照用データ部及び後記特定者用参照データ記録部に記録されたデジタル波形を認識し又は対応するデジタル波形が参照用データ部及び特定者用参照データ記録部にないことを認識するマッチング部と、前記マッチング部において検出された前記参照用データ部又は特定者用参照データ記録部に記憶されたデジタル波形によって特定された五十音若しくは複数の単語を組み合わせた文章をモニタ上にテキスト表示するか、又は参照用データ部に対応するデジタル波形がないことを示すエラーメッセージを表示する対話処理部と、当該対話処理部に出力された単語若しくは文章を確認又は正しい単語若しくは文章に修正するサンプリング適応化部と、前記サンプリング適応化部において確認若しくは修正された単語音声と参照用データ部に記録されている複数の単語とを関連付けてデータベースに記録するか又は参照用データ部にないデジタル波形及び対応する五十音又は複数の単語を記録する特定者用参照データ記憶部と、を有する音声認識補完システムである。
ここで参照用データ部又は特定者用参照データに記録されている単語には、名詞、助詞、動詞、助動詞、外来語、外国語、句点等の文章を構成する文字が含まれる。又、特定者が入力するアナログ波形とは、音声、楽器音又は拍手等、様々な音を意味する。

また音響処理部とは、デジタル化された音声信号から、音響パラメータを抽出する技術のことである。例えば、実環境での雑音や周波数歪みを除去する技術や、音声発生区間を検出する技術が含まれる。
またマッチング部とは、音響処理部において検出された特定者のデジタル信号に基づいて、参照用データ部に記録された単語又は文章を認識する技術のことである。音響モデルに対する音響パラメータ系列の距離や尤度（確からしさ）を求め、認識結果を決定する技術のことである。
本発明に係るマッチング部における機能は二つある。一つは、音響処理部における検出された特定者のデジタル信号から、最も適切な参照用データ部に記録された単語又は文章を認識することである。二つ目は、音響処理部における検出された特定者のデジタル信号から、適切な参照用データ部に記録された単語又は文章が存在しないことを認識することである。
また対話処理部とは、特定者と音声認識システムとの間のインターフェイスであって、音声認識により認識された結果を音声認識システム上のモニタに出力表示する技術である。
ここで音声認識システム上のモニタに出力表示する手段としては大きく二つに分けられる。一つは、前記マッチング部が認識した最も適切な参照用データ部に記録された単語又は文章をモニタに表示する手段である。二つ目は、適切な参照用データ部に記録された単語又は文章が存在しない場合であり、かかる場合は、適切な単語又は文章が存在しない事を示すエラーメッセージをモニタに表示することになる。

またサンプリング適応化部とは、上記の対話処理部においてモニタ上に表示された音声認識システムが認識した単語又は文章を、特定者がモニタ上で視認し、特定者が所望する単語又は文章である場合は正しい旨を確認し、特定者の所望する単語又は文章でない場合は、例えば音声認識システムに設けられたキーボードを使用して正しい単語又は文章に修正する技術である。
例えば、特定者が特定の文章を発声した場合、音響処理部において発声された文章を抑揚等に適合させ音響パラメータが抽出される。次に音響パラメータを複数のデジタル波形等（音響パラメータとしては、デジタル波形以外の方法で抽出しても良い。しかし、本発明においては出願時の周知技術としてデジタル波形にて説明する。以下も同様である。）として認識し、認識された複数の波から特定される文章を、参照用データから抽出し組み合わせて、対話処理部にテキスト表示する。かかるテキスト表示された文章に、誤りがある場合は特定者がキーボードによって文章を修正する。修正された文章は、サンプリング適応化部において、マッチング部において認識された文章との差を認定し、例えば、複数の波の個数を誤認していた場合は、正しい、個数の波として認識し、特定者用参照データ記憶部に記録する。又、参照用データに記憶されているデジタル波形を、特定者の発声した音声に対応したデジタル波形自体に置き換えて特定者用参照データ記憶部に記憶し、次回からの入力に反映させる。

そして、サンプリング適応化部において単語や文章を修正すると、抽出された音響パラメータに対応する単語や文章を、修正された単語や文章に置き換えて記録し、次の入力にかかる対応関係に反映させることもできる。
しかし、入力された単語や文章から抽出された音響パラメータに対応する単語や文章が参照用データに存在しない場合には、音響パラメータと単語や文章の対応関係を置き換えることができない。この場合には、入力された単語や文章の音響パラメーターを、標準的な音響パラメータ（参照用データに記録されている音響パラメータ）に置き換えて、参照用データと照合させることにし、これを記録しておき、次回の入力に反映させることもできる。
これにより、単語や文章ではない様々な音響（雑音や楽器音）、タッピング音であっても、それらの音響を標準的な音響パラメータや参照用データに記録されている音響パラメータに置き換えることにより、正しくテキスト入力できることとなる。
更に特定者参照データ記憶部とは、上記のサンプリング適応化部において、確認又は修正された単語又は文章を予め記憶されている前記参照用データ部における単語又は文章と関連付けてデータベースに記憶する技術である。この技術によって、特定者用の参照データを新たに作成し、音声認識の精度を上げることができる。

（２）前記対話処理部に出力された単語又は文章を、音声合成の出力手段を制御して、モニタ及びスピーカーに出力することを特徴とする上記（１）に記載された音声認識補完システムである。
本発明における対話処理部は、特定者と音声認識システムとの間のインターフェイスであって、音声認識により認識された結果を音声認識システム上のモニタ上のみならずスピーカーと介して合成音声により出力する技術のことである。
（３）前記五十音と特定者が使用する複数の単語が記憶された参照用データ部と、特定者用参照データ記憶部とが、クラウドコンピューティングシステム内に設定され、記憶された五十音と単語が特定者の情報端末の対話処理部にダウンロード可能となっていることを特徴とする上記（１）又は（２）に記載された音声認識補完システムである。
クラウドコンピューティングシステムとは、特定者が所有するパーソナルコンピュータや携帯端末等だけではなく、インターネット上に情報を保存する使い方、サービスを提供するシステムのことである。クラウドサービスを利用することによって、自宅、会社等の外出先など、様々な環境下におけるパーソナルコンピュータや携帯端末等からでも、保存されている情報をアップロードすることができる。例えば、ＳａａＳ、ＰａａＳ、ＨａａＳ、ＩａａＳ等が知られている。

本発明に係る音声認識補完システムを使用することによって、使用者個別により滑舌、呂律、方言、抑揚、アクセント等の相違を正確に認識し、適切な音声案内や文字情報を表示することができる。
本発明に係る音声認識補完システムを使用することによって、高齢者、疾患者、子供、外国語、方言、声帯や口内の身体的な特徴により、従来の音声認識システムが求めている発音を行えない特定者専用の音響モデル、言語モデルを生成し、音声認識システムを補完することができる。

本発明の音声認識補完システムに係る実施形態１の構成を示すブロック図である。音響処理部において作成される分断された音声発生区間の一例を示す図である。音響処理部において作成される分断された音声発生区間の一例を示す図である。本発明の音声認識補完システムに係る実施形態２の構成を示すフロー図である。サンプリング適応化部において、修正された言語を特定者用参照データに記憶させる一例を示す概念図である。文章について音声発生区間に分断して形態素ごとに区切ることによって特定者用参照データに記憶させる実施形態３を示す概念図である。本発明の音声認識補完システムに係る実施形態４の構成を示すシステム構成図である。

現在の音声認識補完システムは、記録された参照用音声データ（音響モデル、声紋データ等）と、入力された音声データ（音響、声紋）を照合し、入力された言葉を確定するシステムとなっているが、入力される音声データと紹介される参照用音声データが乖離する場合には、入力された音声データが正しく確定されない（入力データと参照用データが乖離し、入力データが他の文字や文章と誤認される）。
その問題点を改善するためには、１．正しく音声認識されるように、入力者の発音を正してもらう、２．あらかじめ準備した文章を、事前に入力者に読み上げさせ、事前に読み上げさせた音声データをもとに、参照用音声データを入力者用に修正した参照用データを新たに作り、修正参照用データを用いることで乖離を失し、音声認識の精度を上げる、３．正しく確定されなかった音声データを文字で表示し、音声入力者に文字にて音声データを修正させ、修正されたデータによって入力者用の参照データを新たに作り、音声認識の精度を上げる、という３つの方法が考えられる。

本発明の発明者は、上記３の具体的なシステムとして、以下に説明する本発明の音声認識補完システムに係る実施形態の一例を発明した。以下に示す実施形態は本発明の一例であって、本発明の技術的範囲を限定するものではない。
実施形態１
図１は、本発明の音声認識補完システム１００に実施形態１の構成を示すブロック図である。図１に示す如く、本発明の音声認識補完システムは、主なハードウエア構成として、マイク１０と、ディスプレイと、デジタル信号変換部１１と、音響処理部１２と、マッチング部１４と、五十音を記録したデータ１６及び単語を記録したデータ１７からなる参照用データ部１５と、対話処理部１８と、サンプリング適応部２０と、特定者用参照データ２２と、から構成されている。

本発明の音声認識補完システム１００は、参照用データ部１５に記録された音響モデル、声紋データ等からなる五十音データ１６と単語データ（名詞、助詞、動詞、助動詞、外来語、外国語、句点等の文章を構成する文字を含む。）１７と、マイク１０を介して入力された音声データ（音響、声紋）をデジタル信号変換部１１によってデジタル波形に変換する。本実施形態１は、その後入力された言葉を確定するシステムとなっている。すなわち、音響処理部１２によって入力した単語や文章について音声発生区間に分断して形態素ごとに区切ることによって音響パラメータを抽出する。この際、マイクによって入力された文章以外の雑音や周波数歪みも除去される。
例えば、特定者が「都内レストランを検索」と音声入力した場合、入力されたデジタル波形に変換した後、音響処理部１２は図２に示す如く、「とうれ／らんおう／を／けんさく」と音声発生区間を分断する。次にマッチング部１４は、参照用データ部１５に記録された五十音データ１６と単語データ１７の中から、最も適正なものを選択する。
マッチング部１４において「トーレ、卵黄を検索」という文章が検出された。マッチング部１４が検出した前記文章を、対話処理部１８を構成するモニタ上に「トーレ、卵黄を検索」とテキスト表示する。

次にサンプリング適応化部２０において、特定者がモニタ上で「トーレ、卵黄を検索」を視認した後、特定者が所望する正しい文章である文章である「都内レストランを検索」に音声認識システムに設けられたキーボードを使用して修正する。修正された正しい文章「都内レストランを検索」は、サンプリング適応部２０において図３に示す如く「とない／れすとらん／を／けんさく」と分断され、特定者用参照データ記録部２２における、五十音データ２３と単語データ２４に記憶される。本実施形態においては、音声認識システムが誤って言葉を認識した場合を例に説明しているが、正しく認識した場合は、上記サンプリング適応化部１９において、確認キーを入力することによって、単語や文章を修正しない形で、特定者Ｐの特定者用参照データ２２に記憶される。

なお上記の工程を繰り返す、すなわち本実施形態に係る音声認識補完システム１００の使用を複数回繰り返すことで、特定者の個性である方言、年齢による発音の変化、外国語の発音など、様々な個性を反映させた参照用データを作成することができる。
本実施形態に係る音声認識補完システム１００は上記構成を有することによって、入力される音声データと紹介される参照用音声データが乖離する場合において、入力された音声データが正しく確定されない（入力データと参照用データが乖離し、入力データが他の文字や文章と誤認される）という問題点を解決することができる。

実施形態２
図４は、本発明の音声認識補完システムに実施形態２の構成を示すフロー図である。図４に示す如く、マイク３０を介して入力された音声データ（音響、声紋）をデジタル信号に変換する。
次に参照用データ部３５において、記録された音響モデル、声紋データを参照して、形態素列を特定し、文例候補特定する。
すなわち、音声認識装置から、音声認識装置が生成した文章データ（誤訳文章）と、文章データ（言語データ）を認識する根拠となった音響データが、本実施形態２に係る音声認識補完システムに送信される。この際、マッチング部３４において、言語データと音響データとを対比できるよう、予めどの音響データにどの言語データが割り当てられるか決めておく。

そして、マッチング部３４は、参照用データ部３５に記録された五十音データと単語データの中から、最も適正なものを選択する。この際、音声認識補完システムが入力された音声と参照用データ部に記録されている五十音や単語と一致していないことを認識した場合、モニタに誤認識発生を表示する。誤認識発声を認識した特定者は、画面タッチ、ボタン等の操作により合図する。
そして対話処理部３８において、本実施形態２に係る音声認識補完システムから提供された言語データがテキスト等により特定者に表示される。この際、音響モデルと誤認識テキストの対照関係が明確になるように、／で単語を区切りモニタに表示する。

次にサンプリング適応化部３９において、特定者が、キーボードを使用して、モニタ上で正しい文章に修正を行う。修正された正しい文章は、特定者用参照データ４２に記憶される。次回その特定者が音声認識装置を使用する場合は、その特定者固有の特定者用参照データ４２を利用することにより、特定者の個性である方言、年齢による発音の変化、外国語の発音など、様々な個性に則した文章を作成し、誤認識の発生を減少させることができる。
図５は、サンプリング適応化部３９において、修正された言語を特定者用参照データ４２に記憶させる一例を示す概念図である。
図５（ａ）に示す如く、図４に示したマイク３０を介して入力され、デジタル信号に変換された音声「あ」は、音声認識補完システムに送信される。音声認識補完システムは、予め参照用データ部に記録された五十音の波長とマッチングしたものを検索し、参照用データ部３５に記録された五十音の波長と同じもの、あるいは最も近似したものを一つ特定する。ここでは、送信された五十音から最も近似した五十音である「わ」が認識された。最下欄にあるように「わ」は、誤って認識された五十音である。

次に誤って認識された五十音を音声が入力された装置へ返信し、当該装置のモニタに表示する。画面を閲覧した特定者は、画面タッチ、ボタン等の操作により誤りを正しい五十音に修正する。
図５（ｂ）は、送信された波長を「あ」の波長として予め参照用データ部に記録されている「あ」の音声波長と対応させる。
上記の図５（ａ）及び（ｂ）で修正された音声波長は、（ｂ）の最下欄に示す如く「あ」として認識され、発声した特定者固有の情報として、特定者用参照データ記録部に記憶される。

図５（ｃ）は、他の音声認識補完システムを示している。
かかる場合、音声を入力した端末上のモニタにエラーメッセージを送信する。エラーメッセージを確認した特定者は、正しい言葉「あ」をキーボードを使用して入力する。入力された文字データは、音声認識補完システムに送信される。音声認識補完システムは、参照用データにある音声「あ」に対応する波長（WAVE1)を、新たな波長（WAVE2）に置き換えて、特定者用参照データ記録部における音声「あ」の波長として波長（WAVE2）を記録する。次回から音声認識補完システムは、各特定者に適合した特定者用参照データ記録部を使用して、最下欄にあるように「あ」を認識することができるようになる。
このような工程を繰り返す事により、特定者用参照データ記録部に、特定者固有の音声波長情報が追加されていく。そして本実施形態２に係る音声認識補完システムは、上記構成を有することによって、入力される音声データと紹介される参照用音声データが乖離する場合において、入力された音声データが正しく確定されない（入力データと参照用データが乖離し、入力データが他の文字や文章と誤認される）という問題点を解決することができる。

実施形態３
本実施形態３に係る音声認識補完システムは、参照用データ部に記録された音響モデル、声紋データ等からなる五十音データと単語データと、マイクを介して入力された音声データ（音響、声紋）をデジタル信号変換部によってデジタル信号に変換する。本実施形態は、その後入力された言葉を確定するシステムとなっている。
すなわち、音響処理部によって入力した文章を、図６（ａ）に示す如く音声発生区間に分断して形態素ごとに区切ることによって音響パラメータに係るデジタル波形を抽出する。
例えば、特定者が「わたしは」と音声入力した場合、入力されたデジタル波形に変換した後、音響処理部は図６（ａ）に示す如く音声発生区間を分断する。次にマッチング部は、参照用データ部に記録された五十音データと単語データの中から、最も近いものを選択する。
マッチング部において「わ／た／し／」という文章が検出された。マッチング部が検出した前記文章を、対話処理部を構成するモニタ上に「わたし」とテキスト表示する。

次にサンプリング適応化部において、特定者がモニタ上で「わたし」を視認した後、特定者が所望する正しい文章である「わたしは」に音声認識システムに設けられたキーボードを使用して修正する。修正された正しい文章「わたしは」は、サンプリング適応部において図６（ｂ）に示す如く「わ／た／し／は」と分断され、それぞれに適応するデジタル波形を適合させた後、特定者用参照データ記録部における、五十音データと単語データに記憶される。
ここで、モニタ上にデジタル波形の情報を掲載することによって、特定者がモニタ上で音声発生区間を区切っている縦線を追加したり、縦線を削除したり、縦線の位置を修正したりすることによって、正しい音声発生区間を設定することも可能である。

実施形態４
図７は、本実施形態４に係るコンピュータクラウドシステムを利用した音声認識補完システムに関するシステム構成図である。
本実施形態４に係る音声認識補完システム１００は、図７に示す如く、五十音と特定者が使用する複数の単語が記憶された参照用データ部１０１と、特定者用参照データ記憶部１０２とが、クラウドＳＱＬサーバー１０７内に設定され、記憶された五十音と単語が特定者の情報端末の対話処理部にダウンロード可能となっていることを特徴とする。
図７には、音声認識システムが搭載された装置として、カーナビゲーションシステム１２０、携帯端末の音声検索システム１２１、会話をしながら進行するゲームソフトがインストールされたパーソナルコンピュータ１２２が図示されている。
各装置には、音声入力マイクが装備されており、特定者は前記音声入力マイクを利用して音声を入力する。各装置１２０，１２１，１２２によって検出された音声データは、Ａ／Ｄによりデジタル信号に変換されデータロガーに送信される。データロガーは、ＦＴＰ機能及びＳＭＴＰ機能を有し、データ送信が可能である。音声データは、インターネット１１０を介してクラウドＳＱＬサーバー１０７へＦＴＰ送信される。

クラウドＳＱＬサーバー１０７には、五十音と特定者が使用する複数の単語が記憶された参照用データ部１０１が予め記録されている。クラウドＳＱＬサーバー１０７は、音響処理部１０４によって、入力された音声信号より音響パラメータが抽出され、音声と発生区間が検出される。
前記音響処理部１０４において認識された単語は、参照用データ部１０１に記録された単語を、マッチング部１０８において検出された前記参照用データ部１０１に記憶された単語又は複数の単語を組み合わせた文章を検出する。検出された文章は、インターネット１１０を介して各装置１２０，１２１，１２２に送信される。クラウドＳＱＬサーバーから送信されてきた文章データを受信した各装置１２０，１２１，１２２は、各装置が装備する対話処理部として機能するモニタ上にテキストとして表示する。

特定者は、対話処理部のモニタに表示された文章に誤りがないか確認し、誤りがある場合は、各装置１２０，１２１，１２２に装備されているキーボードを利用して、正しい文章に修正される。
正しい文章に修正された文章データは、各装置１２０，１２１，１２２から、クラウドＳＱＬサーバー１０７へ再送信される。クラウドＳＱＬサーバ１０７のサンプリング適応化部１０９は、参照用データ部１０１に記録されている複数の単語と音声信号を修正された情報を参照しながら関連付け、特定者用参照データ記憶部１０２に新たな情報として記録する。
本実施形態４に係る音声認識補完システムを使用することによって、使用者個別により滑舌、呂律、方言、抑揚、アクセント等の相違を正確に認識し、適切な音声案内や文字情報に基づいて各装置１２０，１２１，１２２の機能を利用することができる。又、本実施形態４に係る音声認識補完システムを使用することによって、高齢者、疾患者、子供、外国語、方言、声帯や口内の身体的な特徴により、従来の音声認識システムが求めている発音を行えない特定者専用の音響モデル、言語モデルを生成し、音声認識システム（各装置１２０，１２１，１２２）を補完することができる。

１００音声認識補完システム
１０，３０マイク
１１デジタル信号変換部
１２音響処理部
１４，３４マッチング部
１５，３５参照用データ部
１８，３８対話処理部
２０，３９サンプリング適応部
２２，４２特定者用参照データ

Claims

五十音と特定者が使用する複数の単語をデジタル波形として記録した参照用データ部と、前記特定者が入力するアナログ波形をデジタル波形に変換した音響パラメータを認識することによって音声と発生区間を検出する音響処理部と、前記音響処理部において認識されたデジタル波形より前記参照用データ部及び後記特定者用参照データ記録部に記録されたデジタル波形を認識し又は対応するデジタル波形が参照用データ部及び特定者用参照データ記録部にないことを認識するマッチング部と、前記マッチング部において検出された前記参照用データ部又は特定者用参照データ記録部に記憶されたデジタル波形によって特定された五十音若しくは複数の単語を組み合わせた文章をモニタ上にテキスト表示するか、又は参照用データ部に対応するデジタル波形がないことを示すエラーメッセージを表示する対話処理部と、当該対話処理部に出力された単語若しくは文章を確認又は正しい単語若しくは文章に修正するサンプリング適応化部と、前記サンプリング適応化部において確認若しくは修正された単語音声と参照用データ部に記録されている複数の単語とを関連付けてデータベースに記録するか又は参照用データ部にないデジタル波形及び対応する五十音又は複数の単語を記録する特定者用参照データ記憶部と、を有する音声認識補完システム。
前記対話処理部に出力された単語又は文章を、音声合成の出力手段を制御して、モニタ及びスピーカーに出力することを特徴とする請求項１に記載された音声認識補完システム。
前記五十音と特定者が使用する複数の単語が記憶された参照用データ部と、特定者用参照データ記憶部とが、クラウドコンピューティングシステム内に設定され、記憶された五十音と単語が特定者の情報端末の対話処理部にダウンロード可能となっていることを特徴とする請求項１又は２に記載された音声認識補完システム。