JP2018031985A - 音声認識補完システム - Google Patents

音声認識補完システム Download PDF

Info

Publication number
JP2018031985A
JP2018031985A JP2016166087A JP2016166087A JP2018031985A JP 2018031985 A JP2018031985 A JP 2018031985A JP 2016166087 A JP2016166087 A JP 2016166087A JP 2016166087 A JP2016166087 A JP 2016166087A JP 2018031985 A JP2018031985 A JP 2018031985A
Authority
JP
Japan
Prior art keywords
reference data
unit
specific person
word
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016166087A
Other languages
English (en)
Inventor
恒次 國分
Tsuneji Kokubu
恒次 國分
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2016166087A priority Critical patent/JP2018031985A/ja
Publication of JP2018031985A publication Critical patent/JP2018031985A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】発声する特定者専用の音響モデル、言語モデルを生成し、音声認識システムを補完することを目的とする。【解決手段】単語をデジタル波形として記録した参照用データ部と、特定者の音声と発生区間を検出する音響処理部と、認識されたデジタル波形より前記参照用データ部及び後記特定者用参照データ記録部に記録されたデジタル波形を認識するマッチング部と、前記マッチング部において検出されたデジタル波形によって特定された単語をモニタ上にテキスト表示する対話処理部と、当該対話処理部に出力された単語を確認又は正しい単語に修正するサンプリング適応化部と、前記サンプリング適応化部において確認又は修正された単語とを関連付けてデータベースに記録特定者用参照データ記憶部と、を有する音声認識補完システムである。【選択図】図1

Description

この発明は、特定者(情報端末を利用する者)における個別の音声の特徴を適切な単語又は言葉として認識し、適切な情報を出力することができる音声認識補完システムに関する。特に本発明に係る音声認識補完システムを利用することによって、特定者との対話を介して機能する装置等の利用に供することができる。
現在、音声認識システムは、例えばカーナビゲーションシステム、携帯端末用アプリケーション、調理家電等に利用されている。又、今後は音声認識を内蔵したロボット、会話をしながら進行するゲーム機、大量のアーカイブから目的の映像を探したり、放送禁止用語のチェックを効率的に行う等、広汎な技術分野での利用が見込まれている。
以下、一般的な利用が進んでいる自動車に関する技術を例にとって説明する。現在、自動車業界においては、音声認識システムと自動車等の移動体に通信システムを組み合せ、移動体内で交通情報、地図情報、ナビゲーション、故障時の連絡、盗難時の自動通報といったリアルタイムな情報をサービスを提供できるシステムが汎用されている。かかる情報システムにおいては、車載情報端末、いわゆるカーナビゲーションシステムがシステムの中心に配置される。
かかる車載情報端末は、使用者が車載情報端末にデータを入力することによって、必要な情報をモニターに表示し、時には音声ガイドによって、出力するのが一般的である。
使用者が車載情報端末を利用する際、使用者個別により滑舌、呂律、方言、抑揚、アクセント等が相違するため、入力された音声を車載情報端末が認識できなかったり、誤って認識されることが問題となっている。
このような問題点を解決する方法としては、現在、種々の方法が知られている。例えば、特許文献1には、音声認識で処理する認識語彙を、入力される文章の分野ごとに相関関係を設定し、入力された文章に応じた適切な語彙が優先される技術が開示されている。 また特許文献2には、外部から入力された音声情報を変化情報を蓄積して、音声の変化に応じて臨機応変に対応する音声認識システムが開示されている。
しかしながら、現状の情報端末においては、使用者が情報端末に併せて、ゆっくりと明確な言葉を適正な文法とイントネーションで発声して使用することが一般的である。すなわち、使用者個別による滑舌、呂律、方言、抑揚、アクセント等に対しては、相変わらず正確に対応できていないのが現状である。
またAI(人工知能)技術を利用した学習能力のある音声認識システムも検討されているが、製造費用の高騰といった問題や解決しなければいけない技術的な問題点が散見されているのが現状である。
特開2003−280683号公報 特許第3438869号公報
現在の音声認識システムは、記録された音響モデルや声紋データ等による参照用音声データと、新規に入力された音響や声紋等を照合し、入力された言葉を確定するシステムとなっている。
しかし、入力される音声データと紹介される参照用音声データが乖離する場合には、入力された音声データが正しく確定されないという問題があった。すなわち、入力データと参照用データが乖離し、入力データが他の文字や文章と誤認されるという問題があった。本発明は、かかる問題点を解決することを課題とする。
特に高齢者、疾患者、子供、外国語、方言、声帯や口内の身体的な特徴により、従来の音声認識システムが求めている発音を行えない者がおり、音声認識システムを利用できないといった問題があった。本発明は、発声する特定者専用の音響モデル、言語モデルを生成し、音声認識システムを補完することを目的とする。
(1)五十音と特定者が使用する複数の単語をデジタル波形として記録した参照用データ部と、前記特定者が入力するアナログ波形をデジタル波形に変換した音響パラメータを認識することによって音声と発生区間を検出する音響処理部と、前記音響処理部において認識されたデジタル波形より前記参照用データ部及び後記特定者用参照データ記録部に記録されたデジタル波形を認識し又は対応するデジタル波形が参照用データ部及び特定者用参照データ記録部にないことを認識するマッチング部と、前記マッチング部において検出された前記参照用データ部又は特定者用参照データ記録部に記憶されたデジタル波形によって特定された五十音若しくは複数の単語を組み合わせた文章をモニタ上にテキスト表示するか、又は参照用データ部に対応するデジタル波形がないことを示すエラーメッセージを表示する対話処理部と、当該対話処理部に出力された単語若しくは文章を確認又は正しい単語若しくは文章に修正するサンプリング適応化部と、前記サンプリング適応化部において確認若しくは修正された単語音声と参照用データ部に記録されている複数の単語とを関連付けてデータベースに記録するか又は参照用データ部にないデジタル波形及び対応する五十音又は複数の単語を記録する特定者用参照データ記憶部と、を有する音声認識補完システムである。
ここで参照用データ部又は特定者用参照データに記録されている単語には、名詞、助詞、動詞、助動詞、外来語、外国語、句点等の文章を構成する文字が含まれる。又、特定者が入力するアナログ波形とは、音声、楽器音又は拍手等、様々な音を意味する。
また音響処理部とは、デジタル化された音声信号から、音響パラメータを抽出する技術のことである。例えば、実環境での雑音や周波数歪みを除去する技術や、音声発生区間を検出する技術が含まれる。
またマッチング部とは、音響処理部において検出された特定者のデジタル信号に基づいて、参照用データ部に記録された単語又は文章を認識する技術のことである。音響モデルに対する音響パラメータ系列の距離や尤度(確からしさ)を求め、認識結果を決定する技術のことである。
本発明に係るマッチング部における機能は二つある。一つは、音響処理部における検出された特定者のデジタル信号から、最も適切な参照用データ部に記録された単語又は文章を認識することである。二つ目は、音響処理部における検出された特定者のデジタル信号から、適切な参照用データ部に記録された単語又は文章が存在しないことを認識することである。
また対話処理部とは、特定者と音声認識システムとの間のインターフェイスであって、音声認識により認識された結果を音声認識システム上のモニタに出力表示する技術である。
ここで音声認識システム上のモニタに出力表示する手段としては大きく二つに分けられる。一つは、前記マッチング部が認識した最も適切な参照用データ部に記録された単語又は文章をモニタに表示する手段である。二つ目は、適切な参照用データ部に記録された単語又は文章が存在しない場合であり、かかる場合は、適切な単語又は文章が存在しない事を示すエラーメッセージをモニタに表示することになる。
またサンプリング適応化部とは、上記の対話処理部においてモニタ上に表示された音声認識システムが認識した単語又は文章を、特定者がモニタ上で視認し、特定者が所望する単語又は文章である場合は正しい旨を確認し、特定者の所望する単語又は文章でない場合は、例えば音声認識システムに設けられたキーボードを使用して正しい単語又は文章に修正する技術である。
例えば、特定者が特定の文章を発声した場合、音響処理部において発声された文章を抑揚等に適合させ音響パラメータが抽出される。次に音響パラメータを複数のデジタル波形等(音響パラメータとしては、デジタル波形以外の方法で抽出しても良い。しかし、本発明においては出願時の周知技術としてデジタル波形にて説明する。以下も同様である。)として認識し、認識された複数の波から特定される文章を、参照用データから抽出し組み合わせて、対話処理部にテキスト表示する。かかるテキスト表示された文章に、誤りがある場合は特定者がキーボードによって文章を修正する。修正された文章は、サンプリング適応化部において、マッチング部において認識された文章との差を認定し、例えば、複数の波の個数を誤認していた場合は、正しい、個数の波として認識し、特定者用参照データ記憶部に記録する。又、参照用データに記憶されているデジタル波形を、特定者の発声した音声に対応したデジタル波形自体に置き換えて特定者用参照データ記憶部に記憶し、次回からの入力に反映させる。
そして、サンプリング適応化部において単語や文章を修正すると、抽出された音響パラメータに対応する単語や文章を、修正された単語や文章に置き換えて記録し、次の入力にかかる対応関係に反映させることもできる。
しかし、入力された単語や文章から抽出された音響パラメータに対応する単語や文章が参照用データに存在しない場合には、音響パラメータと単語や文章の対応関係を置き換えることができない。この場合には、入力された単語や文章の音響パラメーターを、標準的な音響パラメータ(参照用データに記録されている音響パラメータ)に置き換えて、参照用データと照合させることにし、これを記録しておき、次回の入力に反映させることもできる。
これにより、単語や文章ではない様々な音響(雑音や楽器音)、タッピング音であっても、それらの音響を標準的な音響パラメータや参照用データに記録されている音響パラメータに置き換えることにより、正しくテキスト入力できることとなる。
更に特定者参照データ記憶部とは、上記のサンプリング適応化部において、確認又は修正された単語又は文章を予め記憶されている前記参照用データ部における単語又は文章と関連付けてデータベースに記憶する技術である。この技術によって、特定者用の参照データを新たに作成し、音声認識の精度を上げることができる。
(2)前記対話処理部に出力された単語又は文章を、音声合成の出力手段を制御して、モニタ及びスピーカーに出力することを特徴とする上記(1)に記載された音声認識補完システムである。
本発明における対話処理部は、特定者と音声認識システムとの間のインターフェイスであって、音声認識により認識された結果を音声認識システム上のモニタ上のみならずスピーカーと介して合成音声により出力する技術のことである。
(3)前記五十音と特定者が使用する複数の単語が記憶された参照用データ部と、特定者用参照データ記憶部とが、クラウドコンピューティングシステム内に設定され、記憶された五十音と単語が特定者の情報端末の対話処理部にダウンロード可能となっていることを特徴とする上記(1)又は(2)に記載された音声認識補完システムである。
クラウドコンピューティングシステムとは、特定者が所有するパーソナルコンピュータや携帯端末等だけではなく、インターネット上に情報を保存する使い方、サービスを提供するシステムのことである。クラウドサービスを利用することによって、自宅、会社等の外出先など、様々な環境下におけるパーソナルコンピュータや携帯端末等からでも、保存されている情報をアップロードすることができる。例えば、SaaS、PaaS、HaaS、IaaS等が知られている。
本発明に係る音声認識補完システムを使用することによって、使用者個別により滑舌、呂律、方言、抑揚、アクセント等の相違を正確に認識し、適切な音声案内や文字情報を表示することができる。
本発明に係る音声認識補完システムを使用することによって、高齢者、疾患者、子供、外国語、方言、声帯や口内の身体的な特徴により、従来の音声認識システムが求めている発音を行えない特定者専用の音響モデル、言語モデルを生成し、音声認識システムを補完することができる。
本発明の音声認識補完システムに係る実施形態1の構成を示すブロック図である。 音響処理部において作成される分断された音声発生区間の一例を示す図である。 音響処理部において作成される分断された音声発生区間の一例を示す図である。 本発明の音声認識補完システムに係る実施形態2の構成を示すフロー図である。 サンプリング適応化部において、修正された言語を特定者用参照データに記憶させる一例を示す概念図である。 文章について音声発生区間に分断して形態素ごとに区切ることによって特定者用参照データに記憶させる実施形態3を示す概念図である。 本発明の音声認識補完システムに係る実施形態4の構成を示すシステム構成図である。
現在の音声認識補完システムは、記録された参照用音声データ(音響モデル、声紋データ等)と、入力された音声データ(音響、声紋)を照合し、入力された言葉を確定するシステムとなっているが、入力される音声データと紹介される参照用音声データが乖離する場合には、入力された音声データが正しく確定されない(入力データと参照用データが乖離し、入力データが他の文字や文章と誤認される)。
その問題点を改善するためには、1.正しく音声認識されるように、入力者の発音を正してもらう、2.あらかじめ準備した文章を、事前に入力者に読み上げさせ、事前に読み上げさせた音声データをもとに、参照用音声データを入力者用に修正した参照用データを新たに作り、修正参照用データを用いることで乖離を失し、音声認識の精度を上げる、3.正しく確定されなかった音声データを文字で表示し、音声入力者に文字にて音声データを修正させ、修正されたデータによって入力者用の参照データを新たに作り、音声認識の精度を上げる、という3つの方法が考えられる。
本発明の発明者は、上記3の具体的なシステムとして、以下に説明する本発明の音声認識補完システムに係る実施形態の一例を発明した。以下に示す実施形態は本発明の一例であって、本発明の技術的範囲を限定するものではない。
実施形態1
図1は、本発明の音声認識補完システム100に実施形態1の構成を示すブロック図である。図1に示す如く、本発明の音声認識補完システムは、主なハードウエア構成として、マイク10と、ディスプレイと、デジタル信号変換部11と、音響処理部12と、マッチング部14と、五十音を記録したデータ16及び単語を記録したデータ17からなる参照用データ部15と、対話処理部18と、サンプリング適応部20と、特定者用参照データ22と、から構成されている。
本発明の音声認識補完システム100は、参照用データ部15に記録された音響モデル、声紋データ等からなる五十音データ16と単語データ(名詞、助詞、動詞、助動詞、外来語、外国語、句点等の文章を構成する文字を含む。)17と、マイク10を介して入力された音声データ(音響、声紋)をデジタル信号変換部11によってデジタル波形に変換する。本実施形態1は、その後入力された言葉を確定するシステムとなっている。すなわち、音響処理部12によって入力した単語や文章について音声発生区間に分断して形態素ごとに区切ることによって音響パラメータを抽出する。この際、マイクによって入力された文章以外の雑音や周波数歪みも除去される。
例えば、特定者が「都内レストランを検索」と音声入力した場合、入力されたデジタル波形に変換した後、音響処理部12は図2に示す如く、「とうれ/らんおう/を/けんさく」と音声発生区間を分断する。次にマッチング部14は、参照用データ部15に記録された五十音データ16と単語データ17の中から、最も適正なものを選択する。
マッチング部14において「トーレ、卵黄を検索」という文章が検出された。マッチング部14が検出した前記文章を、対話処理部18を構成するモニタ上に「トーレ、卵黄を検索」とテキスト表示する。
次にサンプリング適応化部20において、特定者がモニタ上で「トーレ、卵黄を検索」を視認した後、特定者が所望する正しい文章である文章である「都内レストランを検索」に音声認識システムに設けられたキーボードを使用して修正する。 修正された正しい文章「都内レストランを検索」は、サンプリング適応部20において図3に示す如く「とない/れすとらん/を/けんさく」と分断され、特定者用参照データ記録部22における、五十音データ23と単語データ24に記憶される。本実施形態においては、音声認識システムが誤って言葉を認識した場合を例に説明しているが、正しく認識した場合は、上記サンプリング適応化部19において、確認キーを入力することによって、単語や文章を修正しない形で、特定者Pの特定者用参照データ22に記憶される。
なお上記の工程を繰り返す、すなわち本実施形態に係る音声認識補完システム100の使用を複数回繰り返すことで、特定者の個性である方言、年齢による発音の変化、外国語の発音など、様々な個性を反映させた参照用データを作成することができる。
本実施形態に係る音声認識補完システム100は上記構成を有することによって、入力される音声データと紹介される参照用音声データが乖離する場合において、入力された音声データが正しく確定されない(入力データと参照用データが乖離し、入力データが他の文字や文章と誤認される)という問題点を解決することができる。
実施形態2
図4は、本発明の音声認識補完システムに実施形態2の構成を示すフロー図である。図4に示す如く、マイク30を介して入力された音声データ(音響、声紋)をデジタル信号に変換する。
次に参照用データ部35において、記録された音響モデル、声紋データを参照して、形態素列を特定し、文例候補特定する。
すなわち、音声認識装置から、音声認識装置が生成した文章データ(誤訳文章)と、文章データ(言語データ)を認識する根拠となった音響データが、本実施形態2に係る音声認識補完システムに送信される。この際、マッチング部34において、言語データと音響データとを対比できるよう、予めどの音響データにどの言語データが割り当てられるか決めておく。
そして、マッチング部34は、参照用データ部35に記録された五十音データと単語データの中から、最も適正なものを選択する。この際、音声認識補完システムが入力された音声と参照用データ部に記録されている五十音や単語と一致していないことを認識した場合、モニタに誤認識発生を表示する。誤認識発声を認識した特定者は、画面タッチ、ボタン等の操作により合図する。
そして対話処理部38において、本実施形態2に係る音声認識補完システムから提供された言語データがテキスト等により特定者に表示される。この際、音響モデルと誤認識テキストの対照関係が明確になるように、/で単語を区切りモニタに表示する。
次にサンプリング適応化部39において、特定者が、キーボードを使用して、モニタ上で正しい文章に修正を行う。修正された正しい文章は、特定者用参照データ42に記憶される。次回その特定者が音声認識装置を使用する場合は、その特定者固有の特定者用参照データ42を利用することにより、特定者の個性である方言、年齢による発音の変化、外国語の発音など、様々な個性に則した文章を作成し、誤認識の発生を減少させることができる。
図5は、サンプリング適応化部39において、修正された言語を特定者用参照データ42に記憶させる一例を示す概念図である。
図5(a)に示す如く、図4に示したマイク30を介して入力され、デジタル信号に変換された音声「あ」は、音声認識補完システムに送信される。音声認識補完システムは、予め参照用データ部に記録された五十音の波長とマッチングしたものを検索し、参照用データ部35に記録された五十音の波長と同じもの、あるいは最も近似したものを一つ特定する。ここでは、送信された五十音から最も近似した五十音である「わ」が認識された。最下欄にあるように「わ」は、誤って認識された五十音である。
次に誤って認識された五十音を音声が入力された装置へ返信し、当該装置のモニタに表示する。画面を閲覧した特定者は、画面タッチ、ボタン等の操作により誤りを正しい五十音に修正する。
図5(b)は、送信された波長を「あ」の波長として予め参照用データ部に記録されている「あ」の音声波長と対応させる。
上記の図5(a)及び(b)で修正された音声波長は、(b)の最下欄に示す如く「あ」として認識され、発声した特定者固有の情報として、特定者用参照データ記録部に記憶される。
図5(c)は、他の音声認識補完システムを示している。
かかる場合、音声を入力した端末上のモニタにエラーメッセージを送信する。エラーメッセージを確認した特定者は、正しい言葉「あ」をキーボードを使用して入力する。入力された文字データは、音声認識補完システムに送信される。音声認識補完システムは、参照用データにある音声「あ」に対応する波長(WAVE1)を、新たな波長(WAVE2)に置き換えて、特定者用参照データ記録部における音声「あ」の波長として波長(WAVE2)を記録する。次回から音声認識補完システムは、各特定者に適合した特定者用参照データ記録部を使用して、最下欄にあるように「あ」を認識することができるようになる。
このような工程を繰り返す事により、特定者用参照データ記録部に、特定者固有の音声波長情報が追加されていく。そして本実施形態2に係る音声認識補完システムは、上記構成を有することによって、入力される音声データと紹介される参照用音声データが乖離する場合において、入力された音声データが正しく確定されない(入力データと参照用データが乖離し、入力データが他の文字や文章と誤認される)という問題点を解決することができる。
実施形態3
本実施形態3に係る音声認識補完システムは、参照用データ部に記録された音響モデル、声紋データ等からなる五十音データと単語データと、マイクを介して入力された音声データ(音響、声紋)をデジタル信号変換部によってデジタル信号に変換する。本実施形態は、その後入力された言葉を確定するシステムとなっている。
すなわち、音響処理部によって入力した文章を、図6(a)に示す如く音声発生区間に分断して形態素ごとに区切ることによって音響パラメータに係るデジタル波形を抽出する。
例えば、特定者が「わたしは」と音声入力した場合、入力されたデジタル波形に変換した後、音響処理部は図6(a)に示す如く音声発生区間を分断する。次にマッチング部は、参照用データ部に記録された五十音データと単語データの中から、最も近いものを選択する。
マッチング部において「わ/た/し/」という文章が検出された。マッチング部が検出した前記文章を、対話処理部を構成するモニタ上に「わたし」とテキスト表示する。
次にサンプリング適応化部において、特定者がモニタ上で「わたし」を視認した後、特定者が所望する正しい文章である「わたしは」に音声認識システムに設けられたキーボードを使用して修正する。 修正された正しい文章「わたしは」は、サンプリング適応部において図6(b)に示す如く「わ/た/し/は」と分断され、それぞれに適応するデジタル波形を適合させた後、特定者用参照データ記録部における、五十音データと単語データに記憶される。
ここで、モニタ上にデジタル波形の情報を掲載することによって、特定者がモニタ上で音声発生区間を区切っている縦線を追加したり、縦線を削除したり、縦線の位置を修正したりすることによって、正しい音声発生区間を設定することも可能である。
実施形態4
図7は、本実施形態4に係るコンピュータクラウドシステムを利用した音声認識補完システムに関するシステム構成図である。
本実施形態4に係る音声認識補完システム100は、図7に示す如く、五十音と特定者が使用する複数の単語が記憶された参照用データ部101と、特定者用参照データ記憶部102とが、クラウドSQLサーバー107内に設定され、記憶された五十音と単語が特定者の情報端末の対話処理部にダウンロード可能となっていることを特徴とする。
図7には、音声認識システムが搭載された装置として、カーナビゲーションシステム120、携帯端末の音声検索システム121、会話をしながら進行するゲームソフトがインストールされたパーソナルコンピュータ122が図示されている。
各装置には、音声入力マイクが装備されており、特定者は前記音声入力マイクを利用して音声を入力する。各装置120,121,122によって検出された音声データは、A/Dによりデジタル信号に変換されデータロガーに送信される。データロガーは、FTP機能及びSMTP機能を有し、データ送信が可能である。音声データは、インターネット110を介してクラウドSQLサーバー107へFTP送信される。
クラウドSQLサーバー107には、五十音と特定者が使用する複数の単語が記憶された参照用データ部101が予め記録されている。クラウドSQLサーバー107は、音響処理部104によって、入力された音声信号より音響パラメータが抽出され、音声と発生区間が検出される。
前記音響処理部104において認識された単語は、参照用データ部101に記録された単語を、マッチング部108において検出された前記参照用データ部101に記憶された単語又は複数の単語を組み合わせた文章を検出する。検出された文章は、インターネット110を介して各装置120,121,122に送信される。クラウドSQLサーバーから送信されてきた文章データを受信した各装置120,121,122は、各装置が装備する対話処理部として機能するモニタ上にテキストとして表示する。
特定者は、対話処理部のモニタに表示された文章に誤りがないか確認し、誤りがある場合は、各装置120,121,122に装備されているキーボードを利用して、正しい文章に修正される。
正しい文章に修正された文章データは、各装置120,121,122から、クラウドSQLサーバー107へ再送信される。クラウドSQLサーバ107のサンプリング適応化部109は、参照用データ部101に記録されている複数の単語と音声信号を修正された情報を参照しながら関連付け、特定者用参照データ記憶部102に新たな情報として記録する。
本実施形態4に係る音声認識補完システムを使用することによって、使用者個別により滑舌、呂律、方言、抑揚、アクセント等の相違を正確に認識し、適切な音声案内や文字情報に基づいて各装置120,121,122の機能を利用することができる。又、本実施形態4に係る音声認識補完システムを使用することによって、高齢者、疾患者、子供、外国語、方言、声帯や口内の身体的な特徴により、従来の音声認識システムが求めている発音を行えない特定者専用の音響モデル、言語モデルを生成し、音声認識システム(各装置120,121,122)を補完することができる。
100 音声認識補完システム
10,30 マイク
11 デジタル信号変換部
12 音響処理部
14,34 マッチング部
15,35 参照用データ部
18,38 対話処理部
20,39 サンプリング適応部
22,42 特定者用参照データ

Claims (3)

  1. 五十音と特定者が使用する複数の単語をデジタル波形として記録した参照用データ部と、前記特定者が入力するアナログ波形をデジタル波形に変換した音響パラメータを認識することによって音声と発生区間を検出する音響処理部と、前記音響処理部において認識されたデジタル波形より前記参照用データ部及び後記特定者用参照データ記録部に記録されたデジタル波形を認識し又は対応するデジタル波形が参照用データ部及び特定者用参照データ記録部にないことを認識するマッチング部と、前記マッチング部において検出された前記参照用データ部又は特定者用参照データ記録部に記憶されたデジタル波形によって特定された五十音若しくは複数の単語を組み合わせた文章をモニタ上にテキスト表示するか、又は参照用データ部に対応するデジタル波形がないことを示すエラーメッセージを表示する対話処理部と、当該対話処理部に出力された単語若しくは文章を確認又は正しい単語若しくは文章に修正するサンプリング適応化部と、前記サンプリング適応化部において確認若しくは修正された単語音声と参照用データ部に記録されている複数の単語とを関連付けてデータベースに記録するか又は参照用データ部にないデジタル波形及び対応する五十音又は複数の単語を記録する特定者用参照データ記憶部と、を有する音声認識補完システム。
  2. 前記対話処理部に出力された単語又は文章を、音声合成の出力手段を制御して、モニタ及びスピーカーに出力することを特徴とする請求項1に記載された音声認識補完システム。
  3. 前記五十音と特定者が使用する複数の単語が記憶された参照用データ部と、特定者用参照データ記憶部とが、クラウドコンピューティングシステム内に設定され、記憶された五十音と単語が特定者の情報端末の対話処理部にダウンロード可能となっていることを特徴とする請求項1又は2に記載された音声認識補完システム。
JP2016166087A 2016-08-26 2016-08-26 音声認識補完システム Pending JP2018031985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016166087A JP2018031985A (ja) 2016-08-26 2016-08-26 音声認識補完システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016166087A JP2018031985A (ja) 2016-08-26 2016-08-26 音声認識補完システム

Publications (1)

Publication Number Publication Date
JP2018031985A true JP2018031985A (ja) 2018-03-01

Family

ID=61303426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016166087A Pending JP2018031985A (ja) 2016-08-26 2016-08-26 音声認識補完システム

Country Status (1)

Country Link
JP (1) JP2018031985A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493848A (zh) * 2018-12-17 2019-03-19 深圳市沃特沃德股份有限公司 语音识别方法、系统及电子装置
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN110767240A (zh) * 2019-10-31 2020-02-07 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63249899A (ja) * 1987-04-06 1988-10-17 富士通株式会社 音声認識単語指定方式
JPH06124097A (ja) * 1992-10-13 1994-05-06 Hitachi Ltd 携帯型端末装置
JP2000047684A (ja) * 1998-07-28 2000-02-18 Nec Corp 音声認識方法および音声サービス装置
JP2000089783A (ja) * 1999-09-13 2000-03-31 Seiko Epson Corp 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
JP2002049387A (ja) * 2000-08-04 2002-02-15 Tokai Rika Co Ltd 音声認識装置
JP2003241787A (ja) * 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
JP2005084829A (ja) * 2003-09-05 2005-03-31 Sharp Corp 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体
JP2006243575A (ja) * 2005-03-07 2006-09-14 Nec Corp 音声書き起こし支援装置およびその方法ならびにプログラム
JP2008241970A (ja) * 2007-03-27 2008-10-09 Kddi Corp 話者適応装置、話者適応方法及び話者適応プログラム
JP2013007917A (ja) * 2011-06-24 2013-01-10 Aisin Aw Co Ltd 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63249899A (ja) * 1987-04-06 1988-10-17 富士通株式会社 音声認識単語指定方式
JPH06124097A (ja) * 1992-10-13 1994-05-06 Hitachi Ltd 携帯型端末装置
JP2000047684A (ja) * 1998-07-28 2000-02-18 Nec Corp 音声認識方法および音声サービス装置
JP2000089783A (ja) * 1999-09-13 2000-03-31 Seiko Epson Corp 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
JP2002049387A (ja) * 2000-08-04 2002-02-15 Tokai Rika Co Ltd 音声認識装置
JP2003241787A (ja) * 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
JP2005084829A (ja) * 2003-09-05 2005-03-31 Sharp Corp 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体
JP2006243575A (ja) * 2005-03-07 2006-09-14 Nec Corp 音声書き起こし支援装置およびその方法ならびにプログラム
JP2008241970A (ja) * 2007-03-27 2008-10-09 Kddi Corp 話者適応装置、話者適応方法及び話者適応プログラム
JP2013007917A (ja) * 2011-06-24 2013-01-10 Aisin Aw Co Ltd 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2020004213A1 (ja) * 2018-06-29 2021-07-08 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7459791B2 (ja) 2018-06-29 2024-04-02 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN109493848A (zh) * 2018-12-17 2019-03-19 深圳市沃特沃德股份有限公司 语音识别方法、系统及电子装置
CN110767240A (zh) * 2019-10-31 2020-02-07 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置
CN110767240B (zh) * 2019-10-31 2021-12-03 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置

Similar Documents

Publication Publication Date Title
US11455995B2 (en) User recognition for speech processing systems
US11170776B1 (en) Speech-processing system
US10027662B1 (en) Dynamic user authentication
US20230317074A1 (en) Contextual voice user interface
US10365887B1 (en) Generating commands based on location and wakeword
US10339925B1 (en) Generation of automated message responses
US10163436B1 (en) Training a speech processing system using spoken utterances
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
US10325599B1 (en) Message response routing
US11798559B2 (en) Voice-controlled communication requests and responses
US11302329B1 (en) Acoustic event detection
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US11715472B2 (en) Speech-processing system
US11605387B1 (en) Assistant determination in a skill
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
JP2018031985A (ja) 音声認識補完システム
US11430434B1 (en) Intelligent privacy protection mediation
US11915683B2 (en) Voice adaptation using synthetic speech processing
US10854196B1 (en) Functional prerequisites and acknowledgments
KR101704501B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP2000315095A (ja) 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210104

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210104

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20210121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210222

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210415

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210511

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210521

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210528

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210921

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220125

C19 Decision taken to dismiss amendment

Free format text: JAPANESE INTERMEDIATE CODE: C19

Effective date: 20220215

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220221

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220517

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220705

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220712