JP2017062300A - 半導体装置、システム、電子機器、及び、音声認識方法 - Google Patents
半導体装置、システム、電子機器、及び、音声認識方法 Download PDFInfo
- Publication number
- JP2017062300A JP2017062300A JP2015186472A JP2015186472A JP2017062300A JP 2017062300 A JP2017062300 A JP 2017062300A JP 2015186472 A JP2015186472 A JP 2015186472A JP 2015186472 A JP2015186472 A JP 2015186472A JP 2017062300 A JP2017062300 A JP 2017062300A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- reproduction data
- destination information
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 239000004065 semiconductor Substances 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims description 92
- 230000007704 transition Effects 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 62
- 238000013500 data storage Methods 0.000 claims abstract description 56
- 230000005236 sound signal Effects 0.000 claims description 79
- 230000008569 process Effects 0.000 claims description 74
- 238000001514 detection method Methods 0.000 description 30
- 238000000605 extraction Methods 0.000 description 29
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 240000000220 Panda oleosa Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】プログラムにおいてシナリオフローを設定又は変更しなくても、音声認識におけるシナリオの設定又は変更を容易に実現できる半導体装置を提供する。【解決手段】この半導体装置は、遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部と、データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ又は音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ又は音声再生データをデータ格納部から読み出す処理部とを備える。【選択図】図1
Description
本発明は、音声認識機能を有する半導体装置、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器に関する。さらに、本発明は、そのような半導体装置、システム、又は、電子機器において用いられる音声認識方法等に関する。
音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン(「テンプレート」ともいう)と照合することによって、音声認識結果を得る技術である。音声認識における処理時間を削減すると共に認識率を向上させるために、予め設定されたシナリオに沿って音声認識を行うことにより、比較すべき標準パターンの数を制限することも行われている。
一般に、音声認識においてシナリオ制御を実現するためには、音声認識処理及び音声再生処理を制御するホストCPUに、シナリオフローを逐一制御するプログラムを組み込むか、又は、シナリオフロー情報に従って音声認識処理及び音声再生処理を行う音声認識装置にシナリオフロー情報を指定するプログラムを組み込む必要がある。
関連する従来技術として、特許文献1には、音声認識におけるシナリオの設定や変更を容易に実現できる半導体集積回路装置が開示されている。この半導体集積回路装置は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の音声再生データの内から該当する音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から該当する変換リストを選択するシナリオ設定部を備えている。
しかしながら、プログラムによってシナリオフローを制御したりシナリオフロー情報を指定したりする場合には、シナリオが変更になった場合に、プログラムを修正しなければならず、プログラムの変更や評価等の作業に多くの時間や工数を要する。
そこで、本発明の第1の目的は、プログラムにおいてシナリオフローを設定又は変更しなくても、音声認識におけるシナリオの設定又は変更を容易に実現できる半導体装置を提供することである。また、本発明の第2の目的は、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器を提供することである。さらに、本発明の第3の目的は、そのような半導体装置、システム、又は、電子機器において用いられる音声認識方法等を提供することである。
以上の課題の少なくとも一部を解決するために、本発明の第1の観点に係る半導体装置は、遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部と、データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ又は音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ又は音声再生データをデータ格納部から読み出す処理部とを備える。
また、本発明の第2の観点に係る音声認識方法は、遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部から、第1の音声再生データ又は第1の音声認識選択肢データを読み出すステップ(a)と、第1の音声再生データを用いて出力音声信号を生成する処理を行い、又は、第1の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うステップ(b)と、ステップ(b)において処理に用いられた第1の音声再生データ又は第1の音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる第2の音声認識選択肢データ又は第2の音声再生データをデータ格納部から読み出すステップ(c)と、第2の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行い、又は、第2の音声再生データを用いて出力音声信号を生成する処理を行うステップ(d)とを備える。
本発明の第1又は第2の観点によれば、音声再生データ又は音声認識選択肢データに遷移先情報が埋め込まれているので、音声認識におけるシナリオを変更する必要がある場合には、音声再生データ又は音声認識選択肢データを変更するだけで、シナリオを変更することが可能である。従って、プログラムにおいてシナリオフローを設定又は変更しなくても、音声認識におけるシナリオの設定又は変更を容易に実現することができる。
本発明の第1の観点に係る半導体装置において、データ格納部が、遷移先情報を含む画像再生データをさらに格納し、処理部が、データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、データ格納部から読み出された画像再生データを用いて質問又はメッセージを含む画像を表示部に表示させる処理を行い、又は、データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データをデータ格納部から読み出すようにしても良い。質問又はメッセージを含む画像を表示部に表示することにより、質問又はメッセージの内容をより正確にユーザーに伝えることができる。
また、処理部が、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報を外部に送信すると共に、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを外部から受信するシナリオ制御部を含むようにしても良い。その場合には、シナリオフローにおける各処理のタイミングを外部から制御することができる。
さらに、遷移先情報が、一連の処理の終了を表す終了フラグを含むようにしても良い。その場合には、終了フラグを含む遷移先情報又はシナリオの終了を表すシナリオ終了信号を外部に送信することにより、シナリオフローにおける一連の処理の終了を外部に通知することができる。
本発明の第3の観点に係るシステムは、上記いずれかの半導体装置と、半導体装置を制御する制御部とを備える。それにより、プログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できるシステムを提供することが可能となる。
ここで、制御部が、遷移先情報を含む音声再生データ、遷移先情報を含む画像再生データ、又は、遷移先情報を含む音声認識選択肢データを格納する格納部と、半導体装置から遷移先情報を受信したときに、受信した遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを格納部から読み出して半導体装置に送信するホストCPUとを備えるようにしても良い。その場合には、シナリオフローにおける各処理のタイミングをホストCPUによって制御することができる。
本発明の第4の観点に係る電子機器は、上記システムを備える。それにより、プログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できる電子機器を提供することが可能となる。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。図1に示すように、このシステムは、ヒューマンインターフェース部110及び制御部120で構成される。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。図1に示すように、このシステムは、ヒューマンインターフェース部110及び制御部120で構成される。
ヒューマンインターフェース部110は、質問又はメッセージの音声をユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果に対応する応答や処理を行う。以下においては、ヒューマンインターフェース部110が、音声と共に、又は、音声に替えて、質問又はメッセージを含む画像を表示する場合について説明するが、ヒューマンインターフェース部110が画像表示を行わない場合には、画像表示に関する構成やデータは不要になる。
ヒューマンインターフェース部110は、音声入力部10と、A/D変換器20と、D/A変換器30と、音声出力部40と、表示部50と、半導体装置100とを含んでいる。なお、音声入力部10、A/D変換器20、D/A変換器30、及び、音声出力部40の少なくとも一部を、半導体装置100に内蔵しても良い。
半導体装置100は、シナリオ制御部60と、音声信号生成部61と、画像信号生成部62と、標準パターン抽出部63と、信号処理部64と、一致検出部65とを含んでいる。また、半導体装置100は、音声再生データ格納部71と、画像再生データ格納部72と、選択肢データ格納部73と、音声信号データベース(DB)格納部81と、画像信号データベース(DB)格納部82と、音声認識データベース(DB)格納部83とを含んでいる。
制御部120は、ホストCPU(中央演算装置)121と、格納部122とを含んでいる。ホストCPU121は、格納部122の記録媒体に記録されているソフトウェア(音声認識制御プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、各種のメモリー、CD−ROM、又は、DVD−ROM等を用いることができる。
格納部122は、ヒューマンインターフェース部110において用いられる音声再生データ、画像再生データ、及び、音声認識選択肢データを格納している。音声再生データは、音声出力部40からユーザーに発する質問又はメッセージの音声波形を表す出力音声信号を生成するために用いられるデータ(例えば、テキストデータ等)を含んでいる。質問又はメッセージの音声を発することにより、ユーザーの注意を引き付けることができる。
画像再生データは、表示部50に表示される質問又はメッセージを含む画像を表す画像信号を生成するために用いられるデータ(例えば、テキストデータ等)を含んでいる。質問又はメッセージを含む画像を表示部50に表示することにより、質問又はメッセージの内容をより正確にユーザーに伝えることができる。
音声認識選択肢データは、音声又は画像による質問又はメッセージに対して回答するユーザーの音声を認識する音声認識処理において複数の選択肢を構成する単語又は文章を表すデータ(例えば、テキストデータ等)を含んでいる。音声又は画像による質問又はメッセージをユーザーに発することにより、それに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況になる。
音声再生データ、画像再生データ、及び、音声認識選択肢データの内の少なくとも1種類のデータは、そのデータを用いて行われる処理の次の処理に用いられるデータを特定する遷移先情報を含んでいる。本願において、音声再生データ、画像再生データ、又は、音声認識選択肢データを特定する情報を「データ名」ともいう。以下においては、一例として、音声再生データ、画像再生データ、及び、音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、音声認識選択肢データは、複数の選択肢を表しているので、複数の選択肢の各々に対応する遷移先情報を含んでいる。
ホストCPU121は、ヒューマンインターフェース部110に制御信号を出力することにより、ヒューマンインターフェース部110の各種の動作を制御する。また、ホストCPU121は、格納部122に格納されている音声再生データ、画像再生データ、及び、音声認識選択肢データを、データ転送コマンドに添付してシナリオ制御部60に送信する。データの転送は、シナリオフローにおける一連の処理について一括して行われても良いし、第2の実施形態において説明するように、シナリオフローにおける個々の処理について順次行われても良い。
ヒューマンインターフェース動作を開始する際に、ホストCPU121は、シナリオ開始コマンドをシナリオ制御部60に送信することにより、予め設定されたシナリオに沿って処理を行うようにヒューマンインターフェース部110を制御しても良い。その場合に、シナリオ開始コマンドは、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報を含んでも良い。
音声入力部10は、例えば、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。A/D変換器20は、音声入力部10から出力されるアナログの音声信号をサンプリングすることにより、デジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
半導体装置100において、シナリオ制御部60、音声信号生成部61、画像信号生成部62、標準パターン抽出部63、信号処理部64、及び、一致検出部65は、出力音声信号を生成する処理や、画像を表示部50に表示させる処理や、音声認識処理を行う処理部に相当し、例えば、組み合わせ回路及び順序回路を含む論理回路等で構成される。
また、音声再生データ格納部71〜選択肢データ格納部73は、処理部において用いられる音声再生データ、画像再生データ、及び、音声認識選択肢データを格納するデータ格納部に相当し、例えば、メモリー又はレジスター等で構成される。また、音声信号データベース格納部81〜音声認識データベース格納部83は、例えば、不揮発性メモリー等のメモリーで構成され、それらの少なくとも一部は、半導体装置100に外付けされるメモリーに内蔵されても良い。
シナリオ制御部60は、制御部120のホストCPU121から音声再生データ、画像再生データ、及び、音声認識選択肢データを受信し、データの種類を識別して、音声再生データを音声再生データ格納部71に格納し、画像再生データを画像再生データ格納部72に格納し、音声認識選択肢データを選択肢データ格納部73に格納する。
シナリオ制御部60は、ホストCPU121からシナリオ開始コマンドを受信すると、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報によって表されるデータ名を、データの種類に従って、音声信号生成部61、画像信号生成部62、又は、標準パターン抽出部63に出力する。
データ名が音声信号生成部61に出力された場合に、音声信号生成部61は、データ名によって特定される音声再生データを音声再生データ格納部71から読み出し、読み出された音声再生データを用いて、ユーザーに対する質問又はメッセージの音声を表す出力音声信号を生成する処理を行う。音声再生データがテキストデータである場合には、出力音声信号を生成するために、音声信号データベース格納部81に格納されている音声信号データベースが用いられる。
例えば、音声信号データベースには、各種の音素に対応する音声波形を表す音声信号が蓄積されている。音声信号生成部61は、テキストデータによって表される単語又は文章に含まれている複数の音素について音声信号を繋ぎ合わせることにより、出力音声信号を合成する。あるいは、音声信号データベースに、各種のテキストデータに対応する音声波形を表す複数の出力音声信号が蓄積されていても良い。その場合に、音声信号生成部61は、読み出されたテキストデータに対応する出力音声信号を選択する。
D/A変換器30は、音声信号生成部61から出力されるデジタルの音声信号を、アナログの音声信号に変換する。音声出力部40は、例えば、D/A変換器30から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、音声信号によって表される質問又はメッセージの音声を出力する。それにより、ユーザーに対する質問又はメッセージの音声が、音声出力部40から発せられる。
データ名が画像信号生成部62に出力された場合に、画像信号生成部62は、データ名によって特定される画像再生データを画像再生データ格納部72から読み出し、読み出された画像再生データを用いて、ユーザーに対する質問又はメッセージを含む画像を表示部50に表示させる処理を行う。画像再生データがテキストデータである場合には、画像信号を生成するために、画像信号データベース格納部82に格納されている画像信号データベースが用いられる。
例えば、画像信号データベースには、各種の文字を表す画像信号が蓄積されている。画像信号生成部62は、テキストデータに含まれている複数の文字について画像信号を繋ぎ合わせることにより、画像信号を合成する。あるいは、画像信号データベースに、各種の画像再生データによって特定される複数の画像信号が蓄積されていても良い。その場合に、画像信号生成部62は、読み出された画像再生データによって特定される画像信号を選択する。表示部50は、液晶表示装置等で構成された表示パネルを含んでおり、画像信号生成部62から出力される画像信号に従って、ユーザーに対する質問又はメッセージを含む画像を表示する。
データ名が標準パターン抽出部63に出力された場合に、標準パターン抽出部63は、データ名によって特定される音声認識選択肢データを選択肢データ格納部73から読み出す。標準パターン抽出部63〜一致検出部65は、読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行う。そのために、標準パターン抽出部63は、音声認識データベース格納部83に格納されている音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。
信号処理部64は、時間/周波数変換部64aと、音声区間検出部64bと、特徴パターン抽出部64cとを含んでいる。時間/周波数変換部64aは、A/D変換器20から入力される音声信号にフーリエ変換等を施すことにより、入力音声信号の周波数成分を抽出する。音声区間検出部64bは、入力音声信号の音圧又はS/N比に基づいて音声検出信号を活性化し、音声検出信号を一致検出部65及びホストCPU121に出力する。それにより、ユーザーからの要求又は回答の有無を判定することができる。特徴パターン抽出部64cは、入力音声信号の周波数成分の分布状態を表す特徴パターンを生成して一致検出部65に出力する。
一致検出部65は、音声検出信号が活性化されているときに動作し、入力音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出する。一致検出部65は、複数の選択肢を構成する単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果としてホストCPU121に出力する。それにより、ホストCPU121は、半導体装置100に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
本実施形態においては、音声信号生成部61、画像信号生成部62、及び、標準パターン抽出部63〜一致検出部65が、データ格納部から読み出された音声再生データ、画像再生データ、及び、音声認識選択肢データを用いてそれぞれの処理を行うと共に、それぞれの処理に用いられた音声再生データ、画像再生データ、及び、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部60に出力する。
シナリオ制御部60は、音声信号生成部61、画像信号生成部62、又は、一致検出部65から出力された遷移先情報に基づいて、次の処理に用いられるデータを特定するデータ名を、データの種類に従って、標準パターン抽出部63、音声信号生成部61、又は、画像信号生成部62に出力する。それにより、標準パターン抽出部63、音声信号生成部61、又は、画像信号生成部62は、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データをデータ格納部から読み出して、次の処理を行う。
例えば、シナリオフローにおける処理の順序は、音声再生処理を行った後に音声認識処理を行い、音声認識処理を行った後に音声再生処理を行うというように、異なる処理を連続して行っても良い。あるいは、音声再生処理を行った後に続けて音声再生処理を行うというように、同じ処理を連続して行っても良い。また、画像再生処理を行っている間に音声再生処理を行うというように、異なる処理を同時に行っても良い。
遷移先情報においてデータが指定されていない場合には、シナリオフローにおける一連の処理が終了する。あるいは、遷移先情報が、シナリオフローにおける一連の処理の終了を表す終了フラグ(シナリオ終了フラグ)を含むようにしても良い。その場合には、シナリオ制御部60が、シナリオ終了フラグを含む遷移先情報又はシナリオの終了を表すシナリオ終了信号を外部のホストCPU121等に送信することにより、シナリオフローにおける一連の処理の終了を外部に通知することができる。
<特徴パターンを求める手法>
次に、入力音声信号から特徴パターンを求める手法の一例について説明する。信号処理部64の時間/周波数変換部64aは、入力音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。また、時間/周波数変換部64aは、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。
次に、入力音声信号から特徴パターンを求める手法の一例について説明する。信号処理部64の時間/周波数変換部64aは、入力音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。また、時間/周波数変換部64aは、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。
さらに、時間/周波数変換部64aは、それらの周波数成分の絶対値に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求め、それらの数値を対数変換する。それにより、周波数領域の窓が26個であれば、26個の数値(メルバンド係数)が得られる。
このようにして得られたメルバンド係数の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。特徴パターン抽出部64cは、HMM(隠れマルコフモデル)に従って、フレーム毎に算出されたMFCCを連結することにより、時系列で入力された音声信号に含まれている各々の音素に対応するMFCCとして特徴パターンを求める。
ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。
音声認識データベース格納部83は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられて蓄積されている。
標準パターンは、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。
従って、各々の音素についての標準パターンは、多次元空間(例えば、12次元空間)において、ばらつきを含む広がりを有している。信号処理部64に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。
例えば、一致検出部65は、入力音声信号の先頭の音節から生成された特徴パターンを、音声認識選択肢データに含まれている複数の選択肢のテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。複数の選択肢の内に、一致が検出された音節を先頭に有する選択肢が1つだけ存在する場合には、一致検出部65は、その選択肢が変換後の単語又は文章であると判定しても良い。一方、複数の選択肢の内に、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部65は、選択肢が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、1つの音節は、1つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。
例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「a」を表す標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第1番目の音素「k」を表す標準パターンと、音節「か」を構成する第2番目の音素「a」を表す標準パターンとの組み合わせのことである。
入力音声信号の1つの音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力音声信号の1つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。
特徴パターンと標準パターンとの間で上述したような一致が検出されると、一致検出部65は、複数の単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。それにより、ホストCPU121は、半導体装置100に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
<音声認識方法1>
次に、本発明の第1の実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。
図2は、本発明の第1の実施形態に係る音声認識方法を示すフローチャートである。第1の実施形態においては、シナリオフローにおける一連の処理に用いられる音声再生データ及び音声認識選択肢データがシナリオ制御部60に一括して送信され、音声再生データ及び音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、図1を参照しながら説明したように、画像再生データをさらに用いるようにしても良い。
次に、本発明の第1の実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。
図2は、本発明の第1の実施形態に係る音声認識方法を示すフローチャートである。第1の実施形態においては、シナリオフローにおける一連の処理に用いられる音声再生データ及び音声認識選択肢データがシナリオ制御部60に一括して送信され、音声再生データ及び音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、図1を参照しながら説明したように、画像再生データをさらに用いるようにしても良い。
図2のステップS11において、ホストCPU121が、シナリオフローにおける一連の処理に用いられる音声再生データ及び音声認識選択肢データを、データ転送コマンドに添付してシナリオ制御部60に送信する。
ステップS12において、シナリオ制御部60が、受信した音声再生データ及び音声認識選択肢データを、データの種類に従って、音声再生データ格納部71及び選択肢データ格納部73に格納する。
ステップS13において、ホストCPU121が、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報を含むシナリオ開始コマンドをシナリオ制御部60に送信する。
ステップS14において、シナリオ制御部60が、最初に実行される処理に用いられるデータのデータ名を、データの種類に従って、音声信号生成部61又は標準パターン抽出部63に出力する。
データ名が音声信号生成部61に出力された場合には、ステップS15において、音声信号生成部61が、音声再生データ格納部71から音声再生データを読み出す。ステップS16において、音声信号生成部61が、音声再生データを用いて出力音声信号を生成する処理を行う。それにより、音声出力部40から質問又はメッセージの音声が発せられる。ステップS17において、音声信号生成部61が、音声再生データに含まれている遷移先情報をシナリオ制御部60に出力する。
一方、データ名が標準パターン抽出部63に出力された場合には、ステップS18において、標準パターン抽出部63が、選択肢データ格納部73から音声認識選択肢データを読み出す。ステップS19において、標準パターン抽出部63が、音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。
次に、ステップS20において、信号処理部64が、入力音声信号にフーリエ変換等を施すことにより入力音声信号の周波数成分を抽出し、周波数成分の分布状態を表す特徴パターンを生成する。ステップS21において、一致検出部65が、入力音声信号の少なくとも一部から生成された特徴パターンと標準パターンとの一致を検出して、音声認識結果をホストCPU121に出力する。ステップS22において、一致検出部65が、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部60に出力する。
ステップS23において、シナリオ制御部60が、遷移先情報にシナリオ終了フラグが含まれているか否かを判定する。遷移先情報にシナリオ終了フラグが含まれている場合には、処理がステップS24に移行する。ステップS24において、シナリオ制御部60が、シナリオ終了信号をホストCPU121に送信する。それにより、シナリオフローにおける一連の処理が終了する。
一方、遷移先情報にシナリオ終了フラグが含まれていない場合には、処理がステップS25に移行する。ステップS25において、シナリオ制御部60が、遷移先情報に基づいて、シナリオフローにおける次の処理に用いられるデータのデータ名を、データの種類に従って、音声信号生成部61又は標準パターン抽出部63に出力する。その後、処理がステップS15又はS18に戻る。
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。
図3は、本発明の第2の実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。第2の実施形態においては、シナリオフローにおける各処理に用いられる音声再生データ、画像再生データ、又は、音声認識選択肢データが、ホストCPU121からシナリオ制御部60にその都度送信される。従って、図1に示す音声再生データ格納部71〜選択肢データ格納部73の替りにデータ格納部70が設けられている。その他の点に関しては、第2の実施形態は、第1の実施形態と同様でも良い。
次に、本発明の第2の実施形態について説明する。
図3は、本発明の第2の実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。第2の実施形態においては、シナリオフローにおける各処理に用いられる音声再生データ、画像再生データ、又は、音声認識選択肢データが、ホストCPU121からシナリオ制御部60にその都度送信される。従って、図1に示す音声再生データ格納部71〜選択肢データ格納部73の替りにデータ格納部70が設けられている。その他の点に関しては、第2の実施形態は、第1の実施形態と同様でも良い。
シナリオ制御部60は、音声再生データ、画像再生データ、又は、音声認識選択肢データが添付されたデータ転送コマンドをホストCPU121から受信すると、受信したデータをデータ格納部70に一時的に格納する。データ格納部70は、例えば、メモリー又はレジスター等で構成される。シナリオ制御部60は、受信したデータの種類を識別して、受信したデータをデータ格納部70から読み出すように音声信号生成部61、画像信号生成部62、又は、標準パターン抽出部63を制御する。
音声信号生成部61は、音声再生データを読み出すと、音声再生データを用いて、ユーザーに対する質問又はメッセージの音声を表す出力音声信号を生成する処理を行う。画像信号生成部62は、画像再生データを読み出すと、画像再生データを用いて、ユーザーに対する質問又はメッセージを含む画像を表示部50に表示させる処理を行う。
標準パターン抽出部63は、音声認識選択肢データを読み出すと、音声認識データベース格納部83に格納されている音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出して、標準パターン抽出部63〜一致検出部65が、入力音声信号に対する音声認識処理を行う。
本実施形態においても、音声信号生成部61、画像信号生成部62、及び、標準パターン抽出部63〜一致検出部65が、データ格納部70から読み出された音声再生データ、画像再生データ、及び、音声認識選択肢データを用いてそれぞれの処理を行うと共に、処理に用いられた音声再生データ、画像再生データ、及び、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部60に出力する。
シナリオ制御部60は、その遷移先情報をホストCPU121に送信する。それにより、ホストCPU121が、シナリオ制御部60から遷移先情報を受信したときに、受信した遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを格納部122から読み出し、データ転送コマンドに添付して所定のタイミングでシナリオ制御部60に送信する。それにより、シナリオ制御部60は、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データをホストCPU121から受信する。その場合には、シナリオフローにおける各処理のタイミングを、外部からホストCPU121によって制御することができる。
遷移先情報においてデータが指定されていない場合には、シナリオフローにおける一連の処理が終了する。あるいは、遷移先情報が、シナリオフローにおける一連の処理の終了を表す終了フラグ(シナリオ終了フラグ)を含むようにしても良い。遷移先情報にシナリオ終了フラグが含まれている場合には、シナリオ制御部60が、シナリオ終了フラグを含む遷移先情報をホストCPU121に送信する。それにより、一連の処理の終了をホストCPU121に通知することができる。
<音声認識方法2>
次に、本発明の第2の実施形態に係る音声認識方法について、図3及び図4を参照しながら説明する。
図4は、本発明の第2の実施形態に係る音声認識方法を示すフローチャートである。第2の実施形態においては、シナリオフローにおける各処理に用いられる音声再生データ及び音声認識選択肢データがシナリオ制御部60にその都度送信され、音声再生データ及び音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、図3を参照しながら説明したように、画像再生データをさらに用いるようにしても良い。
次に、本発明の第2の実施形態に係る音声認識方法について、図3及び図4を参照しながら説明する。
図4は、本発明の第2の実施形態に係る音声認識方法を示すフローチャートである。第2の実施形態においては、シナリオフローにおける各処理に用いられる音声再生データ及び音声認識選択肢データがシナリオ制御部60にその都度送信され、音声再生データ及び音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、図3を参照しながら説明したように、画像再生データをさらに用いるようにしても良い。
図4のステップS31において、ホストCPU121が、シナリオフローにおける最初の処理に用いられる音声再生データ又は音声認識選択肢データを、データ転送コマンドに添付してシナリオ制御部60に送信する。
ステップS32において、シナリオ制御部60が、受信した音声再生データ又は音声認識選択肢データを、データ格納部70に一時的に格納する。ステップS33において、シナリオ制御部60が、受信したデータの種類を識別して、受信したデータをデータ格納部70から読み出すように音声信号生成部61又は標準パターン抽出部63を制御する。
音声信号生成部61が音声再生データを読み出した場合には、ステップS34において、音声信号生成部61が、音声再生データを用いて出力音声信号を生成する処理を行う。それにより、音声出力部40から質問又はメッセージの音声が発せられる。ステップS35において、音声信号生成部61が、音声再生データに含まれている遷移先情報をシナリオ制御部60に出力し、シナリオ制御部60が、遷移先情報をホストCPU121に送信する。
一方、標準パターン抽出部63が音声認識選択肢データを読み出した場合には、ステップS36において、標準パターン抽出部63が、音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。
次に、ステップS37において、信号処理部64が、入力音声信号にフーリエ変換等を施すことにより入力音声信号の周波数成分を抽出し、周波数成分の分布状態を表す特徴パターンを生成する。ステップS38において、一致検出部65が、入力音声信号の少なくとも一部から生成された特徴パターンと標準パターンとの一致を検出して、音声認識結果をホストCPU121に出力する。ステップS39において、一致検出部65が、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部60に出力し、シナリオ制御部60が、遷移先情報をホストCPU121に送信する。
ステップS40において、ホストCPU121が、遷移先情報にシナリオ終了フラグが含まれているか否かを判定する。遷移先情報にシナリオ終了フラグが含まれている場合には、シナリオフローにおける一連の処理が終了する。
一方、遷移先情報にシナリオ終了フラグが含まれていない場合には、処理がステップS41に移行する。ステップS41において、ホストCPU121が、遷移先情報に基づいて、シナリオフローにおける次の処理に用いられる音声認識選択肢データ又は音声再生データを格納部122から読み出し、データ転送コマンドに添付してシナリオ制御部60に送信する。その後、処理がステップS32に戻る。
本発明の第1又は第2実施形態によれば、音声再生データ又は音声認識選択肢データに遷移先情報が埋め込まれているので、音声認識におけるシナリオを変更する必要がある場合には、音声再生データ又は音声認識選択肢データを変更するだけで、シナリオを変更することが可能である。従って、ホストCPU121のプログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できるシステムを提供することが可能となる。
<音声認識方法の具体例>
次に、音声認識方法の具体例について説明する。以下においては、一例として、図3に示すシステムが照明器具の制御に適用される場合について説明する。
次に、音声認識方法の具体例について説明する。以下においては、一例として、図3に示すシステムが照明器具の制御に適用される場合について説明する。
図5は、格納部に格納されている音声再生データの例を示す図である。この例においては、データ名として音声再生データ1〜8と、それぞれの質問又はメッセージの内容を表すテキストデータと、それぞれの遷移先情報とが、互いに関連付けられて格納部122に格納されている。テキストデータは、質問又はメッセージに含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。
図6は、格納部に格納されている音声認識選択肢データの例を示す図である。この例においては、データ名として選択肢データ1〜2と、それぞれの選択肢の内容を表すテキストデータと、それぞれの遷移先情報とが、互いに関連付けられて格納部122に格納されている。テキストデータは、選択肢に含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。
図7は、図5に示す音声再生データ及び図6に示す音声認識選択肢データによって構築される音声認識シナリオの例を示す図である。例えば、ホストCPU121は、人感センサー等の出力信号に応答して、ヒューマンインターフェース部110を起動する。さらに、ホストCPU121は、図5に示す音声再生データ及び図6に示す音声認識選択肢データを格納部122から読み出し、シナリオフローにおける各処理の進行に合わせてシナリオ制御部60に順次送信する。
ホストCPU121が、音声再生データ1をシナリオ制御部60に送信すると、音声信号生成部61は、音声再生データ1に基づいて出力音声信号を生成してD/A変換器30に出力する。また、D/A変換器30は、デジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部40に出力する。それにより、音声出力部40は、チャイム等と共に「コマンドをどうぞ」というメッセージを発する。
図5に示すように、音声再生データ1は、音声認識選択肢データ1を特定する遷移先情報を含んでいる。従って、シナリオ制御部60が、その遷移先情報をホストCPU121に送信すると、ホストCPU121が、音声認識選択肢データ1をシナリオ制御部60に送信する。
図6に示すように、音声認識選択肢データ1は、「明かりを点けて」という第1の選択肢と、「明かりを消して」という第2の選択肢と、「設定したい」という第3の選択肢とを含んでいる。そこで、標準パターン抽出部63は、音声認識選択肢データ1の第1〜第3の選択肢に含まれている複数の音素の各々について、対応する標準パターンを音声認識データベース83から抽出する。
音声出力部40から発せられた「コマンドをどうぞ」というメッセージに対して、ユーザーが音声で回答すると、信号処理部64は、ユーザーの回答に含まれている複数の音素の各々について、周波数成分の分布状態を表す特徴パターンを生成する。一致検出部65は、信号処理部64によって生成された音素の特徴パターンと、音声認識データベースから抽出された音素の標準パターンとを比較することにより、ユーザーの回答と音声認識選択肢データ1の第1〜第3の選択肢との一致を検出する。
図6に示すように、音声認識選択肢データ1は、第1〜第3の選択肢に対応して、音声再生データ2〜4を特定する遷移先情報をそれぞれ含んでいる。従って、ユーザーが、「明かりを点けて」と回答した場合には、シナリオ制御部60が、音声再生データ2を特定する遷移先情報をホストCPU121に送信し、ホストCPU121が、音声再生データ2をシナリオ制御部60に送信する。それにより、音声出力部40が、「点けます」というメッセージを発する。
同様に、ユーザーが、「明かりを消して」と回答した場合には、音声出力部40が、「消します」というメッセージを発する。ホストCPU121は、一致検出部65から送信される音声認識結果を受信して、照明器具の電源スイッチをオン又はオフする制御を行う。一方、ユーザーが「設定したい」と回答すると、音声出力部40が、「何を設定しますか?」という質問を発する。
図5に示すように、音声再生データ4は、音声認識選択肢データ2を特定する遷移先情報を含んでいる。従って、シナリオ制御部60が、その遷移先情報をホストCPU121に送信すると、ホストCPU121は、音声認識選択肢データ2をシナリオ制御部60に送信する。
音声認識選択肢データ2は、「オフタイマー30分」という第1の選択肢と、「オフタイマー1時間」という第2の選択肢と、「明るくして」という第3の選択肢と、「暗くして」という第4の選択肢とを含んでいる。そこで、標準パターン抽出部63は、音声認識選択肢データ2の第1〜第4の選択肢に含まれている複数の音素の各々について、対応する標準パターンを音声認識データベースから抽出する。
音声出力部40から発せられた「何を設定しますか?」という質問に対して、ユーザーが音声で回答すると、信号処理部64は、ユーザーの回答に含まれている複数の音素の各々について、周波数成分の分布状態を表す特徴パターンを生成する。一致検出部65は、信号処理部64によって生成された音素の特徴パターンと、音声認識データベースから抽出された音素の標準パターンとを比較することにより、ユーザーの回答と音声認識選択肢データ2の第1〜第4の選択肢との一致を検出する。
図6に示すように、音声認識選択肢データ2は、第1〜第4の選択肢に対応する遷移先情報として、音声再生データ5〜8をそれぞれ含んでいる。従って、ユーザーが「オフタイマー30分」と回答した場合には、シナリオ制御部60が、音声再生データ5を特定する遷移先情報をホストCPU121に送信し、ホストCPU121が、オフタイマーを30分に設定した後に、音声再生データ5をシナリオ制御部60に送信する。
それにより、音声出力部40が、「オフタイマー30分を設定しました」というメッセージを発する。同様に、ユーザーが「オフタイマー1時間」と回答した場合には、ホストCPU121が、オフタイマーを1時間に設定した後に、音声出力部40が、「オフタイマー1時間を設定しました」というメッセージを発する。
また、ユーザーが「明るくして」と回答した場合には、音声出力部40が、「明るくします」というメッセージを発する。同様に、ユーザーが「暗くして」と回答した場合には、音声出力部40が、「暗くします」というメッセージを発する。ホストCPU121は、一致検出部65から送信される音声認識結果に従って照明器具を調光する。
<電子機器>
次に、本発明の一実施形態に係る電子機器について説明する。
図8は、本発明の一実施形態に係る電子機器の構成例を示すブロック図である。この電子機器は、図1又は図3に示すシステムを用いている。図8に示すように、この電子機器は、ヒューマンインターフェース部110と、制御部120と、操作部130と、ROM(リードオンリー・メモリー)140と、RAM(ランダムアクセス・メモリー)150と、通信部160とを含んでいる。なお、図8に示す構成要素の一部を省略又は変更しても良いし、あるいは、図8に示す構成要素に他の構成要素を付加しても良い。
次に、本発明の一実施形態に係る電子機器について説明する。
図8は、本発明の一実施形態に係る電子機器の構成例を示すブロック図である。この電子機器は、図1又は図3に示すシステムを用いている。図8に示すように、この電子機器は、ヒューマンインターフェース部110と、制御部120と、操作部130と、ROM(リードオンリー・メモリー)140と、RAM(ランダムアクセス・メモリー)150と、通信部160とを含んでいる。なお、図8に示す構成要素の一部を省略又は変更しても良いし、あるいは、図8に示す構成要素に他の構成要素を付加しても良い。
ヒューマンインターフェース部110は、制御部120の制御の下で、音声や画像による質問又はメッセージをユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果を制御部120に送信する。制御部120は、ホストCPU121と、格納部122とを含んでいる。ホストCPU121は、格納部122等に格納されているプログラムに従い、ヒューマンインターフェース部110から送信される音声認識結果に基づいて各種の制御処理や信号処理を行う。
例えば、ホストCPU121は、ヒューマンインターフェース部110から送信される音声認識結果に基づいて、照明の明るさや、エアコン又は電子レンジの設定温度や、テレビの音量等を調節したり、ユーザーとの会話を行う。その際に、ホストCPU121は、音声出力部40に各種の音声を出力させるための音声再生データを生成したり、表示部50に各種の画像を表示させるための画像再生データを生成したり、外部との間でデータ通信を行うために通信部160を制御する。
操作部130は、例えば、操作キーやボタンスイッチ等を含む入力装置であり、ユーザーによる操作に応じた操作信号をホストCPU121に出力する。ROM140は、ホストCPU121が各種の信号処理や制御処理を行うためのデータ等を記憶している。また、RAM150は、ホストCPU121の作業領域として用いられ、操作部130を用いて入力されたデータ、ROM140から読み出されたデータ、又は、ホストCPU121がプログラムに従って実行した演算結果等を一時的に記憶する。通信部160は、例えば、アナログ回路及びデジタル回路で構成され、制御部120と外部装置との間のデータ通信を行う。
電子機器としては、例えば、照明器具やエアコンや電子レンジ等の家電製品又は住宅設備、掃除用や介護用のロボット、自動販売機、車載装置(ナビゲーション装置等)、携帯電話機等の移動端末、スマートカード、電卓、電子辞書、電子ゲーム機器、デジタルスチルカメラ、デジタルムービー、テレビ、テレビ電話、防犯用テレビモニター、ヘッドマウント・ディスプレイ、パーソナルコンピューター、プリンター、測定機器、及び、医療機器等が該当する。
本実施形態によれば、ホストCPU121のプログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できる電子機器を提供することが可能となる。本発明は、以上説明した実施形態に限定されるものではなく、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。
10…音声入力部、20…A/D変換器、30…D/A変換器、40…音声出力部、50…表示部、60…シナリオ制御部、61…音声信号生成部、62…画像信号生成部、63…標準パターン抽出部、64…信号処理部、64a…時間/周波数変換部、64b…音声区間検出部、64c…特徴パターン抽出部、65…一致検出部、70…データ格納部、71…音声再生データ格納部、72…画像再生データ格納部、73…選択肢データ格納部、81…音声信号データベース格納部、82…画像信号データベース格納部、83…音声認識データベース格納部、100…半導体装置、110…ヒューマンインターフェース部、120…制御部、121…ホストCPU、122…格納部、130…操作部、140…ROM、150…RAM、160…通信部
Claims (8)
- 遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部と、
前記データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、前記データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ又は音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ又は音声再生データを前記データ格納部から読み出す処理部と、
を備える半導体装置。 - 前記データ格納部が、遷移先情報を含む画像再生データをさらに格納し、前記処理部が、前記データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、前記データ格納部から読み出された画像再生データを用いて質問又はメッセージを含む画像を表示部に表示させる処理を行い、又は、前記データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを前記データ格納部から読み出す、請求項1記載の半導体装置。
- 前記処理部が、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報を外部に送信すると共に、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを外部から受信するシナリオ制御部を含む、請求項1又は2記載の半導体装置。
- 遷移先情報が、一連の処理の終了を表す終了フラグを含む、請求項1〜3のいずれか1項記載の半導体装置。
- 請求項1〜4のいずれか1項記載の半導体装置と、
前記半導体装置を制御する制御部と、
を備えるシステム。 - 前記制御部が、
遷移先情報を含む音声再生データ、遷移先情報を含む画像再生データ、又は、遷移先情報を含む音声認識選択肢データを格納する格納部と、
前記半導体装置から遷移先情報を受信したときに、受信した遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを前記格納部から読み出して前記半導体装置に送信するホストCPUと、
を備える、請求項5記載のシステム。 - 請求項5又は6記載のシステムを備える電子機器。
- 遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部から、第1の音声再生データ又は第1の音声認識選択肢データを読み出すステップ(a)と、
第1の音声再生データを用いて出力音声信号を生成する処理を行い、又は、第1の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うステップ(b)と、
ステップ(b)において処理に用いられた第1の音声再生データ又は第1の音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる第2の音声認識選択肢データ又は第2の音声再生データを前記データ格納部から読み出すステップ(c)と、
第2の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行い、又は、第2の音声再生データを用いて出力音声信号を生成する処理を行うステップ(d)と、
を備える音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015186472A JP2017062300A (ja) | 2015-09-24 | 2015-09-24 | 半導体装置、システム、電子機器、及び、音声認識方法 |
US15/266,282 US20170092271A1 (en) | 2015-09-24 | 2016-09-15 | Semiconductor device, system, electronic device, and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015186472A JP2017062300A (ja) | 2015-09-24 | 2015-09-24 | 半導体装置、システム、電子機器、及び、音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017062300A true JP2017062300A (ja) | 2017-03-30 |
Family
ID=58406591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015186472A Withdrawn JP2017062300A (ja) | 2015-09-24 | 2015-09-24 | 半導体装置、システム、電子機器、及び、音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170092271A1 (ja) |
JP (1) | JP2017062300A (ja) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7024350B2 (en) * | 2000-07-20 | 2006-04-04 | Microsoft Corporation | Compact easily parseable binary format for a context-free grammer |
JP2008203559A (ja) * | 2007-02-20 | 2008-09-04 | Toshiba Corp | 対話装置及び方法 |
KR101351918B1 (ko) * | 2011-07-26 | 2014-01-17 | 현대모비스 주식회사 | 이중 랙기어 구조를 갖는 팝업 모니터 |
CN108640989B (zh) * | 2012-03-08 | 2021-12-14 | 扬森疫苗与预防公司 | 可结合并中和b型流感病毒的人类结合分子及其用途 |
JP6078964B2 (ja) * | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
CN104220973A (zh) * | 2012-04-18 | 2014-12-17 | 索尼公司 | 信息处理装置和程序 |
CN104903846B (zh) * | 2013-01-08 | 2017-07-28 | 歌乐株式会社 | 语音识别装置和语音识别方法 |
JP2015014665A (ja) * | 2013-07-04 | 2015-01-22 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
JP6270576B2 (ja) * | 2014-03-24 | 2018-01-31 | キヤノン株式会社 | 情報処理装置、その制御方法、及びプログラム |
JP6354370B2 (ja) * | 2014-06-19 | 2018-07-11 | ブラザー工業株式会社 | 機能実行装置、表示システム、および機能実行プログラム。 |
-
2015
- 2015-09-24 JP JP2015186472A patent/JP2017062300A/ja not_active Withdrawn
-
2016
- 2016-09-15 US US15/266,282 patent/US20170092271A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20170092271A1 (en) | 2017-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854527B2 (en) | Electronic device and method of controlling speech recognition by electronic device | |
JP2015014665A (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
CN108520650A (zh) | 一种智能语言训练系统和方法 | |
JP2008129412A (ja) | 半導体集積回路装置、電子機器 | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2007140200A (ja) | 語学学習装置およびプログラム | |
JP2001318592A (ja) | 言語学習装置及びその言語分析方法 | |
KR100554397B1 (ko) | 대화형 음성 인식 시스템 및 방법 | |
JP2015087649A (ja) | 発話制御装置、方法、発話システム、プログラム、及び発話装置 | |
KR200197477Y1 (ko) | 언어 학습 장치 | |
JP2016161935A (ja) | 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
JP2017062300A (ja) | 半導体装置、システム、電子機器、及び、音声認識方法 | |
JP6221253B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2006189799A (ja) | 選択可能な音声パターンの音声入力方法及び装置 | |
JP2015102773A (ja) | 音声発生装置、音声変形装置及び方法 | |
Whalen | Phonetics | |
JP2017068153A (ja) | 半導体装置、システム、電子機器、及び、音声認識方法 | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
JP4970392B2 (ja) | 音声の録音と再生方法及び該方法を用いる電子辞書 | |
JP6221267B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JPWO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
JP2005077678A (ja) | テキスト音声同期装置およびテキスト音声同期処理プログラム | |
JP2017122930A (ja) | 発話制御装置、方法、発話システム、及びプログラム | |
TWI650749B (zh) | 語音處理裝置、語音辨識輸入系統及語音辨識輸入方法 | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180906 |
|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20180906 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181116 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20190125 |