JP2017062300A

JP2017062300A - 半導体装置、システム、電子機器、及び、音声認識方法

Info

Publication number: JP2017062300A
Application number: JP2015186472A
Authority: JP
Inventors: 文仁倍賞; Fumihito Baisho
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2015-09-24
Filing date: 2015-09-24
Publication date: 2017-03-30
Also published as: US20170092271A1

Abstract

【課題】プログラムにおいてシナリオフローを設定又は変更しなくても、音声認識におけるシナリオの設定又は変更を容易に実現できる半導体装置を提供する。【解決手段】この半導体装置は、遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部と、データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ又は音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ又は音声再生データをデータ格納部から読み出す処理部とを備える。【選択図】図１

Description

本発明は、音声認識機能を有する半導体装置、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器に関する。さらに、本発明は、そのような半導体装置、システム、又は、電子機器において用いられる音声認識方法等に関する。

音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン（「テンプレート」ともいう）と照合することによって、音声認識結果を得る技術である。音声認識における処理時間を削減すると共に認識率を向上させるために、予め設定されたシナリオに沿って音声認識を行うことにより、比較すべき標準パターンの数を制限することも行われている。

一般に、音声認識においてシナリオ制御を実現するためには、音声認識処理及び音声再生処理を制御するホストＣＰＵに、シナリオフローを逐一制御するプログラムを組み込むか、又は、シナリオフロー情報に従って音声認識処理及び音声再生処理を行う音声認識装置にシナリオフロー情報を指定するプログラムを組み込む必要がある。

関連する従来技術として、特許文献１には、音声認識におけるシナリオの設定や変更を容易に実現できる半導体集積回路装置が開示されている。この半導体集積回路装置は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の音声再生データの内から該当する音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から該当する変換リストを選択するシナリオ設定部を備えている。

特開２０１５−１４６６５号公報（段落０００７−０００８、図１）

しかしながら、プログラムによってシナリオフローを制御したりシナリオフロー情報を指定したりする場合には、シナリオが変更になった場合に、プログラムを修正しなければならず、プログラムの変更や評価等の作業に多くの時間や工数を要する。

そこで、本発明の第１の目的は、プログラムにおいてシナリオフローを設定又は変更しなくても、音声認識におけるシナリオの設定又は変更を容易に実現できる半導体装置を提供することである。また、本発明の第２の目的は、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器を提供することである。さらに、本発明の第３の目的は、そのような半導体装置、システム、又は、電子機器において用いられる音声認識方法等を提供することである。

以上の課題の少なくとも一部を解決するために、本発明の第１の観点に係る半導体装置は、遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部と、データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ又は音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ又は音声再生データをデータ格納部から読み出す処理部とを備える。

また、本発明の第２の観点に係る音声認識方法は、遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部から、第１の音声再生データ又は第１の音声認識選択肢データを読み出すステップ（ａ）と、第１の音声再生データを用いて出力音声信号を生成する処理を行い、又は、第１の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うステップ（ｂ）と、ステップ（ｂ）において処理に用いられた第１の音声再生データ又は第１の音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる第２の音声認識選択肢データ又は第２の音声再生データをデータ格納部から読み出すステップ（ｃ）と、第２の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行い、又は、第２の音声再生データを用いて出力音声信号を生成する処理を行うステップ（ｄ）とを備える。

本発明の第１又は第２の観点によれば、音声再生データ又は音声認識選択肢データに遷移先情報が埋め込まれているので、音声認識におけるシナリオを変更する必要がある場合には、音声再生データ又は音声認識選択肢データを変更するだけで、シナリオを変更することが可能である。従って、プログラムにおいてシナリオフローを設定又は変更しなくても、音声認識におけるシナリオの設定又は変更を容易に実現することができる。

本発明の第１の観点に係る半導体装置において、データ格納部が、遷移先情報を含む画像再生データをさらに格納し、処理部が、データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、データ格納部から読み出された画像再生データを用いて質問又はメッセージを含む画像を表示部に表示させる処理を行い、又は、データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データをデータ格納部から読み出すようにしても良い。質問又はメッセージを含む画像を表示部に表示することにより、質問又はメッセージの内容をより正確にユーザーに伝えることができる。

また、処理部が、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報を外部に送信すると共に、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを外部から受信するシナリオ制御部を含むようにしても良い。その場合には、シナリオフローにおける各処理のタイミングを外部から制御することができる。

さらに、遷移先情報が、一連の処理の終了を表す終了フラグを含むようにしても良い。その場合には、終了フラグを含む遷移先情報又はシナリオの終了を表すシナリオ終了信号を外部に送信することにより、シナリオフローにおける一連の処理の終了を外部に通知することができる。

本発明の第３の観点に係るシステムは、上記いずれかの半導体装置と、半導体装置を制御する制御部とを備える。それにより、プログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できるシステムを提供することが可能となる。

ここで、制御部が、遷移先情報を含む音声再生データ、遷移先情報を含む画像再生データ、又は、遷移先情報を含む音声認識選択肢データを格納する格納部と、半導体装置から遷移先情報を受信したときに、受信した遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを格納部から読み出して半導体装置に送信するホストＣＰＵとを備えるようにしても良い。その場合には、シナリオフローにおける各処理のタイミングをホストＣＰＵによって制御することができる。

本発明の第４の観点に係る電子機器は、上記システムを備える。それにより、プログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できる電子機器を提供することが可能となる。

第１の実施形態に係る半導体装置を用いたシステムの構成例を示す図。第１の実施形態に係る音声認識方法を示すフローチャート。第２の実施形態に係る半導体装置を用いたシステムの構成例を示す図。第２の実施形態に係る音声認識方法を示すフローチャート。格納部に格納されている音声再生データの例を示す図。格納部に格納されている音声認識選択肢データの例を示す図。音声認識シナリオの例を示す図。本発明の一実施形態に係る電子機器の構成例を示すブロック図。

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
＜第１の実施形態＞
図１は、本発明の第１の実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。図１に示すように、このシステムは、ヒューマンインターフェース部１１０及び制御部１２０で構成される。

ヒューマンインターフェース部１１０は、質問又はメッセージの音声をユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果に対応する応答や処理を行う。以下においては、ヒューマンインターフェース部１１０が、音声と共に、又は、音声に替えて、質問又はメッセージを含む画像を表示する場合について説明するが、ヒューマンインターフェース部１１０が画像表示を行わない場合には、画像表示に関する構成やデータは不要になる。

ヒューマンインターフェース部１１０は、音声入力部１０と、Ａ／Ｄ変換器２０と、Ｄ／Ａ変換器３０と、音声出力部４０と、表示部５０と、半導体装置１００とを含んでいる。なお、音声入力部１０、Ａ／Ｄ変換器２０、Ｄ／Ａ変換器３０、及び、音声出力部４０の少なくとも一部を、半導体装置１００に内蔵しても良い。

半導体装置１００は、シナリオ制御部６０と、音声信号生成部６１と、画像信号生成部６２と、標準パターン抽出部６３と、信号処理部６４と、一致検出部６５とを含んでいる。また、半導体装置１００は、音声再生データ格納部７１と、画像再生データ格納部７２と、選択肢データ格納部７３と、音声信号データベース（ＤＢ）格納部８１と、画像信号データベース（ＤＢ）格納部８２と、音声認識データベース（ＤＢ）格納部８３とを含んでいる。

制御部１２０は、ホストＣＰＵ（中央演算装置）１２１と、格納部１２２とを含んでいる。ホストＣＰＵ１２１は、格納部１２２の記録媒体に記録されているソフトウェア（音声認識制御プログラム）に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、各種のメモリー、ＣＤ−ＲＯＭ、又は、ＤＶＤ−ＲＯＭ等を用いることができる。

格納部１２２は、ヒューマンインターフェース部１１０において用いられる音声再生データ、画像再生データ、及び、音声認識選択肢データを格納している。音声再生データは、音声出力部４０からユーザーに発する質問又はメッセージの音声波形を表す出力音声信号を生成するために用いられるデータ（例えば、テキストデータ等）を含んでいる。質問又はメッセージの音声を発することにより、ユーザーの注意を引き付けることができる。

画像再生データは、表示部５０に表示される質問又はメッセージを含む画像を表す画像信号を生成するために用いられるデータ（例えば、テキストデータ等）を含んでいる。質問又はメッセージを含む画像を表示部５０に表示することにより、質問又はメッセージの内容をより正確にユーザーに伝えることができる。

音声認識選択肢データは、音声又は画像による質問又はメッセージに対して回答するユーザーの音声を認識する音声認識処理において複数の選択肢を構成する単語又は文章を表すデータ（例えば、テキストデータ等）を含んでいる。音声又は画像による質問又はメッセージをユーザーに発することにより、それに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況になる。

音声再生データ、画像再生データ、及び、音声認識選択肢データの内の少なくとも１種類のデータは、そのデータを用いて行われる処理の次の処理に用いられるデータを特定する遷移先情報を含んでいる。本願において、音声再生データ、画像再生データ、又は、音声認識選択肢データを特定する情報を「データ名」ともいう。以下においては、一例として、音声再生データ、画像再生データ、及び、音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、音声認識選択肢データは、複数の選択肢を表しているので、複数の選択肢の各々に対応する遷移先情報を含んでいる。

ホストＣＰＵ１２１は、ヒューマンインターフェース部１１０に制御信号を出力することにより、ヒューマンインターフェース部１１０の各種の動作を制御する。また、ホストＣＰＵ１２１は、格納部１２２に格納されている音声再生データ、画像再生データ、及び、音声認識選択肢データを、データ転送コマンドに添付してシナリオ制御部６０に送信する。データの転送は、シナリオフローにおける一連の処理について一括して行われても良いし、第２の実施形態において説明するように、シナリオフローにおける個々の処理について順次行われても良い。

ヒューマンインターフェース動作を開始する際に、ホストＣＰＵ１２１は、シナリオ開始コマンドをシナリオ制御部６０に送信することにより、予め設定されたシナリオに沿って処理を行うようにヒューマンインターフェース部１１０を制御しても良い。その場合に、シナリオ開始コマンドは、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報を含んでも良い。

音声入力部１０は、例えば、音声を電気信号（音声信号）に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。Ａ／Ｄ変換器２０は、音声入力部１０から出力されるアナログの音声信号をサンプリングすることにより、デジタルの音声信号（音声データ）に変換する。例えば、音声データにおける音声周波数帯域は１２ｋＨｚであり、ビット数は１６ビットである。

半導体装置１００において、シナリオ制御部６０、音声信号生成部６１、画像信号生成部６２、標準パターン抽出部６３、信号処理部６４、及び、一致検出部６５は、出力音声信号を生成する処理や、画像を表示部５０に表示させる処理や、音声認識処理を行う処理部に相当し、例えば、組み合わせ回路及び順序回路を含む論理回路等で構成される。

また、音声再生データ格納部７１〜選択肢データ格納部７３は、処理部において用いられる音声再生データ、画像再生データ、及び、音声認識選択肢データを格納するデータ格納部に相当し、例えば、メモリー又はレジスター等で構成される。また、音声信号データベース格納部８１〜音声認識データベース格納部８３は、例えば、不揮発性メモリー等のメモリーで構成され、それらの少なくとも一部は、半導体装置１００に外付けされるメモリーに内蔵されても良い。

シナリオ制御部６０は、制御部１２０のホストＣＰＵ１２１から音声再生データ、画像再生データ、及び、音声認識選択肢データを受信し、データの種類を識別して、音声再生データを音声再生データ格納部７１に格納し、画像再生データを画像再生データ格納部７２に格納し、音声認識選択肢データを選択肢データ格納部７３に格納する。

シナリオ制御部６０は、ホストＣＰＵ１２１からシナリオ開始コマンドを受信すると、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報によって表されるデータ名を、データの種類に従って、音声信号生成部６１、画像信号生成部６２、又は、標準パターン抽出部６３に出力する。

データ名が音声信号生成部６１に出力された場合に、音声信号生成部６１は、データ名によって特定される音声再生データを音声再生データ格納部７１から読み出し、読み出された音声再生データを用いて、ユーザーに対する質問又はメッセージの音声を表す出力音声信号を生成する処理を行う。音声再生データがテキストデータである場合には、出力音声信号を生成するために、音声信号データベース格納部８１に格納されている音声信号データベースが用いられる。

例えば、音声信号データベースには、各種の音素に対応する音声波形を表す音声信号が蓄積されている。音声信号生成部６１は、テキストデータによって表される単語又は文章に含まれている複数の音素について音声信号を繋ぎ合わせることにより、出力音声信号を合成する。あるいは、音声信号データベースに、各種のテキストデータに対応する音声波形を表す複数の出力音声信号が蓄積されていても良い。その場合に、音声信号生成部６１は、読み出されたテキストデータに対応する出力音声信号を選択する。

Ｄ／Ａ変換器３０は、音声信号生成部６１から出力されるデジタルの音声信号を、アナログの音声信号に変換する。音声出力部４０は、例えば、Ｄ／Ａ変換器３０から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、音声信号によって表される質問又はメッセージの音声を出力する。それにより、ユーザーに対する質問又はメッセージの音声が、音声出力部４０から発せられる。

データ名が画像信号生成部６２に出力された場合に、画像信号生成部６２は、データ名によって特定される画像再生データを画像再生データ格納部７２から読み出し、読み出された画像再生データを用いて、ユーザーに対する質問又はメッセージを含む画像を表示部５０に表示させる処理を行う。画像再生データがテキストデータである場合には、画像信号を生成するために、画像信号データベース格納部８２に格納されている画像信号データベースが用いられる。

例えば、画像信号データベースには、各種の文字を表す画像信号が蓄積されている。画像信号生成部６２は、テキストデータに含まれている複数の文字について画像信号を繋ぎ合わせることにより、画像信号を合成する。あるいは、画像信号データベースに、各種の画像再生データによって特定される複数の画像信号が蓄積されていても良い。その場合に、画像信号生成部６２は、読み出された画像再生データによって特定される画像信号を選択する。表示部５０は、液晶表示装置等で構成された表示パネルを含んでおり、画像信号生成部６２から出力される画像信号に従って、ユーザーに対する質問又はメッセージを含む画像を表示する。

データ名が標準パターン抽出部６３に出力された場合に、標準パターン抽出部６３は、データ名によって特定される音声認識選択肢データを選択肢データ格納部７３から読み出す。標準パターン抽出部６３〜一致検出部６５は、読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行う。そのために、標準パターン抽出部６３は、音声認識データベース格納部８３に格納されている音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。

信号処理部６４は、時間／周波数変換部６４ａと、音声区間検出部６４ｂと、特徴パターン抽出部６４ｃとを含んでいる。時間／周波数変換部６４ａは、Ａ／Ｄ変換器２０から入力される音声信号にフーリエ変換等を施すことにより、入力音声信号の周波数成分を抽出する。音声区間検出部６４ｂは、入力音声信号の音圧又はＳ／Ｎ比に基づいて音声検出信号を活性化し、音声検出信号を一致検出部６５及びホストＣＰＵ１２１に出力する。それにより、ユーザーからの要求又は回答の有無を判定することができる。特徴パターン抽出部６４ｃは、入力音声信号の周波数成分の分布状態を表す特徴パターンを生成して一致検出部６５に出力する。

一致検出部６５は、音声検出信号が活性化されているときに動作し、入力音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出する。一致検出部６５は、複数の選択肢を構成する単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果としてホストＣＰＵ１２１に出力する。それにより、ホストＣＰＵ１２１は、半導体装置１００に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

本実施形態においては、音声信号生成部６１、画像信号生成部６２、及び、標準パターン抽出部６３〜一致検出部６５が、データ格納部から読み出された音声再生データ、画像再生データ、及び、音声認識選択肢データを用いてそれぞれの処理を行うと共に、それぞれの処理に用いられた音声再生データ、画像再生データ、及び、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部６０に出力する。

シナリオ制御部６０は、音声信号生成部６１、画像信号生成部６２、又は、一致検出部６５から出力された遷移先情報に基づいて、次の処理に用いられるデータを特定するデータ名を、データの種類に従って、標準パターン抽出部６３、音声信号生成部６１、又は、画像信号生成部６２に出力する。それにより、標準パターン抽出部６３、音声信号生成部６１、又は、画像信号生成部６２は、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データをデータ格納部から読み出して、次の処理を行う。

例えば、シナリオフローにおける処理の順序は、音声再生処理を行った後に音声認識処理を行い、音声認識処理を行った後に音声再生処理を行うというように、異なる処理を連続して行っても良い。あるいは、音声再生処理を行った後に続けて音声再生処理を行うというように、同じ処理を連続して行っても良い。また、画像再生処理を行っている間に音声再生処理を行うというように、異なる処理を同時に行っても良い。

遷移先情報においてデータが指定されていない場合には、シナリオフローにおける一連の処理が終了する。あるいは、遷移先情報が、シナリオフローにおける一連の処理の終了を表す終了フラグ（シナリオ終了フラグ）を含むようにしても良い。その場合には、シナリオ制御部６０が、シナリオ終了フラグを含む遷移先情報又はシナリオの終了を表すシナリオ終了信号を外部のホストＣＰＵ１２１等に送信することにより、シナリオフローにおける一連の処理の終了を外部に通知することができる。

＜特徴パターンを求める手法＞
次に、入力音声信号から特徴パターンを求める手法の一例について説明する。信号処理部６４の時間／周波数変換部６４ａは、入力音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。また、時間／周波数変換部６４ａは、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。

さらに、時間／周波数変換部６４ａは、それらの周波数成分の絶対値に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求め、それらの数値を対数変換する。それにより、周波数領域の窓が２６個であれば、２６個の数値（メルバンド係数）が得られる。

このようにして得られたメルバンド係数の内で低次のもの（例えば、１２個）が、ＭＦＣＣ（メル周波数ケプストラム係数）と呼ばれる。特徴パターン抽出部６４ｃは、ＨＭＭ（隠れマルコフモデル）に従って、フレーム毎に算出されたＭＦＣＣを連結することにより、時系列で入力された音声信号に含まれている各々の音素に対応するＭＦＣＣとして特徴パターンを求める。

ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の母音と、「ｋ」、「ｓ」、「ｔ」、「ｎ」等の子音と、「ｊ」、「ｗ」の半母音と、「Ｎ」、「Ｑ」、「Ｈ」の特殊モーラとが該当する。

音声認識データベース格納部８３は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられて蓄積されている。

標準パターンは、多数（例えば、２００人程度）の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からＭＦＣＣが求められる。ただし、多数の話者が発した音声を用いて作成されたＭＦＣＣにおいては、それぞれの数値がばらつきを有している。

従って、各々の音素についての標準パターンは、多次元空間（例えば、１２次元空間）において、ばらつきを含む広がりを有している。信号処理部６４に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。

例えば、一致検出部６５は、入力音声信号の先頭の音節から生成された特徴パターンを、音声認識選択肢データに含まれている複数の選択肢のテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。複数の選択肢の内に、一致が検出された音節を先頭に有する選択肢が１つだけ存在する場合には、一致検出部６５は、その選択肢が変換後の単語又は文章であると判定しても良い。一方、複数の選択肢の内に、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部６５は、選択肢が１つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。

ここで、「音節」とは、１個の母音を主音とし、その母音単独で、あるいは、その母音の前後に１つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、１つの音節は、１つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。

例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「ａ」を表す標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第１番目の音素「ｋ」を表す標準パターンと、音節「か」を構成する第２番目の音素「ａ」を表す標準パターンとの組み合わせのことである。

入力音声信号の１つの音節が１つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力音声信号の１つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。

特徴パターンと標準パターンとの間で上述したような一致が検出されると、一致検出部６５は、複数の単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。それにより、ホストＣＰＵ１２１は、半導体装置１００に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

＜音声認識方法１＞
次に、本発明の第１の実施形態に係る音声認識方法について、図１及び図２を参照しながら説明する。
図２は、本発明の第１の実施形態に係る音声認識方法を示すフローチャートである。第１の実施形態においては、シナリオフローにおける一連の処理に用いられる音声再生データ及び音声認識選択肢データがシナリオ制御部６０に一括して送信され、音声再生データ及び音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、図１を参照しながら説明したように、画像再生データをさらに用いるようにしても良い。

図２のステップＳ１１において、ホストＣＰＵ１２１が、シナリオフローにおける一連の処理に用いられる音声再生データ及び音声認識選択肢データを、データ転送コマンドに添付してシナリオ制御部６０に送信する。

ステップＳ１２において、シナリオ制御部６０が、受信した音声再生データ及び音声認識選択肢データを、データの種類に従って、音声再生データ格納部７１及び選択肢データ格納部７３に格納する。

ステップＳ１３において、ホストＣＰＵ１２１が、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報を含むシナリオ開始コマンドをシナリオ制御部６０に送信する。

ステップＳ１４において、シナリオ制御部６０が、最初に実行される処理に用いられるデータのデータ名を、データの種類に従って、音声信号生成部６１又は標準パターン抽出部６３に出力する。

データ名が音声信号生成部６１に出力された場合には、ステップＳ１５において、音声信号生成部６１が、音声再生データ格納部７１から音声再生データを読み出す。ステップＳ１６において、音声信号生成部６１が、音声再生データを用いて出力音声信号を生成する処理を行う。それにより、音声出力部４０から質問又はメッセージの音声が発せられる。ステップＳ１７において、音声信号生成部６１が、音声再生データに含まれている遷移先情報をシナリオ制御部６０に出力する。

一方、データ名が標準パターン抽出部６３に出力された場合には、ステップＳ１８において、標準パターン抽出部６３が、選択肢データ格納部７３から音声認識選択肢データを読み出す。ステップＳ１９において、標準パターン抽出部６３が、音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。

次に、ステップＳ２０において、信号処理部６４が、入力音声信号にフーリエ変換等を施すことにより入力音声信号の周波数成分を抽出し、周波数成分の分布状態を表す特徴パターンを生成する。ステップＳ２１において、一致検出部６５が、入力音声信号の少なくとも一部から生成された特徴パターンと標準パターンとの一致を検出して、音声認識結果をホストＣＰＵ１２１に出力する。ステップＳ２２において、一致検出部６５が、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部６０に出力する。

ステップＳ２３において、シナリオ制御部６０が、遷移先情報にシナリオ終了フラグが含まれているか否かを判定する。遷移先情報にシナリオ終了フラグが含まれている場合には、処理がステップＳ２４に移行する。ステップＳ２４において、シナリオ制御部６０が、シナリオ終了信号をホストＣＰＵ１２１に送信する。それにより、シナリオフローにおける一連の処理が終了する。

一方、遷移先情報にシナリオ終了フラグが含まれていない場合には、処理がステップＳ２５に移行する。ステップＳ２５において、シナリオ制御部６０が、遷移先情報に基づいて、シナリオフローにおける次の処理に用いられるデータのデータ名を、データの種類に従って、音声信号生成部６１又は標準パターン抽出部６３に出力する。その後、処理がステップＳ１５又はＳ１８に戻る。

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。
図３は、本発明の第２の実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。第２の実施形態においては、シナリオフローにおける各処理に用いられる音声再生データ、画像再生データ、又は、音声認識選択肢データが、ホストＣＰＵ１２１からシナリオ制御部６０にその都度送信される。従って、図１に示す音声再生データ格納部７１〜選択肢データ格納部７３の替りにデータ格納部７０が設けられている。その他の点に関しては、第２の実施形態は、第１の実施形態と同様でも良い。

シナリオ制御部６０は、音声再生データ、画像再生データ、又は、音声認識選択肢データが添付されたデータ転送コマンドをホストＣＰＵ１２１から受信すると、受信したデータをデータ格納部７０に一時的に格納する。データ格納部７０は、例えば、メモリー又はレジスター等で構成される。シナリオ制御部６０は、受信したデータの種類を識別して、受信したデータをデータ格納部７０から読み出すように音声信号生成部６１、画像信号生成部６２、又は、標準パターン抽出部６３を制御する。

音声信号生成部６１は、音声再生データを読み出すと、音声再生データを用いて、ユーザーに対する質問又はメッセージの音声を表す出力音声信号を生成する処理を行う。画像信号生成部６２は、画像再生データを読み出すと、画像再生データを用いて、ユーザーに対する質問又はメッセージを含む画像を表示部５０に表示させる処理を行う。

標準パターン抽出部６３は、音声認識選択肢データを読み出すと、音声認識データベース格納部８３に格納されている音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出して、標準パターン抽出部６３〜一致検出部６５が、入力音声信号に対する音声認識処理を行う。

本実施形態においても、音声信号生成部６１、画像信号生成部６２、及び、標準パターン抽出部６３〜一致検出部６５が、データ格納部７０から読み出された音声再生データ、画像再生データ、及び、音声認識選択肢データを用いてそれぞれの処理を行うと共に、処理に用いられた音声再生データ、画像再生データ、及び、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部６０に出力する。

シナリオ制御部６０は、その遷移先情報をホストＣＰＵ１２１に送信する。それにより、ホストＣＰＵ１２１が、シナリオ制御部６０から遷移先情報を受信したときに、受信した遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを格納部１２２から読み出し、データ転送コマンドに添付して所定のタイミングでシナリオ制御部６０に送信する。それにより、シナリオ制御部６０は、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データをホストＣＰＵ１２１から受信する。その場合には、シナリオフローにおける各処理のタイミングを、外部からホストＣＰＵ１２１によって制御することができる。

遷移先情報においてデータが指定されていない場合には、シナリオフローにおける一連の処理が終了する。あるいは、遷移先情報が、シナリオフローにおける一連の処理の終了を表す終了フラグ（シナリオ終了フラグ）を含むようにしても良い。遷移先情報にシナリオ終了フラグが含まれている場合には、シナリオ制御部６０が、シナリオ終了フラグを含む遷移先情報をホストＣＰＵ１２１に送信する。それにより、一連の処理の終了をホストＣＰＵ１２１に通知することができる。

＜音声認識方法２＞
次に、本発明の第２の実施形態に係る音声認識方法について、図３及び図４を参照しながら説明する。
図４は、本発明の第２の実施形態に係る音声認識方法を示すフローチャートである。第２の実施形態においては、シナリオフローにおける各処理に用いられる音声再生データ及び音声認識選択肢データがシナリオ制御部６０にその都度送信され、音声再生データ及び音声認識選択肢データの各々が遷移先情報を含む場合について説明する。なお、図３を参照しながら説明したように、画像再生データをさらに用いるようにしても良い。

図４のステップＳ３１において、ホストＣＰＵ１２１が、シナリオフローにおける最初の処理に用いられる音声再生データ又は音声認識選択肢データを、データ転送コマンドに添付してシナリオ制御部６０に送信する。

ステップＳ３２において、シナリオ制御部６０が、受信した音声再生データ又は音声認識選択肢データを、データ格納部７０に一時的に格納する。ステップＳ３３において、シナリオ制御部６０が、受信したデータの種類を識別して、受信したデータをデータ格納部７０から読み出すように音声信号生成部６１又は標準パターン抽出部６３を制御する。

音声信号生成部６１が音声再生データを読み出した場合には、ステップＳ３４において、音声信号生成部６１が、音声再生データを用いて出力音声信号を生成する処理を行う。それにより、音声出力部４０から質問又はメッセージの音声が発せられる。ステップＳ３５において、音声信号生成部６１が、音声再生データに含まれている遷移先情報をシナリオ制御部６０に出力し、シナリオ制御部６０が、遷移先情報をホストＣＰＵ１２１に送信する。

一方、標準パターン抽出部６３が音声認識選択肢データを読み出した場合には、ステップＳ３６において、標準パターン抽出部６３が、音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。

次に、ステップＳ３７において、信号処理部６４が、入力音声信号にフーリエ変換等を施すことにより入力音声信号の周波数成分を抽出し、周波数成分の分布状態を表す特徴パターンを生成する。ステップＳ３８において、一致検出部６５が、入力音声信号の少なくとも一部から生成された特徴パターンと標準パターンとの一致を検出して、音声認識結果をホストＣＰＵ１２１に出力する。ステップＳ３９において、一致検出部６５が、音声認識選択肢データに含まれている遷移先情報をシナリオ制御部６０に出力し、シナリオ制御部６０が、遷移先情報をホストＣＰＵ１２１に送信する。

ステップＳ４０において、ホストＣＰＵ１２１が、遷移先情報にシナリオ終了フラグが含まれているか否かを判定する。遷移先情報にシナリオ終了フラグが含まれている場合には、シナリオフローにおける一連の処理が終了する。

一方、遷移先情報にシナリオ終了フラグが含まれていない場合には、処理がステップＳ４１に移行する。ステップＳ４１において、ホストＣＰＵ１２１が、遷移先情報に基づいて、シナリオフローにおける次の処理に用いられる音声認識選択肢データ又は音声再生データを格納部１２２から読み出し、データ転送コマンドに添付してシナリオ制御部６０に送信する。その後、処理がステップＳ３２に戻る。

本発明の第１又は第２実施形態によれば、音声再生データ又は音声認識選択肢データに遷移先情報が埋め込まれているので、音声認識におけるシナリオを変更する必要がある場合には、音声再生データ又は音声認識選択肢データを変更するだけで、シナリオを変更することが可能である。従って、ホストＣＰＵ１２１のプログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できるシステムを提供することが可能となる。

＜音声認識方法の具体例＞
次に、音声認識方法の具体例について説明する。以下においては、一例として、図３に示すシステムが照明器具の制御に適用される場合について説明する。

図５は、格納部に格納されている音声再生データの例を示す図である。この例においては、データ名として音声再生データ１〜８と、それぞれの質問又はメッセージの内容を表すテキストデータと、それぞれの遷移先情報とが、互いに関連付けられて格納部１２２に格納されている。テキストデータは、質問又はメッセージに含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。

図６は、格納部に格納されている音声認識選択肢データの例を示す図である。この例においては、データ名として選択肢データ１〜２と、それぞれの選択肢の内容を表すテキストデータと、それぞれの遷移先情報とが、互いに関連付けられて格納部１２２に格納されている。テキストデータは、選択肢に含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。

図７は、図５に示す音声再生データ及び図６に示す音声認識選択肢データによって構築される音声認識シナリオの例を示す図である。例えば、ホストＣＰＵ１２１は、人感センサー等の出力信号に応答して、ヒューマンインターフェース部１１０を起動する。さらに、ホストＣＰＵ１２１は、図５に示す音声再生データ及び図６に示す音声認識選択肢データを格納部１２２から読み出し、シナリオフローにおける各処理の進行に合わせてシナリオ制御部６０に順次送信する。

ホストＣＰＵ１２１が、音声再生データ１をシナリオ制御部６０に送信すると、音声信号生成部６１は、音声再生データ１に基づいて出力音声信号を生成してＤ／Ａ変換器３０に出力する。また、Ｄ／Ａ変換器３０は、デジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部４０に出力する。それにより、音声出力部４０は、チャイム等と共に「コマンドをどうぞ」というメッセージを発する。

図５に示すように、音声再生データ１は、音声認識選択肢データ１を特定する遷移先情報を含んでいる。従って、シナリオ制御部６０が、その遷移先情報をホストＣＰＵ１２１に送信すると、ホストＣＰＵ１２１が、音声認識選択肢データ１をシナリオ制御部６０に送信する。

図６に示すように、音声認識選択肢データ１は、「明かりを点けて」という第１の選択肢と、「明かりを消して」という第２の選択肢と、「設定したい」という第３の選択肢とを含んでいる。そこで、標準パターン抽出部６３は、音声認識選択肢データ１の第１〜第３の選択肢に含まれている複数の音素の各々について、対応する標準パターンを音声認識データベース８３から抽出する。

音声出力部４０から発せられた「コマンドをどうぞ」というメッセージに対して、ユーザーが音声で回答すると、信号処理部６４は、ユーザーの回答に含まれている複数の音素の各々について、周波数成分の分布状態を表す特徴パターンを生成する。一致検出部６５は、信号処理部６４によって生成された音素の特徴パターンと、音声認識データベースから抽出された音素の標準パターンとを比較することにより、ユーザーの回答と音声認識選択肢データ１の第１〜第３の選択肢との一致を検出する。

図６に示すように、音声認識選択肢データ１は、第１〜第３の選択肢に対応して、音声再生データ２〜４を特定する遷移先情報をそれぞれ含んでいる。従って、ユーザーが、「明かりを点けて」と回答した場合には、シナリオ制御部６０が、音声再生データ２を特定する遷移先情報をホストＣＰＵ１２１に送信し、ホストＣＰＵ１２１が、音声再生データ２をシナリオ制御部６０に送信する。それにより、音声出力部４０が、「点けます」というメッセージを発する。

同様に、ユーザーが、「明かりを消して」と回答した場合には、音声出力部４０が、「消します」というメッセージを発する。ホストＣＰＵ１２１は、一致検出部６５から送信される音声認識結果を受信して、照明器具の電源スイッチをオン又はオフする制御を行う。一方、ユーザーが「設定したい」と回答すると、音声出力部４０が、「何を設定しますか？」という質問を発する。

図５に示すように、音声再生データ４は、音声認識選択肢データ２を特定する遷移先情報を含んでいる。従って、シナリオ制御部６０が、その遷移先情報をホストＣＰＵ１２１に送信すると、ホストＣＰＵ１２１は、音声認識選択肢データ２をシナリオ制御部６０に送信する。

音声認識選択肢データ２は、「オフタイマー３０分」という第１の選択肢と、「オフタイマー１時間」という第２の選択肢と、「明るくして」という第３の選択肢と、「暗くして」という第４の選択肢とを含んでいる。そこで、標準パターン抽出部６３は、音声認識選択肢データ２の第１〜第４の選択肢に含まれている複数の音素の各々について、対応する標準パターンを音声認識データベースから抽出する。

音声出力部４０から発せられた「何を設定しますか？」という質問に対して、ユーザーが音声で回答すると、信号処理部６４は、ユーザーの回答に含まれている複数の音素の各々について、周波数成分の分布状態を表す特徴パターンを生成する。一致検出部６５は、信号処理部６４によって生成された音素の特徴パターンと、音声認識データベースから抽出された音素の標準パターンとを比較することにより、ユーザーの回答と音声認識選択肢データ２の第１〜第４の選択肢との一致を検出する。

図６に示すように、音声認識選択肢データ２は、第１〜第４の選択肢に対応する遷移先情報として、音声再生データ５〜８をそれぞれ含んでいる。従って、ユーザーが「オフタイマー３０分」と回答した場合には、シナリオ制御部６０が、音声再生データ５を特定する遷移先情報をホストＣＰＵ１２１に送信し、ホストＣＰＵ１２１が、オフタイマーを３０分に設定した後に、音声再生データ５をシナリオ制御部６０に送信する。

それにより、音声出力部４０が、「オフタイマー３０分を設定しました」というメッセージを発する。同様に、ユーザーが「オフタイマー１時間」と回答した場合には、ホストＣＰＵ１２１が、オフタイマーを１時間に設定した後に、音声出力部４０が、「オフタイマー１時間を設定しました」というメッセージを発する。

また、ユーザーが「明るくして」と回答した場合には、音声出力部４０が、「明るくします」というメッセージを発する。同様に、ユーザーが「暗くして」と回答した場合には、音声出力部４０が、「暗くします」というメッセージを発する。ホストＣＰＵ１２１は、一致検出部６５から送信される音声認識結果に従って照明器具を調光する。

＜電子機器＞
次に、本発明の一実施形態に係る電子機器について説明する。
図８は、本発明の一実施形態に係る電子機器の構成例を示すブロック図である。この電子機器は、図１又は図３に示すシステムを用いている。図８に示すように、この電子機器は、ヒューマンインターフェース部１１０と、制御部１２０と、操作部１３０と、ＲＯＭ（リードオンリー・メモリー）１４０と、ＲＡＭ（ランダムアクセス・メモリー）１５０と、通信部１６０とを含んでいる。なお、図８に示す構成要素の一部を省略又は変更しても良いし、あるいは、図８に示す構成要素に他の構成要素を付加しても良い。

ヒューマンインターフェース部１１０は、制御部１２０の制御の下で、音声や画像による質問又はメッセージをユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果を制御部１２０に送信する。制御部１２０は、ホストＣＰＵ１２１と、格納部１２２とを含んでいる。ホストＣＰＵ１２１は、格納部１２２等に格納されているプログラムに従い、ヒューマンインターフェース部１１０から送信される音声認識結果に基づいて各種の制御処理や信号処理を行う。

例えば、ホストＣＰＵ１２１は、ヒューマンインターフェース部１１０から送信される音声認識結果に基づいて、照明の明るさや、エアコン又は電子レンジの設定温度や、テレビの音量等を調節したり、ユーザーとの会話を行う。その際に、ホストＣＰＵ１２１は、音声出力部４０に各種の音声を出力させるための音声再生データを生成したり、表示部５０に各種の画像を表示させるための画像再生データを生成したり、外部との間でデータ通信を行うために通信部１６０を制御する。

操作部１３０は、例えば、操作キーやボタンスイッチ等を含む入力装置であり、ユーザーによる操作に応じた操作信号をホストＣＰＵ１２１に出力する。ＲＯＭ１４０は、ホストＣＰＵ１２１が各種の信号処理や制御処理を行うためのデータ等を記憶している。また、ＲＡＭ１５０は、ホストＣＰＵ１２１の作業領域として用いられ、操作部１３０を用いて入力されたデータ、ＲＯＭ１４０から読み出されたデータ、又は、ホストＣＰＵ１２１がプログラムに従って実行した演算結果等を一時的に記憶する。通信部１６０は、例えば、アナログ回路及びデジタル回路で構成され、制御部１２０と外部装置との間のデータ通信を行う。

電子機器としては、例えば、照明器具やエアコンや電子レンジ等の家電製品又は住宅設備、掃除用や介護用のロボット、自動販売機、車載装置（ナビゲーション装置等）、携帯電話機等の移動端末、スマートカード、電卓、電子辞書、電子ゲーム機器、デジタルスチルカメラ、デジタルムービー、テレビ、テレビ電話、防犯用テレビモニター、ヘッドマウント・ディスプレイ、パーソナルコンピューター、プリンター、測定機器、及び、医療機器等が該当する。

本実施形態によれば、ホストＣＰＵ１２１のプログラムにおいてシナリオフローを設定又は変更しなくても音声認識におけるシナリオの設定又は変更を容易に実現できる電子機器を提供することが可能となる。本発明は、以上説明した実施形態に限定されるものではなく、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。

１０…音声入力部、２０…Ａ／Ｄ変換器、３０…Ｄ／Ａ変換器、４０…音声出力部、５０…表示部、６０…シナリオ制御部、６１…音声信号生成部、６２…画像信号生成部、６３…標準パターン抽出部、６４…信号処理部、６４ａ…時間／周波数変換部、６４ｂ…音声区間検出部、６４ｃ…特徴パターン抽出部、６５…一致検出部、７０…データ格納部、７１…音声再生データ格納部、７２…画像再生データ格納部、７３…選択肢データ格納部、８１…音声信号データベース格納部、８２…画像信号データベース格納部、８３…音声認識データベース格納部、１００…半導体装置、１１０…ヒューマンインターフェース部、１２０…制御部、１２１…ホストＣＰＵ、１２２…格納部、１３０…操作部、１４０…ＲＯＭ、１５０…ＲＡＭ、１６０…通信部

Claims

遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部と、
前記データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、前記データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ又は音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ又は音声再生データを前記データ格納部から読み出す処理部と、
を備える半導体装置。
前記データ格納部が、遷移先情報を含む画像再生データをさらに格納し、前記処理部が、前記データ格納部から読み出された音声再生データを用いて出力音声信号を生成する処理を行い、又は、前記データ格納部から読み出された画像再生データを用いて質問又はメッセージを含む画像を表示部に表示させる処理を行い、又は、前記データ格納部から読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うと共に、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを前記データ格納部から読み出す、請求項１記載の半導体装置。
前記処理部が、処理に用いられた音声再生データ、画像再生データ、又は、音声認識選択肢データに含まれている遷移先情報を外部に送信すると共に、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを外部から受信するシナリオ制御部を含む、請求項１又は２記載の半導体装置。
遷移先情報が、一連の処理の終了を表す終了フラグを含む、請求項１〜３のいずれか１項記載の半導体装置。
請求項１〜４のいずれか１項記載の半導体装置と、
前記半導体装置を制御する制御部と、
を備えるシステム。
前記制御部が、
遷移先情報を含む音声再生データ、遷移先情報を含む画像再生データ、又は、遷移先情報を含む音声認識選択肢データを格納する格納部と、
前記半導体装置から遷移先情報を受信したときに、受信した遷移先情報に基づいて、次の処理に用いられる音声認識選択肢データ、音声再生データ、又は、画像再生データを前記格納部から読み出して前記半導体装置に送信するホストＣＰＵと、
を備える、請求項５記載のシステム。
請求項５又は６記載のシステムを備える電子機器。
遷移先情報を含む音声再生データ、又は、遷移先情報を含む音声認識選択肢データを格納するデータ格納部から、第１の音声再生データ又は第１の音声認識選択肢データを読み出すステップ（ａ）と、
第１の音声再生データを用いて出力音声信号を生成する処理を行い、又は、第１の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行うステップ（ｂ）と、
ステップ（ｂ）において処理に用いられた第１の音声再生データ又は第１の音声認識選択肢データに含まれている遷移先情報に基づいて、次の処理に用いられる第２の音声認識選択肢データ又は第２の音声再生データを前記データ格納部から読み出すステップ（ｃ）と、
第２の音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行い、又は、第２の音声再生データを用いて出力音声信号を生成する処理を行うステップ（ｄ）と、
を備える音声認識方法。