JP2008129412A

JP2008129412A - 半導体集積回路装置、電子機器

Info

Publication number: JP2008129412A
Application number: JP2006315658A
Authority: JP
Inventors: Masamichi Izumida; 正道泉田; Masayuki Murakami; 雅行村上
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2006-11-22
Filing date: 2006-11-22
Publication date: 2008-06-05
Anticipated expiration: 2026-11-22
Also published as: JP4471128B2; US20080120106A1; US8942982B2

Abstract

【課題】音声認識処理や音声合成処理の動作タイミングを外部から制御することにより、又は音声認識処理や音声合成処理を開始することを事前に予告するなど、ユーザや周辺装置等との連携をとることを可能とし、より利便性の高い半導体集積回路装置を提供する。
【解決手段】半導体集積回路装置は、記憶部に格納されたコマンド及びテキストデータに基づいて、テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、音声合成処理開始制御信号に基づいて、コマンド及びテキストデータを音声合成処理部に転送するタイミングを制御する制御部とを含む。制御部は、音声合成処理開始イベントの発生に基づいて、音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行う。
【選択図】図１

Description

本発明は、半導体集積回路装置、電子機器に関する。

音声合成処理や音声認識処理を行う装置は様々な分野で利用されており、例えば、対話型のカーナビゲーションシステムにおける音声ガイダンスやドライバーによる音声コマンド入力などの機能を実現するために利用されている。従来の音声合成装置や音声認識装置では、外部ホストから送信されるコマンドやデータを受信することにより、音声合成や音声認識のタイミングを決定していた。このような音声合成装置や音声認識装置は、ホストからのコマンドやデータさえあれば特別な制御を必要とすることなく、音声合成や音声認識を行うことができるという利点がある。
特開平０９−００６３８９号公報

しかし、逆に、外部の制御信号により音声合成や音声認識のタイミングを直接的に制御することは行われていなかったため、周辺の環境に応じた適切なタイミングで音声合成や音声認識をすることができない場合もあり、ユーザによる音声の聞き取りを困難にしたり、音声認識率が低下する場合もあった。さらに、音声合成や音声認識を行っていることが外部から認識できない場合もあり、応用分野によってはアプリケーションの構築が難しい場合もあった。

本発明は、以上のような問題点に鑑みてなされたものであり、音声認識処理や音声合成処理の動作タイミングを外部から制御し、又は音声認識処理や音声合成処理を開始することを事前に予告するなど、ユーザや周辺装置等との連携をとりながら音声合成処理又は音声認識処理を行うことを可能とする、より利便性の高い半導体集積回路装置を提供することを目的とする。

（１）本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
前記記憶部に格納されたコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理開始制御信号に基づいて、前記記憶部に格納されたコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御する制御部とを含むことを特徴とする。

外部から入力されるコマンドは、例えば、音声合成処理の開始を指示したり、音声合成に必要な音素片データを内部メモリに書き込む指示をする等、音声合成処理部に対する何らかの指示を含む。

記憶部は、例えば、フリップフロップを用いたバッファとして構成してもよいし、ＲＡＭ（Random Access Memory）であってもよい。

音声合成処理部は、ＡＤＰＣＭ（Adaptive Differential Pulse Code Modulation）やＭＰ３(MPEG-1 Audio Layer-3)、ＡＡＣ(Advanced Audio Coding)等の各種方式により圧縮・符号化された音声信号を復元して再生する処理を行ってもよいし、テキストデータから対応する音声を合成するＴＴＳ（Text To Speech）方式の音声合成処理を行ってもよい。ＴＴＳ方式は、パラメトリック方式であってもよいし、コンキャティネイティブ方式であってもよいし、コーパスベース方式であってもよい。パラメトリック方式では、人体の発声過程をモデル化して音声を合成する。コンキャティネイティブ方式では、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして音声を合成する。コーパスベース方式では、コンキャティネイティブ方式の発展形として言語ベースの解析から音声への組み立てを行って実声データから合成音声を形成する。いずれの方式でも、文章から音に変換する前に、ＳＨＩＦＴ−ＪＩＳコードなどで表記されたテキスト表現から、発音させるべき「読み」への変換辞書（データベース）を持つことが必須である。さらに、コンキャティネイティブ方式やコーパスベース方式では、「読み」から「音素」への辞書（データベース）も必要である。

音声合成処理部は、専用回路によるハードウェアとして実現してもよいし、汎用ＣＰＵ上で動作するソフトウェアとして実現してもよい。

音声合成処理開始制御信号は、音声合成処理部が音声合成および音声出力（発話）を開始するタイミングを外部から指示するために使用され、外部ホストが発生させてもよいし、ユーザが所定のボタンを押下することにより発生させてもよい。外部ホストが音声合成処理開始制御信号を発生させる場合は、外部ホストがまとまった一連の文章に対応するテキストデータをすべて送信する度に、音声合成処理開始制御信号を発生させれば、一連の文章が不自然に途切れて発話されることなく、文章間に適切な無音期間を挿入することもできる。ユーザが音声合成処理開始制御信号を発生させる場合は、ユーザが音声を聞き取る準備ができるまで発話を遅らせることができる。さらに、外部ホストを介在することなく音声合成処理開始制御信号を発生させることができるので、外部ホストの負担を削減することができる。

また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声認識の終了を示す信号を音声合成処理開始制御信号として使用してもよい。この場合、当該半導体集積回路装置は、音声認識の終了後に次の音声出力を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。

制御部は、音声合成処理開始制御信号が入力されてから所与の時間を計測するための第１のタイマを有し、当該第１のタイマが当該所与の時間を計測した後に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するように制御するようにしてもよい。この場合、第１のタイマが、ホストとの間の通信速度やホストの負荷を考慮して、まとまって発話されるべき一連の文章に対応するすべてのテキストデータが記憶部に格納されるのに十分な時間を計測するようにすれば、当該文章に対応する音声が不自然に途切れて出力されることを防止することができる。第１のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声合成処理開始制御信号が入力されると０に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するための制御信号を生成するアップカウンタであってもよいし、音声合成処理開始制御信号が入力されると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、０に達した時に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するための制御信号を生成するダウンカウンタであってもよい。

また、制御部は、まとまって発話されるべき一連の文章に対する最後のテキストデータが記憶部に格納されたのを検出した時に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するように制御するようにしてもよい。

制御部は、専用回路によるハードウェアとして実現してもよいし、汎用ＣＰＵ上で動作するソフトウェアとして実現してもよい。

本発明によれば、音声合成処理開始制御信号が入力されるまで、あるいは、音声合成処理開始制御信号が入力されてから所定の時間が経過するまで、音声合成処理部が音声合成処理および音声出力を開始するのを遅らせることができる。そのため、音声合成処理開始制御信号の入力から音声合成および音声出力の開始までの時間を適切に設定すれば、ユーザや外部ホストは、その間に各種の操作を行うことができる。

例えば、音声合成の開始を指示するコマンド（音声合成開始コマンド）および音声合成して音声出力すべき所定の文章（例えば、「はい、いいえで答えて下さい。」）に対応するすべてのテキストデータが記憶部に格納されるまで、音声合成開始コマンド及びテキストデータを音声合成処理部に転送しないことにより、音声合成処理部による音声合成処理および音声出力の開始を遅らせることができる。例えば、外部ホストとの間の通信速度が遅い場合や、外部ホストのＣＰＵ負荷が一時的に重くなりテキストデータの送信が途切れるような場合であっても、音声合成開始コマンド及びすべてのテキストデータが記憶部に格納されるまで、音声合成処理および音声出力の開始を遅らせることができるので、所定の文章を途切れることなく発話することができる。また、例えば、ユーザがボタンを押下することにより音声合成処理開始制御信号を発生させるようにすれば、本発明に係る半導体集積回路装置が音声出力を開始するまでに、ユーザが音声を聞き取るための準備を適切に行うことができる。

（２）本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行う制御部とを含むことを特徴とする。

音声合成処理開始イベントは、例えば、音声合成開始コマンド又は最初のテキストデータが記憶部から音声合成処理部に転送されることにより発生させてもよいし、外部から所与のタイミングで発生させてもよい。

制御部は、音声合成処理開始イベントの発生の後、所与のタイミングで、音声合成処理部が音声合成処理を開始し、合成した音声信号を直ちに外部に出力するように制御してもよいし、音声合成処理開始イベントの発生の後、音声合成処理部が直ちに音声合成処理を開始し、所与のタイミングで、合成した音声信号の外部への出力を開始するように制御してもよい。

制御部は、音声合成処理開始イベントが発生してから所与の時間を計測するための第２のタイマを有し、当該第２のタイマが当該所与の時間を計測した後に、音声合成処理部が合成した音声信号の外部への出力を開始するように制御するようにしてもよい。この場合、第２のタイマが、周辺装置等が音量を低下し、ユーザが音声を聞く準備をするのに十分な時間を計測するようにすれば、音声合成処理部が出力する音声をユーザが聞き取りやすくすることができる。第２のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声合成処理開始イベントが発生すると０に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、音声合成処理部が合成した音声信号の外部への出力を開始するための制御信号を生成するアップカウンタであってもよいし、音声合成処理開始イベントが発生すると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、０に達した時に、音声合成処理部が合成した音声信号の外部への出力を開始するための制御信号を生成するダウンカウンタであってもよい。

また、制御部は、外部から音声出力の開始を指示する信号が入力された時に、音声合成処理部が合成した音声信号の外部への出力を開始するように制御するようにしてもよい。外部から音声出力の開始を指示する信号は、例えば、周辺の装置から音量を低下したことを示す信号であってもよいし、ユーザが音声の聞き取りのための準備ができた時に手動で入力する信号であってもよい。

本発明によれば、音声合成処理開始イベントの発生に基づいて音声出力開始予告信号を出力してから所定の時間が経過するまで、音声合成処理部が音声信号の出力を開始するのを遅らせることができる。そのため、音声出力開始予告信号の出力から音声出力を開始するまでの時間を適切に設定すれば、ユーザや外部の周辺装置等は、音声出力開始予告信号を検出することにより、本発明に係る半導体集積回路装置が音声信号の出力を開始する前に、各種の操作を行うことができる。例えば、音声出力開始予告信号により、周辺の装置（例えば、空調装置やオーディオ装置）が音量を低下したり、ユーザが音声を聞き取る準備をすることができるので、音声合成処理部は、音声出力開始予告信号を出力した後、所与のタイミングで、合成した音声信号を出力することにより、ユーザが音声を聞き取りやすくすることができる。また、例えば、音声出力開始予告信号をＬＥＤに接続し、本発明に係る半導体集積回路装置が何らかの警告を音声出力する前に、音声出力開始予告信号によるＬＥＤの点滅動作に対して、ユーザが周辺のオーディオ装置等のボリュームを手動で下げる等すれば、ユーザが警告を聞き逃すリスクを低減することができる。

（３）本発明の半導体集積回路装置は、
前記制御部は、
音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行うことを特徴とする。

本発明によれば、音声合成処理開始制御信号が入力されるまで、あるいは、音声合成処理開始制御信号が入力されてから所定の時間が経過するまで、音声合成処理部が音声合成処理および音声信号出力を開始するのを遅らせることと、音声合成処理開始イベントの発生に基づいて音声出力開始予告信号を出力してから所定の時間が経過するまで、音声合成処理部が音声信号出力を開始するのを遅らせることをそれぞれ独立に制御することができる。

（４）本発明の半導体集積回路装置は、
前記制御部は、
前記音声合成処理部が合成した音声信号の外部への出力を開始してから終了するまでの期間を示す音声出力期間中信号を外部に出力する制御を行うことを特徴とする。

本発明によれば、音声出力期間中信号により、音声出力中であるか否かを外部から判断することができる。例えば、音声出力期間中信号をＬＥＤに接続すれば、ＬＥＤの点灯または消灯の状態を視覚により確認することができるので、音量が小さい場合やミュートがかかっている場合でも、音声出力中か否かをユーザが簡単に判断することができる。また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声出力期間中信号を出力している間は、外部から音声認識を開始するべき指示があっても、音声認識処理を行わないようにすることもできる。この場合、当該半導体集積回路装置は、音声出力中は音声認識を行わないので、自己が出力する音声に対して誤って音声認識することを防止することができる。

（５）本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする。

音声合成処理終了イベントは、例えば、音声合成処理部が最後のテキストデータに対応する音声を合成して出力するのを終了したことにより発生させてもよいし、音声合成処理開始イベントが発生してから、音声合成処理部が最後のテキストデータに対応する音声を合成して出力するのに十分な所与の時間が経過したことにより発生させてもよい。

本発明によれば、音声出力終了信号により、音声出力が終了したことを外部から判断することができる。そのため、例えば、音声出力終了信号により、周辺の装置（例えば、空調装置やオーディオ装置）が音量を低下する前の状態に復帰することができる。また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声出力終了信号を音声認識処理の開始を指示する信号として使用してもよい。この場合、当該半導体集積回路装置は、音声合成の終了後に次の音声認識を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。

（６）本発明の半導体集積回路装置は、
前記制御部は、
音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行うことを特徴とする。

（７）本発明の半導体集積回路装置は、
外部から入力されるコマンドを一時的に格納する記憶部と、
前記記憶部に格納されたコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理開始制御信号に基づいて、前記記憶部に格納されたコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする。

外部から入力されるコマンドは、例えば、音声認識処理の開始を指示したり、特定の単語（例えば、「はい」、「いいえ」）のみ認識するように指示したり、特定の言語（例えば、英語）で認識するように指示する等、音声認識処理部に対する何らかの指示を含む。

記憶部は、例えば、フリップフロップを用いたバッファとして構成してもよいし、ＲＡＭであってもよい。

音声認識処理部は、特定話者に対する音声認識処理を行ってもよいし、不特定話者に対する音声認識処理を行ってもよい。前者の場合は、認識率を高めることは容易であるが、予め話者毎にデータを収集する過程（トレーニングと呼ばれることがある）が必要になり使用者に負荷がかかる。後者の場合は、誰に対しても直ぐに使えるため利便性が高いが、話者の情報をあらかじめ記憶することはできないので認識率が落ちるため、語彙を限定して認識させることが行われる。不特定話者に対する音声認識によりユーザを特定するため、例えば、話者があらかじめシステムにキーワードを登録しておき、システムが話者に対してキーワードを導くための質問を画面上で行い、話者が「はい」又は「いいえ」（あるいは、「１」、「２」、「３」、「４」）などの回答を音声により行うことを繰り返し、話者が登録されたキーワードを知っているか否かを判断することにより、システムが話者を認識する。このようなシステムでは、例えば、「はい」又は「いいえ」（あるいは、「１」、「２」、「３」、「４」）のみを音声認識することができればよいので、認識率を向上するとともに、コストを大幅に削減することができ、ＬＳＩ化に向いてる。また、システムによる質問の内容や話者による回答の選択肢を毎回変更すれば、他人に回答を聞かれた場合でもキーワードを知られることはなく、十分なセキュリティを確保することができる。例えば、外部ホストから、音声認識処理部に対して、小規模の内部メモリに回答の選択肢（音声認識すべき単語）を設定するコマンドを毎回送信することにより、実現することができる。

音声認識処理部は、専用回路によるハードウェアとして実現してもよいし、汎用ＣＰＵ上で動作するソフトウェアとして実現してもよい。

音声認識処理開始制御信号は、音声認識処理部が音声認識を開始するタイミングを外部から調整するために使用され、外部ホストが発生させてもよいし、ユーザが所定のボタンを押下することにより発生させてもよい。外部ホストが音声認識処理開始制御信号を発生させる場合は、外部ホストが音声認識結果の解析を行うことができる状態になる度に、音声認識処理開始制御信号を発生させれば、外部ホストが音声認識結果を処理しきれずに誤動作することを防止することができる。ユーザが音声合成処理開始制御信号を発生させる場合は、ユーザが発話する準備ができるまで音声認識の開始を遅らせることができる。さらに、外部ホストを介在することなく音声認識処理開始制御信号を発生させることができるので、外部ホストの負担を削減することができる。

また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声出力の終了を示す信号を音声認識処理開始制御信号として使用してもよい。この場合、当該半導体集積回路装置は、音声合成の終了後に次の音声認識を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。

制御部は、音声認識処理開始制御信号が入力されてから所与の時間を計測するための第３のタイマを有し、当該第３のタイマが当該所与の時間を計測した後に、記憶部に格納されたコマンドを音声認識処理部に転送するように制御するようにしてもよい。この場合、第３のタイマが、ホストとの間の通信速度やホストの負荷を考慮して、音声認識に必要なすべてのコマンドが記憶部に格納されるのに十分な時間を計測するようにすれば、音声認識が誤って行われることを防止することができる。また、第３のタイマが、音声認識処理開始制御信号が入力されてからユーザによる発話の準備が完了するのに適切な時間を計測するようにすれば、音声認識処理部がすぐに音声認識可能な状態になることによりユーザ以外が発生する音声を誤って音声認識する確率を下げることができるとともに、音声認識処理部がすぐに音声認識可能な状態になることによる無駄な消費電流を抑制することができる。第３のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声認識処理開始制御信号が入力されると０に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、記憶部に格納されたコマンドを音声認識処理部に転送するための制御信号を生成するアップカウンタであってもよいし、音声認識処理開始制御信号が入力されると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、０に達した時に、記憶部に格納されたコマンドを音声認識処理部に転送するための制御信号を生成するダウンカウンタであってもよい。

また、制御部は、音声認識に必要なすべてのコマンドが記憶部に格納されたのを検出した時に、記憶部に格納されたコマンドを音声認識処理部に転送するように制御するようにしてもよい。

本発明によれば、音声認識処理開始制御信号が入力されるまで、あるいは、音声認識処理開始制御信号が入力されてから所定の時間が経過するまで、音声認識処理部が音声認識処理を開始するのを遅らせることができる。そのため、音声認識処理開始制御信号の入力から音声認識の開始までの時間を適切に設定すれば、ユーザや外部ホストは、その間に各種の操作を行うことができる。

例えば、音声認識の開始を指示するコマンド（音声認識開始コマンド）が記憶部に格納されるまで、コマンドを音声認識処理部に転送しないことにより、音声認識処理部による音声認識処理の開始を遅らせることができる。例えば、外部ホストとの間の通信速度が遅い場合や、外部ホストのＣＰＵ負荷が一時的に重くなりコマンドの送信が途切れるような場合であっても、すべてのコマンドが記憶部に格納されるまで、音声認識処理の開始を遅らせることができるので、誤った音声認識を防止することができる。また、音声認識処理開始制御信号が入力されてから、ユーザが音声認識の準備ができるまで十分な時間が経過した後に、制御部が音声認識処理の開始コマンドを音声認識処理部に転送することにより、音声認識の開始タイミングを適切に調整することができる。そのため、ユーザによる発話がされることが想定され難い期間における音声認識処理を抑制することができ、ＣＰＵの無駄遣いの防止したり、消費電流を削減することができる。

（８）本発明の半導体集積回路装置は、
外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行う制御部とを含むことを特徴とする。

音声認識処理開始イベントは、例えば、音声認識開始コマンドが記憶部から音声認識処理部に転送されることにより発生させてもよいし、外部から所与のタイミングで発生させてもよい。

制御部は、音声認識処理開始イベントが発生してから所与の時間を計測するための第４のタイマを有し、当該第４のタイマが当該所与の時間を計測した後に、音声認識処理部が音声認識を開始するように制御するようにしてもよい。この場合、第４のタイマが、周辺装置等が音量を低下し、ユーザが発話する準備をするのに十分な時間を計測するようにすれば、音声認識処理部による音声認識率を向上することができる。第４のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声認識処理開始イベントが発生すると０に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、音声認識処理部が音声認識を開始するための制御信号を生成するアップカウンタであってもよいし、音声認識処理開始イベントが発生すると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、０に達した時に、音声認識処理部が音声認識を開始するための制御信号を生成するダウンカウンタであってもよい。

また、制御部は、外部から音声認識の開始を指示する信号が入力された時に、音声認識処理部が音声認識を開始するように制御するようにしてもよい。外部から音声認識の開始を指示する信号は、例えば、周辺の装置から音量を低下したことを示す信号であってもよいし、ユーザが発話をするための準備ができた時に手動で入力する信号であってもよい。

本発明によれば、音声認識処理開始イベントの発生に基づいて音声認識開始予告信号を出力してから所定の時間が経過するまで、音声認識処理部が音声認識を開始するのを遅らせることができる。そのため、音声認識開始予告信号により、周辺の装置（例えば、空調装置やオーディオ装置）が音量を低下したり、ユーザが発話をするための準備をすることができるので、音声認識処理部は、音声認識開始予告信号を出力した後、所与のタイミングで、音声認識を開始することにより、音声認識率を向上することができる。

（９）本発明の半導体集積回路装置は、
前記制御部は、
音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行うことを特徴とする。

本発明によれば、音声認識処理開始制御信号が入力されるまで、あるいは、音声認識処理開始制御信号が入力されてから所定の時間が経過するまで、音声認識処理部が音声認識処理を開始するのを遅らせることと、音声認識処理開始イベントの発生に基づいて音声認識開始予告信号を出力してから所定の時間が経過するまで、音声認識処理部が音声認識を開始するのを遅らせることをそれぞれ独立に制御することができる。

（１０）本発明の半導体集積回路装置は、
前記制御部は、
前記音声認識処理部が音声認識を開始してから終了するまでの期間を示す音声認識期間中信号を外部に出力する制御を行うことを特徴とする。

本発明によれば、音声認識期間中信号により、音声認識中であるか否かを外部から判断することができる。例えば、音声認識期間中信号をＬＥＤに接続すれば、ＬＥＤの点灯または消灯の状態を視覚により確認することができるので、音声認識中か否かをユーザが簡単に判断することができる。また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声認識期間中信号を出力している間は、外部から音声合成を開始するべき指示があっても、音声合成処理を行わないようにすることもできる。この場合、当該半導体集積回路装置は、音声認識中は音声合成および音声出力を行わないので、自己が出力する音声に対して誤って音声認識することを防止することができる。

（１１）本発明の半導体集積回路装置は、
外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする。

音声認識処理終了イベントは、例えば、音声認識処理部が音声認識すべき単語を認識したことにより発生させてもよいし、音声認識処理開始イベントが発生してから、所定の時間経過したことにより発生させてもよい。後者の場合、ユーザによる発話が長時間行われない場合でも、所定の時間が経過すれば音声認識が終了するので、ＣＰＵの無駄使いの防止や消費電流の削減が期待できる。

本発明によれば、音声認識終了信号により、音声認識が終了したことを外部から判断することができる。そのため、例えば、音声認識終了信号により、周辺の装置（例えば、空調装置やオーディオ装置）が音量を低下する前の状態に復帰することができる。また、例えば、音声認識と音声認識を交互に行う半導体集積回路装置においては、音声認識終了信号を音声合成処理の開始を指示する信号として使用してもよい。この場合、当該半導体集積回路装置は、音声認識の終了後に次の音声出力を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。

（１２）本発明の半導体集積回路装置は、
前記制御部は、
音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行うことを特徴とする。

（１３）本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
前記記憶部に格納された音声認識処理に関するコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声合成処理開始制御信号に基づいて、前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御し、音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を生成する制御を行い、前記音声出力終了信号に基づいて、前記記憶部に格納された音声認識処理に関するコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする。

本発明によれば、音声合成処理部は、音声合成処理および合成した音声信号の出力を終了すると音声出力終了信号を出力するので、音声出力終了信号に基づいて、記憶部に格納された音声認識処理に関するコマンドを音声認識処理部に転送すれば、必ず、音声出力の終了後に音声認識処理部が音声認識を開始することができる。従って、音声合成処理部が出力する音声信号によりスピーカ等から発生される音声を、音声認識処理部が誤って認識し、誤った認識結果を外部ホストに転送することにより生じるシステムの誤動作を防止することができる。

さらに、本発明によれば音声合成処理開始制御信号の入力をトリガとして、音声合成処理を開始すると音声合成処理終了後に自動的に音声認識処理を開始することができるので、音声合成処理から音声認識処理に移行する際に外部ホストを介在する必要がなくなり、外部ホストの負担を削減することができるとともに、より簡単に音声合成処理と音声認識処理を連動させることができる。

（１４）本発明は、
上記のいずれかに記載の半導体集積回路装置と、
入力情報を受け付ける手段と、
入力情報に基づき前記半導体集積回路装置により処理された結果を出力するための手段とを含むことを特徴とする電子機器である。

以下、本発明の好適な実施形態について図面を用いて詳細に説明する。なお、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。

１．半導体集積回路装置
図１は、本実施の形態に係る半導体集積回路装置の機能ブロック図である。

本実施の形態に係る半導体集積回路装置１００は、ホストインターフェース部１０を含む。ホストインターフェース部１０は、クロック生成部７０が生成するクロック７６に同期して、ホスト２００との間で音声合成処理や音声認識処理に関するコマンド、テキストデータ、音声認識結果データの通信制御を行う。ホストインターフェース部１０は、音声合成処理に関するコマンド（ＴＴＳコマンド）及びテキストデータを一時的に格納する記憶部として機能するＴＴＳコマンド／データバッファ１２を含む。また、ホストインターフェース部１０は、音声認識処理に関するコマンド（ＡＳＲ（Automatic Speech Recognition）コマンド）を一時的に格納する記憶部として機能するＡＳＲコマンドバッファ１４を含む。

本実施の形態に係る半導体集積回路装置１００は、制御部２０を含む。

制御部２０は、音声合成処理開始制御信号１１０に基づいて、ＴＴＳコマンド／データバッファ１２に格納されたコマンド及びデータを音声合成処理部５０に転送するタイミングを制御する。制御部２０は、このタイミングを管理するための第１のタイマ３０を含んでもよい。すなわち、第１のタイマ３０は、クロック生成部７０が生成するクロック７２で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になるとＴＴＳコマンド／データバッファ１２に格納されたコマンド及びデータを音声合成処理部５０に転送するための制御信号３２を生成する。第１のタイマ３０は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。第１のタイマ３０は、音声合成処理開始制御信号１１０が入力されてから、ＴＴＳコマンド及びテキストデータが音声合成処理部５０に転送されるまでのタイミングを管理する。

制御部２０は、また、音声認識処理開始制御信号１２０に基づいて、ＡＳＲコマンドバッファ１４に格納されたコマンドを音声認識処理部６０に転送するタイミングを制御する。制御部２０は、このタイミングを管理するための第３のタイマ４０を含んでもよい。すなわち、第３のタイマ４０は、クロック生成部７０が生成するクロック７４で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になるとＡＳＲコマンドバッファ１４に格納されたコマンドを音声認識処理部６０に転送するための制御信号４２を生成する。第３のタイマ４０は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。第３のタイマ４０は、音声認識処理開始制御信号１２０が入力されてから、ＡＳＲコマンドが音声合成処理部６０に転送されるまでのタイミングを管理する。

制御部２０は、第２のタイマ３６を含んでもよい。第２のタイマ３６は、音声合成処理部５０が、音声出力開始予告信号１４０を出力してから音声信号３１０及び音声出力期間中信号１５０を出力し始めるまでのタイミングを制御する。すなわち、第２のタイマ３６は、例えば、最初のテキストデータがＴＴＳコマンド／データバッファ１２から音声合成処理部５０に転送されたことを音声合成処理開始イベントとして、クロック生成部７０が生成するクロック８２で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になると音声出力期間中信号１５０の出力を開始するための制御信号３８を生成する。第２のタイマ３６は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。

制御部２０は、例えば、第２のタイマ３６が出力する制御信号に基づいて、音声合成処理部５０が、音声出力期間中信号１５０の出力を開始し、最後のテキストデータに対応する音声信号の出力を終了したことを音声合成処理終了イベントとして、音声出力期間中信号１５０の出力を終了した後、音声出力終了信号１６０を出力するように制御する。

制御部２０は、第４のタイマ４６を含んでもよい。第４のタイマ４６は、音声認識開始予告信号１７０を出力してから音声認識期間中信号１８０を出力し始めるまでのタイミングを制御する。すなわち、第４のタイマ４６は、例えば、音声認識の開始を指示するＡＳＲコマンドがＡＳＲコマンドバッファ１４から音声認識処理部６０に転送されたことを音声認識処理開始イベントとして、クロック生成部７０が生成するクロック８４で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になると音声認識期間中信号１８０の出力を開始するための制御信号４８を生成する。第４のタイマ４６は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。

制御部２０は、例えば、第４のタイマ４６が出力する制御信号に基づいて、音声認識処理部６０が、音声認識期間中信号１８０の出力を開始し、あらかじめ設定された所定の単語（例えば、「はい」または「いいえ」）を認識したことを音声認識処理終了イベントとして、音声認識期間中信号１８０の出力を終了した後、音声認識終了信号１９０を出力するように制御する。

本実施の形態に係る半導体集積回路装置１００は、音声合成処理部５０を含む。音声合成処理部５０は、ＴＴＳコマンド／データバッファ１２から転送されたＴＴＳコマンド及びテキストデータに基づいて、クロック生成部７０が生成するクロック７８に同期して、テキストデータに対応する音声信号を合成し、合成した音声信号３１０を外部に接続されたスピーカ３００に出力する。音声合成処理部５０は、例えば、最初のテキストデータがＴＴＳコマンド／データバッファ１２から音声合成処理部５０に転送されたことを音声合成処理開始イベントとして、音声出力開始予告信号１４０を出力する。音声合成処理部５０の全機能をハードウェアで実現してもよいし、ソフトウェアで実現してもよい。

本実施の形態に係る半導体集積回路装置１００は、音声認識処理部６０を含む。音声認識処理部６０は、ＡＳＲコマンドバッファ１４から転送されたＡＳＲコマンドに基づいて、クロック生成部７０が生成するクロック８０に同期して、外部に接続されたマイク４００から入力される音声信号４１０を認識する処理を行い、音声認識結果データをホストインターフェース１０を介してホスト２００に送信する。音声認識処理部６０は、例えば、音声認識の開始を指示するＡＳＲコマンドがＡＳＲコマンドバッファ１４から音声認識処理部６０に転送されたことを音声認識処理開始イベントとして、音声認識開始予告信号１７０を出力する。音声認識処理部６０の全機能をハードウェアで実現してもよいし、ソフトウェアで実現してもよい。

本実施の形態に係る半導体集積回路装置１００は、クロック生成部７０を含む。クロック生成部７０は、外部から入力される原クロック１３０からクロック７２、７４、７６、７８、８０、８２、８４を生成する。

図２は、本実施の形態に係る半導体集積回路装置における音声合成処理の実行フローを説明するための図である。

以下、図１および図２を参照しながら、本実施の形態に係る半導体集積回路装置１００における音声合成処理の実行フローを説明する。

ホスト２００は、ホストインターフェースを介して、半導体集積回路装置１００に音声合成処理に関するコマンドを送信した後、さらに、音声に変換するテキストデータを送信し、半導体集積回路装置１００は、これらのコマンドやテキストデータをＴＴＳコマンド／データバッファ１２に格納する（ステップＳ１０）。

半導体集積回路装置１００は、外部から音声合成処理開始制御信号１１０が入力されるまで待ち（ステップＳ１２）、音声合成処理開始制御信号１１０が入力されると、制御部２０は、第１のタイマ３０を初期化してカウントを開始する（ステップＳ１４）。

第１のタイマ３０があらかじめ設定された所定の値に一致すると（ステップＳ１６）、ＴＴＳコマンド／データバッファ１２に格納されたコマンドやテキストが音声合成処理部５０に転送され（ステップＳ１８）、音声合成処理部５０は、音声出力開始予告信号１４０を出力する（ステップＳ２０）。

音声合成処理部５０は、音声出力開始予告信号１４０を出力してから、第２のタイマ３６を初期化してカウントを開始する（ステップＳ２２）。

第２のタイマ３６があらかじめ設定された所定の値に一致すると（ステップＳ２４）、音声合成処理部５０は、音声出力期間中信号１５０の出力を開始するとともに音声合成処理および合成した音声信号のスピーカ３００への出力を開始し、例えば、最後のテキストデータに対応する音声信号のスピーカ３００への出力を終了すると、音声出力期間中信号１５０の出力を終了する（ステップＳ２６）。

音声合成処理部５０は、例えば、最後のテキストデータに対応する音声信号の出力を終了すると、音声出力終了信号１６０を出力する（ステップＳ２８）。

図３は、本実施の形態に係る半導体集積回路装置において、音声合成処理の実行時における各信号の発生タイミングを説明するための図である。

以下、図１および図３を参照しながら、本実施の形態に係る半導体集積回路装置１００において、音声合成処理の実行時における各信号の発生タイミングを説明する。

時刻Ｔ１〜Ｔ２において、ホスト２００は、ホストインターフェースを介して、半導体集積回路装置１００に音声合成処理に関するコマンドを送信した後、さらに、音声に変換するテキストデータを送信し、半導体集積回路装置１００は、これらのコマンドやテキストデータをＴＴＳコマンド／データバッファ１２に格納する。

時刻Ｔ３において、外部入力される音声合成処理開始制御信号１１０が立ち上がると、時刻Ｔ４において第１のタイマ３０が初期化される。

時刻Ｔ５において、音声合成処理開始制御信号１１０が立ち下がり、第１のタイマ３０がカウントを開始する。

時刻Ｔ６において、第１のタイマ３０があらかじめ設定された所定の値に一致すると、ＴＴＳコマンド／データバッファ１２に格納されたコマンドやテキストが音声合成処理部５０に転送されるとともに、音声出力開始予告信号１４０が立ち上がり、時刻Ｔ７において第２のタイマ３６が初期化される。

時刻Ｔ８において、音声出力開始予告信号１４０が立ち下がり、第２のタイマ３６がカウントを開始する。

時刻Ｔ９において、第２のタイマ３６があらかじめ設定された所定の値に一致すると、音声合成処理部５０は、音声合成処理および合成した音声信号３１０のスピーカ３００への出力を開始し、音声出力期間中信号１５０が立ち上がる。

時刻Ｔ１０において、例えば、最後のテキストデータに対応する音声信号３１０のスピーカ３００への出力を終了すると、音声出力期間中信号１５０が立ち下がる。

時刻Ｔ１１において、音声出力終了信号１６０が立ち上がり、時刻Ｔ１２において音声出力終了信号１６０が立ち下がることにより、一連の音声合成処理が終了する。

図４は、本実施の形態に係る半導体集積回路装置における音声認識処理の実行フローを説明するための図である。

以下、図１および図４を参照しながら、本実施の形態に係る半導体集積回路装置１００における音声認識処理の実行フローを説明する。

ホスト２００は、ホストインターフェースを介して、半導体集積回路装置１００に音声認識処理に関するコマンドを送信し、半導体集積回路装置１００は、コマンドをＡＳＲコマンドバッファ１４に格納する（ステップＳ３０）。

半導体集積回路装置１００は、外部から音声認識処理開始制御信号１２０が入力されるまで待ち（ステップＳ３２）、音声認識処理開始制御信号１２０が入力されると、制御部２０は、第３のタイマ４０を初期化してカウントを開始する（ステップＳ３４）。

第３のタイマ４０があらかじめ設定された所定の値に一致すると（ステップＳ３６）、ＡＳＲコマンドバッファ１４に格納されたコマンドが音声認識処理部６０に転送され（ステップＳ３８）、音声認識処理部６０は、音声認識開始予告信号１７０を出力する（ステップＳ４０）。

音声認識処理部６０は、音声認識開始予告信号１７０を出力してから、第４のタイマ４６の初期化してカウントを開始する（ステップＳ４２）。

第４のタイマ４６があらかじめ設定された所定の値に一致すると（ステップＳ４４）、音声認識処理部６０は、音声認識期間中信号１８０の出力を開始するとともにマイク４００から入力された音声信号に対する音声認識処理を開始し、例えば、あらかじめ設定された所定の単語を音声認識すると、音声認識期間中信号１８０の出力を終了する（ステップＳ４６）。

音声認識処理部６０は、例えば、あらかじめ設定された所定の単語を音声認識すると、音声認識の結果データをホストインターフェース部１０を介してホスト２００に送信するとともに、音声認識終了信号１９０を出力し音声認識処理を終了する（ステップＳ４８）。

図５は、本実施の形態に係る半導体集積回路装置において、音声認識処理の実行時における各信号の発生タイミングを説明するための図である。

以下、図１および図５を参照しながら、本実施の形態に係る半導体集積回路装置１００において、音声認識処理の実行時における各信号の発生タイミングを説明する。

時刻Ｔ１〜Ｔ２において、ホスト２００は、ホストインターフェースを介して、半導体集積回路装置１００に音声認識処理に関するコマンドを送信し、半導体集積回路装置１００は、コマンドをＡＳＲコマンドバッファ１４に格納する。

時刻Ｔ３において、外部入力される音声認識処理開始制御信号１２０が立ち上がると、時刻Ｔ４において第３のタイマ４０が初期化される。

時刻Ｔ５において、音声認識処理開始制御信号１２０が立ち下がり、第３のタイマ４０がカウントを開始する。

時刻Ｔ６において、第３のタイマ４０があらかじめ設定された所定の値に一致すると、ＡＳＲコマンドバッファ１４に格納されたコマンドが音声認識処理部６０に転送されるとともに、音声認識開始予告信号１７０が立ち上がり、時刻Ｔ７において第４のタイマ４６が初期化される。

時刻Ｔ８において、音声認識開始予告信号１７０が立ち下がり、第４のタイマ４６がカウントを開始する。

時刻Ｔ９において、第４のタイマ４６があらかじめ設定された所定の値に一致すると、音声認識処理部６０は、マイク４００から入力された音声信号４１０に対する音声認識処理を開始し、音声認識期間中信号１８０が立ち上がる。

時刻Ｔ１０において、例えば、あらかじめ設定された所定の単語を音声認識すると、音声認識期間中信号１８０が立ち下がる。

時刻Ｔ１１において、音声認識終了信号１９０が立ち上がり、時刻Ｔ１２において音声認識終了信号１６０が立ち下がり、一連の音声認識処理が終了する。

図６は、本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行うための信号接続例を示す図である。図１と同じ構成には同じ番号を付しており説明を省略する。

図６において、音声出力終了信号１６０が音声認識処理開始制御信号１２０として使用される。音声合成処理部５０は、音声合成処理および合成した音声信号３１０の出力を終了すると音声出力終了信号１６０を出力するので、音声出力終了信号１６０を音声認識処理開始制御信号１２０として使用することにより、必ず、音声出力の終了後に音声認識を開始することができる。従って、合成した音声信号３１０によりスピーカ３００から発生される音声を、音声認識処理部６０が誤って認識し、誤った認識結果をホストに転送することにより生じるシステムの誤動作を防止することができる。

さらに、図６の接続をした場合、音声合成処理開始制御信号の入力をトリガとして、音声合成処理を開始すると音声合成処理終了後に自動的に音声認識処理を開始することができるので、音声合成処理から音声認識処理に移行する際にホストを介在する必要がなくなり、ホストの負担を削減することができるとともに、より簡単に音声合成処理と音声認識処理を連動させることができる。

図７は、図６の接続をした本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行う場合の実行フローを説明するための図である。

以下、図６、図７を参照しながら、本実施の形態に係る音声信号処理集積回路装置１００が、音声合成処理および音声認識処理を連動して行う場合の実行フローを説明する。

ホスト２００は、ホストインターフェースを介して、半導体集積回路装置１００に音声合成処理に関するコマンドやデータ、音声認識処理に関するコマンドを送信し、半導体集積回路装置１００は、これらのコマンドやテキストデータをＴＴＳコマンド／データバッファ１２およびＡＳＲコマンドバッファ１４に格納する（ステップＳ５０）。例えば、「はい、いいえで答えてください」という文を音声合成する場合、必要な音素片データを内部ＲＡＭ（図示せず）に書き込むコマンド、音声合成処理の開始を指示するコマンドやテキストデータがＴＴＳコマンド／データバッファ１２に格納される。また、「はい」又は「いいえ」のいずれかを音声認識する場合は、「はい」又は「いいえ」を音声認識するように指示するコマンドや音声認識の開始を指示するコマンドがＡＳＲコマンドバッファ１４に格納される。

制御部２０は、外部から音声合成処理開始制御信号１１０が入力されると第１のタイマ３０のカウントを開始し、第１のタイマ３０があらかじめ設定された所定の値に一致すると、ＴＴＳコマンド／データバッファ１２に格納されたコマンドやテキストを音声合成処理部５０に転送し、音声合成処理部５０は、音声出力予告信号１４０を出力するとともに音声合成を開始し、第２のタイマ３６が所定の値に一致すると、合成した音声信号の出力を開始し、例えば、「はい、いいえで答えてください」というプロントメッセージを音声出力する（ステップＳ５２）。音声合成処理部５０がプロンプトメッセージを出力している期間は、音声認識処理部６０が音声認識処理を行わないようにするために、音声出力終了信号１６０を音声認識処理開始制御信号として音声認識処理開始のトリガ入力に使用する。

音声合成処理部５０は、音声出力を終了すると、音声出力終了信号１６０を出力するので、音声認識処理開始制御信号として音声出力終了信号１６０を使用することにより、音声出力終了後にＡＳＲコマンドバッファ１４から音声認識処理部６０にコマンドが転送され、音声認識処理部６０が音声認識を開始する（ステップＳ５４）。

音声認識処理部６０が、例えば、ユーザによる「はい」または「いいえ」の音声を認識した後、ホスト２００が認識結果を読み出し（ステップＳ５６）、音声合成処理および音声認識処理の一連の連係動作が終了する。なお、音声合成処理から音声認識処理に移行する際にホストを介在する必要がないので、ホストの負担を削減することができるとともに、より簡単に音声合成処理と音声認識処理を連動させることができる。

２．電子機器
図８に、本実施の形態の電子機器のブロック図の一例を示す。本電子機器８００は、半導体集積回路装置（ＡＳＩＣ）８１０、入力部８２０、メモリ８３０、電源生成部８４０、ＬＣＤ８５０、音出力部８６０を含む。

ここで、入力部８２０は、種々のデータを入力するためのものである。半導体集積回路装置８１０は、この入力部８２０により入力されたデータに基づいて種々の処理を行うことになる。メモリ８３０は、半導体集積回路装置８１０などの作業領域となるものである。電源生成部８４０は、電子機器８００で使用される各種電源を生成するためのものである。ＬＣＤ８５０は、電子機器が表示する各種の画像（文字、アイコン、グラフィック等）を出力するためのものである。

音出力部８６０は、電子機器８００が出力する各種の音（音声、ゲーム音等）を出力するためのものであり、その機能は、スピーカなどのハードウェアにより実現できる。

図９（Ａ）に、電子機器の１つである携帯電話９５０の外観図の例を示す。この携帯電話９５０は、入力部として機能するダイヤルボタン９５２や、電話番号や名前やアイコンなどを表示するＬＣＤ９５４や、音出力部として機能し音声を出力するスピーカ９５６を備える。

図９（Ｂ）に、電子機器の１つである携帯型ゲーム装置９６０の外観図の例を示す。この携帯型ゲーム装置９６０は、入力部として機能する操作ボタン９６２、十字キー９６４や、ゲーム画像を表示するＬＣＤ９６６や、音出力部として機能しゲーム音を出力するスピーカ９６８を備える。

図９（Ｃ）に、電子機器の１つであるパーソナルコンピュータ９７０の外観図の例を示す。このパーソナルコンピュータ９７０は、入力部として機能するキーボード９７２や、文字、数字、グラフィックなどを表示するＬＣＤ９７４、音出力部９７６を備える。

本実施の形態の半導体集積回路装置を図９（Ａ）〜図９（Ｃ）の電子機器に組み込むことにより、低消費電力でコストパフォーマンスの高い電子機器を提供することができる。

なお、本実施形態を利用できる電子機器としては、図９（Ａ）、（Ｂ）、（Ｃ）に示すもの以外にも、携帯型情報端末、ページャー、電子卓上計算機、タッチパネルを備えた装置、プロジェクタ、ワードプロセッサ、ビューファインダ型又はモニタ直視型のビデオテープレコーダ、カーナビゲーション装置等のＬＣＤを使用する種々の電子機器を考えることができる。

なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

本実施の形態に係る半導体集積回路装置の機能ブロック図。本実施の形態に係る半導体集積回路装置における音声合成処理の実行フローを説明するための図。本実施の形態に係る半導体集積回路装置において、音声合成処理の実行時における各信号の発生タイミングを説明するための図。本実施の形態に係る半導体集積回路装置における音声認識処理の実行フローを説明するための図。本実施の形態に係る半導体集積回路装置において、音声認識処理の実行時における各信号の発生タイミングを説明するための図。本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行うための信号接続例を示す図。本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行う場合の実行フローを説明するための図。半導体集積回路装置を含む電子機器のブロック図の一例を示す。図９（Ａ）（Ｂ）（Ｃ）は、種々の電子機器の外観図の例である。

符号の説明

１０ホストインターフェース部、１２ＴＴＳコマンド／データバッファ、１４ＡＳＲコマンドバッファ、２０制御部、３０第１のタイマ、３２制御信号、３６第２のタイマ、３８制御信号、４０第３のタイマ、４２制御信号、４６第４のタイマ、４８制御信号、５０音声合成処理部、６０音声認識処理部、７０クロック生成部、７２クロック、７４クロック、７６クロック、７８クロック、８０クロック、８２クロック、８４クロック、１００半導体集積回路装置、１１０音声合成処理開始制御信号、１２０音声認識処理開始制御信号、１３０原クロック、１４０音声出力開始予告信号、１５０音声出力期間中信号、１６０音声出力終了信号、１７０音声認識開始予告信号、１８０音声認識期間中信号、１９０音声認識終了信号、２００ホスト、３００スピーカ、３１０合成した音声信号、４００マイク、４１０音声信号、８００電子機器、８１０半導体集積回路装置、８２０入力部、８３０メモリ、８４０電源生成部、８５０ＬＣＤ、８６０音出力部、９５０携帯電話、９５２ダイヤルボタン、９５４ＬＣＤ、９５６スピーカ、９６０携帯型ゲーム装置、９６２操作ボタン、９６４十字キー、９６６ＬＣＤ、９６８スピーカ、９７０パーソナルコンピュータ、９７２キーボード、９７６音出力部

Claims

外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
前記記憶部に格納されたコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理開始制御信号に基づいて、前記記憶部に格納されたコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御する制御部とを含むことを特徴とする半導体集積回路装置。
外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
請求項１において、
前記制御部は、
音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行うことを特徴とする半導体集積回路装置。
請求項２又は３において、
前記制御部は、
前記音声合成処理部が合成した音声信号の外部への出力を開始してから終了するまでの期間を示す音声出力期間中信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
請求項１乃至４において、
前記制御部は、
音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
外部から入力されるコマンドを一時的に格納する記憶部と、
前記記憶部に格納されたコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理開始制御信号に基づいて、前記記憶部に格納されたコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする半導体集積回路装置。
外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
請求項７において、
前記制御部は、
音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行うことを特徴とする半導体集積回路装置。
請求項８又は９において、
前記制御部は、
前記音声認識処理部が音声認識を開始してから終了するまでの期間を示す音声認識期間中信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
請求項７乃至１０において、
前記制御部は、
音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
前記記憶部に格納された音声認識処理に関するコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声合成処理開始制御信号に基づいて、前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御し、音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を生成する制御を行い、前記音声出力終了信号に基づいて、前記記憶部に格納された音声認識処理に関するコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする半導体集積回路装置。
請求項１乃至１３のいずれかに記載の半導体集積回路装置と、
入力情報を受け付ける手段と、
入力情報に基づき前記半導体集積回路装置により処理された結果を出力するための手段とを含むことを特徴とする電子機器。