JP2008129412A - 半導体集積回路装置、電子機器 - Google Patents

半導体集積回路装置、電子機器 Download PDF

Info

Publication number
JP2008129412A
JP2008129412A JP2006315658A JP2006315658A JP2008129412A JP 2008129412 A JP2008129412 A JP 2008129412A JP 2006315658 A JP2006315658 A JP 2006315658A JP 2006315658 A JP2006315658 A JP 2006315658A JP 2008129412 A JP2008129412 A JP 2008129412A
Authority
JP
Japan
Prior art keywords
voice
speech
output
processing unit
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006315658A
Other languages
English (en)
Other versions
JP4471128B2 (ja
Inventor
Masamichi Izumida
正道 泉田
Masayuki Murakami
雅行 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2006315658A priority Critical patent/JP4471128B2/ja
Priority to US11/979,724 priority patent/US8942982B2/en
Publication of JP2008129412A publication Critical patent/JP2008129412A/ja
Application granted granted Critical
Publication of JP4471128B2 publication Critical patent/JP4471128B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Semiconductor Integrated Circuits (AREA)

Abstract

【課題】音声認識処理や音声合成処理の動作タイミングを外部から制御することにより、又は音声認識処理や音声合成処理を開始することを事前に予告するなど、ユーザや周辺装置等との連携をとることを可能とし、より利便性の高い半導体集積回路装置を提供する。
【解決手段】半導体集積回路装置は、記憶部に格納されたコマンド及びテキストデータに基づいて、テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、音声合成処理開始制御信号に基づいて、コマンド及びテキストデータを音声合成処理部に転送するタイミングを制御する制御部とを含む。制御部は、音声合成処理開始イベントの発生に基づいて、音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行う。
【選択図】図1

Description

本発明は、半導体集積回路装置、電子機器に関する。
音声合成処理や音声認識処理を行う装置は様々な分野で利用されており、例えば、対話型のカーナビゲーションシステムにおける音声ガイダンスやドライバーによる音声コマンド入力などの機能を実現するために利用されている。従来の音声合成装置や音声認識装置では、外部ホストから送信されるコマンドやデータを受信することにより、音声合成や音声認識のタイミングを決定していた。このような音声合成装置や音声認識装置は、ホストからのコマンドやデータさえあれば特別な制御を必要とすることなく、音声合成や音声認識を行うことができるという利点がある。
特開平09−006389号公報
しかし、逆に、外部の制御信号により音声合成や音声認識のタイミングを直接的に制御することは行われていなかったため、周辺の環境に応じた適切なタイミングで音声合成や音声認識をすることができない場合もあり、ユーザによる音声の聞き取りを困難にしたり、音声認識率が低下する場合もあった。さらに、音声合成や音声認識を行っていることが外部から認識できない場合もあり、応用分野によってはアプリケーションの構築が難しい場合もあった。
本発明は、以上のような問題点に鑑みてなされたものであり、音声認識処理や音声合成処理の動作タイミングを外部から制御し、又は音声認識処理や音声合成処理を開始することを事前に予告するなど、ユーザや周辺装置等との連携をとりながら音声合成処理又は音声認識処理を行うことを可能とする、より利便性の高い半導体集積回路装置を提供することを目的とする。
(1)本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
前記記憶部に格納されたコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理開始制御信号に基づいて、前記記憶部に格納されたコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御する制御部とを含むことを特徴とする。
外部から入力されるコマンドは、例えば、音声合成処理の開始を指示したり、音声合成に必要な音素片データを内部メモリに書き込む指示をする等、音声合成処理部に対する何らかの指示を含む。
記憶部は、例えば、フリップフロップを用いたバッファとして構成してもよいし、RAM(Random Access Memory)であってもよい。
音声合成処理部は、ADPCM(Adaptive Differential Pulse Code Modulation)やMP3(MPEG-1 Audio Layer-3)、AAC(Advanced Audio Coding)等の各種方式により圧縮・符号化された音声信号を復元して再生する処理を行ってもよいし、テキストデータから対応する音声を合成するTTS(Text To Speech)方式の音声合成処理を行ってもよい。TTS方式は、パラメトリック方式であってもよいし、コンキャティネイティブ方式であってもよいし、コーパスベース方式であってもよい。パラメトリック方式では、人体の発声過程をモデル化して音声を合成する。コンキャティネイティブ方式では、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして音声を合成する。コーパスベース方式では、コンキャティネイティブ方式の発展形として言語ベースの解析から音声への組み立てを行って実声データから合成音声を形成する。いずれの方式でも、文章から音に変換する前に、SHIFT−JISコードなどで表記されたテキスト表現から、発音させるべき「読み」への変換辞書(データベース)を持つことが必須である。さらに、コンキャティネイティブ方式やコーパスベース方式では、「読み」から「音素」への辞書(データベース)も必要である。
音声合成処理部は、専用回路によるハードウェアとして実現してもよいし、汎用CPU上で動作するソフトウェアとして実現してもよい。
音声合成処理開始制御信号は、音声合成処理部が音声合成および音声出力(発話)を開始するタイミングを外部から指示するために使用され、外部ホストが発生させてもよいし、ユーザが所定のボタンを押下することにより発生させてもよい。外部ホストが音声合成処理開始制御信号を発生させる場合は、外部ホストがまとまった一連の文章に対応するテキストデータをすべて送信する度に、音声合成処理開始制御信号を発生させれば、一連の文章が不自然に途切れて発話されることなく、文章間に適切な無音期間を挿入することもできる。ユーザが音声合成処理開始制御信号を発生させる場合は、ユーザが音声を聞き取る準備ができるまで発話を遅らせることができる。さらに、外部ホストを介在することなく音声合成処理開始制御信号を発生させることができるので、外部ホストの負担を削減することができる。
また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声認識の終了を示す信号を音声合成処理開始制御信号として使用してもよい。この場合、当該半導体集積回路装置は、音声認識の終了後に次の音声出力を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。
制御部は、音声合成処理開始制御信号が入力されてから所与の時間を計測するための第1のタイマを有し、当該第1のタイマが当該所与の時間を計測した後に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するように制御するようにしてもよい。この場合、第1のタイマが、ホストとの間の通信速度やホストの負荷を考慮して、まとまって発話されるべき一連の文章に対応するすべてのテキストデータが記憶部に格納されるのに十分な時間を計測するようにすれば、当該文章に対応する音声が不自然に途切れて出力されることを防止することができる。第1のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声合成処理開始制御信号が入力されると0に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するための制御信号を生成するアップカウンタであってもよいし、音声合成処理開始制御信号が入力されると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、0に達した時に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するための制御信号を生成するダウンカウンタであってもよい。
また、制御部は、まとまって発話されるべき一連の文章に対する最後のテキストデータが記憶部に格納されたのを検出した時に、記憶部に格納されたコマンド及びテキストデータを音声合成処理部に転送するように制御するようにしてもよい。
制御部は、専用回路によるハードウェアとして実現してもよいし、汎用CPU上で動作するソフトウェアとして実現してもよい。
本発明によれば、音声合成処理開始制御信号が入力されるまで、あるいは、音声合成処理開始制御信号が入力されてから所定の時間が経過するまで、音声合成処理部が音声合成処理および音声出力を開始するのを遅らせることができる。そのため、音声合成処理開始制御信号の入力から音声合成および音声出力の開始までの時間を適切に設定すれば、ユーザや外部ホストは、その間に各種の操作を行うことができる。
例えば、音声合成の開始を指示するコマンド(音声合成開始コマンド)および音声合成して音声出力すべき所定の文章(例えば、「はい、いいえで答えて下さい。」)に対応するすべてのテキストデータが記憶部に格納されるまで、音声合成開始コマンド及びテキストデータを音声合成処理部に転送しないことにより、音声合成処理部による音声合成処理および音声出力の開始を遅らせることができる。例えば、外部ホストとの間の通信速度が遅い場合や、外部ホストのCPU負荷が一時的に重くなりテキストデータの送信が途切れるような場合であっても、音声合成開始コマンド及びすべてのテキストデータが記憶部に格納されるまで、音声合成処理および音声出力の開始を遅らせることができるので、所定の文章を途切れることなく発話することができる。また、例えば、ユーザがボタンを押下することにより音声合成処理開始制御信号を発生させるようにすれば、本発明に係る半導体集積回路装置が音声出力を開始するまでに、ユーザが音声を聞き取るための準備を適切に行うことができる。
(2)本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行う制御部とを含むことを特徴とする。
音声合成処理開始イベントは、例えば、音声合成開始コマンド又は最初のテキストデータが記憶部から音声合成処理部に転送されることにより発生させてもよいし、外部から所与のタイミングで発生させてもよい。
制御部は、音声合成処理開始イベントの発生の後、所与のタイミングで、音声合成処理部が音声合成処理を開始し、合成した音声信号を直ちに外部に出力するように制御してもよいし、音声合成処理開始イベントの発生の後、音声合成処理部が直ちに音声合成処理を開始し、所与のタイミングで、合成した音声信号の外部への出力を開始するように制御してもよい。
制御部は、音声合成処理開始イベントが発生してから所与の時間を計測するための第2のタイマを有し、当該第2のタイマが当該所与の時間を計測した後に、音声合成処理部が合成した音声信号の外部への出力を開始するように制御するようにしてもよい。この場合、第2のタイマが、周辺装置等が音量を低下し、ユーザが音声を聞く準備をするのに十分な時間を計測するようにすれば、音声合成処理部が出力する音声をユーザが聞き取りやすくすることができる。第2のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声合成処理開始イベントが発生すると0に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、音声合成処理部が合成した音声信号の外部への出力を開始するための制御信号を生成するアップカウンタであってもよいし、音声合成処理開始イベントが発生すると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、0に達した時に、音声合成処理部が合成した音声信号の外部への出力を開始するための制御信号を生成するダウンカウンタであってもよい。
また、制御部は、外部から音声出力の開始を指示する信号が入力された時に、音声合成処理部が合成した音声信号の外部への出力を開始するように制御するようにしてもよい。外部から音声出力の開始を指示する信号は、例えば、周辺の装置から音量を低下したことを示す信号であってもよいし、ユーザが音声の聞き取りのための準備ができた時に手動で入力する信号であってもよい。
本発明によれば、音声合成処理開始イベントの発生に基づいて音声出力開始予告信号を出力してから所定の時間が経過するまで、音声合成処理部が音声信号の出力を開始するのを遅らせることができる。そのため、音声出力開始予告信号の出力から音声出力を開始するまでの時間を適切に設定すれば、ユーザや外部の周辺装置等は、音声出力開始予告信号を検出することにより、本発明に係る半導体集積回路装置が音声信号の出力を開始する前に、各種の操作を行うことができる。例えば、音声出力開始予告信号により、周辺の装置(例えば、空調装置やオーディオ装置)が音量を低下したり、ユーザが音声を聞き取る準備をすることができるので、音声合成処理部は、音声出力開始予告信号を出力した後、所与のタイミングで、合成した音声信号を出力することにより、ユーザが音声を聞き取りやすくすることができる。また、例えば、音声出力開始予告信号をLEDに接続し、本発明に係る半導体集積回路装置が何らかの警告を音声出力する前に、音声出力開始予告信号によるLEDの点滅動作に対して、ユーザが周辺のオーディオ装置等のボリュームを手動で下げる等すれば、ユーザが警告を聞き逃すリスクを低減することができる。
(3)本発明の半導体集積回路装置は、
前記制御部は、
音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行うことを特徴とする。
本発明によれば、音声合成処理開始制御信号が入力されるまで、あるいは、音声合成処理開始制御信号が入力されてから所定の時間が経過するまで、音声合成処理部が音声合成処理および音声信号出力を開始するのを遅らせることと、音声合成処理開始イベントの発生に基づいて音声出力開始予告信号を出力してから所定の時間が経過するまで、音声合成処理部が音声信号出力を開始するのを遅らせることをそれぞれ独立に制御することができる。
(4)本発明の半導体集積回路装置は、
前記制御部は、
前記音声合成処理部が合成した音声信号の外部への出力を開始してから終了するまでの期間を示す音声出力期間中信号を外部に出力する制御を行うことを特徴とする。
本発明によれば、音声出力期間中信号により、音声出力中であるか否かを外部から判断することができる。例えば、音声出力期間中信号をLEDに接続すれば、LEDの点灯または消灯の状態を視覚により確認することができるので、音量が小さい場合やミュートがかかっている場合でも、音声出力中か否かをユーザが簡単に判断することができる。また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声出力期間中信号を出力している間は、外部から音声認識を開始するべき指示があっても、音声認識処理を行わないようにすることもできる。この場合、当該半導体集積回路装置は、音声出力中は音声認識を行わないので、自己が出力する音声に対して誤って音声認識することを防止することができる。
(5)本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする。
音声合成処理終了イベントは、例えば、音声合成処理部が最後のテキストデータに対応する音声を合成して出力するのを終了したことにより発生させてもよいし、音声合成処理開始イベントが発生してから、音声合成処理部が最後のテキストデータに対応する音声を合成して出力するのに十分な所与の時間が経過したことにより発生させてもよい。
本発明によれば、音声出力終了信号により、音声出力が終了したことを外部から判断することができる。そのため、例えば、音声出力終了信号により、周辺の装置(例えば、空調装置やオーディオ装置)が音量を低下する前の状態に復帰することができる。また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声出力終了信号を音声認識処理の開始を指示する信号として使用してもよい。この場合、当該半導体集積回路装置は、音声合成の終了後に次の音声認識を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。
(6)本発明の半導体集積回路装置は、
前記制御部は、
音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行うことを特徴とする。
(7)本発明の半導体集積回路装置は、
外部から入力されるコマンドを一時的に格納する記憶部と、
前記記憶部に格納されたコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理開始制御信号に基づいて、前記記憶部に格納されたコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする。
外部から入力されるコマンドは、例えば、音声認識処理の開始を指示したり、特定の単語(例えば、「はい」、「いいえ」)のみ認識するように指示したり、特定の言語(例えば、英語)で認識するように指示する等、音声認識処理部に対する何らかの指示を含む。
記憶部は、例えば、フリップフロップを用いたバッファとして構成してもよいし、RAMであってもよい。
音声認識処理部は、特定話者に対する音声認識処理を行ってもよいし、不特定話者に対する音声認識処理を行ってもよい。前者の場合は、認識率を高めることは容易であるが、予め話者毎にデータを収集する過程(トレーニングと呼ばれることがある)が必要になり使用者に負荷がかかる。後者の場合は、誰に対しても直ぐに使えるため利便性が高いが、話者の情報をあらかじめ記憶することはできないので認識率が落ちるため、語彙を限定して認識させることが行われる。不特定話者に対する音声認識によりユーザを特定するため、例えば、話者があらかじめシステムにキーワードを登録しておき、システムが話者に対してキーワードを導くための質問を画面上で行い、話者が「はい」又は「いいえ」(あるいは、「1」、「2」、「3」、「4」)などの回答を音声により行うことを繰り返し、話者が登録されたキーワードを知っているか否かを判断することにより、システムが話者を認識する。このようなシステムでは、例えば、「はい」又は「いいえ」(あるいは、「1」、「2」、「3」、「4」)のみを音声認識することができればよいので、認識率を向上するとともに、コストを大幅に削減することができ、LSI化に向いてる。また、システムによる質問の内容や話者による回答の選択肢を毎回変更すれば、他人に回答を聞かれた場合でもキーワードを知られることはなく、十分なセキュリティを確保することができる。例えば、外部ホストから、音声認識処理部に対して、小規模の内部メモリに回答の選択肢(音声認識すべき単語)を設定するコマンドを毎回送信することにより、実現することができる。
音声認識処理部は、専用回路によるハードウェアとして実現してもよいし、汎用CPU上で動作するソフトウェアとして実現してもよい。
音声認識処理開始制御信号は、音声認識処理部が音声認識を開始するタイミングを外部から調整するために使用され、外部ホストが発生させてもよいし、ユーザが所定のボタンを押下することにより発生させてもよい。外部ホストが音声認識処理開始制御信号を発生させる場合は、外部ホストが音声認識結果の解析を行うことができる状態になる度に、音声認識処理開始制御信号を発生させれば、外部ホストが音声認識結果を処理しきれずに誤動作することを防止することができる。ユーザが音声合成処理開始制御信号を発生させる場合は、ユーザが発話する準備ができるまで音声認識の開始を遅らせることができる。さらに、外部ホストを介在することなく音声認識処理開始制御信号を発生させることができるので、外部ホストの負担を削減することができる。
また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声出力の終了を示す信号を音声認識処理開始制御信号として使用してもよい。この場合、当該半導体集積回路装置は、音声合成の終了後に次の音声認識を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。
制御部は、音声認識処理開始制御信号が入力されてから所与の時間を計測するための第3のタイマを有し、当該第3のタイマが当該所与の時間を計測した後に、記憶部に格納されたコマンドを音声認識処理部に転送するように制御するようにしてもよい。この場合、第3のタイマが、ホストとの間の通信速度やホストの負荷を考慮して、音声認識に必要なすべてのコマンドが記憶部に格納されるのに十分な時間を計測するようにすれば、音声認識が誤って行われることを防止することができる。また、第3のタイマが、音声認識処理開始制御信号が入力されてからユーザによる発話の準備が完了するのに適切な時間を計測するようにすれば、音声認識処理部がすぐに音声認識可能な状態になることによりユーザ以外が発生する音声を誤って音声認識する確率を下げることができるとともに、音声認識処理部がすぐに音声認識可能な状態になることによる無駄な消費電流を抑制することができる。第3のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声認識処理開始制御信号が入力されると0に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、記憶部に格納されたコマンドを音声認識処理部に転送するための制御信号を生成するアップカウンタであってもよいし、音声認識処理開始制御信号が入力されると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、0に達した時に、記憶部に格納されたコマンドを音声認識処理部に転送するための制御信号を生成するダウンカウンタであってもよい。
また、制御部は、音声認識に必要なすべてのコマンドが記憶部に格納されたのを検出した時に、記憶部に格納されたコマンドを音声認識処理部に転送するように制御するようにしてもよい。
制御部は、専用回路によるハードウェアとして実現してもよいし、汎用CPU上で動作するソフトウェアとして実現してもよい。
本発明によれば、音声認識処理開始制御信号が入力されるまで、あるいは、音声認識処理開始制御信号が入力されてから所定の時間が経過するまで、音声認識処理部が音声認識処理を開始するのを遅らせることができる。そのため、音声認識処理開始制御信号の入力から音声認識の開始までの時間を適切に設定すれば、ユーザや外部ホストは、その間に各種の操作を行うことができる。
例えば、音声認識の開始を指示するコマンド(音声認識開始コマンド)が記憶部に格納されるまで、コマンドを音声認識処理部に転送しないことにより、音声認識処理部による音声認識処理の開始を遅らせることができる。例えば、外部ホストとの間の通信速度が遅い場合や、外部ホストのCPU負荷が一時的に重くなりコマンドの送信が途切れるような場合であっても、すべてのコマンドが記憶部に格納されるまで、音声認識処理の開始を遅らせることができるので、誤った音声認識を防止することができる。また、音声認識処理開始制御信号が入力されてから、ユーザが音声認識の準備ができるまで十分な時間が経過した後に、制御部が音声認識処理の開始コマンドを音声認識処理部に転送することにより、音声認識の開始タイミングを適切に調整することができる。そのため、ユーザによる発話がされることが想定され難い期間における音声認識処理を抑制することができ、CPUの無駄遣いの防止したり、消費電流を削減することができる。
(8)本発明の半導体集積回路装置は、
外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行う制御部とを含むことを特徴とする。
音声認識処理開始イベントは、例えば、音声認識開始コマンドが記憶部から音声認識処理部に転送されることにより発生させてもよいし、外部から所与のタイミングで発生させてもよい。
制御部は、音声認識処理開始イベントが発生してから所与の時間を計測するための第4のタイマを有し、当該第4のタイマが当該所与の時間を計測した後に、音声認識処理部が音声認識を開始するように制御するようにしてもよい。この場合、第4のタイマが、周辺装置等が音量を低下し、ユーザが発話する準備をするのに十分な時間を計測するようにすれば、音声認識処理部による音声認識率を向上することができる。第4のタイマは、フリップフロップを用いたカウンタとして、所定のクロックにより所定の数をカウントすることにより、所与の時間を計測するようにしてもよい。例えば、音声認識処理開始イベントが発生すると0に初期化された後アップカウントを行い、所与の時間に対応する所定の数に達した時に、音声認識処理部が音声認識を開始するための制御信号を生成するアップカウンタであってもよいし、音声認識処理開始イベントが発生すると所与の時間に対応する所定の数に初期化された後ダウンカウントを行い、0に達した時に、音声認識処理部が音声認識を開始するための制御信号を生成するダウンカウンタであってもよい。
また、制御部は、外部から音声認識の開始を指示する信号が入力された時に、音声認識処理部が音声認識を開始するように制御するようにしてもよい。外部から音声認識の開始を指示する信号は、例えば、周辺の装置から音量を低下したことを示す信号であってもよいし、ユーザが発話をするための準備ができた時に手動で入力する信号であってもよい。
本発明によれば、音声認識処理開始イベントの発生に基づいて音声認識開始予告信号を出力してから所定の時間が経過するまで、音声認識処理部が音声認識を開始するのを遅らせることができる。そのため、音声認識開始予告信号により、周辺の装置(例えば、空調装置やオーディオ装置)が音量を低下したり、ユーザが発話をするための準備をすることができるので、音声認識処理部は、音声認識開始予告信号を出力した後、所与のタイミングで、音声認識を開始することにより、音声認識率を向上することができる。
(9)本発明の半導体集積回路装置は、
前記制御部は、
音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行うことを特徴とする。
本発明によれば、音声認識処理開始制御信号が入力されるまで、あるいは、音声認識処理開始制御信号が入力されてから所定の時間が経過するまで、音声認識処理部が音声認識処理を開始するのを遅らせることと、音声認識処理開始イベントの発生に基づいて音声認識開始予告信号を出力してから所定の時間が経過するまで、音声認識処理部が音声認識を開始するのを遅らせることをそれぞれ独立に制御することができる。
(10)本発明の半導体集積回路装置は、
前記制御部は、
前記音声認識処理部が音声認識を開始してから終了するまでの期間を示す音声認識期間中信号を外部に出力する制御を行うことを特徴とする。
本発明によれば、音声認識期間中信号により、音声認識中であるか否かを外部から判断することができる。例えば、音声認識期間中信号をLEDに接続すれば、LEDの点灯または消灯の状態を視覚により確認することができるので、音声認識中か否かをユーザが簡単に判断することができる。また、例えば、音声合成と音声認識を交互に行う半導体集積回路装置においては、音声認識期間中信号を出力している間は、外部から音声合成を開始するべき指示があっても、音声合成処理を行わないようにすることもできる。この場合、当該半導体集積回路装置は、音声認識中は音声合成および音声出力を行わないので、自己が出力する音声に対して誤って音声認識することを防止することができる。
(11)本発明の半導体集積回路装置は、
外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする。
音声認識処理終了イベントは、例えば、音声認識処理部が音声認識すべき単語を認識したことにより発生させてもよいし、音声認識処理開始イベントが発生してから、所定の時間経過したことにより発生させてもよい。後者の場合、ユーザによる発話が長時間行われない場合でも、所定の時間が経過すれば音声認識が終了するので、CPUの無駄使いの防止や消費電流の削減が期待できる。
本発明によれば、音声認識終了信号により、音声認識が終了したことを外部から判断することができる。そのため、例えば、音声認識終了信号により、周辺の装置(例えば、空調装置やオーディオ装置)が音量を低下する前の状態に復帰することができる。また、例えば、音声認識と音声認識を交互に行う半導体集積回路装置においては、音声認識終了信号を音声合成処理の開始を指示する信号として使用してもよい。この場合、当該半導体集積回路装置は、音声認識の終了後に次の音声出力を開始することができるので、自己が出力する音声に対して誤って音声認識することを防止することができる。
(12)本発明の半導体集積回路装置は、
前記制御部は、
音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行うことを特徴とする。
(13)本発明の半導体集積回路装置は、
外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
前記記憶部に格納された音声認識処理に関するコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
音声合成処理開始制御信号に基づいて、前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御し、音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を生成する制御を行い、前記音声出力終了信号に基づいて、前記記憶部に格納された音声認識処理に関するコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする。
本発明によれば、音声合成処理部は、音声合成処理および合成した音声信号の出力を終了すると音声出力終了信号を出力するので、音声出力終了信号に基づいて、記憶部に格納された音声認識処理に関するコマンドを音声認識処理部に転送すれば、必ず、音声出力の終了後に音声認識処理部が音声認識を開始することができる。従って、音声合成処理部が出力する音声信号によりスピーカ等から発生される音声を、音声認識処理部が誤って認識し、誤った認識結果を外部ホストに転送することにより生じるシステムの誤動作を防止することができる。
さらに、本発明によれば音声合成処理開始制御信号の入力をトリガとして、音声合成処理を開始すると音声合成処理終了後に自動的に音声認識処理を開始することができるので、音声合成処理から音声認識処理に移行する際に外部ホストを介在する必要がなくなり、外部ホストの負担を削減することができるとともに、より簡単に音声合成処理と音声認識処理を連動させることができる。
(14)本発明は、
上記のいずれかに記載の半導体集積回路装置と、
入力情報を受け付ける手段と、
入力情報に基づき前記半導体集積回路装置により処理された結果を出力するための手段とを含むことを特徴とする電子機器である。
以下、本発明の好適な実施形態について図面を用いて詳細に説明する。なお、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
1.半導体集積回路装置
図1は、本実施の形態に係る半導体集積回路装置の機能ブロック図である。
本実施の形態に係る半導体集積回路装置100は、ホストインターフェース部10を含む。ホストインターフェース部10は、クロック生成部70が生成するクロック76に同期して、ホスト200との間で音声合成処理や音声認識処理に関するコマンド、テキストデータ、音声認識結果データの通信制御を行う。ホストインターフェース部10は、音声合成処理に関するコマンド(TTSコマンド)及びテキストデータを一時的に格納する記憶部として機能するTTSコマンド/データバッファ12を含む。また、ホストインターフェース部10は、音声認識処理に関するコマンド(ASR(Automatic Speech Recognition)コマンド)を一時的に格納する記憶部として機能するASRコマンドバッファ14を含む。
本実施の形態に係る半導体集積回路装置100は、制御部20を含む。
制御部20は、音声合成処理開始制御信号110に基づいて、TTSコマンド/データバッファ12に格納されたコマンド及びデータを音声合成処理部50に転送するタイミングを制御する。制御部20は、このタイミングを管理するための第1のタイマ30を含んでもよい。すなわち、第1のタイマ30は、クロック生成部70が生成するクロック72で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になるとTTSコマンド/データバッファ12に格納されたコマンド及びデータを音声合成処理部50に転送するための制御信号32を生成する。第1のタイマ30は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。第1のタイマ30は、音声合成処理開始制御信号110が入力されてから、TTSコマンド及びテキストデータが音声合成処理部50に転送されるまでのタイミングを管理する。
制御部20は、また、音声認識処理開始制御信号120に基づいて、ASRコマンドバッファ14に格納されたコマンドを音声認識処理部60に転送するタイミングを制御する。制御部20は、このタイミングを管理するための第3のタイマ40を含んでもよい。すなわち、第3のタイマ40は、クロック生成部70が生成するクロック74で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になるとASRコマンドバッファ14に格納されたコマンドを音声認識処理部60に転送するための制御信号42を生成する。第3のタイマ40は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。第3のタイマ40は、音声認識処理開始制御信号120が入力されてから、ASRコマンドが音声合成処理部60に転送されるまでのタイミングを管理する。
制御部20は、第2のタイマ36を含んでもよい。第2のタイマ36は、音声合成処理部50が、音声出力開始予告信号140を出力してから音声信号310及び音声出力期間中信号150を出力し始めるまでのタイミングを制御する。すなわち、第2のタイマ36は、例えば、最初のテキストデータがTTSコマンド/データバッファ12から音声合成処理部50に転送されたことを音声合成処理開始イベントとして、クロック生成部70が生成するクロック82で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になると音声出力期間中信号150の出力を開始するための制御信号38を生成する。第2のタイマ36は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
制御部20は、例えば、第2のタイマ36が出力する制御信号に基づいて、音声合成処理部50が、音声出力期間中信号150の出力を開始し、最後のテキストデータに対応する音声信号の出力を終了したことを音声合成処理終了イベントとして、音声出力期間中信号150の出力を終了した後、音声出力終了信号160を出力するように制御する。
制御部20は、第4のタイマ46を含んでもよい。第4のタイマ46は、音声認識開始予告信号170を出力してから音声認識期間中信号180を出力し始めるまでのタイミングを制御する。すなわち、第4のタイマ46は、例えば、音声認識の開始を指示するASRコマンドがASRコマンドバッファ14から音声認識処理部60に転送されたことを音声認識処理開始イベントとして、クロック生成部70が生成するクロック84で、あらかじめ設定された所定のカウント値になるまでカウントし、所定のカウント値になると音声認識期間中信号180の出力を開始するための制御信号48を生成する。第4のタイマ46は、例えば、フリップフロップを用いたカウンタ回路としてハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
制御部20は、例えば、第4のタイマ46が出力する制御信号に基づいて、音声認識処理部60が、音声認識期間中信号180の出力を開始し、あらかじめ設定された所定の単語(例えば、「はい」または「いいえ」)を認識したことを音声認識処理終了イベントとして、音声認識期間中信号180の出力を終了した後、音声認識終了信号190を出力するように制御する。
本実施の形態に係る半導体集積回路装置100は、音声合成処理部50を含む。音声合成処理部50は、TTSコマンド/データバッファ12から転送されたTTSコマンド及びテキストデータに基づいて、クロック生成部70が生成するクロック78に同期して、テキストデータに対応する音声信号を合成し、合成した音声信号310を外部に接続されたスピーカ300に出力する。音声合成処理部50は、例えば、最初のテキストデータがTTSコマンド/データバッファ12から音声合成処理部50に転送されたことを音声合成処理開始イベントとして、音声出力開始予告信号140を出力する。音声合成処理部50の全機能をハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
本実施の形態に係る半導体集積回路装置100は、音声認識処理部60を含む。音声認識処理部60は、ASRコマンドバッファ14から転送されたASRコマンドに基づいて、クロック生成部70が生成するクロック80に同期して、外部に接続されたマイク400から入力される音声信号410を認識する処理を行い、音声認識結果データをホストインターフェース10を介してホスト200に送信する。音声認識処理部60は、例えば、音声認識の開始を指示するASRコマンドがASRコマンドバッファ14から音声認識処理部60に転送されたことを音声認識処理開始イベントとして、音声認識開始予告信号170を出力する。音声認識処理部60の全機能をハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
本実施の形態に係る半導体集積回路装置100は、クロック生成部70を含む。クロック生成部70は、外部から入力される原クロック130からクロック72、74、76、78、80、82、84を生成する。
図2は、本実施の形態に係る半導体集積回路装置における音声合成処理の実行フローを説明するための図である。
以下、図1および図2を参照しながら、本実施の形態に係る半導体集積回路装置100における音声合成処理の実行フローを説明する。
ホスト200は、ホストインターフェースを介して、半導体集積回路装置100に音声合成処理に関するコマンドを送信した後、さらに、音声に変換するテキストデータを送信し、半導体集積回路装置100は、これらのコマンドやテキストデータをTTSコマンド/データバッファ12に格納する(ステップS10)。
半導体集積回路装置100は、外部から音声合成処理開始制御信号110が入力されるまで待ち(ステップS12)、音声合成処理開始制御信号110が入力されると、制御部20は、第1のタイマ30を初期化してカウントを開始する(ステップS14)。
第1のタイマ30があらかじめ設定された所定の値に一致すると(ステップS16)、TTSコマンド/データバッファ12に格納されたコマンドやテキストが音声合成処理部50に転送され(ステップS18)、音声合成処理部50は、音声出力開始予告信号140を出力する(ステップS20)。
音声合成処理部50は、音声出力開始予告信号140を出力してから、第2のタイマ36を初期化してカウントを開始する(ステップS22)。
第2のタイマ36があらかじめ設定された所定の値に一致すると(ステップS24)、音声合成処理部50は、音声出力期間中信号150の出力を開始するとともに音声合成処理および合成した音声信号のスピーカ300への出力を開始し、例えば、最後のテキストデータに対応する音声信号のスピーカ300への出力を終了すると、音声出力期間中信号150の出力を終了する(ステップS26)。
音声合成処理部50は、例えば、最後のテキストデータに対応する音声信号の出力を終了すると、音声出力終了信号160を出力する(ステップS28)。
図3は、本実施の形態に係る半導体集積回路装置において、音声合成処理の実行時における各信号の発生タイミングを説明するための図である。
以下、図1および図3を参照しながら、本実施の形態に係る半導体集積回路装置100において、音声合成処理の実行時における各信号の発生タイミングを説明する。
時刻T1〜T2において、ホスト200は、ホストインターフェースを介して、半導体集積回路装置100に音声合成処理に関するコマンドを送信した後、さらに、音声に変換するテキストデータを送信し、半導体集積回路装置100は、これらのコマンドやテキストデータをTTSコマンド/データバッファ12に格納する。
時刻T3において、外部入力される音声合成処理開始制御信号110が立ち上がると、時刻T4において第1のタイマ30が初期化される。
時刻T5において、音声合成処理開始制御信号110が立ち下がり、第1のタイマ30がカウントを開始する。
時刻T6において、第1のタイマ30があらかじめ設定された所定の値に一致すると、TTSコマンド/データバッファ12に格納されたコマンドやテキストが音声合成処理部50に転送されるとともに、音声出力開始予告信号140が立ち上がり、時刻T7において第2のタイマ36が初期化される。
時刻T8において、音声出力開始予告信号140が立ち下がり、第2のタイマ36がカウントを開始する。
時刻T9において、第2のタイマ36があらかじめ設定された所定の値に一致すると、音声合成処理部50は、音声合成処理および合成した音声信号310のスピーカ300への出力を開始し、音声出力期間中信号150が立ち上がる。
時刻T10において、例えば、最後のテキストデータに対応する音声信号310のスピーカ300への出力を終了すると、音声出力期間中信号150が立ち下がる。
時刻T11において、音声出力終了信号160が立ち上がり、時刻T12において音声出力終了信号160が立ち下がることにより、一連の音声合成処理が終了する。
図4は、本実施の形態に係る半導体集積回路装置における音声認識処理の実行フローを説明するための図である。
以下、図1および図4を参照しながら、本実施の形態に係る半導体集積回路装置100における音声認識処理の実行フローを説明する。
ホスト200は、ホストインターフェースを介して、半導体集積回路装置100に音声認識処理に関するコマンドを送信し、半導体集積回路装置100は、コマンドをASRコマンドバッファ14に格納する(ステップS30)。
半導体集積回路装置100は、外部から音声認識処理開始制御信号120が入力されるまで待ち(ステップS32)、音声認識処理開始制御信号120が入力されると、制御部20は、第3のタイマ40を初期化してカウントを開始する(ステップS34)。
第3のタイマ40があらかじめ設定された所定の値に一致すると(ステップS36)、ASRコマンドバッファ14に格納されたコマンドが音声認識処理部60に転送され(ステップS38)、音声認識処理部60は、音声認識開始予告信号170を出力する(ステップS40)。
音声認識処理部60は、音声認識開始予告信号170を出力してから、第4のタイマ46の初期化してカウントを開始する(ステップS42)。
第4のタイマ46があらかじめ設定された所定の値に一致すると(ステップS44)、音声認識処理部60は、音声認識期間中信号180の出力を開始するとともにマイク400から入力された音声信号に対する音声認識処理を開始し、例えば、あらかじめ設定された所定の単語を音声認識すると、音声認識期間中信号180の出力を終了する(ステップS46)。
音声認識処理部60は、例えば、あらかじめ設定された所定の単語を音声認識すると、音声認識の結果データをホストインターフェース部10を介してホスト200に送信するとともに、音声認識終了信号190を出力し音声認識処理を終了する(ステップS48)。
図5は、本実施の形態に係る半導体集積回路装置において、音声認識処理の実行時における各信号の発生タイミングを説明するための図である。
以下、図1および図5を参照しながら、本実施の形態に係る半導体集積回路装置100において、音声認識処理の実行時における各信号の発生タイミングを説明する。
時刻T1〜T2において、ホスト200は、ホストインターフェースを介して、半導体集積回路装置100に音声認識処理に関するコマンドを送信し、半導体集積回路装置100は、コマンドをASRコマンドバッファ14に格納する。
時刻T3において、外部入力される音声認識処理開始制御信号120が立ち上がると、時刻T4において第3のタイマ40が初期化される。
時刻T5において、音声認識処理開始制御信号120が立ち下がり、第3のタイマ40がカウントを開始する。
時刻T6において、第3のタイマ40があらかじめ設定された所定の値に一致すると、ASRコマンドバッファ14に格納されたコマンドが音声認識処理部60に転送されるとともに、音声認識開始予告信号170が立ち上がり、時刻T7において第4のタイマ46が初期化される。
時刻T8において、音声認識開始予告信号170が立ち下がり、第4のタイマ46がカウントを開始する。
時刻T9において、第4のタイマ46があらかじめ設定された所定の値に一致すると、音声認識処理部60は、マイク400から入力された音声信号410に対する音声認識処理を開始し、音声認識期間中信号180が立ち上がる。
時刻T10において、例えば、あらかじめ設定された所定の単語を音声認識すると、音声認識期間中信号180が立ち下がる。
時刻T11において、音声認識終了信号190が立ち上がり、時刻T12において音声認識終了信号160が立ち下がり、一連の音声認識処理が終了する。
図6は、本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行うための信号接続例を示す図である。図1と同じ構成には同じ番号を付しており説明を省略する。
図6において、音声出力終了信号160が音声認識処理開始制御信号120として使用される。音声合成処理部50は、音声合成処理および合成した音声信号310の出力を終了すると音声出力終了信号160を出力するので、音声出力終了信号160を音声認識処理開始制御信号120として使用することにより、必ず、音声出力の終了後に音声認識を開始することができる。従って、合成した音声信号310によりスピーカ300から発生される音声を、音声認識処理部60が誤って認識し、誤った認識結果をホストに転送することにより生じるシステムの誤動作を防止することができる。
さらに、図6の接続をした場合、音声合成処理開始制御信号の入力をトリガとして、音声合成処理を開始すると音声合成処理終了後に自動的に音声認識処理を開始することができるので、音声合成処理から音声認識処理に移行する際にホストを介在する必要がなくなり、ホストの負担を削減することができるとともに、より簡単に音声合成処理と音声認識処理を連動させることができる。
図7は、図6の接続をした本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行う場合の実行フローを説明するための図である。
以下、図6、図7を参照しながら、本実施の形態に係る音声信号処理集積回路装置100が、音声合成処理および音声認識処理を連動して行う場合の実行フローを説明する。
ホスト200は、ホストインターフェースを介して、半導体集積回路装置100に音声合成処理に関するコマンドやデータ、音声認識処理に関するコマンドを送信し、半導体集積回路装置100は、これらのコマンドやテキストデータをTTSコマンド/データバッファ12およびASRコマンドバッファ14に格納する(ステップS50)。例えば、「はい、いいえで答えてください」という文を音声合成する場合、必要な音素片データを内部RAM(図示せず)に書き込むコマンド、音声合成処理の開始を指示するコマンドやテキストデータがTTSコマンド/データバッファ12に格納される。また、「はい」又は「いいえ」のいずれかを音声認識する場合は、「はい」又は「いいえ」を音声認識するように指示するコマンドや音声認識の開始を指示するコマンドがASRコマンドバッファ14に格納される。
制御部20は、外部から音声合成処理開始制御信号110が入力されると第1のタイマ30のカウントを開始し、第1のタイマ30があらかじめ設定された所定の値に一致すると、TTSコマンド/データバッファ12に格納されたコマンドやテキストを音声合成処理部50に転送し、音声合成処理部50は、音声出力予告信号140を出力するとともに音声合成を開始し、第2のタイマ36が所定の値に一致すると、合成した音声信号の出力を開始し、例えば、「はい、いいえで答えてください」というプロントメッセージを音声出力する(ステップS52)。音声合成処理部50がプロンプトメッセージを出力している期間は、音声認識処理部60が音声認識処理を行わないようにするために、音声出力終了信号160を音声認識処理開始制御信号として音声認識処理開始のトリガ入力に使用する。
音声合成処理部50は、音声出力を終了すると、音声出力終了信号160を出力するので、音声認識処理開始制御信号として音声出力終了信号160を使用することにより、音声出力終了後にASRコマンドバッファ14から音声認識処理部60にコマンドが転送され、音声認識処理部60が音声認識を開始する(ステップS54)。
音声認識処理部60が、例えば、ユーザによる「はい」または「いいえ」の音声を認識した後、ホスト200が認識結果を読み出し(ステップS56)、音声合成処理および音声認識処理の一連の連係動作が終了する。なお、音声合成処理から音声認識処理に移行する際にホストを介在する必要がないので、ホストの負担を削減することができるとともに、より簡単に音声合成処理と音声認識処理を連動させることができる。
2.電子機器
図8に、本実施の形態の電子機器のブロック図の一例を示す。本電子機器800は、半導体集積回路装置(ASIC)810、入力部820、メモリ830、電源生成部840、LCD850、音出力部860を含む。
ここで、入力部820は、種々のデータを入力するためのものである。半導体集積回路装置810は、この入力部820により入力されたデータに基づいて種々の処理を行うことになる。メモリ830は、半導体集積回路装置810などの作業領域となるものである。電源生成部840は、電子機器800で使用される各種電源を生成するためのものである。LCD850は、電子機器が表示する各種の画像(文字、アイコン、グラフィック等)を出力するためのものである。
音出力部860は、電子機器800が出力する各種の音(音声、ゲーム音等)を出力するためのものであり、その機能は、スピーカなどのハードウェアにより実現できる。
図9(A)に、電子機器の1つである携帯電話950の外観図の例を示す。この携帯電話950は、入力部として機能するダイヤルボタン952や、電話番号や名前やアイコンなどを表示するLCD954や、音出力部として機能し音声を出力するスピーカ956を備える。
図9(B)に、電子機器の1つである携帯型ゲーム装置960の外観図の例を示す。この携帯型ゲーム装置960は、入力部として機能する操作ボタン962、十字キー964や、ゲーム画像を表示するLCD966や、音出力部として機能しゲーム音を出力するスピーカ968を備える。
図9(C)に、電子機器の1つであるパーソナルコンピュータ970の外観図の例を示す。このパーソナルコンピュータ970は、入力部として機能するキーボード972や、文字、数字、グラフィックなどを表示するLCD974、音出力部976を備える。
本実施の形態の半導体集積回路装置を図9(A)〜図9(C)の電子機器に組み込むことにより、低消費電力でコストパフォーマンスの高い電子機器を提供することができる。
なお、本実施形態を利用できる電子機器としては、図9(A)、(B)、(C)に示すもの以外にも、携帯型情報端末、ページャー、電子卓上計算機、タッチパネルを備えた装置、プロジェクタ、ワードプロセッサ、ビューファインダ型又はモニタ直視型のビデオテープレコーダ、カーナビゲーション装置等のLCDを使用する種々の電子機器を考えることができる。
なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。
本実施の形態に係る半導体集積回路装置の機能ブロック図。 本実施の形態に係る半導体集積回路装置における音声合成処理の実行フローを説明するための図。 本実施の形態に係る半導体集積回路装置において、音声合成処理の実行時における各信号の発生タイミングを説明するための図。 本実施の形態に係る半導体集積回路装置における音声認識処理の実行フローを説明するための図。 本実施の形態に係る半導体集積回路装置において、音声認識処理の実行時における各信号の発生タイミングを説明するための図。 本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行うための信号接続例を示す図。 本実施の形態に係る半導体集積回路装置が、音声合成処理および音声認識処理を連動して行う場合の実行フローを説明するための図。 半導体集積回路装置を含む電子機器のブロック図の一例を示す。 図9(A)(B)(C)は、種々の電子機器の外観図の例である。
符号の説明
10 ホストインターフェース部、12 TTSコマンド/データバッファ、14 ASRコマンドバッファ、20 制御部、30 第1のタイマ、32 制御信号、36 第2のタイマ、38 制御信号、40 第3のタイマ、42 制御信号、46 第4のタイマ、48 制御信号、50 音声合成処理部、60 音声認識処理部、70 クロック生成部、72 クロック、74 クロック、76 クロック、78 クロック、80 クロック、82 クロック、84 クロック、100 半導体集積回路装置、110 音声合成処理開始制御信号、120 音声認識処理開始制御信号、130 原クロック、140 音声出力開始予告信号、150 音声出力期間中信号、160 音声出力終了信号、170 音声認識開始予告信号、180 音声認識期間中信号、190 音声認識終了信号、200 ホスト、300 スピーカ、310 合成した音声信号、400 マイク、410 音声信号、800 電子機器、810 半導体集積回路装置、820 入力部、830 メモリ、840 電源生成部、850 LCD、860 音出力部、950 携帯電話、952 ダイヤルボタン、954 LCD、956 スピーカ、960 携帯型ゲーム装置、962 操作ボタン、964 十字キー、966 LCD、968 スピーカ、970 パーソナルコンピュータ、972 キーボード、976 音出力部

Claims (14)

  1. 外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
    前記記憶部に格納されたコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
    音声合成処理開始制御信号に基づいて、前記記憶部に格納されたコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御する制御部とを含むことを特徴とする半導体集積回路装置。
  2. 外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
    音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
  3. 請求項1において、
    前記制御部は、
    音声合成処理開始イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の出力を開始することを予告する音声出力開始予告信号を外部に出力する制御を行った後、前記音声合成処理部が合成した音声信号の外部への出力を、所与のタイミングで開始する制御を行うことを特徴とする半導体集積回路装置。
  4. 請求項2又は3において、
    前記制御部は、
    前記音声合成処理部が合成した音声信号の外部への出力を開始してから終了するまでの期間を示す音声出力期間中信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
  5. 外部から入力されるコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
    音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
  6. 請求項1乃至4において、
    前記制御部は、
    音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
  7. 外部から入力されるコマンドを一時的に格納する記憶部と、
    前記記憶部に格納されたコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
    音声認識処理開始制御信号に基づいて、前記記憶部に格納されたコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする半導体集積回路装置。
  8. 外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
    音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
  9. 請求項7において、
    前記制御部は、
    音声認識処理開始イベントの発生に基づいて、前記音声認識処理部が音声認識を開始することを予告する音声認識開始予告信号を外部に出力する制御を行った後、所与のタイミングで、前記音声認識処理部が音声認識を開始する制御を行うことを特徴とする半導体集積回路装置。
  10. 請求項8又は9において、
    前記制御部は、
    前記音声認識処理部が音声認識を開始してから終了するまでの期間を示す音声認識期間中信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
  11. 外部から入力されるコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
    音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行う制御部とを含むことを特徴とする半導体集積回路装置。
  12. 請求項7乃至10において、
    前記制御部は、
    音声認識処理終了イベントの発生に基づいて、前記音声認識処理部が音声認識を終了することを示す音声認識終了信号を外部に出力する制御を行うことを特徴とする半導体集積回路装置。
  13. 外部から入力されるコマンド及びテキストデータを一時的に格納する記憶部と、
    前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータに基づいて、当該テキストデータに対応する音声を合成して外部に出力する音声合成処理部と、
    前記記憶部に格納された音声認識処理に関するコマンドに基づいて、外部から入力される音声データを音声認識する音声認識処理部と、
    音声合成処理開始制御信号に基づいて、前記記憶部に格納された音声合成処理に関するコマンド及びテキストデータを前記音声合成処理部に転送するタイミングを制御し、音声合成処理終了イベントの発生に基づいて、前記音声合成処理部が合成した音声信号の外部への出力を終了することを示す音声出力終了信号を生成する制御を行い、前記音声出力終了信号に基づいて、前記記憶部に格納された音声認識処理に関するコマンドを前記音声認識処理部に転送するタイミングを制御する制御部とを含むことを特徴とする半導体集積回路装置。
  14. 請求項1乃至13のいずれかに記載の半導体集積回路装置と、
    入力情報を受け付ける手段と、
    入力情報に基づき前記半導体集積回路装置により処理された結果を出力するための手段とを含むことを特徴とする電子機器。
JP2006315658A 2006-11-22 2006-11-22 半導体集積回路装置、電子機器 Expired - Fee Related JP4471128B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006315658A JP4471128B2 (ja) 2006-11-22 2006-11-22 半導体集積回路装置、電子機器
US11/979,724 US8942982B2 (en) 2006-11-22 2007-11-07 Semiconductor integrated circuit device and electronic instrument

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006315658A JP4471128B2 (ja) 2006-11-22 2006-11-22 半導体集積回路装置、電子機器

Publications (2)

Publication Number Publication Date
JP2008129412A true JP2008129412A (ja) 2008-06-05
JP4471128B2 JP4471128B2 (ja) 2010-06-02

Family

ID=39417993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006315658A Expired - Fee Related JP4471128B2 (ja) 2006-11-22 2006-11-22 半導体集積回路装置、電子機器

Country Status (2)

Country Link
US (1) US8942982B2 (ja)
JP (1) JP4471128B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012104952A1 (ja) * 2011-02-03 2014-07-03 パナソニック株式会社 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法
CN104008752A (zh) * 2013-02-25 2014-08-27 精工爱普生株式会社 语音识别装置及方法、以及半导体集成电路装置
JP2014164067A (ja) * 2013-02-25 2014-09-08 Seiko Epson Corp 音声認識装置及び方法、並びに、半導体集積回路装置
JP2014170163A (ja) * 2013-03-05 2014-09-18 Seiko Epson Corp 音声認識装置及び方法、並びに、半導体集積回路装置
US10114604B2 (en) 2014-12-26 2018-10-30 Seiko Epson Corporation Head-mounted display device, control method for head-mounted display device, and computer program
JP2018185401A (ja) * 2017-04-25 2018-11-22 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
WO2020129421A1 (ja) * 2018-12-19 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021128332A (ja) * 2020-02-13 2021-09-02 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声チップおよび電子機器

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
CN103403798B (zh) * 2011-04-08 2016-09-28 三菱电机株式会社 声音识别装置及导航装置
US9432611B1 (en) 2011-09-29 2016-08-30 Rockwell Collins, Inc. Voice radio tuning
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
JP2014191212A (ja) * 2013-03-27 2014-10-06 Seiko Epson Corp 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
JP6037026B2 (ja) * 2013-09-11 2016-11-30 株式会社デンソー 音声出力制御装置、プログラムおよび記録媒体
JP6657769B2 (ja) * 2015-10-23 2020-03-04 株式会社Jvcケンウッド 送信装置、送信方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6027440Y2 (ja) 1981-02-13 1985-08-19 三菱自動車工業株式会社 自動車用音声合成通報装置
JPS57151773A (en) * 1981-03-11 1982-09-18 Nissan Motor Automatic door lock apparatus
JP3284832B2 (ja) 1995-06-22 2002-05-20 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
JPH0983655A (ja) * 1995-09-14 1997-03-28 Fujitsu Ltd 音声対話システム
JPH09114488A (ja) 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JPH09179719A (ja) * 1995-12-26 1997-07-11 Nec Corp 音声合成装置
JPH10161846A (ja) 1996-12-03 1998-06-19 Yazaki Corp 音声処理装置及びこれに用いられる情報処理方法
JPH1165799A (ja) * 1997-08-08 1999-03-09 Fujitsu Ltd 情報オブジェクト指定装置
JP3644955B2 (ja) 2001-09-27 2005-05-11 松下電器産業株式会社 会話装置、会話親機装置、会話子機装置、会話制御方法、および会話制御プログラム
US20030200858A1 (en) * 2002-04-29 2003-10-30 Jianlei Xie Mixing MP3 audio and T T P for enhanced E-book application
JP2004108908A (ja) 2002-09-18 2004-04-08 Denso Corp オーディオ連携ナビゲーション装置
JP4189744B2 (ja) 2003-07-04 2008-12-03 日本電気株式会社 無音声通信システム
JP2005352645A (ja) 2004-06-09 2005-12-22 Nissan Motor Co Ltd 情報提供装置および情報提供方法
CN1918628A (zh) * 2004-12-28 2007-02-21 松下电器产业株式会社 声音合成方法和信息提供装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012104952A1 (ja) * 2011-02-03 2014-07-03 パナソニック株式会社 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法
JP5677470B2 (ja) * 2011-02-03 2015-02-25 パナソニックIpマネジメント株式会社 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法
CN104008752A (zh) * 2013-02-25 2014-08-27 精工爱普生株式会社 语音识别装置及方法、以及半导体集成电路装置
JP2014164067A (ja) * 2013-02-25 2014-09-08 Seiko Epson Corp 音声認識装置及び方法、並びに、半導体集積回路装置
US9886947B2 (en) 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
JP2014170163A (ja) * 2013-03-05 2014-09-18 Seiko Epson Corp 音声認識装置及び方法、並びに、半導体集積回路装置
US10114604B2 (en) 2014-12-26 2018-10-30 Seiko Epson Corporation Head-mounted display device, control method for head-mounted display device, and computer program
JP2018185401A (ja) * 2017-04-25 2018-11-22 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
WO2020129421A1 (ja) * 2018-12-19 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN113168835A (zh) * 2018-12-19 2021-07-23 索尼集团公司 信息处理设备、信息处理方法和程序
JP7428141B2 (ja) 2018-12-19 2024-02-06 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US12014736B2 (en) 2018-12-19 2024-06-18 Sony Group Corporation Information processing apparatus and information processing method
JP2021128332A (ja) * 2020-02-13 2021-09-02 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声チップおよび電子機器
US11735179B2 (en) 2020-02-13 2023-08-22 Baidu Online Network Technology (Beijing) Co., Ltd. Speech chip and electronic device
JP7471213B2 (ja) 2020-02-13 2024-04-19 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声チップおよび電子機器

Also Published As

Publication number Publication date
JP4471128B2 (ja) 2010-06-02
US20080120106A1 (en) 2008-05-22
US8942982B2 (en) 2015-01-27

Similar Documents

Publication Publication Date Title
JP4471128B2 (ja) 半導体集積回路装置、電子機器
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
TW521262B (en) Method for enhancing dictation and command discrimination
US20200234695A1 (en) Determining phonetic relationships
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
KR20210103002A (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN110379411B (zh) 针对目标说话人的语音合成方法和装置
JP6648805B2 (ja) 音声制御方法、音声制御装置およびプログラム
WO2018034169A1 (ja) 対話制御装置および方法
EP1899955B1 (en) Speech dialog method and system
JP2012003090A (ja) 音声認識装置および音声認識方法
GB2388286A (en) Enhanced speech data for use in a text to speech system
JP2018045675A (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP2015087649A (ja) 発話制御装置、方法、発話システム、プログラム、及び発話装置
KR101031405B1 (ko) 음성합성과 음성인식 기능이 채택된 단말기를 이용한 학습 방법
TW202011384A (zh) 語音校正系統及語音校正方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2017122930A (ja) 発話制御装置、方法、発話システム、及びプログラム
JP2004177635A (ja) 文章読み上げ装置、同装置のためのプログラム及び記録媒体
JP2005208163A (ja) プレゼンテーション支援装置、プレゼンテーション支援方法及び制御プログラム
TW201919041A (zh) 語音處理裝置、語音辨識輸入系統及語音辨識輸入方法
JPH01266598A (ja) 音声出力装置
JP2017062300A (ja) 半導体装置、システム、電子機器、及び、音声認識方法
UA69362A (en) Method of voice information input/output in a computer system and a "voice keyboard" device for the realization of the method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4471128

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100223

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140312

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees