JP2020194139A

JP2020194139A - 半導体装置、電子機器及び移動体

Info

Publication number: JP2020194139A
Application number: JP2019101042A
Authority: JP
Inventors: 貴夫片山; Takao Katayama; 文仁倍賞; Fumihito Baisho; テリムリカード; Ricardo Te Lim
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2020-12-03
Anticipated expiration: 2039-05-30
Also published as: JP7326879B2

Abstract

【課題】比較的小さな回路規模でありながら音声データのピッチ変換を行うことが可能な半導体装置を提供すること。【解決手段】第１の周期でサンプリングされた複数のサンプルを含む第１の音声データを格納する音声データ格納部と、第１のクロック信号及び第２のクロック信号を生成するクロック生成部と、前記第１のクロック信号に同期して、前記第１の音声データを、前記複数のサンプルの一部を削除又は複製した第２の音声データに変換する時間スケール変換部と、前記第２のクロック信号に同期して、ハードウェア処理により、前記第２の音声データを、前記第１の周期でサンプリングされた、前記第２の音声データと異なる数の複数のサンプルを含む第３の音声データに変換するリサンプラーと、前記時間スケール変換部及び前記リサンプラーの動作を制御する制御情報を格納するレジスターと、を含む、半導体装置。【選択図】図１

Description

本発明は、半導体装置、電子機器及び移動体に関する。

特許文献１には、リサンプリングにより音声データのピッチを変更した後、時間スケール変換（ＴＳＭ：Time Scale Modification）により時間スケールを元に戻す装置が記載されている。

特開平９−３２５７９４号公報

しかしながら、特許文献１に記載の装置では、リサンプリング及び時間スケール変換をソフトウェア処理で行うため、処理能力の高いＤＳＰが必要となり、回路規模が大きくなってしまう。

本発明に係る半導体装置の一態様は、
第１の周期でサンプリングされた複数のサンプルを含む第１の音声データを格納する音声データ格納部と、
第１のクロック信号及び第２のクロック信号を生成するクロック生成部と、
前記第１のクロック信号に同期して、前記第１の音声データを、前記第１の音声データに含まれる前記複数のサンプルの一部を削除又は複製した第２の音声データに変換する時間スケール変換部と、
前記第２のクロック信号に同期して、ハードウェア処理により、前記第２の音声データを、前記第１の周期でサンプリングされた、前記第２の音声データと異なる数の複数のサンプルを含む第３の音声データに変換するリサンプラーと、
前記時間スケール変換部及び前記リサンプラーの動作を制御する制御情報を格納するレジスターと、を含む。

前記半導体装置の一態様において、
前記第３の音声データは、前記第１の音声データのピッチが変更された、前記第１の音声データと同じサンプル数のデータであってもよい。

前記半導体装置の一態様において、
前記音声データ格納部、前記クロック生成部、前記時間スケール変換部、前記リサンプラー及び前記レジスターは、１チップの集積回路装置に含まれてもよい。

前記半導体装置の一態様において、
前記制御情報は、前記半導体装置の動作モードを、第１の動作モード、第２の動作モード及び第３の動作モードを含む複数の動作モードのいずれかに設定する情報を含み、
前記第１の動作モードは、前記第１の音声データの再生時間を変更せずにピッチを変更する動作モードであり、
前記第２の動作モードは、前記第１の音声データのピッチを変更せずに再生時間を変更する動作モードであり、
前記第３の動作モードは、前記第１の音声データの再生時間及びピッチを変更する動作モードであってもよい。

前記半導体装置の一態様は、
前記第３の音声データをアナログ信号に変換するＤ／Ａ変換器を含んでもよい。

本発明に係る電子機器の一態様は、
前記半導体装置の一態様と、
前記半導体装置からの出力信号に基づいて音声を出力する音出力部と、を備えている。

本発明に係る移動体の一態様は、
前記半導体装置の一態様と、
前記半導体装置からの出力信号に基づいて音声を出力する音出力部と、を備えている。

第１実施形態の半導体装置の構成例を示す図。ピッチを下げる場合の音声データの変換例を示す図。図２の例におけるリサンプリングの詳細について説明するための図。ピッチを上げる場合の音声データの変換例を示す図。図４の例におけるリサンプリングの詳細について説明するための図。半導体装置の具体的な実施例を示す図。第２実施形態の半導体装置の構成例を示す図。ピッチを下げるとともに再生時間を短縮する場合の音声データの変換例を示す図。ピッチを上げるとともに再生時間を伸長する場合の音声データの変換例を示す図。変形例の半導体装置の構成を示す図。変形例においてピッチを下げる場合の音声データの変換例を示す図。変形例においてピッチを上げる場合の音声データの変換例を示す図。本実施形態の電子機器の機能ブロック図。本実施形態の電子機器の外観の一例を示す図。本実施形態の移動体の一例を示す図。

以下、本発明の好適な実施形態について図面を用いて詳細に説明する。なお、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。

１．半導体装置
１−１．第１実施形態
図１は、第１実施形態の半導体装置の構成例を示す図である。図１に示すように、第１実施形態の半導体装置１は、音声データ格納部１０と、クロック生成部２０と、時間スケール変換部３０と、リサンプラー４０と、レジスター５０と、を含む。

音声データ格納部１０は、第１の周期Ｔｓ１でサンプリングされた複数のサンプルを含む第１の音声データＤ１を格納する。音声データ格納部１０は、あらかじめ第１の音声データＤ１が格納された不揮発性メモリーであってもよいし、例えば、半導体装置１が不図示のインターフェース回路を介して外部装置から受信した第１の音声データＤ１を一時的に格納する揮発性メモリーであってもよい。第１の音声データＤ１は、例えば、パルス符号変調（ＰＣＭ：Pulse Code Modulation）された音声データであってもよい。また、音声データ格納部１０のサイズを低減させるために、第１の音声データＤ１は、適応的差分パルス符号変調（ＡＤＰＣＭ：adaptive differential pulse code modulation）された音声データ等の圧縮された音声データであってもよい。第１の周期Ｔｓ１は、第１の音声データＤ１のサンプリング周波数の逆数であり、当該サンプリング周波数は、所定の音声帯域の上限周波数の２倍以上の周波数であればよく、例えば、１５．６２５ｋＨｚであってもよい。

クロック生成部２０は、第１のクロック信号ＣＫ１及び第２のクロック信号ＣＫ２を生成する。第１のクロック信号ＣＫ１は時間スケール変換部（ＴＳＭ部）３０を動作させるためのクロック信号であり、第２のクロック信号ＣＫ２は時間スケール変換部３０を動作させるためのクロック信号である。クロック生成部２０は、例えば、水晶発振回路、リングオシレーター、ＣＲ発振回路等の不図示の発振回路を有し、当該発振回路の出力信号に基づいて、第１のクロック信号ＣＫ１及び第２のクロック信号ＣＫ２を生成してもよい。

時間スケール変換部３０は、第１のクロック信号ＣＫ１に同期して、第１の音声データＤ１を、第１の音声データＤ１に含まれる複数のサンプルの一部を削除又は複製した第２の音声データＤ２に変換する。例えば、削除又は複製されるサンプルは、周期的に繰り返される波形を構成する複数のサンプルの一部であってもよい。第２の音声データＤ２は、第１の音声データＤ１と同じピッチであって、第１の音声データＤ１とは再生速度あるいは再生時間が異なる音声データである。第１の音声データＤ１を第２の音声データＤ２に変換する処理、すなわち、いわゆる時間スケール変換処理には公知の各種の手法を適用可能である。例えば、時間スケール変換部３０は、ソフトウェア処理により時間スケール変換処理を行ってもよい。なお、第１の音声データＤ１が圧縮された音声データである場合は、時間スケール変換部３０は、不図示の音声データ展開部により展開された第１の音声データＤ１に対して時間スケール変換処理を行ってもよい。

リサンプラー４０は、第２のクロック信号ＣＫ２に同期して、ハードウェア処理により、第２の音声データＤ２を、第１の周期Ｔｓ１でサンプリングされた、第２の音声データＤ２と異なる数の複数のサンプルを含む第３の音声データＤ３に変換する。具体的には、リサンプラー４０は、第２の音声データＤ２に含まれる複数のサンプルを第１の周期Ｔｓ１とは異なる第２の周期Ｔｓ２でサンプリングされたものと仮定して、当該複数のサンプルに基づく補間処理及び/又は間引き処理により、第１の周期Ｔｓ１でサンプリングされた複数のサンプルを求めて第３の音声データＤ３とする。補間処理及び/又は間引き処理には公知の各種の手法を適用可能である。

本実施形態では、第３の音声データＤ３は、第１の音声データＤ１のピッチが変更された、第１の音声データＤ１と同じサンプル数のデータである。換言すれば、第３の音声データＤ３は、第１の音声データＤ１とピッチが異なり、再生時間あるいは再生速度が同じ音声データである。

レジスター５０は、時間スケール変換部３０及びリサンプラー４０の動作を制御する制御情報を格納する。例えば、制御情報は、時間スケール変換部３０及びリサンプラー４０に処理を開始させるためのスタートビットＳＴを含んでもよい。時間スケール変換部３０及びリサンプラー４０は、スタートビットＳＴが非アクティブからアクティブに変化すると処理を開始し、処理を終了すると停止する。

また、制御情報は、第２の音声データＤ２のサンプル数と第１の音声データＤ１のサンプル数との比率を設定する比率情報ＳＲを含み、時間スケール変換部３０及びリサンプラー４０に比率情報ＳＲが供給されてもよい。例えば、比率情報ＳＲが、第２の音声データＤ２のサンプル数が第１の音声データＤ１のサンプル数の７５％であることを示す場合、時間スケール変換部３０は、第１の音声データＤ１を、第１の音声データＤ１に含まれるＮ個のサンプルの２５％を削除したＮ×０．７５個のサンプルを含む第２の音声データＤ２に変換する。そして、リサンプラー４０は、第２の音声データＤ２に含まれるＮ×０．７５個のサンプルを第１の周期Ｔｓ１の約１３３％である第２の周期Ｔｓ２でサンプリングされたものと仮定して、Ｎ×０．７５個のサンプルに基づく補間処理及び/又は間引き処理により、第１の周期Ｔｓ１でサンプリングされたＮ個のサンプルを求めて第３の音声データＤ３とする。

また、半導体装置１は、Ｄ／Ａ（Digital to Analog）変換器６０を含んでもよい。半導体装置１がＤ／Ａ変換器６０を含む場合、クロック生成部２０は、Ｄ／Ａ変換器６０を動作させるための第３のクロック信号ＣＫ３を生成する。

Ｄ／Ａ変換器６０は、第３の音声データＤ３をアナログ信号である音声信号ＶＯに変換する。具体的には、Ｄ／Ａ変換器６０は、第３のクロック信号ＣＫ３に同期して、第１の周期Ｔｓ１で第３の音声データＤ３に含まれる複数のサンプルをサンプリングしてアナログ値に変換することにより音声信号ＶＯを生成する。スタートビットＳＴはＤ／Ａ変換器６０にも供給され、Ｄ／Ａ変換器６０は、スタートビットＳＴが非アクティブからアクティブに変化すると処理を開始し、処理を終了すると停止する。

なお、半導体装置１は、リサンプラー４０におけるリサンプリングによって発生するエリアシングノイズを低減させる必要がある場合は、ローパスフィルター７０を含んでもよい。リサンプラー４０におけるリサンプリングがダウンサンプリングである場合は、ローパスフィルター７０は、リサンプラー４０の前段、具体的には時間スケール変換部３０の出力からリサンプラー４０の入力に至る信号経路に設けられ、必要に応じてリサンプラー４０の後段、具体的にはリサンプラー４０の出力からＤ／Ａ変換器６０の入力に至る信号経路にも設けられる。また、リサンプラー４０におけるリサンプリングがアップサンプリングである場合は、ローパスフィルター７０は、リサンプラー４０の後段、具体的にはリサンプラー４０の出力からＤ／Ａ変換器６０の入力に至る信号経路に設けられる。半導体装置１がローパスフィルター７０を含む場合、クロック生成部２０は、ローパスフィルター７０を動作させるための第４のクロック信号ＣＫ４を生成し、スタートビットＳＴはローパスフィルター７０にも供給される。そして、ローパスフィルター７０は、スタートビットＳＴが非アクティブからアクティブに変化すると第４のクロック信号ＣＫ４に同期した処理を開始し、処理を終了すると停止する。

なお、クロック生成部２０は、スタートビットＳＴが非アクティブからアクティブに変化すると、第１のクロック信号ＣＫ１、第２のクロック信号ＣＫ２、第３のクロック信号ＣＫ３及び第４のクロック信号ＣＫ４を生成し、所定の時間が経過すると、クロック信号の生成を停止してもよい。この場合、スタートビットＳＴは、時間スケール変換部３０及びリサンプラー４０、Ｄ／Ａ変換器６０及びローパスフィルター７０に供給されなくてもよい。

また、クロック生成部２０が生成する第１のクロック信号ＣＫ１、第２のクロック信号ＣＫ２、第３のクロック信号ＣＫ３及び第４のクロック信号ＣＫ４のうちの複数のクロック信号が共通であってもよい。

以下では、時間スケール変換部３０が行う処理を「時間スケール変換」という。また、リサンプラー４０が行う処理を「リサンプリング」という。また、Ｄ／Ａ変換器６０が行う処理を「Ｄ／Ａ変換」という。

図２は、第１の音声データＤ１のピッチを下げる場合の第２の音声データＤ２、第３の音声データＤ３及び音声信号ＶＯの一例を示す図である。図２の例では、第１の音声データＤ１は、一定時間に同じ正弦波が４回繰り返される一定周波数の音声データであり、その再生時間はＴ１である。また、比率情報ＳＲは７５％に設定されている。

まず、時間スケール変換によりＮ個のサンプルを含む第１の音声データＤ１の１つの正弦波が削除され、同じ正弦波が３回繰り返される一定周波数の第２の音声データＤ２が生成される。第２の音声データＤ２のサンプル数はＮ×０．７５であり、第２の音声データＤ２の再生時間Ｔ２は、第１の音声データＤ１の再生時間Ｔ１の７５％に短縮されている。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は第１の音声データＤ１に含まれる正弦波の周波数と同じなので、時間スケール変換の前後でピッチは変わらない。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、ピッチが同じであって再生時間が７５％に短縮された音声データである。

次に、リサンプリングにより第２の音声データＤ２のサンプル数の比率情報ＳＲの逆数である約１．３３倍のサンプルを含む第３の音声データＤ３が生成される。図３は、図２の例におけるリサンプリングの詳細について説明するための図である。図３では、第２の音声データＤ２の一部に対応して生成される第３の音声データＤ３の一部が図示されている。図３の例では、リサンプラー４０は、第２の音声データＤ２に含まれるサンプルＡ１〜Ａ５等を第１の周期Ｔｓ１の約１３３％である第２の周期Ｔｓ２でサンプリングされたものと仮定して、補間処理及び/又は間引き処理により、第１の周期Ｔｓ１でサンプリングされたサンプルＢ１〜Ｂ６等を求めて第３の音声データＤ３を生成する。

図２に示すように、第３の音声データＤ３の再生時間は、第２の音声データＤ２の再生時間Ｔ２の約１３３％であり、第１の音声データＤ１の再生時間Ｔ１と同じである。これに対して、第３の音声データＤ３に含まれる正弦波の周波数は、第２の音声データＤ２に含まれる正弦波の周波数、すなわち第１の音声データＤ１に含まれる正弦波の周波数の７５％である。すなわち、第３の音声データＤ３は、第１の音声データＤ１に対して、再生時間が同じであり、ピッチが７５％に下がった音声データである。

最後に、Ｄ／Ａ変換により、第３の音声データＤ３の再生時間、すなわち第１の音声データＤ１の再生時間Ｔ１と同じ再生時間の音声信号ＶＯが生成される。

図４は、第１の音声データＤ１のピッチを上げる場合の第２の音声データＤ２、第３の音声データＤ３及び音声信号ＶＯの一例を示す図である。図４の例では、第１の音声データＤ１は、一定時間に同じ正弦波が４回繰り返される一定周波数の音声データであり、その再生時間はＴ１である。また、比率情報ＳＲは１２５％に設定されている。

まず、時間スケール変換によりＮ個のサンプルを含む第１の音声データＤ１の１つの正弦波が複製され、同じ正弦波が５回繰り返される一定周波数の第２の音声データＤ２が生成される。第２の音声データＤ２のサンプル数はＮ×１．２５であり、第２の音声データＤ２の再生時間Ｔ２は、第１の音声データＤ１の再生時間Ｔ１の１２５％に伸長されている。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は第１の音声データＤ１に含まれる正弦波と同じなので、時間スケール変換の前後でピッチは変わらない。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、ピッチが同じであって再生時間が１２５％に伸長された音声データである。

次に、リサンプリングにより第２の音声データＤ２のサンプル数の比率情報ＳＲの逆数である０．８倍のサンプルを含む第３の音声データＤ３が生成される。図５は、図４の例におけるリサンプリングの詳細について説明するための図である。図５では、第２の音声データＤ２の一部に対応して生成される第３の音声データＤ３の一部が図示されている。図５の例では、リサンプラー４０は、第２の音声データＤ２に含まれるサンプルＡ１〜Ａ５等を第１の周期Ｔｓ１の８０％である第２の周期Ｔｓ２でサンプリングされたものと仮定して、補間処理及び/又は間引き処理により、第１の周期Ｔｓ１でサンプリングされたサンプルＢ１〜Ｂ４等を求めて第３の音声データＤ３を生成する。

図４に示すように、第３の音声データＤ３の再生時間は、第２の音声データＤ２の再生時間Ｔ２の８０％であり、第１の音声データＤ１の再生時間Ｔ１と同じである。これに対して、第３の音声データＤ３に含まれる正弦波の周波数は、第２の音声データＤ２に含まれる正弦波の周波数、すなわち第１の音声データＤ１に含まれる正弦波の周波数の１２５％である。すなわち、第３の音声データＤ３は、第１の音声データＤ１に対して、再生時間が同じであり、ピッチが１２５％に上がった音声データである。

図６は、半導体装置１の具体的な実施例を示す図である。図６において、図１と同様の構成要素には同じ符号が付されている。図６の例では、半導体装置１は、音声データ格納部１０、クロック生成部２０、時間スケール変換部３０、リサンプラー４０、レジスター５０、Ｄ／Ａ変換器６０、ローパスフィルター７０、ＲＯＭ（Read Only Memory）１１０、ＲＡＭ（Random Access Memory）１２０、プロセッサー１３０及びバス２００を含む、１チップの集積回路装置である。

音声データ格納部１０、時間スケール変換部３０、リサンプラー４０、レジスター５０、Ｄ／Ａ変換器６０、ローパスフィルター７０、ＲＯＭ１１０、ＲＡＭ１２０及びプロセッサー１３０は、バス２００に接続されている。

音声データ格納部１０は、前述の第１の音声データＤ１を格納する。音声データ格納部１０は、あらかじめ第１の音声データＤ１が格納された不揮発性メモリーであってもよいし、例えば、半導体装置１が不図示のインターフェース回路を介して外部装置から受信した第１の音声データＤ１を一時的に格納する揮発性メモリーであってもよい。

クロック生成部２０は、前述の第１のクロック信号ＣＫ１、第２のクロック信号ＣＫ２、第３のクロック信号ＣＫ３及び第４のクロック信号ＣＫ４を生成する。さらに、クロック生成部２０は、第６のクロック信号ＣＫ６を生成する。

時間スケール変換部３０は、マイクロコントロールユニット（ＭＣＵ：Micro Control Unit）３１及びデジタル信号プロセッサー（ＤＳＰ：Digital Signal Processor）３２を含む。マイクロコントロールユニット３１は、バス２００を介して、ＲＯＭ１１０に記憶されている時間スケール変換プログラム１１１を取得して実行する。デジタル信号プロセッサー３２は、マイクロコントロールユニット３１の命令に従って動作し、バス２００を介して、音声データ格納部１０に格納されている第１の音声データＤ１あるいはＲＡＭ１２０に記憶されている第２の音声データＤ２を取得して前述の時間スケール変換を行って第２の音声データＤ２を生成する。そして、デジタル信号プロセッサー３２は、生成した第２の音声データＤ２を、バス２００を介してＲＡＭ１２０に記憶させる。このように、時間スケール変換部３０は、時間スケール変換プログラム１１１に基づくソフトウェア処理により、時間スケール変換を行う。

リサンプラー４０は、バス２００を介して、ＲＡＭ１２０に記憶されている第２の音声データＤ２を取得して前述のリサンプリングを行って第３の音声データＤ３を生成する。そして、リサンプラー４０は、生成した第３の音声データＤ３を、バス２００を介してＲＡＭ１２０に記憶させる。リサンプラー４０は、時間スケール変換部３０のようにプログラムに基づくソフトウェア処理を行わず、ハードウェア処理によりリサンプリングを行う。すなわち、リサンプラー４０は、専用回路で実現される。

Ｄ／Ａ変換器６０は、リサンプラー４０が生成した第３の音声データＤ３を取得してＤ／Ａ変換を行い、アナログ信号である音声信号ＶＯを生成する。そして、音声信号ＶＯは、半導体装置１と接続される不図示のスピーカーにより音声に変換される。

仮に、リサンプリングがソフトウェア処理で行われる場合には、ソフトウェア処理で行われるリサンプリングとハードウェア処理で行われるＤ／Ａ変換とを同期させるための制御が必要であるが、本実施形態では、リサンプラー４０がハードウェア処理によりリサンプリングを行うので、リサンプリングとＤ／Ａ変換とを容易に同期させることができる。

ローパスフィルター７０は、バス２００を介して、ＲＡＭ１２０に記憶されている第２の音声データＤ２を取得してフィルター処理を行い、フィルター処理された第２の音声データＤ２を、バス２００を介してＲＡＭ１２０に記憶させる。

プロセッサー１３０は、例えば、半導体装置１と接続される不図示の操作部からの操作信号に応じて、レジスター５０に前述の制御情報を書き込む。レジスター５０に記憶される制御情報は、バス２００を介して、時間スケール変換部３０、リサンプラー４０、レジスター５０、Ｄ／Ａ変換器６０及びローパスフィルター７０に供給され、これらの各部の動作が制御される。そして、プロセッサー１３０がレジスター５０に所望の制御情報を書き込むことにより、時間スケール変換部３０、リサンプラー４０、Ｄ／Ａ変換器６０及びローパスフィルター７０が動作して所望の音声信号ＶＯが得られるので、プロセッサー１３０は、半導体装置１が組み込まれる機器に必要な各種の処理、例えば、モーターの制御やパネルの制御等に専念することができる。

以上に説明したように、第１実施形態の半導体装置１は、第１の周期Ｔｓ１でサンプリングされた複数のサンプルを含む第１の音声データＤ１を格納する音声データ格納部１０と、第１のクロック信号ＣＫ１及び第２のクロック信号ＣＫ２を生成するクロック生成部２０と、第１のクロック信号ＣＫ１に同期して、第１の音声データＤ１を、第１の音声データＤ１に含まれる複数のサンプルの一部を削除又は複製した第２の音声データＤ２に変換する時間スケール変換部３０と、第２のクロック信号ＣＫ２に同期して、ハードウェア処理により、第２の音声データＤ２を、第１の周期Ｔｓ１でサンプリングされた、第２の音声データＤ２と異なる数の複数のサンプルを含む第３の音声データＤ３に変換するリサンプラー４０と、時間スケール変換部３０及びリサンプラー４０の動作を制御する制御情報を格納するレジスター５０と、を含む。

時間スケール変換部３０により、第１の音声データＤ１のピッチが変換されずに再生時間が変換された第２の音声データＤ２が生成され、リサンプラー４０により、第２の音声データＤ２のピッチ及び再生時間が変換された第３の音声データＤ３が生成されるので、第１の音声データＤ１のピッチ変換が実現することができる。そして、リサンプラー４０がハードウェア処理によりリサンプリングを行うので、例えば、図６に示したように、マイクロコントロールユニット３１やデジタル信号プロセッサー３２が時間スケール変換部３０として機能し、ソフトウェア処理により時間スケール変換を行う場合でも、リサンプリングの分だけ処理負荷が低減されるため、簡易なマイクロコントロールユニット３１やデジタル信号プロセッサー３２を用いることができる。したがって、第１実施形態の半導体装置１によれば、比較的小さな回路規模でありながら音声データのピッチ変換を行うことができる。

また、第１実施形態の半導体装置１によれば、例えば、図６に示したように、プロセッサー１３０がレジスター５０に所望の制御情報を書き込むことにより、第１の音声データＤ１のピッチ変換が行われるので、プロセッサー１３０は、半導体装置１が組み込まれる機器に必要な各種の処理に専念することができる。

また、第１実施形態の半導体装置１によれば、リサンプラー４０がハードウェア処理によりリサンプリングを行うので、半導体装置１が第３の音声データＤ３を音声信号ＶＯに変換するＤ／Ａ変換器６０を含む場合には、リサンプリングとＤ／Ａ変換器６０のハードウェア処理によるＤ／Ａ変換とを容易に同期させることができる。

また、第１実施形態の半導体装置１によれば、第３の音声データＤ３が第１の音声データＤ１のピッチが変更された、第１の音声データＤ１と同じサンプル数のデータであるように制御情報が設定されることにより、第１の音声データＤ１の再生時間を変更せずにピッチを変換した第３の音声データＤ３を生成することができる。

１−２．第２実施形態
以下、第２実施形態の半導体装置１について、第１実施形態と同様の構成については同じ符号を付し、第１実施形態と同様の説明は省略又は簡略し、主として第１実施形態と異なる内容について説明する。

図７は、第２実施形態の半導体装置１の構成例を示す図である。図７に示すように、第２実施形態の半導体装置１は、第１実施形態と同様、音声データ格納部１０と、クロック生成部２０と、時間スケール変換部３０と、リサンプラー４０と、レジスター５０と、を含む。また、第２実施形態の半導体装置１は、第１実施形態と同様、Ｄ／Ａ変換器６０やローパスフィルター７０を含んでもよい。さらに、第２実施形態の半導体装置１は、セレクター８０、セレクター９０及び制御部１００を含む。

音声データ格納部１０は、第１実施形態と同様、第１の周期Ｔｓ１でサンプリングされた複数のサンプルを含む第１の音声データＤ１を格納する。

クロック生成部２０は、第１実施形態と同様、第１のクロック信号ＣＫ１、第２のクロック信号ＣＫ２、第３のクロック信号ＣＫ３及び第４のクロック信号ＣＫ４を生成し、さらに、制御部１００を動作させるための第５のクロック信号ＣＫ５を生成する。

レジスター５０は、時間スケール変換部３０及びリサンプラー４０の動作を制御する制御情報を格納する。第２実施形態では、制御情報は、半導体装置１の動作モードを、第１の動作モード、第２の動作モード及び第３の動作モードを含む複数の動作モードのいずれかに設定する情報である動作モード情報ＭＤを含む。第１の動作モードは、第１の音声データＤ１の再生時間を変更せずにピッチを変更する動作モードである。第２の動作モードは、第１の音声データＤ１のピッチを変更せずに再生時間を変更する動作モードである。第３の動作モードは、第１の音声データＤ１の再生時間及びピッチを変更する動作モードである。

また、制御情報は、第２の音声データＤ２のサンプル数と第１の音声データＤ１のサンプル数との比率を設定する第１の比率情報ＳＲ１及び第２の比率情報ＳＲ２や、時間スケール変換部３０及びリサンプラー４０の少なくとも一方に処理を開始させるためのスタートビットＳＴを含んでもよい。

制御部１００は、時間スケール変換部３０、リサンプラー４０、Ｄ／Ａ変換器６０、ローパスフィルター７０、セレクター８０及びセレクター９０の動作を制御する。具体的には、制御部１００は、第５のクロック信号ＣＫ５に同期して、動作モード情報ＭＤ、第１の比率情報ＳＲ１、第２の比率情報ＳＲ２及びスタートビットＳＴに基づいて、パルス信号である第１のスタート信号ＳＴ１、第２のスタート信号ＳＴ２、第３のスタート信号ＳＴ３、第１の選択信号ＳＥＬ１、第２の選択信号ＳＥＬ２、比率情報ＳＲを生成する。時間スケール変換部３０は、第１のスタート信号ＳＴ１により、比率情報ＳＲに基づいて第２の音声データＤ２を生成する処理を開始し、処理を終了すると停止する。リサンプラー４０及びローパスフィルター７０は、第２のスタート信号ＳＴ２により、比率情報ＳＲに基づいて第３の音声データＤ３を生成する処理を開始し、処理を終了すると停止する。Ｄ／Ａ変換器６０は、第３のスタート信号ＳＴ３により処理を開始し、処理を終了すると停止する。

セレクター８０は、第１の選択信号ＳＥＬ１に基づいて、第１の音声データＤ１又は第２の音声データＤ２を選択して出力する。また、セレクター９０は、第２の選択信号ＳＥＬ２に基づいて、第３の音声データＤ３又は第２の音声データＤ２を選択して出力する。

動作モード情報ＭＤにおいて第１の動作モードが設定されている場合、制御部１００は、セレクター８０に第１の音声データＤ１を選択させる第１の選択信号ＳＥＬ１、及びセレクター９０に第３の音声データＤ３を選択させる第２の選択信号ＳＥＬ２を生成する。また、制御部１００は、スタートビットＳＴが非アクティブからアクティブに変化すると、第１のスタート信号ＳＴ１、第２のスタート信号ＳＴ２及び第３のスタート信号ＳＴ３を発生させる。また、制御部１００は、比率情報ＳＲに第１の比率情報ＳＲ１を設定する。これにより、時間スケール変換部３０、リサンプラー４０、Ｄ／Ａ変換器６０及びローパスフィルター７０が第１実施形態と同様に動作する。したがって、第１の動作モードにおいて生成される音声信号ＶＯは、第１実施形態と同様、第１の音声データＤ１の再生時間を変更せずにピッチを変更した音声信号である。

また、動作モード情報ＭＤにおいて第２の動作モードが設定されている場合、制御部１００は、セレクター８０に第１の音声データＤ１を選択させる第１の選択信号ＳＥＬ１、及びセレクター９０に第２の音声データＤ２を選択させる第２の選択信号ＳＥＬ２を生成する。また、制御部１００は、スタートビットＳＴが非アクティブからアクティブに変化すると、第１のスタート信号ＳＴ１及び第３のスタート信号ＳＴ３を発生させる。また、制御部１００は、比率情報ＳＲに第１の比率情報ＳＲ１を設定する。これにより、時間スケール変換部３０及びＤ／Ａ変換器６０が動作し、リサンプラー４０及びローパスフィルター７０は動作しない。したがって、第２の動作モードにおいて生成される音声信号ＶＯは、第１の音声データＤ１のピッチを変更せずに再生時間を変更した音声信号である。

また、動作モード情報ＭＤにおいて第３の動作モードが設定されている場合、制御部１００は、まず、セレクター８０に第１の音声データＤ１を選択させる第１の選択信号ＳＥＬ１を生成する。また、制御部１００は、スタートビットＳＴが非アクティブからアクティブに変化すると、第１のスタート信号ＳＴ１を発生させる。また、制御部１００は、比率情報ＳＲに第１の比率情報ＳＲ１を設定する。これにより、時間スケール変換部３０が動作し、リサンプラー４０、Ｄ／Ａ変換器６０及びローパスフィルター７０は動作しない。そして、時間スケール変換部３０により、第１の音声データＤ１のピッチを変更せずに再生時間を変更した第２の音声データＤ２が生成される。

第２の音声データＤ２の生成が終了すると、制御部１００は、次に、セレクター８０に第２の音声データＤ２を選択させる第１の選択信号ＳＥＬ１、及びセレクター９０に第３の音声データＤ３を選択させる第２の選択信号ＳＥＬ２を生成する。また、制御部１００は、第１のスタート信号ＳＴ１、第２のスタート信号ＳＴ２及び第３のスタート信号ＳＴ３を発生させる。また、制御部１００は、比率情報ＳＲに第２の比率情報ＳＲ２を設定する。これにより、時間スケール変換部３０、リサンプラー４０、Ｄ／Ａ変換器６０及びローパスフィルター７０が動作し、セレクター８０により選択された第２の音声データＤ２の再生時間を変更せずにピッチを変更した第３の音声データＤ３が生成される。ここで、セレクター８０により選択された第２の音声データＤ２は、前述の通り、第１の音声データＤ１のピッチを変更せずに再生時間を変更した音声データであるので、第３の音声データＤ３は、第１の音声データＤ１の再生時間及びピッチを変更した音声データである。したがって、第３の動作モードにおいて生成される音声信号ＶＯは、第１の音声データＤ１の再生時間及びピッチを変更した音声信号である。なお、再生時間の変換率やピッチの変換率は、第１の比率情報ＳＲ１及び第２の比率情報ＳＲ２により任意に設定される。

図８は、第３の動作モードにおいて、第１の音声データＤ１のピッチを下げるとともに再生時間を短縮する場合の第２の音声データＤ２、第３の音声データＤ３及び音声信号ＶＯの一例を示す図である。図８の例では、第１の音声データＤ１は、一定時間に同じ正弦波が４回繰り返される一定周波数の音声データであり、その再生時間はＴ１である。また、第１の比率情報ＳＲ１は７５％に設定され、第２の比率情報ＳＲ２は６７％に設定されている。

まず、第１回目の時間スケール変換によりＮ個のサンプルを含む第１の音声データＤ１の１つの正弦波が削除され、同じ正弦波が３回繰り返される一定周波数の第２の音声データＤ２が生成される。第２の音声データＤ２のサンプル数はＮ×０．７５であり、第２の音声データＤ２の再生時間Ｔ２は、第１の音声データＤ１の再生時間Ｔ１の７５％に短縮されている。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は第１の音声データＤ１に含まれる正弦波の周波数と同じなので、時間スケール変換の前後でピッチは変わらない。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、ピッチが同じであって再生時間が７５％に短縮された音声データである。

次に、第２回目の時間スケール変換によりＮ×０．７５個のサンプルを含む第２の音声データＤ２の１つの正弦波が削除され、同じ正弦波が２回繰り返される一定周波数の第２の音声データＤ２が生成される。時間スケール変換により得られる第２の音声データＤ２のサンプル数はＮ×０．７５×０．６７であり、第２の音声データＤ２の再生時間Ｔ３は、第１の音声データＤ１の再生時間Ｔ１の５０％に短縮されている。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は第１の音声データＤ１に含まれる正弦波の周波数と同じである。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、ピッチが同じであって再生時間が５０％に短縮された音声データである。

次に、リサンプリングにより第２の音声データＤ２のサンプル数の第２の比率情報ＳＲ２の逆数である１．５倍のサンプルを含む第３の音声データＤ３が生成される。第３の音声データＤ３の再生時間は、時間スケール変換後の第２の音声データＤ２の再生時間Ｔ３の１５０％であり、時間スケール変換前の第２の音声データＤ２の再生時間Ｔ２と同じであり、第１の音声データＤ１の再生時間Ｔ１の７５％である。これに対して、第３の音声データＤ３に含まれる正弦波の周波数は、第２の音声データＤ２に含まれる正弦波の周波数、すなわち第１の音声データＤ１に含まれる正弦波の周波数の６７％である。すなわち、第３の音声データＤ３は、第１の音声データＤ１に対して、再生時間が７５％に短縮され、ピッチが６７％に下がった音声データである。

最後に、Ｄ／Ａ変換により、第３の音声データＤ３の再生時間Ｔ２と同じ再生時間の音声信号ＶＯが生成される。

図９は、第３の動作モードにおいて、第１の音声データＤ１のピッチを上げるとともに再生時間を伸長する場合の第２の音声データＤ２、第３の音声データＤ３及び音声信号ＶＯの一例を示す図である。図９の例では、第１の音声データＤ１は、一定時間に同じ正弦波が４回繰り返される一定周波数の音声データであり、その再生時間はＴ１である。また、第１の比率情報ＳＲ１は１２５％に設定され、第２の比率情報ＳＲ２は１２０％に設定されている。

まず、第１回目の時間スケール変換によりＮ個のサンプルを含む第１の音声データＤ１の１つの正弦波が複製され、同じ正弦波が５回繰り返される一定周波数の第２の音声データＤ２が生成される。第２の音声データＤ２のサンプル数はＮ×１．２５であり、第２の音声データＤ２の再生時間Ｔ２は、第１の音声データＤ１の再生時間Ｔ１の１２５％に伸長されている。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は第１の音声データＤ１に含まれる正弦波の周波数と同じなので、時間スケール変換の前後でピッチは変わらない。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、ピッチが同じであって再生時間が１２５％に伸長された音声データである。

次に、第２回目の時間スケール変換によりＮ×１．２５個のサンプルを含む第２の音声データＤ２の１つの正弦波が複製され、同じ正弦波が６回繰り返される一定周波数の第２の音声データＤ２が生成される。時間スケール変換により得られる第２の音声データＤ２のサンプル数はＮ×１．２５×１．２０＝Ｎ×１．５であり、第２の音声データＤ２の再生時間Ｔ３は、第１の音声データＤ１の再生時間Ｔ１の１５０％に伸長されている。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は第１の音声データＤ１に含まれる正弦波の周波数と同じである。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、ピッチが同じであって再生時間が１５０％に伸長された音声データである。

次に、リサンプリングにより第２の音声データＤ２のサンプル数の第２の比率情報ＳＲ２の逆数である約０．８３倍のサンプルを含む第３の音声データＤ３が生成される。第３の音声データＤ３の再生時間は、時間スケール変換後の第２の音声データＤ２の再生時間Ｔ３の約８３％であり、時間スケール変換前の第２の音声データＤ２の再生時間Ｔ２と同じであり、第１の音声データＤ１の再生時間Ｔ１の１２５％である。これに対して、第３の音声データＤ３に含まれる正弦波の周波数は、第２の音声データＤ２に含まれる正弦波の周波数、すなわち第１の音声データＤ１に含まれる正弦波の周波数の１２０％である。すなわち、第３の音声データＤ３は、第１の音声データＤ１に対して、再生時間が１２５％に伸長され、ピッチが１２０％に上がった音声データである。

なお、第２実施形態の半導体装置１の実施例の構成については図示を省略するが、図６に示した第１実施形態の半導体装置１に対して、クロック生成部２０がさらに前述の第５のクロック信号ＣＫ５を生成し、例えば、マイクロコントロールユニット３１がさらに前述の制御部１００として機能してもよい。

以上に説明した第２実施形態の半導体装置１によれば、第１実施形態の半導体装置１と同様の効果を奏する。さらに、第２実施形態の半導体装置１によれば、レジスター５０に記憶される制御情報に基づき、第１の音声データＤ１の再生時間を変更せずにピッチを変更する第１の動作モード、第１の音声データＤ１のピッチを変更せずに再生時間を変更する第２の動作モード、又は第１の音声データＤ１の再生時間及びピッチを変更する第３の動作モードを選択することができるので、高い汎用性を実現することができる。

１−３．変形例
図１０は、変形例の半導体装置１の構成を示す図である。図１０に示すように、変形例の半導体装置１は、第１実施形態と同様、音声データ格納部１０と、クロック生成部２０と、時間スケール変換部３０と、リサンプラー４０と、レジスター５０と、を含む。

クロック生成部２０は、第１実施形態と同様、第１のクロック信号ＣＫ１及び第２のクロック信号ＣＫ２を生成する。

リサンプラー４０は、第２のクロック信号ＣＫ２に同期して、ハードウェア処理により、第１の音声データＤ１を、第１の周期Ｔｓ１でサンプリングされた、第１の音声データＤ１と異なる数の複数のサンプルを含む第２の音声データＤ２に変換する。具体的には、リサンプラー４０は、第１の音声データＤ１に含まれる複数のサンプルを第１の周期Ｔｓ１とは異なる第２の周期Ｔｓ２でサンプリングされたものと仮定して、当該複数のサンプルに基づく補間処理及び/又は間引き処理により、第１の周期Ｔｓ１でサンプリングされた複数のサンプルを求めて第２の音声データＤ２とする。補間処理及び/又は間引き処理には公知の各種の手法を適用可能である。なお、第１の音声データＤ１が圧縮された音声データである場合は、リサンプラー４０は、不図示の音声データ展開部により展開された第１の音声データＤ１に対して補間処理及び/又は間引き処理を行ってもよい。

時間スケール変換部３０は、第１のクロック信号ＣＫ１に同期して、第２の音声データＤ２を、第２の音声データＤ２に含まれる複数のサンプルの一部を削除又は複製した第３の音声データＤ３に変換する。例えば、削除又は複製されるサンプルは、周期的に繰り返される波形を構成する複数のサンプルの一部であってもよい。第３の音声データＤ３は、第２の音声データＤ２と同じピッチであって、第２の音声データＤ２とは再生速度あるいは再生時間が異なる音声データである。第２の音声データＤ２を第３の音声データＤ３に変換する処理、すなわち、いわゆる時間スケール変換処理には公知の各種の手法を適用可能である。例えば、時間スケール変換部３０は、ソフトウェア処理により時間スケール変換処理を行ってもよい。

レジスター５０は、第１実施形態と同様、時間スケール変換部３０及びリサンプラー４０の動作を制御する制御情報を格納する。例えば、制御情報は、時間スケール変換部３０及びリサンプラー４０に処理を開始させるためのスタートビットＳＴを含んでもよい。時間スケール変換部３０及びリサンプラー４０は、スタートビットＳＴが非アクティブからアクティブに変化すると処理を開始し、処理を終了すると停止する。

また、制御情報は、第３の音声データＤ３のサンプル数と第２の音声データＤ２のサンプル数との比率情報ＳＲを含み、時間スケール変換部３０及びリサンプラー４０に比率情報ＳＲが供給されてもよい。例えば、比率情報ＳＲが、第３の音声データＤ３のサンプル数が第２の音声データＤ２のサンプル数の７５％であることを示す場合、リサンプラー４０は、第１の音声データＤ１に含まれるＮ個のサンプルを第１の周期Ｔｓ１の約１３３％である第２の周期Ｔｓ２でサンプリングされたものと仮定して、Ｎ個のサンプルに基づく補間処理及び/又は間引き処理により、第１の周期Ｔｓ１でサンプリングされた約Ｎ×１．３３個のサンプルを求めて第２の音声データＤ２とする。そして、時間スケール変換部３０は、第２の音声データＤ２を、第２の音声データＤ２に含まれる約Ｎ×１．３３個のサンプルの２５％を削除したＮ個のサンプルを含む第３の音声データＤ３に変換する。

また、第１実施形態と同様、半導体装置１は、Ｄ／Ａ変換器６０を含んでもよい。半導体装置１がＤ／Ａ変換器６０を含む場合、クロック生成部２０は、Ｄ／Ａ変換器６０を動作させるための第３のクロック信号ＣＫ３を生成する。

Ｄ／Ａ変換器６０は、第１実施形態と同様、第３の音声データＤ３をアナログ信号である音声信号ＶＯに変換する。具体的には、Ｄ／Ａ変換器６０は、第３のクロック信号ＣＫ３に同期して、第１の周期Ｔｓ１で第３の音声データＤ３に含まれる複数のサンプルをサンプリングしてアナログ値に変換することにより音声信号ＶＯを生成する。スタートビットＳＴはＤ／Ａ変換器６０にも供給され、Ｄ／Ａ変換器６０は、スタートビットＳＴが非アクティブからアクティブに変化すると処理を開始し、処理を終了すると停止する。

なお、第１実施形態と同様、半導体装置１は、リサンプラー４０におけるリサンプリングによって発生するエリアシングノイズを低減させる必要がある場合は、ローパスフィルター７０を含んでもよい。リサンプラー４０におけるリサンプリングがダウンサンプリングである場合は、ローパスフィルター７０は、リサンプラー４０の前段、具体的には音声データ格納部１０の出力からリサンプラー４０の入力に至る信号経路に設けられ、必要に応じてリサンプラー４０の後段、具体的にはリサンプラー４０の出力から時間スケール変換部３０の入力に至る信号経路にも設けられる。また、リサンプラー４０におけるリサンプリングがアップサンプリングである場合は、ローパスフィルター７０は、リサンプラー４０の後段、具体的にはリサンプラー４０の出力から時間スケール変換部３０の入力に至る信号経路に設けられる。半導体装置１がローパスフィルター７０を含む場合、クロック生成部２０は、ローパスフィルター７０を動作させるための第４のクロック信号ＣＫ４を生成し、スタートビットＳＴはローパスフィルター７０にも供給される。そして、ローパスフィルター７０は、スタートビットＳＴが非アクティブからアクティブに変化すると第４のクロック信号ＣＫ４に同期した処理を開始し、処理を終了すると停止する。

なお、第１実施形態と同様、クロック生成部２０は、スタートビットＳＴが非アクティブからアクティブに変化すると、第１のクロック信号ＣＫ１、第２のクロック信号ＣＫ２、第３のクロック信号ＣＫ３及び第４のクロック信号ＣＫ４を生成し、所定の時間が経過すると、クロック信号の生成を停止してもよい。この場合、スタートビットＳＴは、時間スケール変換部３０及びリサンプラー４０、Ｄ／Ａ変換器６０及びローパスフィルター７０に供給されなくてもよい。

また、第１実施形態と同様、クロック生成部２０が生成する第１のクロック信号ＣＫ１、第２のクロック信号ＣＫ２、第３のクロック信号ＣＫ３及び第４のクロック信号ＣＫ４のうちの複数のクロック信号が共通であってもよい。

図１１は、変形例の半導体装置１において、第１の音声データＤ１のピッチを下げる場合の第２の音声データＤ２、第３の音声データＤ３及び音声信号ＶＯの一例を示す図である。図１１の例では、第１の音声データＤ１は、一定時間に同じ正弦波が４回繰り返される一定周波数の音声データであり、その再生時間はＴ１である。また、比率情報ＳＲは７５％に設定されている。

まず、リサンプリングにより第１の音声データＤ１のサンプル数Ｎの比率情報ＳＲの逆数である約１．３３倍のサンプルを含む第２の音声データＤ２が生成される。このリサンプリングの詳細は、図３の例と同様である。第２の音声データＤ２の再生時間Ｔ２は、第１の音声データＤ１の再生時間Ｔ１の約１３３％である。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は、第１の音声データＤ１に含まれる正弦波の周波数の７５％である。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、再生時間が約１３３％に伸長され、ピッチが７５％に下がった音声データである。

次に、時間スケール変換により第２の音声データＤ２の１つの正弦波が削除され、同じ正弦波が３回繰り返される一定周波数の第３の音声データＤ３が生成される。第３の音声データＤ３のサンプル数はＮであり、第３の音声データＤ３の再生時間は、第２の音声データＤ２の再生時間Ｔ２の７５％である。これに対して、第３の音声データＤ３に含まれる正弦波の周波数は第２の音声データＤ２に含まれる正弦波の周波数と同じなので、時間スケール変換の前後でピッチは変わらない。すなわち、第３の音声データＤ３は、第２の音声データＤ２に対して、ピッチが同じであって再生時間が７５％に短縮された音声データである。前述の通り、第２の音声データＤ２は、第１の音声データＤ１に対して、再生時間が約１３３％に伸長され、ピッチが７５％に下がった音声データであるので、第３の音声データＤ３は、第１の音声データＤ１に対して、再生時間が同じであり、ピッチが７５％に下がった音声データである。

図１２は、変形例の半導体装置１において、第１の音声データＤ１のピッチを上げる場合の第２の音声データＤ２、第３の音声データＤ３及び音声信号ＶＯの一例を示す図である。図１２の例では、第１の音声データＤ１は、一定時間に同じ正弦波が４回繰り返される一定周波数の音声データであり、その再生時間はＴ１である。また、比率情報ＳＲは１２５％に設定されている。

まず、リサンプリングにより第１の音声データＤ１のサンプル数Ｎの比率情報ＳＲの逆数である０．８０倍のサンプルを含む第２の音声データＤ２が生成される。このリサンプリングの詳細は、図５の例と同様である。第２の音声データＤ２の再生時間Ｔ２は、第１の音声データＤ１の再生時間Ｔ１の８０％である。これに対して、第２の音声データＤ２に含まれる正弦波の周波数は、第１の音声データＤ１に含まれる正弦波の周波数の１２５％である。すなわち、第２の音声データＤ２は、第１の音声データＤ１に対して、再生時間が８０％に短縮され、ピッチが１２５％に上がった音声データである。

次に、時間スケール変換により第２の音声データＤ２の１つの正弦波が複製され、同じ正弦波が５回繰り返される一定周波数の第３の音声データＤ３が生成される。第３の音声データＤ３のサンプル数はＮであり、第３の音声データＤ３の再生時間は、第２の音声データＤ２の再生時間Ｔ２の１２５％である。これに対して、第３の音声データＤ３に含まれる正弦波の周波数は第２の音声データＤ２に含まれる正弦波の周波数と同じなので、時間スケール変換の前後でピッチは変わらない。すなわち、第３の音声データＤ３は、第２の音声データＤ２に対して、ピッチが同じであって再生時間が１２５％に伸長された音声データである。前述の通り、第２の音声データＤ２は、第１の音声データＤ１に対して、再生時間が８０％に短縮され、ピッチが１２５％に上がった音声データであるので、第３の音声データＤ３は、第１の音声データＤ１に対して、再生時間が同じであり、ピッチが１２５％に上がった音声データである。

以上に説明した変形例の半導体装置１によれば、上記の第１実施形態と同様の効果を奏する。

なお、変形例の半導体装置１に対して、上記の第２実施形態で示したセレクター８０、セレクター９０及び制御部１００が追加されてもよい。

２．電子機器
図１３は、上述した半導体装置１を用いた本実施形態の電子機器の構成の一例を示す機能ブロック図である。また、図１４は、本実施形態の電子機器の一例であるスマートフォンの外観の一例を示す図である。

本実施形態の電子機器３００は、半導体装置１、操作部３３０、記憶部３４０、通信部３５０、表示部３６０及び音出力部３７０を含んで構成されている。なお、本実施形態の電子機器３００は、図１３の構成要素の一部を省略又は変更し、あるいは、他の構成要素を付加した構成としてもよい。

操作部３３０は、操作キーやボタンスイッチ等により構成される入力装置であり、ユーザーによる操作に応じた操作信号を半導体装置１に出力する。半導体装置１は、例えば、操作部３３０から入力される信号に応じて前述の制御情報を変更する。

記憶部３４０は、半導体装置１が各種の計算処理や制御処理を行うためのプログラムやデータ等を記憶している。例えば、記憶部３４０には複数の音声データが記憶されており、半導体装置１は、記憶部３４０に記憶されている複数の音声データのいずれかを読み出して、前述の第１の音声データＤ１としてもよい。記憶部３４０は、例えば、ハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、各種のメモリー、ＣＤ−ＲＯＭ、又は、ＤＶＤ−ＲＯＭ等によって実現される。

通信部３５０は、半導体装置１と電子機器３００の外部機器との間のデータ通信を成立させるための各種制御を行う。

表示部３６０は、ＬＣＤ（Liquid Crystal Display）等により構成される表示装置であり、入力される表示信号に基づいて各種の情報を表示する。表示部３６０には操作部３３０として機能するタッチパネルが設けられていてもよい。例えば、半導体装置１が表示信号を生成してもよいし、半導体装置１とは異なる不図示の半導体装置が表示信号を生成してもよい。

音出力部３７０は、スピーカー等によって構成され、半導体装置１からの出力信号である音声信号に基づいて音声を出力する。

本実施形態の電子機器３００は、比較的小さな回路規模でありながら音声データのピッチ変換を行うことが可能な半導体装置１を備えていることにより、低コストで所望の音声を出力することができる。

このような電子機器３００としては種々の電子機器が考えられ、例えば、炊飯器、ＩＨクッキングヒーター、掃除機、洗濯機等の各種の家庭用電気製品、電子時計、モバイル型、ラップトップ型、タブレット型などのパーソナルコンピューター、スマートフォンや携帯電話機などの移動体端末、ディジタルカメラ、インクジェットプリンターなどのインクジェット式吐出装置、ルーターやスイッチなどのストレージエリアネットワーク機器、ローカルエリアネットワーク機器、移動体端末基地局用機器、テレビ、ビデオカメラ、ビデオレコーダー、カーナビゲーション装置、リアルタイムクロック装置、ページャー、電子手帳、電子辞書、電卓、電子ゲーム機器、ゲーム用コントローラー、ワードプロセッサー、ワークステーション、テレビ電話、防犯用テレビモニター、電子双眼鏡、ＰＯＳ端末、電子体温計、血圧計、血糖計、心電図計測装置、超音波診断装置、電子内視鏡等の医療機器、魚群探知機、各種測定機器、車両、航空機、船舶等の計器類、フライトシミュレーター、ヘッドマウントディスプレイ、モーショントレース、モーショントラッキング、モーションコントローラー、歩行者自立航法（ＰＤＲ：Pedestrian Dead Reckoning）装置等が挙げられる。

３．移動体
図１５は、上述した半導体装置１を用いた本実施形態の移動体の一例を示す図である。図１５に示す移動体４００は、半導体装置１、コントローラー４４０，４５０，４６０、バッテリー４７０、スピーカー４８０を含む。なお、本実施形態の移動体は、図１５の構成要素の一部を省略し、あるいは、他の構成要素を付加した構成としてもよい。

半導体装置１、コントローラー４４０，４５０，４６０、スピーカー４８０は、バッテリー４７０から供給される電源電圧で動作する。

例えば、コントローラー４４０，４５０，４６０は、それぞれ、姿勢制御システム、横転防止システム、ブレーキシステム等の各種の制御を行う。

スピーカー４８０は、半導体装置１からの出力信号である音声信号に基づいて音声を出力する音出力部である。

本実施形態の移動体４００は、比較的小さな回路規模でありながら音声データのピッチ変換を行うことが可能な半導体装置１を備えていることにより、低コストで所望の音声を出力することができる。

このような移動体４００としては種々の移動体が考えられ、例えば、電気自動車等の自動車、ジェット機やヘリコプター等の航空機、船舶、ロケット、人工衛星等が挙げられる。

本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。

上述した実施形態および変形例は一例であって、これらに限定されるわけではない。例えば、各実施形態および各変形例を適宜組み合わせることも可能である。

本発明は、実施の形態で説明した構成と実質的に同一の構成、例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

１…半導体装置、１０…音声データ格納部、２０…クロック生成部、３０…時間スケール変換部、３１…マイクロコントロールユニット、３２…デジタル信号プロセッサー、４０…リサンプラー、５０…レジスター、６０…Ｄ／Ａ変換器、７０…ローパスフィルター、８０…セレクター、９０…セレクター、１００…制御部、１１０…ＲＯＭ、１１１…時間スケール変換プログラム、１２０…ＲＡＭ、１３０…プロセッサー、２００…バス、３００…電子機器、３３０…操作部、３４０…記憶部、３５０…通信部、３６０…表示部、３７０…音出力部、４００…移動体、４４０，４５０，４６０…コントローラー、４７０…バッテリー、４８０…スピーカー

Claims

第１の周期でサンプリングされた複数のサンプルを含む第１の音声データを格納する音声データ格納部と、
第１のクロック信号及び第２のクロック信号を生成するクロック生成部と、
前記第１のクロック信号に同期して、前記第１の音声データを、前記第１の音声データに含まれる前記複数のサンプルの一部を削除又は複製した第２の音声データに変換する時間スケール変換部と、
前記第２のクロック信号に同期して、ハードウェア処理により、前記第２の音声データを、前記第１の周期でサンプリングされた、前記第２の音声データと異なる数の複数のサンプルを含む第３の音声データに変換するリサンプラーと、
前記時間スケール変換部及び前記リサンプラーの動作を制御する制御情報を格納するレジスターと、を含む、半導体装置。
前記第３の音声データは、前記第１の音声データのピッチが変更された、前記第１の音声データと同じサンプル数のデータである、請求項１に記載の半導体装置。
前記音声データ格納部、前記クロック生成部、前記時間スケール変換部、前記リサンプラー及び前記レジスターは、１チップの集積回路装置に含まれる、請求項１又は２に記載の半導体装置。
前記制御情報は、前記半導体装置の動作モードを、第１の動作モード、第２の動作モード及び第３の動作モードを含む複数の動作モードのいずれかに設定する情報を含み、
前記第１の動作モードは、前記第１の音声データの再生時間を変更せずにピッチを変更する動作モードであり、
前記第２の動作モードは、前記第１の音声データのピッチを変更せずに再生時間を変更する動作モードであり、
前記第３の動作モードは、前記第１の音声データの再生時間及びピッチを変更する動作モードである、請求項１乃至３のいずれか一項に記載の半導体装置。
前記第３の音声データをアナログ信号に変換するＤ／Ａ変換器を含む、請求項１乃至４のいずれか一項に記載の半導体装置。
請求項１乃至５のいずれか一項に記載の半導体装置と、
前記半導体装置からの出力信号に基づいて音声を出力する音出力部と、を備えた、電子機器。
請求項１乃至５のいずれか一項に記載の半導体装置と、
前記半導体装置からの出力信号に基づいて音声を出力する音出力部と、を備えた、移動体。