JP2010048931A

JP2010048931A - 音声データ作成方法、記憶装置、集積回路装置及び音声再生システム

Info

Publication number: JP2010048931A
Application number: JP2008211631A
Authority: JP
Inventors: Masayuki Murakami; 雅行村上; Tsutomu Nonaka; 勉野中
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2008-08-20
Filing date: 2008-08-20
Publication date: 2010-03-04

Abstract

【課題】音声データの総量を削減しつつ、良好な音声データの再生を可能にする音声データ作成方法、記憶装置、集積回路装置及び音声再生システムを提供する。
【解決手段】音声メッセージを所与の分割箇所で分割した複数の音声データを作成する音声データ作成方法であって、音声メッセージの音声振幅に基づいて音声データの分割箇所を選定する第１の分割箇所選定手順（ステップＳ１０２）と、第１の分割箇所選定手順で選定した分割箇所で音声データを分割する分割手順（ステップＳ１０４）とを含む。
【選択図】図１

Description

本発明は、音声データ作成方法、記憶装置、集積回路装置及び音声再生システム等に関する。

音声ＩＣを搭載し、音声メッセージを出力する音声再生システムが搭載された電子機器が知られている。

このような音声再生システムにおいては、音声メッセージを複数の音声データとして記憶装置等に記憶させた構成が知られている。例えば、音声メッセージを単語や文節に基づいて分割した音声データを用意し、音声データを複数の音声メッセージで共通に利用することにより、必要な音声データの総量を削減することができる。
特開２００４−２４０００９号公報特開平９−１０２８１８号公報

音声メッセージを単語や文節に基づいて分割した音声データを組み合わせて音声メッセージを再生した場合には、音声データの組合せによっては聞き取りの際に不自然になる場合があった。

本発明は、以上のような技術的課題に鑑みてなされたものである。本発明の幾つかの態様によれば、音声データの総量を削減しつつ、良好な音声データの再生を可能にする音声データ作成方法、記憶装置、集積回路装置及び音声再生システムを提供できる。

（１）本発明に係る音声データ作成方法は、
音声メッセージを所与の分割箇所で分割した複数の音声データを作成する音声データ作成方法であって、
前記音声メッセージの音声振幅に基づいて前記音声データの分割箇所を選定する第１の分割箇所選定手順と、
前記第１の分割箇所選定手順で選定した分割箇所で前記音声データを分割する分割手順とを含むことを特徴とする。

本発明によれば、音声データを組み合わせて音声メッセージを再生する際に、音声データ間の境界が目立たず、より自然に聞こえる音声データを作成することができる。

（２）この音声データ作成方法であって、
前記第１の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージの音声振幅が所定値よりも小さい箇所の少なくとも１つを選定してもよい。

（３）これらのいずれかの音声データ作成方法であって、
前記第１の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージの音声振幅が所定値よりも小さくなる期間が所定時間以上続く箇所の少なくとも１つを選定してもよい。

（４）これらのいずれかの音声データ作成方法であって、
前記音声メッセージに含まれる音声周波数に基づいて前記音声データの分割箇所を選定する第２の分割箇所選定手順を含み、
前記分割手順において、
前記第１の分割箇所選定手順及び前記第２の分割箇所選定手順で選定した分割箇所で前記音声データを分割してもよい。

（５）この音声データ作成方法であって、
前記第２の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる箇所の少なくとも１つを選定してもよい。

（６）これらのいずれかの音声データ作成方法であって、
前記第２の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる期間が所定時間以上続く箇所の少なくとも１つを選定してもよい。

（７）これらのいずれかの音声データ作成方法であって、
前記所定周波数は、音声データのサンプリング周波数の１／２であってもよい。

（８）これらのいずれかの音声データ作成方法であって、
前記音声メッセージは、数字の読み上げメッセージを含んでもよい。

（９）これらのいずれかの音声データ作成方法であって、
複数の前記音声メッセージに共通に含まれる共通音節群の前後を分割箇所候補として選定する分割箇所候補選定手順を含み、
前記第１の分割箇所選定手順及び前記第２の分割箇所選定手順において、
前記分割箇所候補の中から前記分割箇所を選定してもよい。

共通音節群は、例えば日本語の音声メッセージの場合は、音声メッセージのうち、平仮名で表した場合に共通文字列となる部分である。

（１０）本発明に係る記憶装置は、
音声メッセージを分割した複数の音声データが記憶された記憶部を含む記憶装置であって、
少なくとも１つの前記音声データは、その先頭部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の先頭の音声振幅が所定値よりも小さいことを特徴とする。

（１１）本発明に係る記憶装置は、
音声メッセージを分割した複数の音声データが記憶された記憶部を含む記憶装置であって、
少なくとも１つの前記音声データは、その末尾部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の末尾の音声振幅が所定値よりも小さいことを特徴とする。

（１２）本発明に係る集積回路装置は、
音声メッセージを分割した複数の音声データが記憶された記憶部と、
音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記記憶部から音声データを読み出して再生出力する音声再生部とを含む集積回路装置であって、
少なくとも１つの前記音声データは、その先頭部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の先頭の音声振幅が所定値よりも小さいことを特徴とする。

（１３）本発明に係る集積回路装置は、
音声メッセージを分割した複数の音声データが記憶された記憶部と、
音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記記憶部から音声データを読み出して再生出力する音声再生部とを含む集積回路装置であって、
少なくとも１つの前記音声データは、その末尾部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の末尾の音声振幅が所定値よりも小さいことを特徴とする。

（１４）本発明に係る音声再生システムは、
音声メッセージを分割した複数の音声データが記憶された記憶装置と、
音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記記憶装置に記憶された音声データを再生出力する集積回路装置とを含む音声再生システムであって、
前記記憶装置は、これらのいずれかの記憶装置であることを特徴とする。

以下、本発明を適用した実施の形態について図面を参照して説明する。ただし、本発明は以下の実施の形態に限定されるものではない。また、本発明は、以下の内容を自由に組み合わせたものを含むものとする。

１．音声データ作成方法
本実施の形態に係る音声データ作成方法は、音声メッセージを所与の分割箇所で分割した複数の音声データを作成する音声データ作成方法であって、音声メッセージの音声振幅に基づいて音声データの分割箇所を選定する第１の分割箇所選定手順と、第１の分割箇所選定手順で選定した分割箇所で音声データを分割する分割手順とを含む。

音声メッセージとは、例えば音声で読み上げた文や文節であり、文は電子機器などの音声ガイドメッセージとして使用される文であってもよい。本実施の形態においては、音声メッセージに使用される文として「料金は、７００円です。」という文を用いて説明する。

図１は、本実施の形態に係る音声データ作成方法の一例を示すフローチャートである。

本実施の形態に係る音声データ作成方法では、まず音声メッセージから音声データを作成する（ステップＳ１００）。

音声メッセージから音声データを作成する手法は、既知の手法を用いることが可能であり、例えば音声メッセージを読み上げた肉声をサンプリングしたり、ＴＴＳ（Text to Speech）システムにより合成したりしてもよい。

図２は、音声メッセージの時間と音声振幅との関係の一例を示すグラフである。横軸は時間、縦軸は音圧を表す。図２においては、音声メッセージとして「料金は、７００円です。」という文を読み上げた例を表している。音圧は様々な周波数波形の重ね合わせであり、その正側の包絡線（図示せず）と負側の包絡線（図示せず）との差を音声振幅と考える。同じ周波数の音であれば、音声振幅が大きいほど音は大きく聞こえる。

ステップＳ１００では、時刻ｔ０から時刻ｔ５まで（「りょうきんは、ななひゃくえんです」に対応）を１つの音声データＤ０として作成することも可能であり、また、時刻ｔ１から時刻ｔ２までの無音期間を除いて、時刻ｔ０から時刻ｔ１まで（「りょうきんは」に対応）の音声データＤ１と、時刻ｔ２から時刻ｔ５まで（「ななひゃくえんです」に対応）の音声データＤ２を作成することも可能である。本実施の形態においては、時刻ｔ０から時刻ｔ１までの音声データＤ１と、時刻ｔ２から時刻ｔ５までの音声データを作成するものとし、以下では時刻ｔ２から時刻ｔ５までの音声データＤ２を分割する場合について説明する。

本実施の形態に係る音声データ作成方法では、ステップＳ１００の次に、音声メッセージの音声振幅に基づいて音声データの分割箇所を選定する（ステップＳ１０２；第１の分割箇所選定手順に対応）。ステップＳ１０２では、分割箇所として、音声メッセージの音声振幅が所定値よりも小さい箇所の少なくとも１つを選定することが可能である。また、ステップＳ１０２では、分割箇所として、音声メッセージの音声振幅が所定値よりも小さくなる期間が所定時間以上続く箇所の少なくとも１つを選定することが可能である。所定時間は、例えば数１０ｍ秒程度とすることができる。

図２に示す例においては、音声振幅が所定値よりも小さくなる期間が所定時間以上続く箇所のうち、分割箇所として、時刻ｔ３と時刻ｔ４を選定している。

本実施の形態に係る音声データ作成方法では、ステップＳ１０２の次に、ステップＳ１０２で選定した分割箇所で音声データを分割する（ステップＳ１０４；分割手順に対応）。

図２に示す例においては、ステップＳ１０２で分割箇所として選定した時刻ｔ３と時刻ｔ４で音声データを分割する。その結果、音声データＤ２は、時刻ｔ２から時刻ｔ３まで（「ななひゃ」に対応）の音声データＤ２１、時刻ｔ３から時刻ｔ４まで（「くえん」に対応）の音声データＤ２２、時刻ｔ４から時刻ｔ５まで（「です」に対応）の音声データＤ２３に分割される。

本実施の形態における音声データ作成方法によれば、音声データの分割箇所として、音声メッセージの音声振幅が所定値よりも小さくなる時間が所定時間以上続く箇所の少なくとも１つを選定している。音声メッセージの音声振幅が小さくなる箇所は、音が小さくしか聞こえない又はほとんど聞こえない箇所と考えることができる。

したがって、音が小さくしか聞こえない又はほとんど聞こえない箇所で音声データを分割することにより、音声データを組み合わせて音声メッセージを再生する際に、音声データ間の境界が目立たず、より自然に聞こえる音声データを作成することができる。

上述の説明では音声メッセージ「料金は、７００円です。」についての音声データを作成する例で説明したが、他の音声メッセージについても同様に音声データの作成が可能である。例えば、音声メッセージ「料金は、９００円です。」について、「りょうきんは」に対応する音声データＤ３、「きゅうひゃ」に対応する音声データ４１、「くえん」に対応する音声データＤ４２、「です」に対応する音声データＤ４３を作成することができる。

この例の場合、「りょうきんは」に対応する音声データＤ１と音声データＤ３、「くえん」に対応する音声データＤ２２と音声データＤ４２、「です」に対応する音声データＤ２３と音声データＤ４３は、それぞれ共通の音声データとすることができる。これにより、例えば音声データを組み合わせて音声メッセージを再生する音声再生システム等において、音声データの総量を削減することが可能である。

図３（Ａ）及び図３（Ｂ）は、音声メッセージを生成する音声データの組合せ例を示すグラフである。横軸は時間、縦軸は音圧を表す。また、図３（Ａ）は、音声メッセージ「料金は、７００円です。」を生成する場合の組合せ、図３（Ｂ）は、音声メッセージ「料金は、９００円です。」を生成する場合の組合せを表す。

音声メッセージ「料金は、７００円です。」を生成する場合には、「りょうきんは」に対応する音声データＤ１、「ななひゃ」に対応する音声データＤ２１、「くえん」に対応する音声データＤ２２、「です」に対応する音声データＤ２３の順に再生する。なお、音声データＤ１と音声データＤ２１の間には、無音期間を挿入している。

音声メッセージ「料金は、９００円です。」を生成する場合には、「りょうきんは」に対応する音声データＤ１、「きゅうひゃ」に対応する音声データＤ４１、「くえん」に対応する音声データＤ２２、「です」に対応する音声データＤ２３の順に再生する。なお、音声データＤ１と音声データＤ４１の間には、無音期間を挿入している。

このように、音声メッセージ「料金は、７００円です。」と「料金は、９００円です。」を生成する場合には、音声データＤ１、Ｄ２１、Ｄ２２、Ｄ２３、Ｄ４１を用意するのみで済むので、全ての音声データを用意する場合に比べて音声データの総量を削減することができる。音声データを分割して共用して音声データの総量を削減する手法は、例えば音声メッセージが数字の読み上げメッセージ（例えば金額、時間、時刻、日付、温度、湿度等を読み上げるメッセージ）を含む場合には、共用できる音声データが多くなり、特に有効である。

したがって、本実施の形態における音声データ作成方法によれば、音声データの総量を削減しつつ、良好な音声データの再生を可能にする音声データを作成することができる。

〔変形例１〕
上述の実施の形態の説明においては、音声メッセージの音声振幅に基づいて音声データの分割箇所を選定する場合の音声データ作成方法について説明したが、音声メッセージの音声振幅に加えて、さらに音声メッセージに含まれる音声周波数に基づいて音声データの分割箇所を選定することも可能である。

すなわち、上述の音声データ作成方法に加えて、音声メッセージに含まれる音声周波数に基づいて音声データの分割箇所を選定する第２の分割箇所選定手順を含み、分割手順において、第１の分割箇所選定手順及び第２の分割箇所選定手順で選定した分割箇所で音声データを分割することが可能である。

図４は、本実施の形態に係る音声データ作成方法の他の一例を示すフローチャートである。なお、図１のフローチャートと同一の手順には同一の符号を付し、詳細な説明を省略する。

本実施の形態に係る音声データ作成方法では、まず音声メッセージから音声データを作成する（ステップＳ１００）。次に、音声メッセージの音声振幅に基づいて音声データの分割箇所を選定する（ステップＳ１０２；第１の分割箇所選定手順に対応）。ステップＳ１０２では、分割箇所として、音声メッセージの音声振幅が所定値よりも小さい箇所の少なくとも１つを選定することが可能である。また、ステップＳ１０２では、分割箇所として、音声メッセージの音声振幅が所定値よりも小さくなる期間が所定時間以上続く箇所の少なくとも１つを選定することが可能である。所定時間は、例えば数１０ｍ秒程度とすることができる。

本実施の形態に係る音声データ作成方法では、ステップＳ１０２の次に、音声メッセージに含まれる音声周波数に基づいて音声データの分割箇所を選定する（ステップＳ２００；第２の分割箇所選定手順に対応）。ステップＳ２００では、分割箇所として、音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる箇所の少なくとも１つを選定することが可能である。また、ステップＳ２００では、分割箇所として、音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる期間が所定時間以上続く箇所の少なくとも１つを選定することが可能である。所定時間は、例えば数１０ｍ秒程度とすることができる。

所定周波数は、例えば音声データのサンプリング周波数ｆの１／２とすることができる。音声メッセージに含まれる音声周波数成分のうち、音声データのサンプリング周波数ｆの１／２を超える音声周波数成分は、その音声データを用いては再現することができないため、音声データの再生時には聞こえないことになるからである。

したがって、音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる箇所を分割箇所として選定することにより、音が小さくしか聞こえない又はほとんど聞こえない箇所で音声データを分割することにより、音声データを組み合わせて音声メッセージを再生する際に、音声データ間の境界が目立たず、より自然に聞こえる音声データを作成することができる。

図５（Ａ）は音声メッセージの時間と音声振幅との関係の一例を示すグラフである。横軸は時間、縦軸は音圧を表す。図５（Ｂ）は音声メッセージの時間と音声周波数との関係の一例を示すグラフである。横軸は時間、縦軸は周波数を表し、音声周波数成分の強度を黒色の濃さで表す。図５（Ａ）及び図５（Ｂ）においては、音声メッセージとして「料金は、７００円です。」という文を読み上げた場合の「りょうきんは」付近についてのグラフを表している。

図５（Ａ）及び図５（Ｂ）に示す例においては、音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる期間が所定時間以上続く箇所のうち、分割箇所として、時刻ｔ６を選定している。

図５（Ａ）及び図５（Ｂ）に示す例においては、時刻ｔ６において、図５（Ａ）では音声振幅が所定値以下とはならないが、図５（Ｂ）では音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となっている。したがって、ステップＳ１０２では分割箇所として選定できなかった時刻ｔ６が、ステップＳ２００では分割箇所として選定することが可能になる。

本実施の形態に係る音声データ作成方法では、ステップＳ２００の次に、ステップＳ１０２及びステップＳ２００で選定した分割箇所で音声データを分割する（ステップＳ２０２；分割手順に対応）。図５（Ａ）及び図５（Ｂ）に示す例においては、時刻ｔ６において音声データを分割し、「りょう」に対応する音声データＤ１１と、「きんは」に対応する音声データＤ１２を作成することができる。

このように、音声メッセージの音声振幅に加えて、さらに音声メッセージに含まれる音声周波数に基づいて音声データの分割箇所を選定することにより、音声データの分割箇所の選択肢が増える。したがって、複数の音声メッセージで共用できる音声データの作成が容易になる。

〔変形例２〕
図１に示すフローチャートを用いて説明した実施の形態や、図４に示すフローチャートを用いて説明した変形例１の音声データ作成方法において、さらに、複数の音声メッセージに共通に含まれる共通音節群の前後を分割箇所候補として選定する分割箇所候補選定手順を含み、第１の分割箇所選定手順及び第２の分割箇所選定手順において、分割箇所候補の中から分割箇所を選定することも可能である。

図６は、本実施の形態に係る音声データ作成方法の他の一例を示すフローチャートである。図６に示す例は、図１に示すフローチャートを用いて説明した実施の形態に、分割箇所候補選定手順を加えた例である。なお、図１のフローチャートと同一の手順には同一の符号を付し、詳細な説明を省略する。

次に、複数の音声メッセージに共通に含まれる共通音節群の前後を分割箇所候補として選定する（ステップＳ３００；分割箇所候補選定手順に対応）。共通音節群は、例えば日本語の音声メッセージの場合には、音声メッセージのうち、平仮名で表した場合に共通文字列となる部分である。

例えば音声メッセージとして「７００円です。」と「９００円です。」を用いる場合には、共通音節群としては「ひゃくえんです」、「ひゃくえんで」、「す」、「ひゃく」、「えんです」、「ひゃ」、「くえんです」、「ひゃ」、「くえん」、「です」、「えん」等、様々な組合せが考えられる。ステップＳ３００では、これらの共通音節群の前後を分割箇所候補として選定する。

本実施の形態に係る音声データ作成方法では、ステップＳ３００の次に、音声メッセージの音声振幅に基づいて音声データの分割箇所を分割箇所候補の中から選定する（ステップＳ３０２；第１の分割箇所選定手順に対応）。ステップＳ３０２では、分割箇所として、音声メッセージの音声振幅が所定値よりも小さい箇所の少なくとも１つを選定することが可能である。また、ステップＳ３０２では、分割箇所として、音声メッセージの音声振幅が所定値よりも小さくなる期間が所定時間以上続く箇所の少なくとも１つを選定することが可能である。所定時間は、例えば数１０ｍ秒程度とすることができる。所定周波数は、例えば音声データのサンプリング周波数ｆの１／２とすることができる。

本実施の形態に係る音声データ作成方法では、ステップＳ３０２の次に、ステップＳ３０２で選定した分割箇所で音声データを分割する（ステップＳ１０４；分割手順に対応）。

図７は、本実施の形態に係る音声データ作成方法の他の一例を示すフローチャートである。図７に示す例は、図４に示すフローチャートを用いて説明した実施の形態に、分割箇所候補選定手順を加えた例である。なお、図４及び図６のフローチャートと同一の手順には同一の符号を付し、詳細な説明を省略する。

本実施の形態に係る音声データ作成方法では、まず音声メッセージから音声データを作成する（ステップＳ１００）。次に、複数の音声メッセージに共通に含まれる共通音節群の前後を分割箇所候補として選定する（ステップＳ３００；分割箇所候補選定手順に対応）。次に、音声メッセージの音声振幅に基づいて音声データの分割箇所を分割箇所候補の中から選定する（ステップＳ３０２；第１の分割箇所選定手順に対応）。

本実施の形態に係る音声データ作成方法では、ステップＳ３０２の次に、音声メッセージに含まれる音声周波数に基づいて音声データの分割箇所を分割箇所候補の中から選定する（ステップＳ３０４；第２の分割箇所選定手順に対応）。ステップＳ３０４では、分割箇所として、音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる箇所の少なくとも１つを選定することが可能である。また、ステップＳ３０４では、分割箇所として、音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる期間が所定時間以上続く箇所の少なくとも１つを選定することが可能である。所定時間は、例えば数１０ｍ秒程度とすることができる。

本実施の形態に係る音声データ作成方法では、ステップＳ３０４の次に、ステップＳ３０２及びステップＳ３０４で選定した分割箇所で音声データを分割する（ステップＳ２０２；分割手順に対応）。

このように、あらかじめ分割箇所候補を選定しておくことにより、分割箇所の選定が容易になる。

２．記憶装置
図８は、本実施の形態に係る記憶装置の構成の一例を示す機能ブロック図である。

本実施の形態に係る記憶装置１は、記憶部１０を含む。記憶部１０は、音声メッセージを分割した複数の音声データを記憶する。

本実施の形態に係る記憶装置１は、インターフェイス部１２を含んでもよい。インターフェイス部１２は、記憶装置１と他の装置（図示せず）との間で音声データ等を入出力する際のインターフェイスとして機能する。

本実施の形態に係る記憶装置１の記憶部１０に記憶される音声データの少なくとも１つは、その先頭部分が音声メッセージに含まれる単語の途中であって、音節の先頭の音声振幅が所定値よりも小さい音声データとすることができる。

また、本実施の形態に係る記憶装置１の記憶部１０に記憶される音声データの少なくとも１つは、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾の音声振幅が所定値よりも小さい音声データとすることができる。

図９は、音声データの一例を示す図である。本実施の形態に係る記憶装置１の記憶部１０は、音声メッセージとして「料金は、７００円です。」と「料金は、９００円です。」の２種類を生成するための音声データを記憶しているものとして説明する。

図９に示す音声データから音声メッセージとして「料金は、７００円です。」を生成する場合には、「りょうきんは」に対応する音声データＤ１、「ななひゃ」に対応する音声データＤ２１、「くえん」に対応する音声データＤ２２、「です」に対応する音声データＤ２３を順に再生することにより音声メッセージを生成することができる。

また、図９に示す音声データから音声メッセージとして「料金は、９００円です。」を生成する場合には、「りょうきんは」に対応する音声データＤ１、「きゅうひゃ」に対応する音声データＤ４１、「くえん」に対応する音声データＤ２２、「です」に対応する音声データＤ２３を順に再生することにより音声メッセージを生成することができる。

図９に示す音声データにおいて、「くえん」に対応する音声データＤ２２は、その先頭部分が音声メッセージに含まれる単語の途中であって、音節の先頭の音声振幅が所定値よりも小さい音声データである。

また、図９に示す音声データにおいて、「ななひゃ」に対応する音声データＤ２１と「きゅうひゃ」に対応する音声データＤ４１は、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾の音声振幅が所定値よりも小さい音声データである。

これらの音声データは、例えば先に「１．音声データの作成方法」で説明した方法で作成することができる。

このように、音が小さくしか聞こえない又はほとんど聞こえない箇所で分割した音声データを記憶することにより、音声データを組み合わせて音声メッセージを再生する際に、音声データ間の境界が目立たず、より自然に聞こえる音声データを記憶した記憶装置を実現することができる。

本実施の形態に係る記憶装置１の記憶部１０に記憶される音声データの少なくとも１つは、その先頭部分が音声メッセージに含まれる単語の途中であって、音節の先頭に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データとすることができる。
また、本実施の形態に係る記憶装置１の記憶部１０に記憶される音声データの少なくとも１つは、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データとすることができる。

所定周波数は、例えば音声データのサンプリング周波数の１／２とすることができる。音声メッセージに含まれる音声周波数成分のうち、音声データのサンプリング周波数の１／２を超える音声周波数成分は、その音声データを用いては再現することができないため、音声データの再生時には聞こえないことになるからである。

例えば、記憶装置１の記憶部１０には、図９に示す音声データのうち、「りょうきんは」に対応する音声データＤ１を、「りょう」に対応する音声データＤ１１と、「きんは」に対応する音声データＤ１２とに分割して記憶させてもよい。

この場合、「きんは」に対応する音声データＤ１２は、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データである。

また、「りょう」に対応する音声データＤ１１は、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データである。

このような音声データも、例えば先に「１．音声データの作成方法」で説明した方法で作成することができる。

３．集積回路装置
図１０は、本実施の形態に係る集積回路装置の構成の一例を示すハードウェアブロック図である。

集積回路装置２は、ホストＣＰＵ１００とともに電子機器に実装され、ホストＣＰＵ１００からの制御コマンドによって動作し、電子機器に搭載されるホストＣＰＵ１００をホストとするコンパニオンチップとして動作する。集積回路装置２は、ホストＣＰＵ１００から発効されるコマンドで制御される。コマンドとしては、集積回路装置２の起動やデータ転送、再生／停止などの音声処理などが用意されている。

ホストＣＰＵ１００は、電子機器に実装され電子機器の主制御や全体制御を行う電子機器組み込みのマイクロコンピュータ等である。

集積回路装置２とホストＣＰＵ１００の通信は、例えばＳＰＩ（クロック同期式３線（ＲＥＱ、ＲＥＳ、ＩＮＤ）シリアル）転送、ＳＰＩ／ＵＡＲＴ転送により行われるように構成することができる。

集積回路装置２は、記憶部２０を含む。記憶部２０は、音声メッセージを分割した複数の音声データを記憶する。音声データは、後述する音声再生部３０で再生可能なＰＣＭデータ（例えばＡＤＰＣＭ／ＡＡＣ−ＬＣ）等の音声データが圧縮した形式で記憶されている。

集積回路装置２は、音声再生部３０を含む。音声再生部３０は、音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき、記憶部２０から音声データを読み出して再生出力する。音声再生コマンドには、例えば、後述する内蔵データ再生コマンドや添付データ付き再生コマンドを含んでもよい。

音声再生部３０は、例えば、コマンド処理部３１、再生対象格納バッファ３２、デコード部３３、デコード済データ格納バッファ３４、Ｄ／Ａコンバータ３５を含んで構成することが可能である。

コマンド処理部３１は、ホストＣＰＵ１００とのコマンドやデータのやり取りの制御を行うもので、例えばホストＣＰＵ１００から受け取った各種コマンドの処理（集積回路装置２の起動やデータ転送、再生／停止などの音声処理等）や、ホストＣＰＵ１００との通信のハンドシェイク処理等を行う。

コマンド処理部３１は、ホストＣＰＵ１００から受信したコマンドに基づき記憶部２０に記憶された音声データを読み出して再生するかコマンドに添付されている音声データを再生するか判断し、判断結果に基づき再生対象となる音声データを再生対象格納バッファに格納する制御を行う。例えば、コマンド処理部３１は、ホストＣＰＵ１００から添付データ付き再生コマンドを受信した場合には、添付された音声データを再生対象格納バッファ３２に格納する制御を行い、内蔵データ再生コマンドを受信した場合には、記憶部２０から再生対象となる音声データを読み出して、読み出した音声データを再生対象格納バッファ３２に格納する制御を行う。

またコマンド処理部３１は、添付データに無音区間を設定して再生することを指示する添付データ付き再生コマンドを受信した場合には、添付データに対応した音声が再生出力される際に無音区間を設定する制御を行う無音区間設定制御部３１０を含んでもよい。無音区間設定制御部３２は、無音区間を添付データに対応する音声の出力前に設定するようにしてもよい。

再生対象格納バッファ４０は、再生対象となる音声データが格納されるバッファである。

デコード部３３は、再生対象格納バッファ３２に格納された音声データをデコードする。再生オーディオフォーマットは、例えばＡＤＰＣＭ／ＡＡＣ−ＬＣがサポートされるようにしてもよい。デコード済データ格納バッファ３４は、デコード部３３でデコードされたデータが格納されるバッファである。Ｄ／Ａコンバータ３５は、デコード済データ格納バッファ３４に格納されたデータをＤ／Ａ変換してスピーカ１２０へ出力する。

デコード部３３は、コマンド処理部３１からデコード開始信号２１０を受け取ることによりデコードを開始し、デコード終了後にコマンド処理部３１にデコード終了信号２２０を出力する構成としてもよい。

また、Ｄ／Ａコンバータ３５は、スピーカ１２０への出力信号２５０の出力終了後に出力終了信号２３０をコマンド処理部３１に出力する構成としてもよい。また、Ｄ／Ａコンバータ３５は、無音区間設定制御部３１０から無音区間設定信号２４０を受け取り、無音区間設定信号２４０に基づいて設定される所定期間中は出力信号２５０を出力しない無音期間を設ける構成としてもよい。

図１１は、本発明に係る集積回路装置２の処理の流れを示すフローチャートである。

集積回路装置２はホストＣＰＵ１００からコマンドを受信すると以下の処理を行う。

まずコマンド処理部３１は、受信したコマンドが内蔵データ再生コマンドか否か判断し（ステップＳ１０）、内蔵データ再生コマンドである場合には、コマンドで指示されたアドレス情報に基づき記憶部２０から音声データを読み出して、読み出した音声データを再生対象格納バッファ３２に出力する（ステップＳ２０）。

また受信したコマンドが内蔵データ再生コマンドでない場合には、添付データ付き再生コマンドであるか否か判断し（ステップＳ３０）、添付データ付き再生コマンドである場合には、コマンドに添付された音声データを取り出して再生対象格納バッファ３２に出力する（ステップＳ４０）。

次にデコード部３３は、再生対象格納バッファ３２からデータを読み出して、読み出したデータをデコードしてデコード済データを生成し、デコード済データ格納バッファ３４に格納する（ステップＳ５０）。

次にＤ／Ａコンバータ３５は、デコード済みデータ格納バッファ３４のデータをＤ／Ａ変換してスピーカ１２０へ出力する（ステップＳ６０）。

本実施の形態に係る集積回路装置２の記憶部２０に記憶される音声データの少なくとも１つは、その先頭部分が音声メッセージに含まれる単語の途中であって、音節の先頭の音声振幅が所定値よりも小さい音声データとすることができる。
また、本実施の形態に係る集積回路装置２の記憶部２０に記憶される音声データの少なくとも１つは、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾の音声振幅が所定値よりも小さい音声データとすることができる。

このような音声データは、例えば図９に示すような音声データである。これらの音声データは、例えば先に「１．音声データの作成方法」で説明した方法で作成することができる。

このように、音が小さくしか聞こえない又はほとんど聞こえない箇所で分割した音声データを記憶することにより、音声データを組み合わせて音声メッセージを再生する際に、音声データ間の境界が目立たず、より自然に聞こえる集積回路装置を実現することができる。

本実施の形態に係る集積回路装置２の記憶部２０に記憶される音声データの少なくとも１つは、その先頭部分が音声メッセージに含まれる単語の途中であって、音節の先頭に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データとすることができる。
また、本実施の形態に係る集積回路装置２の記憶部２０に記憶される音声データの少なくとも１つは、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データとすることができる。

４．音声再生システム
図１２は、本実施の形態に係る音声再生システムの構成の一例を示すハードウェアブロック図である。

本実施の形態に係る音声再生システムは、記憶装置１及び集積回路装置４を含む。記憶装置１は、音声メッセージを分割した複数の音声データが記憶されている。本実施の形態においては、図８及び９を用いて説明した記憶装置である。集積回路装置４は、音声再生コマンドを受け取り、受け取った音声再生コマンドに基づいて記憶装置１に記憶された音声データを再生出力する。

集積回路装置４は、ホストＣＰＵ１００とともに電子機器に実装され、ホストＣＰＵ１００からの制御コマンドによって動作し、電子機器に搭載されるホストＣＰＵ１００をホストとするコンパニオンチップとして動作する。集積回路装置４は、ホストＣＰＵ１００から発効されるコマンドで制御される。コマンドとしては、集積回路装置４の起動やデータ転送、再生／停止などの音声処理などが用意されている。

ホストＣＰＵ１００は、電子機器に実装され電子機器の主制御や全体制御を行う電子機器組み込みのマイクロコンピュータ等である。また、ホストＣＰＵ１００は、記憶装置１から音声データを読み出し、集積回路装置４へ転送する。

集積回路装置４とホストＣＰＵ１００の通信は、例えばＳＰＩ（クロック同期式３線（ＲＥＱ、ＲＥＳ、ＩＮＤ）シリアル）転送、ＳＰＩ／ＵＡＲＴ転送により行われるように構成することができる。

集積回路装置４は、音声再生部３０を含む。音声再生部３０は、例えば、コマンド処理部３１、再生対象格納バッファ３２、デコード部３３、デコード済データ格納バッファ３４、Ｄ／Ａコンバータ３５を含んで構成することが可能である。

コマンド処理部３１は、ホストＣＰＵ１００とのコマンドやデータのやり取りの制御を行うもので、例えばホストＣＰＵ１００から受け取った各種コマンドの処理（集積回路装置４の起動やデータ転送、再生／停止などの音声処理等）や、ホストＣＰＵ１００との通信のハンドシェイク処理等を行う。

コマンド処理部３１は、ホストＣＰＵ１００から添付データ付き再生コマンドを受信した場合には、添付された音声データを再生対象格納バッファ３２に格納する制御を行う。

本実施の形態に係る音声再生システム３の記憶装置１に記憶される音声データの少なくとも１つは、その先頭部分が音声メッセージに含まれる単語の途中であって、音節の先頭の音声振幅が所定値よりも小さい音声データとすることができる。
また、本実施の形態に係る音声再生システム３の記憶装置１に記憶される音声データの少なくとも１つは、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾の音声振幅が所定値よりも小さい音声データとすることができる。

このように、音が小さくしか聞こえない又はほとんど聞こえない箇所で分割した音声データを記憶することにより、音声データを組み合わせて音声メッセージを再生する際に、音声データ間の境界が目立たず、より自然に聞こえる音声再生システムを実現することができる。

本実施の形態に係る音声再生システム３の記憶装置１に記憶される音声データの少なくとも１つは、その先頭部分が音声メッセージに含まれる単語の途中であって、音節の先頭に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データとすることができる。
また、本実施の形態に係る音声再生システム３の記憶装置１に記憶される音声データの少なくとも１つは、その末尾部分が音声メッセージに含まれる単語の途中であって、音節の末尾に含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる音声データとすることができる。

なお、本発明は本実施の形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。

本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

本実施の形態に係る音声データ作成方法の一例を示すフローチャート。音声メッセージの時間と音声振幅との関係の一例を示すグラフ。図３（Ａ）及び図３（Ｂ）は、音声メッセージを生成する音声データの組合せ例を示すグラフ。本実施の形態に係る音声データ作成方法の他の一例を示すフローチャート。図５（Ａ）は音声メッセージの時間と音声振幅との関係の一例を示すグラフ、図５（Ｂ）は音声メッセージの時間と音声周波数との関係の一例を示すグラフ。本実施の形態に係る音声データ作成方法の他の一例を示すフローチャート。本実施の形態に係る音声データ作成方法の他の一例を示すフローチャート。本実施の形態に係る記憶装置の構成の一例を示す機能ブロック図。音声データの一例を示す図。本実施の形態に係る集積回路装置の構成の一例を示すハードウェアブロック図。本発明に係る集積回路装置の処理の流れを示すフローチャート。本実施の形態に係る音声再生システムの構成の一例を示すハードウェアブロック図。

符号の説明

１記憶装置、２集積回路装置、３音声再生システム、４集積回路装置、１０記憶部、１２インターフェイス部、２０記憶部、３０音声再生部、３１コマンド処理部、３２再生対象格納バッファ、３３デコード部、３４デコード済データ格納バッファ、３５Ｄ／Ａコンバータ、１００ホストＣＰＵ、１２０スピーカ、２１０デコード開始信号、２２０デコード終了信号、２３０出力終了信号、２４０無音区間設定信号、２５０出力信号、３１０無音区間設定制御部

Claims

音声メッセージを所与の分割箇所で分割した複数の音声データを作成する音声データ作成方法であって、
前記音声メッセージの音声振幅に基づいて前記音声データの分割箇所を選定する第１の分割箇所選定手順と、
前記第１の分割箇所選定手順で選定した分割箇所で前記音声データを分割する分割手順とを含むことを特徴とする音声データ作成方法。
請求項１に記載の音声データ作成方法であって、
前記第１の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージの音声振幅が所定値よりも小さい箇所の少なくとも１つを選定することを特徴とする音声データ作成方法。
請求項１及び２のいずれかに記載の音声データ作成方法であって、
前記第１の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージの音声振幅が所定値よりも小さくなる期間が所定時間以上続く箇所の少なくとも１つを選定することを特徴とする音声データ作成方法。
請求項１乃至３のいずれかに記載の音声データ作成方法であって、
前記音声メッセージに含まれる音声周波数に基づいて前記音声データの分割箇所を選定する第２の分割箇所選定手順を含み、
前記分割手順において、
前記第１の分割箇所選定手順及び前記第２の分割箇所選定手順で選定した分割箇所で前記音声データを分割することを特徴とする音声データ作成方法。
請求項４に記載の音声データ作成方法であって、
前記第２の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる箇所の少なくとも１つを選定することを特徴とする音声データ作成方法。
請求項４及び５のいずれかに記載の音声データ作成方法であって、
前記第２の分割箇所選定手順において、
前記分割箇所として、前記音声メッセージに含まれる所定周波数以下の音声周波数成分の強度が所定値以下となる期間が所定時間以上続く箇所の少なくとも１つを選定することを特徴とする音声データ作成方法。
請求項５及び６のいずれかに記載の音声データ作成方法であって、
前記所定周波数は、音声データのサンプリング周波数の１／２であることを特徴とする音声データ作成方法。
請求項１乃至７のいずれかに記載の音声データ作成方法であって、
前記音声メッセージは、数字の読み上げメッセージを含むことを特徴とする音声データ作成方法。
請求項１乃至８のいずれかに記載の音声データ作成方法であって、
複数の前記音声メッセージに共通に含まれる共通音節群の前後を分割箇所候補として選定する分割箇所候補選定手順を含み、
前記第１の分割箇所選定手順及び前記第２の分割箇所選定手順において、
前記分割箇所候補の中から前記分割箇所を選定することを特徴とする音声データ作成方法。
音声メッセージを分割した複数の音声データが記憶された記憶部を含む記憶装置であって、
少なくとも１つの前記音声データは、その先頭部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の先頭の音声振幅が所定値よりも小さいことを特徴とする記憶装置。
音声メッセージを分割した複数の音声データが記憶された記憶部を含む記憶装置であって、
少なくとも１つの前記音声データは、その末尾部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の末尾の音声振幅が所定値よりも小さいことを特徴とする記憶装置。
音声メッセージを分割した複数の音声データが記憶された記憶部と、
音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記記憶部から音声データを読み出して再生出力する音声再生部とを含む集積回路装置であって、
少なくとも１つの前記音声データは、その先頭部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の先頭の音声振幅が所定値よりも小さいことを特徴とする集積回路装置。
音声メッセージを分割した複数の音声データが記憶された記憶部と、
音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記記憶部から音声データを読み出して再生出力する音声再生部とを含む集積回路装置であって、
少なくとも１つの前記音声データは、その末尾部分が前記音声メッセージに含まれる単語の途中の音節であって、前記音節の末尾の音声振幅が所定値よりも小さいことを特徴とする集積回路装置。
音声メッセージを分割した複数の音声データが記憶された記憶装置と、
音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記記憶装置に記憶された音声データを再生出力する集積回路装置とを含む音声再生システムであって、
前記記憶装置は、請求項１０及び１１のいずれかに記載の記憶装置であることを特徴とする音声再生システム。