JP4207445B2

JP4207445B2 - 付加情報埋め込み方法

Info

Publication number: JP4207445B2
Application number: JP2002093159A
Authority: JP
Inventors: 正信西谷; 康永宮澤; 浩長谷川
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2002-03-28
Filing date: 2002-03-28
Publication date: 2009-01-14
Anticipated expiration: 2022-03-28
Also published as: JP2003295894A

Description

【０００１】
【発明の属する技術分野】
本発明は音声などの音データにその音データを生成した機器に与えられた機器固有の情報（ＩＤ情報という）などの付加的な情報を埋め込む付加情報埋め込み方法および埋め込まれた付加情報を読み出す付加情報読み出し方法ならびにこれら付加情報埋め込み方法と付加情報読み出し方法を用いた音声認識システムに関する。
【０００２】
【従来の技術】
音声を扱う電子機器として、たとえば、音声認識装置を用いた電子機機器が広く普及している。このような電子機器においては、少ない演算量でより高い認識率を得ることが要求され、それを実現する手段として、その機器を使用する特定のユーザ（特定話者という）のみの音声を認識可能とすることが従来より行われている。
【０００３】
この場合、特定話者が複数存在する場合は、それぞれの特定話者が予め幾つかの単語を発話してその特徴データを登録しておき、その機器の使用時に特定話者の発話した音声の特徴データと登録された特徴データとから話者識別して音声認識を行うことがなされているが、それぞれの話者が予め音声の登録を行うといった煩わしい操作が必要であるため、その機器を使用する人が新たに追加されるような場合には、その都度、その話者の音声の登録を行わなければならない。また、このような音声認識を行う際、話者識別を行う必要があるため、処理が複雑となる傾向にある。
【０００４】
【発明が解決しようとする課題】
このように、特定話者がある機器を操作可能とする場合は、話者を確実に識別することも重要となってくる。これを実現する１つの手法として、たとえば、それぞれの話者の発話した音声に、その話者を特定するための何らかの情報を埋め込むことが考えられる。
【０００５】
このように音声などの情報に他の情報を埋め込む技術は、電子透かし技術として従来から様々な手法が提案されている。一例として、特開平１１−２９６２００号公報に記載の「音声データに透かし情報を埋め込む装置とその方法および音声データから透かし情報を検出する装置とその方法ならびに記録媒体」（以下、第１の従来技術という）や、特開平２００１−３０５９５７号公報に記載の「ＩＤ情報埋め込み方法および装置ならびにＩＤ情報制御装置」（以下、第２の従来技術という）などがある。
【０００６】
これら、第１および第２の従来技術は、いずれも電子透かし情報を音声データなどに埋め込む技術について述べられているが、第１の従来技術は、著作権保護の目的、第２の従来技術は透かし情報を埋め込んだあとの音声の劣化を防ぐことを目的とした技術である。
【０００７】
これら従来から一般的に行われている電子透かし情報の埋め込み技術は、処理が複雑で演算量もきわめて多いのが普通であるので、高性能な演算処理手段が必要であり、また、リアルタイム処理が難しいのが一般的である。したがって、前述したような音声認識を用いた電子機器において、話者を特定するための何らかの情報を埋め込むような技術に適用するには不向きである。
【０００８】
特に、小型・軽量化、さらには低価格が強く要求される家庭電化製品や個人の使用する汎用的な機器においては、従来から一般的に行われている電子透かし情報の埋め込み技術をそのまま適用するのは難しい。
【０００９】
そこで本発明は、話者特定などを行うことができるような付加情報を音声などの音データに少ない演算量で、かつ、単純な処理で埋め込むことを可能とすることで、音声認識装置など音を扱う電子機器に幅広く適用できる付加情報埋め込み方法および埋め込まれた付加情報を読み出す付加情報読み出し方法ならびにこの付加情報埋め込み方法および付加情報読み出し方法を用いた音声認識システムを提供することを目的としている。
【００１０】
【課題を解決するための手段】
上述した目的を達成するために、本発明の付加情報埋め込み方法の第１の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、前記各サンプリング点対応の音データの時間軸方向に沿って予め設定された一定周期ごとの少なくとも１つの音データの下位ビット側の所定ビットの音データに、前記付加情報を加算することによって当該付加情報の埋め込みを行うようにしている。
【００１１】
このような付加情報埋め込み方法において、前記音データの下位ビット側の所定ビットは、音データとして聴感上影響を及ぼさない振幅値を表す下位ｎビット（ｎは正の整数）のうち最下位ビットを除く、ｎ−１個のビットとしている。
【００１２】
また、前記付加情報には、付加情報の正当性をチェック可能なチェック用データを付加するようにしている。
【００１３】
また、前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができる。
【００１４】
このように本発明の付加情報埋め込み方法の第１の発明は、各サンプリング点対応の音データの時間軸方向に沿って予め設定された一定周期ごとに、その一定周期に対応する音声データを含めた少なくとも１つの音データに、当該音データの下位ビット側の所定ビットに、前記付加情報を加算することによって付加情報の埋め込みを行うようにしている。つまり、この付加情報埋め込み方法の第１の発明は、ディジタル化された音データに対して一定周期で機械的に付加情報を埋め込むようにしているので、付加情報の埋め込み処理を単純なものとすることができ、しかも音データの下位ビットに付加情報を埋め込むようにしているので、埋め込まれた付加情報が音データに与える影響を少なくすることができる。
【００１５】
また、付加情報の埋め込みを行う下位ビット側の所定ビットは、音データとして聴感上影響を及ぼさない振幅値を表す下位ｎビットのうち最下位ビットを除く、ｎ−１個のビットとしている。これによって、埋め込まれた付加情報の振幅値は微小であるので、音声データに影響を与えることはない。この場合、付加情報の埋め込みは、埋め込むべきビットの音声データに加算することで行っているので、揺らぎの多い最下位ビットを除いた下位ビットに埋め込むことで、埋め込まれた付加情報の信頼性を高めることができる。
【００１６】
また、本発明の付加情報埋め込み方法の第２の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、前記各サンプリング点対応の音データの振幅に対してその振幅値が予め定めた振幅値以下であることを検出できる閾値を設定し、振幅値がその閾値以下となって、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上であると判定された場合は、その埋め込み長さ以上となった区間の少なくとも１つのサンプリング点対応の音データに前記付加情報を埋め込むようにしている。
【００１７】
この付加情報埋め込み方法の第２の発明において、前記閾値は、前記音データの振幅値が低下傾向にあることを検出するための第１の閾値と、この第１の閾値より小さい第２の閾値でなり、前記音データの振幅値が前記第１の閾値未満となってその状態を一定時間保持したのちに、第２の閾値未満となって、その第２の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第２の閾値未満となった区間の少なくとも１つのサンプリング点対応の音データに前記付加情報を埋め込むようにしている。
【００１８】
また、前記第２の閾値は、音データとして聴感上影響を及ぼさない振幅値を表す下位ｎビット（ｎは正の整数）で表される振幅値としている。
【００１９】
また、前記第２の閾値未満となった区間に前記付加情報を埋め込む際、その区間の音データを前記埋め込むべき付加情報で置き換えるようにしている。
【００２０】
また、この付加情報埋め込み方法の第２の発明においても、前記付加情報には、付加情報の正当性をチェック可能なチェック用データを付加するようにしている。
【００２１】
また、この付加情報埋め込み方法の第２の発明においても、前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができる。
【００２２】
このように、本発明の付加情報埋め込み方法の第２の発明は、各サンプリング点対応の音データの振幅に対して、その振幅値が予め定めた振幅値以下であることを検出できる閾値を設定し、振幅値がその閾値以下となって、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上であると判定された場合に、その埋め込み長さ以上となった区間の音データに前記付加情報を埋め込むようにしている。このように、音データにおいて振幅値が小さい区間で、かつ、付加情報を埋め込むに最適な時間的長さを有する部分のみに付加情報が埋め込まれるので、振幅の大きい有効な音データには何等影響を与えることがなくなり、それ以降の音データ処理を高精度に行うことができる。
【００２３】
また、前記閾値としては、音データの振幅値が低下傾向にあることを検出するための第１の閾値と、この第１の閾値より小さい第２の閾値が設定され、前記音データの振幅値が前記第１の閾値未満となってその状態を一定時間保持したのちに、第２の閾値未満となって、その第２の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第２の閾値未満となった区間に前記付加情報を埋め込むようにしているので、振幅が小さくなったあと、急激に振幅が大きくなるような場合に対処することができる。しかも、振幅が小さくなった区間が付加情報を埋め込める長さ以上であるか否かを判断しているので、付加情報の埋め込み位置を適切なものとすることができる。
【００２４】
また、前記第２の閾値は、音データとして聴感上影響を及ぼさない振幅値を表す下位ｎビット（ｎは正の整数）で表される振幅値とすることによって、音データとして殆ど意味を持たない部分のみに付加情報を埋め込むことができる。
【００２５】
また、この第２の閾値未満となった区間に前記付加情報を埋め込む際、その区間の音データを前記埋め込むべき付加情報で置き換えるようにしているので、その部分の音データの値に影響を受けることなく付加情報の埋め込みを行うことができる。
【００２６】
また、本発明の付加情報埋め込み方法の第３の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、前記各サンプリング点対応のそれぞれの音データのそれぞれの最下位ビットに時系列で付加情報を埋め込むようにしている。
【００２７】
この付加情報埋め込み方法の第３の発明において、前記最下位ビットに時系列で付加情報を埋め込む際、付加情報の先頭が出現することを示すためのヘッダを前記最下位ビットに時系列で埋め込み、そのヘッダに続けて前記付加情報を時系列で埋め込むようにしている。
【００２８】
そして、前記付加情報のあとに続けて、当該付加情報の正当性をチェック可能なチェック用データを付加するようにしている。
【００２９】
また、この付加情報埋め込み方法の第３の発明においても、前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができる。
【００３０】
このように、本発明の付加情報埋め込み方法の第３の発明は、音データとして殆ど意味を持たない最下位ビットを付加情報の埋め込み用ビットとして用い、その最下位の１ビットに時系列で付加情報を書き込んで行けばよいので、付加情報の埋め込み処理を単純なものとすることができる。また、最下位ビットのみを用いているので、音データそのものに及ぼす影響を最小限に抑えることができる。
【００３１】
また、最下位ビットに時系列に付加情報を埋め込む際、付加情報の先頭が出現することを示すためのヘッダを前記最下位ビットに時系列に埋め込み、そのヘッダに続けて前記付加情報を時系列に埋め込むようにしているので、付加情報の読み出し側では音データのどの位置からでも適切に付加情報をその先頭位置から読み出すことができる。
【００３２】
また、前述の付加情報埋め込み方法の第１から第３の発明において、埋め込むべき付加情報には、正当な付加情報であることをチェック可能なチェック用データが付加をすることによって、読み出し側では、そのチェック用データから付加情報の正当性を判断することができる。
【００３３】
また、同じく前述の付加情報埋め込み方法の第１から第３の発明において、埋め込むべき付加情報は、音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができ、音データの中に音データ生成機器に与えられたＩＤ情報を埋め込むことによって、音データ処理装置側で音データ処理する際、埋め込まれているＩＤ情報を読み出すことによって、音データ生成機器を特定することができ、それによって、その音データ生成機器の特性などに適合した雑音処理方法を自動選択することが可能となったり、また、たとえば、音声認識を行う装置においては、音声区間を検出するための音声信号レベルの自動設定を行うといったことが可能となる。さらにまた、たとえば、音データ生成機器を個々のユーザが専用に用いる場合には、ユーザの特定を行うこともでき、音声認識機能を有した機器などの話者識別など幅広い分野に適用することができる。
【００３４】
また、本発明の付加情報読み出し方法の第１の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データの時間軸方向に沿って予め設定された一定周期ごとの少なくとも１つの音データの下位ビット側の所定ビットの音データに加算することで埋め込まれた付加情報を読み出す付加情報読み出し方法であって、前記付加情報の埋め込まれた音データにおいて、予め設定した振幅以下の音データを検出し、その検出された音データを含めた少なくとも１つの音データから前記埋め込まれた付加情報を読み出すようにしている。
【００３５】
この付加情報読み出し方法の第１の発明において、前記付加情報を埋め込む側における付加情報の埋め込みが、音データとして聴感上影響を及ぼさない振幅値を表す下位ｎビット（ｎは正の整数）のうち、最下位ビットを除くｎ−１個のビットで行われている場合、振幅値が下位ｎビットで表される音声データを検出し、その検出された音声データの最下位ビットを除くｎ−１個のビットから前記付加情報を読み出すようにしている。
【００３６】
そして、前記読み出された付加情報が正当な付加情報であるか否かを、その付加情報に付加されたチェック用データから判断するようにしている。
【００３７】
また、その付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができる。
【００３８】
このように、本発明の付加情報読み出し方法の第１の発明は、付加情報の埋め込まれた音データにおいて、予め設定した振幅以下の音データを検出し、その検出された音データを含めた少なくとも１つの音データから前記埋め込まれた付加情報を読み出すようにしているので、単純な処理で適切に付加情報を読み出すことができる。
【００３９】
また、振幅値が下位ｎビットで表される音データを検出し、その検出された音データの最下位ビットを除くｎ−１個のビットから前記付加情報を読み出すようにしているので、単純な処理で適切に付加情報を読み出すことができる。
【００４０】
また、本発明の付加情報読み出し方法の第２の発明は、ディジタル化された各サンプリング点対応の振幅値を表す音データの振幅値が予め定めた振幅値以下で、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上となった区間の少なくとも１つのサンプリング点対応の音声データに埋め込まれた付加情報を読み出す付加情報読み出し方法であって、前記付加情報の埋め込まれた音データにおいて、予め設定した振幅以下で、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上となった区間を検出し、その検出された区間の音データから前記埋め込まれた付加情報を読み出すようにしている。
【００４１】
この付加情報読み出し方法の第２の発明にあっては、前記付加情報の埋め込み側において、前記閾値として、前記音データの振幅値が低下傾向にあることを検出するための第１の閾値と、この第１の閾値より小さい第２の閾値が設定されていて、前記音データの振幅値が前記第１の閾値未満となってその状態を一定時間保持したのちに、第２の閾値未満となって、その第２の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第２の閾値未満となった区間に前記付加情報が埋め込まれている場合、読み出し側においても、付加情報の埋め込み側で設定された前記第１の閾値と、前記第１の閾値より小さい第２の閾値を設定しておき、前記音データの振幅値が前記第１の閾値未満となってその状態を一定時間持続したのちに、第２の閾値未満となって、その第１の振幅値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さより大きくなったと判定された場合に、その第２の閾値未満となった区間から前記付加情報を読み出すようにしている。
【００４２】
そして、この付加情報読み出し方法の第２の発明においても、読みされた付加情報が正当な付加情報であるか否かを、その付加情報に付加されたチェック用データから判断するようにしている。
【００４３】
また、その付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができる。
【００４４】
このように、本発明の付加情報読み出し方法の第２の発明は、予め設定した振幅以下で、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上となった区間を検出するだけで、付加情報の埋め込み位置を検出できるので、単純な処理で確実に付加情報を読み出すことができる。
【００４５】
また、この付加情報読み出し方法の第２の発明においては、読み出し側においても、埋め込み側と同じ第１の閾値と、その第１の閾値より小さい第２の閾値を設定しておき、音データの振幅値が前記第１の閾値未満となってその状態を一定時間保持したのちに、第２の閾値未満となって、その第１の振幅値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さより大きくなったと判定された場合に、その第２の閾値未満となった区間から前記付加情報を読み出すようにしているので、確実に付加情報の埋め込み位置を検出することができ、効率のよい付加情報の読み出しが可能となる。
【００４６】
また、本発明の付加情報読み出し方法の第３の発明は、ディジタル化された各サンプリング点対応の振幅値を表す音データのそれぞれの最下位ビットに時系列に埋め込まれた付加情報を読み出す付加情報読み出し方法であって、前記各サンプリング点対応のそれぞれの音データの最下位ビットを時系列に読み出して行くことで付加情報の読み出しを行うようにしている。
【００４７】
この付加情報読み出し方法の第３の発明にあっては、前記付加情報の埋め込み側において、前記付加情報の先頭が出現することを示すためのヘッダが前記最下位ビットに時系列で埋め込まれ、そのヘッダに続けて前記付加情報が時系列で埋め込まれている場合、読み出し側において音データのそれぞれの最下位ビットに時系列に埋め込まれた付加情報を読み出す際、前記ヘッダを検出したら、そのヘッダに続くデータを付加情報として読み出すようにしている。
【００４８】
また、この付加情報読み出し方法の第３の発明においても、前記読みされた付加情報が正当な付加情報であるか否かを、その付加情報のあとに書き込まれているチェック用データを読み出して、そのチェック用データから判断するようにしている。
【００４９】
また、その付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができる。
【００５０】
このように、本発明の付加情報読み出し方法の第３の発明では、音データのそれぞれの最下位ビットに時系列に埋め込まれた付加情報を読み出すだけでよいので、単純な処理で確実に付加情報を読み出すことができる。
【００５１】
また、この付加情報の読み出しを行う際、まず、付加情報の先頭が出現することを示すためのヘッダを検出したら、そのヘッダに続くデータを付加情報として読み出すようにしているので、音データの処理する位置に関係なく、確実に付加情報の先頭を検出することができる。
【００５２】
また、付加情報読み出し方法の第１、第２、第３の発明において、読みされた付加情報が正当な付加情報であるか否かを、その付加情報に付されたチェック用ビットから判断するようにしているので、付加情報の正当性を適性に判定できる。
【００５３】
また、前述の付加情報読み出し方法の第１から第３の発明において、読み出される付加情報は、音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができ、このようなＩＤ情報を読み出すことによって、音データ生成機器を特定することができ、それによって、その音データ生成機器の特性などに適合した雑音処理方法を自動選択することが可能となったり、また、たとえば、音声認識を行う装置においては、音声区間を検出するための音声信号レベルの自動設定を行うといったことが可能となる。さらにまた、たとえば、音データ生成機器を個々のユーザが専用に用いる場合には、ユーザの特定を行うこともでき、音声認識機能を有した機器などの話者識別など幅広い分野に適用することができる。
【００５４】
また、本発明の音声認識システムは、話者の発話する音声を入力して、入力された音声をディジタル化して出力する音データ生成部と、この音データ生成部から出力される音声データを受け取って音声認識してその認識結果に応じた動作を行う音声認識部とを有した音声認識システムにおいて、前記音データ生成部は、前記請求項１から１４のいずれかに記載の付加情報埋め込み方法によって付加情報の埋め込みを行う付加情報埋め込み手段を有し、前記音声認識部は、前記請求項１５から２６のいずれかに記載の付加情報読み出し方法によって付加情報の読み出しを行う付加情報読み出し手段を有している。そして、前記音データ生成部からは、付加情報埋め込み手段によって付加情報の埋め込まれた音声データを出力し、前記音声認識部では、前記音データ生成部から出力された付加情報の埋め込まれた音声データを入力して、その音声データから付加情報を読み出し、付加情報の読み出された音声データに対し、当該付加情報を用いた音声認識を行うようにしている。
【００５５】
このような音声認識システムは、たとえば、各話者がそれぞれの話者ごとに音データ生成機器の機能を有するヘッドセットなどを持ち、そのヘッドセットを用いてその話者が発話することによって、それぞれのヘッドセットに与えられた固有のＩＤ情報などを付加情報として音声データに埋め込むことができるので、そのＩＤ情報を音声認識装置側で読み出すことで、どの話者の発話した音声データであるということを特定できる。
【００５６】
これによって、認識時に話者識別が容易に行え、認識性能を大幅に向上させることができる。
【００５７】
また、たとえば、音声で作動する機器を家族全員が共同で用いるような場合、家族全員がそれぞれのヘッドセットを装着して発話することにより、誰の発話であるかを容易に判別できるので、家族それぞれが発話する音声コマンドを高い認識率で認識することができるようになるなど、多様な機能を有する音声認識システムを実現することができる。
【００５８】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の付加情報埋め込み方法および付加情報読み出し方法ならびに音声認識システムについての説明を含むものである。
【００５９】
本発明は、話者の発話した音声信号を取り込んでディジタル化された音データとして出力することのできる機器や、音楽などのディジタル化された音データを生成することのできる機器（これらをまとめて音データ生成機器と呼ぶことにする）に与えられた機器固有のＩＤ情報などの付加情報を音声データや音楽データなどの音データに埋め込み、その音データを用いて何らかの処理を行う装置（たとえば、音声認識装置や音楽再生装置などであり、以下ではこれらをまとめて音データ処理装置と呼ぶことにする）では、音データに埋め込まれた付加情報を読み出し、その読み出した付加情報を、データ処理に用いることができるようにしたものである。
【００６０】
なお、以下に示す実施の形態では、音声データにその音声データを生成した音データ生成機器（たとえば、ヘッドセットなど）に与えられた当該機器固有のIＤ情報を埋め込んで、音データ処理装置側でそれを読み出す例について説明する。なお、この場合の音データ生成機器は、少なくとも、音声を入力する音声入力手段と入力された音声（アナログ信号）をディジタル信号に変換するＡ／Ｄ変換手段を有しているものとする。
【００６１】
また、本発明は、埋め込まれたＩＤ情報を読み出す機能を持たない音データ処理装置で、ＩＤ情報の埋め込まれた音声データを処理した場合、そのＩＤ情報が音データ処理に何等影響を与えることがないようなＩＤ情報の埋め込み処理がなされる。
【００６２】
一方、埋め込まれたＩＤ情報を読み出す機能を有する音データ処理装置で、その音データを処理した場合、その埋め込まれたＩＤ情報を読み出すことができ、読み出されたＩＤ情報を有効利用できるものである。
【００６３】
しかも、従来からの電子透かし情報を埋め込む技術とは異なり、ＩＤ情報の埋め込みや、埋め込まれたＩＤ情報の読み出しを、少ない演算量と単純な処理で実現できることが特徴の１つである。
【００６４】
図１は付加情報を埋め込む機能を音データ生成機器に持たせた場合の音データ生成機器の構成を示す図である。
【００６５】
この図１に示す音データ生成機器１０は、音声を入力する音声入力部１１、この音声入力部１１に入力されたアナログの音声信号を各サンプリング点対応のディジタル信号に変換するＡ／Ｄ変換部１２、当該音データ生成機器１０のＩＤ情報を保持する付加情報記憶部１３、この付加情報記憶部１３に保持されているＩＤ情報を読み出して、ディジタル化された音声データに対して、ＩＤ情報の埋め込み処理を行う付加情報埋め込み処理部１４を有している。
【００６６】
この図１に示す音データ生成機器１０の場合、付加情報記憶部１３に保持されるＩＤ情報は、この音データ生成機器１０がもともと持っていて、それを付加情報記憶部１３が保持しているものであってもよく、また、その音データ生成機器固有のＩＤ情報をあとから当該音データ生成機器１０に与えて、付加情報記憶部１３がそのＩＤ情報を保持するものであってもよい。
【００６７】
なお、付加情報埋め込み処理部１４が行う付加情報の埋め込み処理の具体的な内容については後述する。
【００６８】
また、図２に示す音データ生成機器１０は、図１で示す音データ生成機器１０と同様に、付加情報を埋め込む機能を音データ生成機器に持たせた場合の音データ生成機器の構成を示す図であり、音声を入力する音声入力部１１、この音声入力部１１に入力されたアナログの音声信号をディジタル信号に変換するＡ／Ｄ変換部１２、当該音データ生成機器１のＩＤ情報を記憶する付加情報記憶部１３、付加情報の埋め込み処理を行う付加情報埋め込み処理部１４を有するが、その他に、ＩＤ情報を受信可能な付加情報受信部１５を有している。
【００６９】
このように、図２に示す音データ生成機器１０は、ＩＤ情報を受信可能な機能を有しており、たとえば、音データ生成機器１０の存在するエリアごとにそのエリア内で有効なＩＤ情報を取得して、それを付加情報記憶部１３に記憶することができるようになっている。
【００７０】
この図２に示す音データ生成機器１０は、たとえば、音データ生成機器１０の存在するエリアごとにそのエリア内で有効なＩＤ情報を取得してそれを付加情報記憶部１３に記憶することができるものであるため、たとえば携帯電話機などの移動機器に搭載可能である。
【００７１】
図３は付加情報の埋め込まれた音声データ（付加情報付き音声データという）を受け取って、その付加情報付き音声データを用いて何らかの処理を行う音データ処理装置の概略的な構成を示す図であり、音データ生成機器１０側から渡された付加情報付き音声データから付加情報としてのＩＤ情報を読み出して、その読み出されたＩＤ情報と音声データを出力する付加情報読み出し処理部２１、この付加情報読み出し部２１によって読み出されたＩＤ情報と音声データを用いて何らかのデータ処理（たとえば、音データ処理装置２０が音声認識を行う装置であれば、音声認識に必要なデータ処理）を行うデータ処理部２２を有している。
【００７２】
なお、前述したように、本発明は、埋め込まれたＩＤ情報を読み出す機能を持たない音データ処理装置でその音声データを処理した場合、付加情報としてのＩＤ情報が音データ処理結果に何等影響を与えることのないような付加情報の埋め込み処理がなされる。一方、埋め込まれたＩＤ情報を読み出す機能を有する音データ処理装置でその音声データを処理した場合、その埋め込まれたＩＤ情報を読み出すことができ、読み出したＩＤ情報を有効利用できるものである。
【００７３】
次に、付加情報埋め込み処理部１４が行う付加情報の埋め込み処理と、この付加情報の埋め込まれた音声データ（付加情報付き音声データという）を受け取って、その付加情報付き音声データを用いて何らかの処理を行う音データ処理装置２０における付加情報（ＩＤ情報）の読み出し処理を、第１から第３の実施の形態により具体的に説明する。
【００７４】
〔第１の実施の形態〕
この第１の実施の形態は、ディジタル化された各サンプリング点対応の音声データに対し、ＩＤ情報（音データ生成機器１０のＩＤ情報）を当該音声データの時間軸上に沿って離散的に埋め込むようにするもので、その離散的な埋め込み方として、各サンプリング点対応の音声データに対し、ＩＤ情報をその時間軸上に沿って一定の周期で埋め込むものである。なお、このＩＤ情報の埋め込み処理は、付加情報埋め込み処理部１４が、付加情報記憶部１３に保持されているＩＤ情報を読み出し、読み出したＩＤ情報を、Ａ／Ｄ変換部１２でディジタル化された音声データに埋め込むことで行われる。なお、付加情報記憶部１３に保持されているＩＤ情報は、図１で説明したように、音データ生成機器１０がもともと持っているＩＤ情報であってもよく、また、図２で説明したように、特定のエリアなどで与えられるＩＤ情報を受信したものであってもよい。
【００７５】
図４は音声入力部１１から入力されたアナログ音声信号をＡ／Ｄ変換部１２でディジタル変換して得られたディジタル化された音声データであって、各サンプリング点対応の振幅値（たとえば、１６ビットで与えられる振幅値）を時間軸ｔに沿って表したものである。
【００７６】
たとえば、それぞれのサンプリング点ｔ１，ｔ２，ｔ３，・・・ごとの振幅値が１６ビットのデータとして与えられるとすれば、Ａ／Ｄ変換部１２から出力されるディジタル化された音声データは、この図４で示すように、それぞれのサンプリング点ｔ１，ｔ２，ｔ３，・・・ごとに１６ビットの音声データ（最下位ビットＬＳＢを０ビット目、最上位ビットＭＳＢを１５ビット目とする）としてレジスタ（図示せず）などに保持される。
【００７７】
このようなディジタル化された音声データに対し、予め定められた一定周期（これをΔｔで表す）ごとに、微小な振幅値としてのＩＤ情報を埋め込んで行く。たとえば、Ａ／Ｄ変換後の音声データが１６ビットで表され、ＩＤ情報を構成するデータ（これをここではＩＤ要素と呼ぶ）を、それぞれのサンプリング点対応の１６ビットの音声データの時間軸方向に並ぶ幾つかの音声データに対してそれぞれ２ビットずつ埋め込むことで予め定めたＩＤ情報が表現されるものとする。
【００７８】
この第１の実施の形態では、個々のサンプリング点ごとの音声データの下位ｎビット（ｎは正の整数）のうち最下位ビットを除く、ｎ−１個のビットの音声データにＩＤ要素を加算することでＩＤ情報の埋め込みを行う。
【００７９】
ここで、下位ｎビットは音声データとして聴感上影響を及ぼさない振幅値を表すビットであり、ここでは、ｎ＝３とし、個々のサンプリング点ごとの音声データの最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）の音声データにＩＤ要素を加算するものとする。そして、それを時間軸方向に連続する幾つかの音声データに対して行うことで、予め定めたＩＤ情報が表現される。
【００８０】
ここで、埋め込むべきＩＤ情報が“０１１０１１”で表され、このＩＤ情報を構成するＩＤ要素が各サンプリング点対応の連続した３つの音声データのそれぞれ最下位ビットＬＳＢ（０ビット目）を除く下位の２ビットの音声データに加算されて行くとする。また、このＩＤ情報の埋め込み処理は、サンプリング点ｔ０を基点に、Δｔ時間ごとに周期的に行われるものとする。
【００８１】
まず、図４に示すように、サンプリング点ｔ０における音声データには、その最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）の音声データに、“０１１０１１”のＩＤ情報を構成するＩＤ要素のうち、“０”と“１”の２つのＩＤ要素を加算し、サンプリング点ｔ１における音声データにも同様に、その最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）の音声データに“１”と“０”２つののＩＤ要素を加算し、サンプリング点ｔ２における音声データにも同様に、その最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）の音声データに“１”と“１” の２つのＩＤ要素を加算する。これをΔｔ時間ごとに繰り返すことによって、ＩＤ情報が一定周期で音声データに埋め込まれる。このＩＤ情報の埋め込み後の音声データは図５のようになる。
【００８２】
なお、このようにして、音声データの中にＩＤ情報を埋め込む際、音データ処理装置２０側で、そのＩＤ情報を読み出したときに、読み出されたＩＤ情報の正当性をチェックできるように、たとえば、パリティチェック用ビットなどのチェック用データを付加する。
【００８３】
たとえば、ＩＤ情報が上述したように、“０１１０１１”で表されるとすれば、このＩＤ情報のあとにチェック用データとして、“００”を付加する。このチェック用データは、ＩＤ情報を埋め込んだ音声データの後に続く音声データの最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）の音声データに加算することで埋め込む。
【００８４】
一例として、図４で示すように、サンプリング点ｔ０，ｔ１，ｔ２の音声データの最下位ビットＬＳＢ（０ビット目）を除く下位の２ビットの音声データには、予め定められたＩＤ情報が埋め込まれるが、その後に続くサンプリング点ｔ３の音声データの最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）の音声データには、このチェック用データとして“０”，“０”が加算されることによってチェック用データが埋め込まれる。
【００８５】
このように、ＩＤ情報とともにチェック用データが埋め込まれることによって、音データ処理装置２０側では、ＩＤ情報付き音声データからＩＤ情報として読み出したデータが、正当なＩＤ情報であるか否かをチェックすることができる。
【００８６】
図５において、図示の太線で表す部分が音声データに埋め込まれたＩＤ情報を示している。この場合、音声データに一定周期で機械的にＩＤ情報が埋め込まれるので、この図５に示すように、音声データの振幅の大きい部分や振幅の小さい部分など様々な部分にＩＤ情報が埋め込まれることになる。なお、図５は、音声データの振幅値を、最下位ビットＬＳＢを捨てた振幅値の変化として表している。
【００８７】
このようなＩＤ情報が埋め込まれた音声データ（ＩＤ情報付き音声データ）を音データ処理装置２０が受け取ると、音データ処理装置２０では、埋め込まれているＩＤ情報の読み出し処理を行う。このＩＤ情報の読み出しは、音データ処理装置２０に設けられた付加情報読み出し処理部２１によって行われる。以下に音データ処理装置２０の付加情報読み出し処理部２１が行うＩＤ情報読み出し処理について説明する。
【００８８】
ＩＤ情報は音声データに対して微小な振幅値のデータとして埋め込まれているので、振幅の大きい部分ではＩＤ情報を検出することは難しい。そこで、音声データの振幅が殆どゼロの部分（聴感上殆ど音の無い部分）を検出してＩＤ情報を読み出す。なお、音は連続的に出力されている場合であっても、必ずといってよいほど、聴感上殆ど音のない部分（振幅値が殆どゼロの部分）が存在するものであるため、その振幅が殆どゼロの部分を検出することは可能である。
【００８９】
たとえば、この例では、一定周期で音声データの最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）の音声データにそれぞれＩＤ情報が加算されることによって、そのＩＤ情報の埋め込みがなされているので、振幅が３ビット以下で表される音声データ区間、つまり、この場合、音声データが１６ビットで表わされているので、上位１３ビットがゼロの音声データ区間を検出し、その区間内音声データにおいて、それぞれ最下位ビットＬＳＢ（０ビット目）を捨てた下位２ビット（１ビット目と２ビット目）でＩＤ情報を読み出す。
【００９０】
たとえば、図５のようなＩＤ情報付き音声データを音声データ処理装置２０でＩＤ情報の読み出しを行う場合、振幅値が下位３ビット以下の区間として、たとえば、Ｗで示す区間が検出されたとすると、この区間Ｗにおいて、最下位ビットＬＳＢ（０ビット目）を除く下位の２ビット（１ビット目と２ビット目）のデータをＩＤ情報として読み出す。
【００９１】
なお、このとき、その読み出されたＩＤ情報が正当なＩＤ情報であるか否かはわからないので、その読み出されたＩＤ情報を仮のＩＤ情報として、この仮のＩＤ情報が正当なＩＤ情報であるか否かをチェックする。この正当性のチェックは、チェック用データによって行うことができる。
【００９２】
ここでもし、正当なＩＤ情報であると判断されたら、そのＩＤ情報はそれを取り出して何らかの処理（これについては後述する）を行う。また、そのＩＤ情報の埋め込まれている音声データは、そのまま音声データ処理（たとえば、音声認識に必要なデータを得るためのデータ処理など）してもよいが、そのＩＤ情報の検出を行った区間をゼロに置き換えて音声データ処理するようにしてもよい。
【００９３】
なお、このＩＤ情報の検出を行った区間の音声データは、もともと振幅値が殆どゼロの音声データであるので、音声データとして殆ど意味をなさないデータである。したがって、そのままで音声データ処理しても、また、ゼロに置き換えて音声データ処理しても、いずれの場合も音声データ処理結果に影響を与えることは殆どない。
【００９４】
また、このようなＩＤ情報付き音声データを、ＩＤ情報の読み出し機能を持たない音データ処理装置で処理した場合には、ＩＤ情報付き音声データをそのまま信号処理することになるが、この場合も、ＩＤ情報は微小な振幅値のデータ（この場合、最下位ビットＬＳＢを除く下位２ビット）であるので、聴感上殆ど気にならない音声データ、つまり、音声データとして殆ど意味をなさないため、ＩＤ情報が埋め込まれたまま音声データ処理を行ってもその処理結果に影響を与えることはない。
【００９５】
一方、チェック用データによるＩＤ情報であることの正当性のチェックの結果、正当なＩＤ情報ではないと判定された場合は、それは音声データであると判断し、音声データとしての信号処理を行う。
【００９６】
このように、この第１の実施の形態では、ディジタル化された音声データに対して一定周期で機械的にＩＤ情報を埋め込むようにしているので、ＩＤ情報埋め込み処理を単純なものとすることができる。
【００９７】
また、そのＩＤ情報を利用する音データ処理装置２０側では、渡されたＩＤ情報付き音声データにおいて、振幅値の小さい音声データ区間（上述の例では振幅値が３ビット以下で表される音声データ区間）を検出し、その区間からＩＤ情報を検出するようにしている（このとき、チェック用データによってＩＤ情報であることの正当性の判断を行う）ので、音データ処理装置２０側も単純な処理で的確にＩＤ情報を読み出すことができる。
【００９８】
また、音データ処理装置２０側では、ＩＤ情報の埋め込まれている周期を知っていれば、ＩＤ情報を１回検出したあとは、予め定めた周期ごとにＩＤ情報が埋め込まれていることがわかるので、その周期ごとにＩＤ情報を読み出すことができる。また、周期の情報をＩＤ情報に付加することもでき、それによって、音データ処理装置２０では読み出したＩＤ情報を解読することによって、周期情報をも得ることができ、その周期情報からＩＤ情報の埋め込み位置を特定することもできる。
【００９９】
また、ＩＤ情報を読み出す機能を持たない音データ処理装置においては、聴感上影響を与えないような微小な振幅値として埋め込まれているので、ＩＤ情報の埋め込まれた音声データをそのままデータ処理したとしても、処理結果に何等影響を与えることはない。
【０１００】
〔第２の実施の形態〕
この第２の実施の形態も、上述した第１の実施の形態と同様、ディジタル化された音声データに対し、ＩＤ情報を時間軸上に沿って離散的に埋め込むようにするものであるが、この第２の実施の形態では、その離散的な埋め込み方として、音声データの振幅値の小さい部分を検出して、その振幅値の小さい部分にＩＤ情報を埋め込むものである。
【０１０１】
これを実現するため、入力されたアナログの音声信号に対してゲイン検出回路（図示せず）でゲイン検出を行い、このゲイン検出回路で検出された信号レベル（振幅値）の低いときに、時間領域または周波数領域でＩＤ情報を埋め込むようにする。なお、入力されたアナログの音声信号に対しては、増幅回路で増幅処理してゲイン検出回路でゲイン検出を行ってＡＧＣ（自動ゲイン制御）を行うことが一般的になされているので、それを利用することができる。
【０１０２】
以下、この第２の実施の形態について図６を参照しながら具体的に説明する。なお、この第２の実施の形態においても、ＩＤ情報の埋め込み処理は、付加情報記憶部１３に保持されているＩＤ情報を付加情報埋め込み処理部１４が読み出し、読み出したＩＤ情報を、Ａ／Ｄ変換部１２によってディジタル化された音声データに埋め込むことで行われる。また、この第２の実施の形態においても、付加情報記憶部１３に保持されているＩＤ情報は、図１で説明したように、音データ生成機器１０がもともと持っているＩＤ情報であってもよく、また、図２で説明したように、特定のエリアなどで与えられるＩＤ情報を受信したものであってもよい。
【０１０３】
図６は音声入力部でから入力された音声信号をＡ／Ｄ変換部１２でディジタル変換して得られたディジタル化された音声データの振幅の変化とその振幅に閾値（後述する）を設定し、その閾値によって振幅値がある値以下となったことを検出し、振幅値がある値以下の区間に、ＩＤ情報を埋め込んだ例を示す図である。なお、この第２の実施の形態においても、各サンプリング点対応の音声データの振幅値は、１６ビットで与えられるものとする。この図６についてはのちに詳細に説明する。
【０１０４】
このような音声データに対して、付加情報埋め込み処理部１４が行うＩＤ情報の埋め込み処理は次のような手順で行う。
【０１０５】
音声データの振幅値に対し、閾値として第１の閾値Ａとその第１の閾値Ａよりも小さい値を持つ第２の閾値Ｂを予め決めておく。この第１の閾値Ａ（以下では単に閾値Ａという）は、音声データの振幅値が低下傾向にあることを検出するための閾値である。すなわち、音声データがこの閾値Ａを下回り、かつ、それが一定時間継続すれば、音声データが確実に下降傾向にあることが検出できる。
【０１０６】
また、第２の閾値Ｂ（以下では単に閾値Ｂという）は、音声データの振幅値が十分低く、音声データとして殆ど意味をなさない振幅値（たとえば、音声データの振幅値が１６ビットで表されるとしたら、下位３ビットで表される程度の低い振幅値）とする。
【０１０７】
このような２つの閾値Ａ，Ｂを設定しておく。そして、付加情報埋め込み処理部１４では、音声データの振幅値の変化を監視していて、振幅値が、まず、閾値Ａを下回るかを監視する。そして、音声データの振幅値がある時点で閾値Ａ未満となったら、それ以降のある一定時間、その閾値Ａ以下を保持し続ける状態か否かを監視する。このある一定時間は、たとえば、所定のサンプリング数に対応する時間Ｍを設定しておき、時間Ｍの間、閾値Ａ未満の状態を保持しているかを監視する。
【０１０８】
このように、ある設定された時間（この場合、時間Ｍ）、振幅値が閾値Ａ未満を保持していることを監視するのは、一度、閾値Ａ未満となった直後に、急激に大きな振幅値が現れることもあり、そのような場合に対処できるようにするためである。
【０１０９】
そして、閾値Ａ未満の状態がしばらく保持され、しかも、ある時点から閾値Ｂ未満になっていたとすれば、ＩＤ情報の埋め込みの可能性ありとして、時間Ｍのあと、予め定めた時間（予め設定したサンプリング数に対応する時間Ｌ）、振幅値が閾値Ｂ未満を保持しているか否かを監視する。なお、この時間Ｌは埋め込むべきＩＤ情報の時間的な長さである。したがって、この時間Ｌは埋め込むべきＩＤ情報によって予め決められる。
【０１１０】
そして、その時間Ｌの間、振幅値が閾値Ｂ以下を保持したかを監視した結果、もし、途中で振幅値が閾値Ｂを上回ることがあれば、その時間Ｌに対応する区間においてはＩＤ情報の埋め込みはできないと判断し、次の埋め込み候補となる区間を探す。
【０１１１】
一方、その時間Ｌの間、振幅値が閾値Ｂ未満を保持したままであれば、その時間Ｌに対応する区間の始点に遡って、その時間Ｌに対応する区間にＩＤ情報の埋め込みを行う。この時間Ｌに対応する区間にＩＤ情報を埋め込む際の埋め込み方としては、時間Ｌに対応する区間の音声データをＩＤ情報に置き換える。
【０１１２】
なお、このときのＩＤ情報も第１の実施の形態同様、微小な振幅値のデータとして埋め込まれるが、この第２の実施の形態では、音声データの振幅値をＩＤ情報で書き換えてしまうので、音声データ（この場合も１６ビットで表されるものとする）の振幅値を表すデータとして信頼性の低い最下位ビットＬＳＢを含めて２ビットあるいは３ビット程度を用いることができる。
【０１１３】
図６において、細い実線で示すデータは音声データ、時間Ｌに対応する区間における太い実線で示されるデータはＩＤ情報であり、ＩＤ情報が埋め込まれる前は、時間Ｌに対応する区間の音声データは、細い実線で示すような振幅値変化をなす音声データであるが、この区間がＩＤ情報の埋め込み区間とされた場合は、その区間の音声データは太い実線で示すようなＩＤ情報に置き換えられる。
【０１１４】
なお、このようにして、音声データの中にＩＤ情報を埋め込む際、前述の第１の実施の形態同様、音声データ処理装置２０側で、そのＩＤ情報の正当性をチェックできるように、チェック用データをＩＤ情報に付加する。
【０１１５】
このように、ＩＤ情報の埋め込みが行われる区間（時間Ｌに対応する区間）においては、音声データがＩＤ情報に置き換えられるが、この区間は、もともと、振幅が小さく、音声データとして殆ど意味をなさない区間であるので、もし、ＩＤ情報を読み出す機能を持たない音データ処理装置によって、図６に示す時間Lに対応する区間がデータ処理されると、音声データの代わりに置き換えられたＩＤ情報をデータ処理することになるが、その区間に埋め込まれたＩＤ情報はもともと微小な振幅値であるので、それをデータ処理したとしても、そのデータ処理結果に何等影響を与えることはない。
【０１１６】
一方、ＩＤ情報を読み出す機能を有した音データ処理装置２０がＩＤ情報付き音声データからＩＤ情報を読み出す場合は、音データ処理装置２０に設けられた付加情報読み出し処理部２１が予め決められた処理手順にしたがって読み出し処理を行う。この場合、その音データ処理装置２０側では、閾値Ａ、閾値Ｂ、時間Ｍ、時間Ｌなど予め決められたパラメータについての知識を持っている。
【０１１７】
したがって、まず、音データ生成機器１０側から渡されたＩＤ情報付き音声データに対して、振幅値が閾値Ａ未満となって、その状態が時間Ｍだけ保持され、かつ、その時点で、振幅値が閾値Ｂ未満であると判定されると、時間Ｍの経過後、そのあとに続く区間に、ＩＤ情報が存在する可能性があるということを判断する。
【０１１８】
そして、その時間Ｍの経過後、閾値Ｂ未満の状態が時間Ｌだけ続くことが判定されると、この時間Ｌに対応する区間の音声データをＩＤ情報（この時点では仮のＩＤ情報とする）として取り出し、その仮のＩＤ情報が正当なＩＤ情報であるか否かを判断する。この正当性のチェックは、前述の第１の実施の形態同様、ＩＤ情報に付加されているチェック用データによって行うことができる。
【０１１９】
この正当性のチェックの結果、ＩＤ情報であることの正当性が判断できた場合は、時間Ｌに対応する区間のデータをＩＤ情報として取り出して、それを以降のデータ処理に用いる。また、その部分の音声データはゼロに置き換える。
【０１２０】
一方、正当性のチェックの結果、ＩＤ情報でないと判断された場合は、音声データであると判断し、音生データとしてデータ処理する。このように、ＩＤ情報が埋め込まれている可能性のある区間において、ＩＤ情報が検出できなかった場合は、次に出現する閾値Ａ以下の振幅値が時間Ｍだけ保持され、かつ、そのあとに閾値Ｂ以下が時間Ｌだけ続く区間を検出して、その区間で同様の読み出し処理を行う。
【０１２１】
図７および図８はこの第２の実施の形態の処理手順を説明するフローチャートであり、図７はＩＤ情報を音声データに埋め込む際の処理手順、図８はＩＤ情報の埋め込まれた音声データ（ＩＤ情報付き音声データ）からＩＤ情報を読み出す際の処理手順を示すもので、これらの具体的な処理内容については既に説明したので、ここでは全体的な処理手順について簡単に説明する。まず、ＩＤ情報を音声データに埋め込む際の処理手順について図７を参照しながら説明する。
【０１２２】
図７において、まず、Ｔａ＝０，Ｔｂ＝０とする（ステップＳ１）。ここで、Ｔａは現在の振幅値が閾値Ａ以下を保持し続けた時間であり、ＴｂはＴａが予め設定された時間Ｍだけ継続したあと、現在の振幅値が閾値Ｂ以下を保持し続けた時間である。
【０１２３】
そして、処理対象となる音声データが終わりか否かを調べ（ステップＳ２）、処理対象となる音声データが終わりであれば、処理を終了するが、処理対象となる音声データが存在すれば、現在の振幅値が閾値Ａ未満（現在の振幅値＜閾値Ａ）を判断する（ステップＳ３）。
【０１２４】
この判断において、現在の振幅値が閾値Ａ未満であれば、時間をカウントしそれをＴａとする（ステップＳ４）。そして、Ｔａが予め設定された時間Ｍ以上（Ｔａ≧Ｍ）であるかを判断し（ステップＳ５）、Ｔａ≧Ｍとなれば、現在の振幅値が閾値Ｂ未満（現在の振幅値＜閾値Ｂ）であるかを判断する（ステップＳ６）。
【０１２５】
ここで、現在の振幅値＜閾値Ｂであれば、時間をカウントしそれをＴｂとする（ステップＳ７）。そして、Ｔｂが予め設定された時間ＬつまりＩＤ情報を埋め込むに必要な時間Ｌ以上（Ｔｂ≧Ｌ）であるか否かを判定する（ステップＳ８）。この判定の結果、Ｔｂ≧Ｌであれば、ここまでの音声データ（時間Ｌに対応する区間の音声データ）を埋め込むべきＩＤ情報に置き換えて（ステップＳ９）、Ｔａ，Ｔｂをリセット、つまり、Ｔａ，Ｔｂ＝０として（ステップＳ１０）、ステップＳ２に戻る。
【０１２６】
なお、上述したステップＳ１からＳ１０の処理において、ステップＳ３の処理、つまり、現在の振幅値＜閾値Ａの判断を行った結果、現在の振幅値が閾値Ａ以上であると判定された場合は、それまでにカウントされたＴａ，Ｔｂがあればそれをリセット、つまり、Ｔａ，Ｔｂ＝０として（ステップＳ１１）、ステップＳ２に戻り、ステップＳ２以降の処理を繰り返す。
【０１２７】
また、ステップＳ５の処理、つまり、Ｔａ≧Ｍの判断を行った結果、ＴａがＭ未満であると判定された場合は、ステップＳ２に処理が戻り、ステップＳ２以降の処理を繰り返す。
【０１２８】
また、ステップＳ６における現在の振幅値＜閾値Ｂの判断を行った結果、現在の振幅値が閾値Ｂよりも大きいと判定された場合、つまり、Ｔａが時間Ｍ以上となった状態で、現在の振幅値が閾値Ｂよりも大きいと判定された場合は、現在のそれまでにカウントされたＴｂをリセット、つまり、Ｔｂ＝０として（ステップＳ１２）、ステップＳ２に戻り、ステップＳ２以降の処理を繰り返す。
【０１２９】
また、ステップＳ８におけるＴｂ≧Ｌを判断した結果、ＴｂがＬ未満であると判定された場合は、ステップＳ２に処理が戻り、ステップＳ２以降の処理を繰り返す。
【０１３０】
次に、ＩＤ情報の埋め込まれた音声データ（ＩＤ情報付き音声データ）からＩＤ情報を読み出す際の処理手順について図８を参照しながら説明する。このＩＤ情報の読み出し側の処理手順の殆どは図７の処理手順と同じである。すなわち、図８に示す処理手順のうち、ステップＳ２１からステップＳ２８の処理手順（これら各ステップのなかで、ステップＳ２３，Ｓ２５，Ｓ２６，Ｓ２８におけるそれぞれの判断結果が“Ｎｏ”である場合の処理も含む）は、図７におけるステップＳ１からＳ８の処理に対応している。
【０１３１】
この図８に示す処理手順が図７と異なるのは、ステップＳ２８（図７ではステップＳ８）において、Ｔｂ≧Ｌである場合以降の処理である。
【０１３２】
すなわち、ＩＤ情報を読み出す側においては、Ｔｂ≧Ｌである場合には、ここまでの音声データ（Ｌの区間の音声データ）を仮のＩＤ情報として取り出し（ステップＳ２９）、その仮のＩＤ情報が正当なＩＤ情報であるか否かを判断する処理を行う（ステップＳ３０）。
【０１３３】
そして、その判断の結果、正当なＩＤ情報ではないと判断された場合には、それはＩＤ情報ではなく、音声データであると判断して（ステップＳ３１）、Ｔａ，Ｔｂをリセット、つまり、Ｔａ，Ｔｂ＝０（ステップＳ３２）としたのち、ステップＳ２２に戻る。また、正当なＩＤ情報であると判断された場合には、時間Ｌに対応する区間の音声データをゼロに置き換えて（ステップＳ３３）、Ｔａ，Ｔｂをリセット、つまり、Ｔａ，Ｔｂ＝０（ステップＳ３２）したのちに、ステップＳ２２に戻る。
【０１３４】
なお、上述したステップＳ２１からＳ３３の処理において、ステップＳ２３の処理、つまり、現在の振幅値＜閾値Ａの判断を行った結果、現在の振幅値が閾値Ａ以上であると判定された場合は、それまでにカウントされたＴａ，Ｔｂがあればそれをリセット、つまり、Ｔａ，Ｔｂ＝０として（ステップＳ３４）、ステップＳ２２に戻り、ステップＳ２２以降の処理を繰り返す。
【０１３５】
また、ステップＳ２５の処理、つまり、Ｔａ≧Ｍの判断を行った結果、ＴａがＭ未満であると判定された場合は、ステップＳ２２に処理が戻り、ステップＳ２２以降の処理を繰り返す。
【０１３６】
また、ステップＳ２６における現在の振幅値＜閾値Ｂの判断を行った結果、現在の振幅値が閾値Ｂよりも大きいと判定された場合、つまり、Ｔａが時間Ｍ以上となった状態で、現在の振幅値が閾値Ｂよりも大きいと判定された場合は、現在のそれまでにカウントされたＴｂをリセット、つまり、Ｔｂ＝０として（ステップＳ３５）、ステップＳ２２に戻り、ステップＳ２２以降の処理を繰り返す。
【０１３７】
また、ステップＳ２８におけるＴｂ≧Ｌを判断した結果、ＴｂがＬ未満であると判定された場合は、ステップＳ２２に処理が戻り、ステップＳ２２以降の処理を繰り返す。
【０１３８】
以上説明したように第２の実施の形態では、音声データの振幅値に対して、音声データの振幅値が低下傾向にあることを検出するための閾値Ａと、この閾値Ａよりも小さい閾値Ｂ（この閾値Ｂは、音声データとして殆ど意味をなさない振幅値）を設定し、音声データの振幅値が閾値Ａ未満となった状態が時間Ｍだけ保持され、その後、閾値Ｂ未満となった場合、時間Ｍ以降において、閾値Ｂ未満の状態がＩＤ情報の時間的長さ（時間Ｌ）以上であることが検出された場合には、その区間をＩＤ情報埋め込み対象区間として、そのＩＤ情報埋め込み対象区間における音声データをＩＤ情報で置き換えることによってＩＤ情報の埋め込みを行うようにしている。
【０１３９】
これによって、音声データにおいて振幅値が小さく音声として殆ど意味をなさない区間で、かつ、ＩＤ情報を埋め込むに最適な時間的長さを有する部分のみにＩＤ情報が埋め込まれるので、振幅が大きく、音声として有効な部分の音声データには何等影響を与えることがなくなり、それ以降の音声データ処理を高精度に行うことができる。
【０１４０】
また、ＩＤ情報を読み出す機能を有した音データ処理装置では、振幅値の大きさの変化を監視することによって、ＩＤ情報を読み出す区間を予測することができるので、ＩＤ情報の読み出し処理を効率よく行うことができ、ＩＤ情報を適切に読み出すことができる。
【０１４１】
なお、この第２の実施の形態においては、閾値Ａとそれより小さい閾値Ｂの２つの閾値を設定しているが、閾値Ａは特に設定せずに閾値Ｂだけを設定し、音声データの振幅値が閾値Ｂ未満を一定時間保持したら時間Ｌを監視して、時間Ｌが予め設定した時間以上であると判断できたら、その区間の音声データをＩＤ情報で書き換えるようにしてもよい。
【０１４２】
〔第３の実施の形態〕
以上説明した第１および第２の実施の形態では、元の音声データに対してＩＤ情報を時間軸方向に離散的に埋め込むようにしたが、この第３の実施の形態は、各サンプリング点対応の音声データの所定のビットに、クロック信号によって時系列で連続して繰り返し埋め込むようにしたものである。
【０１４３】
この第３の実施の形態においても、ＩＤ情報の埋め込み処理は、付加情報記憶部１３に記憶されているＩＤ情報を付加情報埋め込み処理部１４が読み出し、読み出したＩＤ情報を、Ａ／Ｄ変換部１２によってディジタル化された音声データに埋め込むことで行われる。また、付加情報記憶部１３に保持されているＩＤ情報は、図１の構成のように、音データ生成機器１０がもともと持っているＩＤ情報であってもよく、図２の構成のように、エリアなどで与えられるＩＤ情報を受信したものであってもよい。以下、図９を参照しながら説明する。
【０１４４】
図９は音声入力部１１でから入力された音声信号をＡ／Ｄ変換部１２でディジタル変換して得られた音声データの最下位ビットＬＳＢにＩＤ情報を時系列で連続的に繰り返し埋め込んだ様子を示すものであり、この音声データもこれまでの説明と同様、各サンプリング点対応のそれぞれの振幅値がたとえば、１６ビットで表されるものとしている。
【０１４５】
ここで、Ａ／Ｄ変換されて得られる音声データが１６ビットで表されるとすれば、最下位ビットＬＳＢを含む下位３ビット程度を他のデータに書き換えても、振幅値の大きさに殆ど影響を与えることがなく、音声データとして聴感上気になることはない。特に最下位ビットは１６ビットで表される振幅値としては殆ど意味をなさないので、この実施の形態では、最下位ビットＬＳＢをＩＤ情報の埋め込みビットとして用い、この最下位ビットＬＳＢの音声データをＩＤ情報で置き換える。
【０１４６】
この第３の実施の形態では、ＩＤ情報は各サンプリング点対応の音声データに対して、時系列で連続的に繰り返し埋め込まれるので、音データ処理装置２０側でＩＤ情報を読み出す際、ＩＤ情報がどこから始まるのかを示す情報、つまり、ＩＤ情報の先頭を示す情報を付加することが必要となる。そこで、まず、ＩＤ情報がその後に続くことを示す情報（これをＩＤヘッダという）を埋め込んで、このＩＤヘッダに続けてＩＤ情報を埋め込み、さらにそのあとにＩＤ情報の正当性をチェックするためのチェック用データを埋め込む。なお、これら、ＩＤヘッダ、ＩＤ情報、チェック用データの埋め込みは、最下位ビットＬＳＢの音声データをそれらのデータで置き換えることによって行う。
【０１４７】
この第３の実施の形態では、ＩＤヘッダとして４ビットを用いそのデータ内容を“１１１１”としている。また、ＩＤ情報は６ビットを用い、そのデータ内容を“０１１０１１”としている。また、チェック用データは２ビットを用いそのデータ内容を“００”としている。
【０１４８】
このように、付加情報埋め込み処理部１４は、それぞれのサンプリング点ごとの音声データの最下位ビットＬＳＢに、ＩＤヘッダ、ＩＤ情報、チェック用データを１ビットずつ時系列で連続的に繰り返し埋め込む処理を行い、このようなＩＤヘッダ、ＩＤ情報、チェック用データの埋め込まれた音声データ（このような音声データをここでもＩＤ情報付き音声データという）は、音データ生成機器１０から出力される。
【０１４９】
そして、この音データ生成機器１０から出力されたＩＤ情報付き音声データを、音データ処理装置２０側で受け取って、音データ処理装置２０に設けられた付加情報読み出し処理部２１が、そのＩＤ情報付き音声データからＩＤ情報の読み出しを行う。このＩＤ情報の読み出し処理について以下に説明する。
【０１５０】
この場合、音データ処理装置２０では、音データ生成機器１０側から渡されたＩＤ情報付き音声データのどの部分から読み出すかは未定であるとする。なお、音データ処理装置２０側では、ＩＤ情報付き音声データの最下位ビットに、“１１１１”の４ビットのＩＤヘッダがあって、そのあとにＩＤ情報が６ビット存在し、そのあとにチェック用データが２ビット存在するということは予め知識として持っている。
【０１５１】
したがって、音データ処理装置２０の付加情報読み出し部２１では、音データ生成機器１０側から渡されたＩＤ情報付き音声データの最下位ビットＬＳＢを時系列に１ビットずつ読み込んで行き、ある時点以降、“１”が４個連続して読み出されたとすれば、それをＩＤヘッダであると判断し、それによって、そのＩＤヘッダに続いて、ＩＤ情報の先頭が出現すると判断する。
【０１５２】
この場合、“１１１１”の４ビットのＩＤヘッダを検出できれば、それに続く“０１１０１１”のＩＤ情報を読み出すことができ（この時点では正当性のチェックがなされていないので、それを仮のＩＤ情報と呼ぶ）、さらに続いて、チェック用データ“００”を読み出すことができる。そして、このチェック用データ“００”によって、仮のＩＤ情報が正当なＩＤ情報であるか否かのチェックを行う。
【０１５３】
ここで、チェック用データによって仮のＩＤ情報が正当なＩＤ情報であると判定されたら、それをＩＤ情報として取り出して、取り出したＩＤ情報をそれ以降の何らかの処理に用いる。このとき、音声データは、個々のサンプリング点対応の音声データにおいて、その最下位ビットをゼロに置き換えて信号処理するようにしてもよく、また、その最下位ビットはもともと音声データとしての信頼性は低いデータであるので、音声データとしてのデータ処理を行う際に無視するようにしてもよい。
【０１５４】
一方、チェック用データによる正当性のチェックを行った結果、ＩＤ情報としての正当性が否定されたら、その仮のＩＤ情報を捨てて、次に出現するＩＤ情報を検出する処理を行う。
【０１５５】
この第３の実施の形態では、音声データとして殆ど意味を持たない最下位ビットＬＳＢをＩＤ情報の埋め込み用ビットとして用い、その最下位の１ビットに時系列でＩＤ情報を連続して繰り返し書き込んで行けばよいので、ＩＤ情報の埋め込み処理を単純なものとすることができる。また、最下位ビットのみを用いているので、音声データそのものに及ぼす影響を最小限に抑えることができる。
【０１５６】
以上、本発明の付加情報埋め込み方法および付加情報読み出し方法についての実施の形態として３つの実施の形態を説明したが、このような本発明の付加情報埋め込み方法および付加情報読み出し方法は次に示すような技術に適用することができる。
【０１５７】
まず、以上の各実施の形態では音データ生成機器１０に与えられたＩＤ情報を、その音声データ生成機器１０から出力する音声データ（Ａ／Ｄ変換部１２によってディジタル変換された音声データ）に埋め込んで、ＩＤ情報付き音声データとして出力し、そのＩＤ情報付き音声データを音データ処理装置２０が受け取って音声データ処理を行っている。
【０１５８】
このように、音声データの中に音データ生成機器１０に与えられたＩＤ情報を埋め込むことによって、音データ処理装置２０側でデータ処理する際、埋め込まれているＩＤ情報を読み出すことによって、音データ生成機器１０を特定することができ、それによって、その音データ生成機器１０の特性などに適合した雑音処理方法を自動的に選択することが可能となったり、音声区間を検出するための音声信号レベルの自動設定を行うといったことが可能となる。
【０１５９】
また、各話者がそれぞれの話者ごとに音データ生成機器１０の機能を有するヘッドセットなどを持ち、そのヘッドセットを用いてその話者が発話することによって、それぞれのヘッドセットごとのＩＤ情報が音声データに埋め込まれるので、そのＩＤ情報を音データ処理装置２０側で読み出すことで、どの話者の発話した音声データであるということを特定することができる。
【０１６０】
これによって、たとえば、話者の発話する音声を入力してディジタル化し、かつ、そのディジタル化された音声データに、当該音声データ生成機器１０に与えられたＩＤ情報を埋め込む機能を有した音データ生成機器１０と、この音データ生成機器１０から出力される音声データを受け取って、音声認識してその認識結果に応じた動作を行う音声認識機能を有した音データ処理装置２０とによって音声認識システムを構築すれば、認識時に話者識別が容易に行え、認識性能を大幅に向上させることができる。
【０１６１】
一例として、音声を認識して作動する機器（音声認識機器という）を家族全員が共同で用いるような場合、家族全員がそれぞれ自分専用のヘッドセット（音データ生成機器１０としての機能を有している）を装着して発話することにより、それぞれのヘッドセットに与えられたＩＤ情報を音声認識機器側で読み出すことができ、それによって、音声認識機器側では、誰の発話であるかを容易に判別できるので、家族それぞれが発話する音声コマンドを高い認識率で認識することができるようになる。
【０１６２】
また、それぞれのユーザ一人一人に割り当てられた音声認識機器があって、それをそれぞれのユーザが同じ空間内で使用する場合、あるユーザに割り当てられた音声認識機器はそのユーザのみの音声コマンドで作動させる必要があるが、そのような場合においても、それぞれの話者が、音データ生成機器１０の機能を有したヘッドセットを装着して発話することで、誰の発話であるかを容易に特定することができるので、ユーザそれぞれに割り当てられた音声認識機器のみを動作させることができる。
【０１６３】
また、このような音データ生成機器１０に与えられたＩＤ情報による話者識別が可能となることによって、たとえば、音声コマンドにより電子メールの閲覧などが可能であるとすれば、音声コマンドをそれぞれの個人が所有するヘッドセット（音データ生成機器１０の機能を有している）などを用いて発話すれば、話者の特定が可能となり、セキュリティの向上にもつながるというように、様々な分野に適用することができる。
【０１６４】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の各実施の形態では、音データ生成機器１０内にＩＤ情報を埋め込む機能（付加情報埋め込み処理部１４）を持たせて、この音データ生成機器１０内部で付加情報の埋め込み処理を行って、音データ生成機器１０からＩＤ情報が埋め込まれた音データ（ＩＤ情報付き音声データ）を出力する例で説明したが、これに限られるものではなく、付加情報埋め込み処理部１４は、音データ生成機器１０とは別個に設けることもできる。
【０１６５】
図１０はその構成図を示すものであり、音データ生成機器１０、付加情報埋め込み処理部１４、データ処理部３０からなる。この図１０に示す音データ生成機器１０は、図１および図２で示した音データ生成機器１０からＩＤ情報埋め込み処理部１４を取り除いた構成要素からなり、音データ生成機器１０がＩＤ情報を始めから持っているもの（図１の構成）であってもよく、また、あるエリアなどでそのエリアで通用するＩＤ情報として外部から与えられるもの（図２の構成）のいずれであってもよい。
【０１６６】
すなわち、音データ生成機器１０がＩＤ情報を始めから持っているものであれば、音声入力部１１、Ａ／Ｄ変換部１２、付加情報記憶部１３を有した構成である。また、あるエリアなどでそのエリアで通用するＩＤ情報として外部から与えられるものであれば、音声入力部１１、Ａ／Ｄ変換部１２、付加情報記憶部１３、付加情報受信部１５を有した構成である。
【０１６７】
そして、付加情報埋め込み処理部１４は、音データ生成機器１０とは別個に設けられ、音データ生成機器１０から出力されるディジタル化された音声データをデータ処理部３０が何らかの処理を行う際に、音データ生成機器１０から出力されるＩＤ情報を用いてそのＩＤ情報を音声データに埋め込む処理を行う。なお、このＩＤ情報の音声データへの埋め込みを行う処理は、前述の第１から第３の実施の形態で説明したアルゴリズムで可能となる。
【０１６８】
このように、音声データ生成機器１０とは別個に設けられた付加情報埋め込み処理部１４でＩＤ情報の埋め込みを行う際、付加情報埋め込み処理部１４が音データ生成機器１０から出力されるディジタル化された音声データやＩＤ情報をリアルタイムで受け取って埋め込み処理することも可能であるが、これらディジタル化された音声データやＩＤ情報を、コンピュータなどの記憶手段に保存しておき、それをデータ処理部３０が必要な時に読み出してデータ処理するといったシステムにも適用することができる。この場合、そのデータ処理部３０が、コンピュータなどに保存された音声データを読み出してデータ処理する際に、付加情報埋め込み処理部１４が付加情報を読み出して音声データに埋め込み処理する。
【０１６９】
また、前述の各実施の形態では、音声データに埋め込む付加情報としては、その音声データを生成する音データ生成機器に与えられたＩＤ情報であるとしたが、埋め込むことができる付加情報はＩＤ情報だけでなく、たとえば、その音声データを生成した日付データなど他の付加的な情報であってもよい。
【０１７０】
また、埋め込み対象となるデータは音声に限られるものではなく音楽などであってもよい。
【０１７１】
また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【０１７２】
【発明の効果】
以上説明したように本発明によれば、付加情報を微小な振幅値のデータとして音データに埋め込むだけの処理であるので、少ない演算量と単純な処理で付加情報の埋め込みが可能となり、また、それを読み出す側も少ない演算量と単純な処理で読み出しが可能となる。このように、本発明は音データに対し、聴感上気にならない微小な振幅値のデータとして付加情報を埋め込むようにしているので、埋め込まれた付加情報を読み出す機能を持たない音データ処理装置で、付加情報付き音声データを処理した場合、その付加情報が音データ処理に何等影響を与えることがなく、また、埋め込まれた付加情報を読み出す機能を有する音データ処理装置で、その付加情報付き音データを処理した場合、その埋め込まれた付加情報を読み出して、読み出された付加情報を有効利用できる。
【０１７３】
また、埋め込むべき付加情報は、音データ生成機器に与えられた当該機器固有のＩＤ情報とすることができる。このように、付加情報を音データ生成機器のＩＤ情報とすることによって、そのＩＤ情報付き音データを音データ処理装置側でデータ処理し、埋め込まれているＩＤ情報を読み出すことによって、音データ生成機器を特定することができ、それによって、その音データ生成機器の特性などに適合した雑音処理方法の自動選択が可能となったり、音声区間を検出するための音声信号レベルを自動設定するといったことが可能となる。
【０１７４】
また、たとえば、話者の発話する音声を入力してディジタル化し、かつ、そのディジタル化された音声データに、当該音声データ生成機器に与えられたＩＤ情報を埋め込む機能を有した音データ生成機器と、この音データ生成機器から出力される音声データを受け取って、音声認識してその認識結果に応じた動作を行う音声認識機能を有した音声データ処理装置とによって音声認識システムを構築すれば、音声データ生成機器からＩＤ情報付きの音声データを音声認識装置側が受け取って、ＩＤ情報を読み出すことによって音データ生成機器を特定することができる。したがって、音声データ生成機器を個々のユーザが専用に用いる場合には、ＩＤ情報によってユーザの特定を行うこともできるので、話者識別が可能となるなど、音声認識を行う際に、そのＩＤ情報を様々に有効利用できる。
【図面の簡単な説明】
【図１】本発明の付加情報埋め込み方法による付加情報埋め込み機能を有した音データ生成機器の概略的な構成図であり、付加情報としてのＩＤ情報を音データ生成機器が持っている場合の概略的な構成図である。
【図２】本発明の付加情報埋め込み方法による付加情報埋め込み機能を有した音データ生成機器の概略的な構成図であり、付加情報としてのＩＤ情報を受信する機能を有した場合の概略的な構成図である。
【図３】本発明の付加情報読み出し方法による付加情報読み出し機能を有した音データ処理装置の概略的な構成図である。
【図４】本発明の第１の実施の形態を説明する図であり、ディジタル化された音データを、各サンプリング点対応の振幅値（たとえば、１６ビットで与えられる振幅値）のデータとして時間軸に沿って表した図である。
【図５】図４で示した各サンプリング点対応の振幅値のデータに一定周期でＩＤ情報を埋め込んだ音データの振幅の変化を示す図である。
【図６】本発明の第２の実施の形態を説明する図であり、ディジタル化された音データの振幅の変化とその振幅に閾値（閾値Ａ、閾値Ｂ）を設定し、振幅がある値以下の区間にＩＤ情報を埋め込んだ例を示す図である。
【図７】本発明の第２の実施の形態における付加情報埋め込み方法の処理手順を説明するフローチャートである。
【図８】本発明の第２の実施の形態における付加情報読み出し方法の処理手順を説明するフローチャートである。
【図９】本発明の第３の実施の形態を説明する図であり、各サンプリング点対応の振幅値（たとえば、１６ビットで与えられる振幅値）の音データの最下位ビットに時系列でＩＤヘッダとＩＤ情報とチェック用データを書き込んだ例を示す図である。
【図１０】音データ生成機器に与えられたＩＤ情報を音データに埋め込む処理を音データ生成機器の外部で行う例を説明する構成図である。
【符号の説明】
１０音データ生成機器
１１音入力部
１２Ａ／Ｄ変換部
１３付加情報記憶部
１４付加情報埋め込み処理部
１５付加情報受信部
２０音データ処理装置
２１付加情報読み出し処理部
２２データ処理部
Ａ第１の閾値
Ｂ第２の閾値

Claims

ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、前記各サンプリング点対応の音データの振幅に対してその振幅値が予め定めた振幅値以下であることを検出できる閾値を設定し、振幅値がその閾値以下となって、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上であると判定された場合は、その埋め込み長さ以上となった区間の少なくとも１つのサンプリング点対応の音データに前記付加情報を埋め込むことを特徴とする付加情報埋め込み方法。
前記閾値は、前記音データの振幅値が低下傾向にあることを検出するための第１の閾値と、この第１の閾値より小さい第２の閾値でなり、前記音データの振幅値が前記第１の閾値未満となってその状態を一定時間保持したのちに、第２の閾値未満となって、その第２の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第２の閾値未満となった区間の少なくとも１つのサンプリング点対応の音データに前記付加情報を埋め込むことを特徴とする請求項１記載の付加情報埋め込み方法。
前記第２の閾値は、音データとして聴感上影響を及ぼさない振幅値を表す下位ｎビット（ｎは正の整数）で表される振幅値とすることを特徴とする請求項６記載の付加情報埋め込み方法。
前記第２の閾値未満となった区間に前記付加情報を埋め込む際、その区間の音データを前記埋め込むべき付加情報で置き換えることを特徴とする請求２または３記載の付加情報埋め込み方法。
前記付加情報には、付加情報の正当性をチェック可能なチェック用データが付加されることを特徴とする請求項１から４のいずれかに記載の付加情報埋め込み方法。
前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のＩＤ情報であることを特徴とする請求項１から５のいずれかに記載の付加情報埋め込み方法。