JP4207445B2 - 付加情報埋め込み方法 - Google Patents

付加情報埋め込み方法 Download PDF

Info

Publication number
JP4207445B2
JP4207445B2 JP2002093159A JP2002093159A JP4207445B2 JP 4207445 B2 JP4207445 B2 JP 4207445B2 JP 2002093159 A JP2002093159 A JP 2002093159A JP 2002093159 A JP2002093159 A JP 2002093159A JP 4207445 B2 JP4207445 B2 JP 4207445B2
Authority
JP
Japan
Prior art keywords
information
additional information
sound data
embedded
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002093159A
Other languages
English (en)
Other versions
JP2003295894A (ja
JP2003295894A5 (ja
Inventor
正信 西谷
康永 宮澤
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2002093159A priority Critical patent/JP4207445B2/ja
Publication of JP2003295894A publication Critical patent/JP2003295894A/ja
Publication of JP2003295894A5 publication Critical patent/JP2003295894A5/ja
Application granted granted Critical
Publication of JP4207445B2 publication Critical patent/JP4207445B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は音声などの音データにその音データを生成した機器に与えられた機器固有の情報(ID情報という)などの付加的な情報を埋め込む付加情報埋め込み方法および埋め込まれた付加情報を読み出す付加情報読み出し方法ならびにこれら付加情報埋め込み方法と付加情報読み出し方法を用いた音声認識システムに関する。
【0002】
【従来の技術】
音声を扱う電子機器として、たとえば、音声認識装置を用いた電子機機器が広く普及している。このような電子機器においては、少ない演算量でより高い認識率を得ることが要求され、それを実現する手段として、その機器を使用する特定のユーザ(特定話者という)のみの音声を認識可能とすることが従来より行われている。
【0003】
この場合、特定話者が複数存在する場合は、それぞれの特定話者が予め幾つかの単語を発話してその特徴データを登録しておき、その機器の使用時に特定話者の発話した音声の特徴データと登録された特徴データとから話者識別して音声認識を行うことがなされているが、それぞれの話者が予め音声の登録を行うといった煩わしい操作が必要であるため、その機器を使用する人が新たに追加されるような場合には、その都度、その話者の音声の登録を行わなければならない。また、このような音声認識を行う際、話者識別を行う必要があるため、処理が複雑となる傾向にある。
【0004】
【発明が解決しようとする課題】
このように、特定話者がある機器を操作可能とする場合は、話者を確実に識別することも重要となってくる。これを実現する1つの手法として、たとえば、それぞれの話者の発話した音声に、その話者を特定するための何らかの情報を埋め込むことが考えられる。
【0005】
このように音声などの情報に他の情報を埋め込む技術は、電子透かし技術として従来から様々な手法が提案されている。一例として、特開平11−296200号公報に記載の「音声データに透かし情報を埋め込む装置とその方法および音声データから透かし情報を検出する装置とその方法ならびに記録媒体」(以下、第1の従来技術という)や、特開平2001−305957号公報に記載の「ID情報埋め込み方法および装置ならびにID情報制御装置」(以下、第2の従来技術という)などがある。
【0006】
これら、第1および第2の従来技術は、いずれも電子透かし情報を音声データなどに埋め込む技術について述べられているが、第1の従来技術は、著作権保護の目的、第2の従来技術は透かし情報を埋め込んだあとの音声の劣化を防ぐことを目的とした技術である。
【0007】
これら従来から一般的に行われている電子透かし情報の埋め込み技術は、処理が複雑で演算量もきわめて多いのが普通であるので、高性能な演算処理手段が必要であり、また、リアルタイム処理が難しいのが一般的である。したがって、前述したような音声認識を用いた電子機器において、話者を特定するための何らかの情報を埋め込むような技術に適用するには不向きである。
【0008】
特に、小型・軽量化、さらには低価格が強く要求される家庭電化製品や個人の使用する汎用的な機器においては、従来から一般的に行われている電子透かし情報の埋め込み技術をそのまま適用するのは難しい。
【0009】
そこで本発明は、話者特定などを行うことができるような付加情報を音声などの音データに少ない演算量で、かつ、単純な処理で埋め込むことを可能とすることで、音声認識装置など音を扱う電子機器に幅広く適用できる付加情報埋め込み方法および埋め込まれた付加情報を読み出す付加情報読み出し方法ならびにこの付加情報埋め込み方法および付加情報読み出し方法を用いた音声認識システムを提供することを目的としている。
【0010】
【課題を解決するための手段】
上述した目的を達成するために、本発明の付加情報埋め込み方法の第1の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、前記各サンプリング点対応の音データの時間軸方向に沿って予め設定された一定周期ごとの少なくとも1つの音データの下位ビット側の所定ビットの音データに、前記付加情報を加算することによって当該付加情報の埋め込みを行うようにしている。
【0011】
このような付加情報埋め込み方法において、前記音データの下位ビット側の所定ビットは、音データとして聴感上影響を及ぼさない振幅値を表す下位nビット(nは正の整数)のうち最下位ビットを除く、n−1個のビットとしている。
【0012】
また、前記付加情報には、付加情報の正当性をチェック可能なチェック用データを付加するようにしている。
【0013】
また、前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のID情報とすることができる。
【0014】
このように本発明の付加情報埋め込み方法の第1の発明は、各サンプリング点対応の音データの時間軸方向に沿って予め設定された一定周期ごとに、その一定周期に対応する音声データを含めた少なくとも1つの音データに、当該音データの下位ビット側の所定ビットに、前記付加情報を加算することによって付加情報の埋め込みを行うようにしている。つまり、この付加情報埋め込み方法の第1の発明は、ディジタル化された音データに対して一定周期で機械的に付加情報を埋め込むようにしているので、付加情報の埋め込み処理を単純なものとすることができ、しかも音データの下位ビットに付加情報を埋め込むようにしているので、埋め込まれた付加情報が音データに与える影響を少なくすることができる。
【0015】
また、付加情報の埋め込みを行う下位ビット側の所定ビットは、音データとして聴感上影響を及ぼさない振幅値を表す下位nビットのうち最下位ビットを除く、n−1個のビットとしている。これによって、埋め込まれた付加情報の振幅値は微小であるので、音声データに影響を与えることはない。この場合、付加情報の埋め込みは、埋め込むべきビットの音声データに加算することで行っているので、揺らぎの多い最下位ビットを除いた下位ビットに埋め込むことで、埋め込まれた付加情報の信頼性を高めることができる。
【0016】
また、本発明の付加情報埋め込み方法の第2の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、 前記各サンプリング点対応の音データの振幅に対してその振幅値が予め定めた振幅値以下であることを検出できる閾値を設定し、振幅値がその閾値以下となって、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上であると判定された場合は、その埋め込み長さ以上となった区間の少なくとも1つのサンプリング点対応の音データに前記付加情報を埋め込むようにしている。
【0017】
この付加情報埋め込み方法の第2の発明において、前記閾値は、前記音データの振幅値が低下傾向にあることを検出するための第1の閾値と、この第1の閾値より小さい第2の閾値でなり、前記音データの振幅値が前記第1の閾値未満となってその状態を一定時間保持したのちに、第2の閾値未満となって、その第2の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第2の閾値未満となった区間の少なくとも1つのサンプリング点対応の音データに前記付加情報を埋め込むようにしている。
【0018】
また、前記第2の閾値は、音データとして聴感上影響を及ぼさない振幅値を表す下位nビット(nは正の整数)で表される振幅値としている。
【0019】
また、前記第2の閾値未満となった区間に前記付加情報を埋め込む際、その区間の音データを前記埋め込むべき付加情報で置き換えるようにしている。
【0020】
また、この付加情報埋め込み方法の第2の発明においても、前記付加情報には、付加情報の正当性をチェック可能なチェック用データを付加するようにしている。
【0021】
また、この付加情報埋め込み方法の第2の発明においても、前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のID情報とすることができる。
【0022】
このように、本発明の付加情報埋め込み方法の第2の発明は、各サンプリング点対応の音データの振幅に対して、その振幅値が予め定めた振幅値以下であることを検出できる閾値を設定し、振幅値がその閾値以下となって、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上であると判定された場合に、その埋め込み長さ以上となった区間の音データに前記付加情報を埋め込むようにしている。このように、音データにおいて振幅値が小さい区間で、かつ、付加情報を埋め込むに最適な時間的長さを有する部分のみに付加情報が埋め込まれるので、振幅の大きい有効な音データには何等影響を与えることがなくなり、それ以降の音データ処理を高精度に行うことができる。
【0023】
また、前記閾値としては、音データの振幅値が低下傾向にあることを検出するための第1の閾値と、この第1の閾値より小さい第2の閾値が設定され、前記音データの振幅値が前記第1の閾値未満となってその状態を一定時間保持したのちに、第2の閾値未満となって、その第2の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第2の閾値未満となった区間に前記付加情報を埋め込むようにしているので、振幅が小さくなったあと、急激に振幅が大きくなるような場合に対処することができる。しかも、振幅が小さくなった区間が付加情報を埋め込める長さ以上であるか否かを判断しているので、付加情報の埋め込み位置を適切なものとすることができる。
【0024】
また、前記第2の閾値は、音データとして聴感上影響を及ぼさない振幅値を表す下位nビット(nは正の整数)で表される振幅値とすることによって、音データとして殆ど意味を持たない部分のみに付加情報を埋め込むことができる。
【0025】
また、この第2の閾値未満となった区間に前記付加情報を埋め込む際、その区間の音データを前記埋め込むべき付加情報で置き換えるようにしているので、その部分の音データの値に影響を受けることなく付加情報の埋め込みを行うことができる。
【0026】
また、本発明の付加情報埋め込み方法の第3の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、前記各サンプリング点対応のそれぞれの音データのそれぞれの最下位ビットに時系列で付加情報を埋め込むようにしている。
【0027】
この付加情報埋め込み方法の第3の発明において、前記最下位ビットに時系列で付加情報を埋め込む際、付加情報の先頭が出現することを示すためのヘッダを前記最下位ビットに時系列で埋め込み、そのヘッダに続けて前記付加情報を時系列で埋め込むようにしている。
【0028】
そして、前記付加情報のあとに続けて、当該付加情報の正当性をチェック可能なチェック用データを付加するようにしている。
【0029】
また、この付加情報埋め込み方法の第3の発明においても、前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のID情報とすることができる。
【0030】
このように、本発明の付加情報埋め込み方法の第3の発明は、音データとして殆ど意味を持たない最下位ビットを付加情報の埋め込み用ビットとして用い、その最下位の1ビットに時系列で付加情報を書き込んで行けばよいので、付加情報の埋め込み処理を単純なものとすることができる。また、最下位ビットのみを用いているので、音データそのものに及ぼす影響を最小限に抑えることができる。
【0031】
また、最下位ビットに時系列に付加情報を埋め込む際、付加情報の先頭が出現することを示すためのヘッダを前記最下位ビットに時系列に埋め込み、そのヘッダに続けて前記付加情報を時系列に埋め込むようにしているので、付加情報の読み出し側では音データのどの位置からでも適切に付加情報をその先頭位置から読み出すことができる。
【0032】
また、前述の付加情報埋め込み方法の第1から第3の発明において、埋め込むべき付加情報には、正当な付加情報であることをチェック可能なチェック用データが付加をすることによって、読み出し側では、そのチェック用データから付加情報の正当性を判断することができる。
【0033】
また、同じく前述の付加情報埋め込み方法の第1から第3の発明において、埋め込むべき付加情報は、音データ生成機器に与えられた当該機器固有のID情報とすることができ、音データの中に音データ生成機器に与えられたID情報を埋め込むことによって、音データ処理装置側で音データ処理する際、埋め込まれているID情報を読み出すことによって、音データ生成機器を特定することができ、それによって、その音データ生成機器の特性などに適合した雑音処理方法を自動選択することが可能となったり、また、たとえば、音声認識を行う装置においては、音声区間を検出するための音声信号レベルの自動設定を行うといったことが可能となる。さらにまた、たとえば、音データ生成機器を個々のユーザが専用に用いる場合には、ユーザの特定を行うこともでき、音声認識機能を有した機器などの話者識別など幅広い分野に適用することができる。
【0034】
また、本発明の付加情報読み出し方法の第1の発明は、ディジタル化された各サンプリング点対応の振幅の大きさを表す音データの時間軸方向に沿って予め設定された一定周期ごとの少なくとも1つの音データの下位ビット側の所定ビットの音データに加算することで埋め込まれた付加情報を読み出す付加情報読み出し方法であって、前記付加情報の埋め込まれた音データにおいて、予め設定した振幅以下の音データを検出し、その検出された音データを含めた少なくとも1つの音データから前記埋め込まれた付加情報を読み出すようにしている。
【0035】
この付加情報読み出し方法の第1の発明において、前記付加情報を埋め込む側における付加情報の埋め込みが、音データとして聴感上影響を及ぼさない振幅値を表す下位nビット(nは正の整数)のうち、最下位ビットを除くn−1個のビットで行われている場合、振幅値が下位nビットで表される音声データを検出し、その検出された音声データの最下位ビットを除くn−1個のビットから前記付加情報を読み出すようにしている。
【0036】
そして、前記読み出された付加情報が正当な付加情報であるか否かを、その付加情報に付加されたチェック用データから判断するようにしている。
【0037】
また、その付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のID情報とすることができる。
【0038】
このように、本発明の付加情報読み出し方法の第1の発明は、付加情報の埋め込まれた音データにおいて、予め設定した振幅以下の音データを検出し、その検出された音データを含めた少なくとも1つの音データから前記埋め込まれた付加情報を読み出すようにしているので、単純な処理で適切に付加情報を読み出すことができる。
【0039】
また、振幅値が下位nビットで表される音データを検出し、その検出された音データの最下位ビットを除くn−1個のビットから前記付加情報を読み出すようにしているので、単純な処理で適切に付加情報を読み出すことができる。
【0040】
また、本発明の付加情報読み出し方法の第2の発明は、ディジタル化された各サンプリング点対応の振幅値を表す音データの振幅値が予め定めた振幅値以下で、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上となった区間の少なくとも1つのサンプリング点対応の音声データに埋め込まれた付加情報を読み出す付加情報読み出し方法であって、前記付加情報の埋め込まれた音データにおいて、予め設定した振幅以下で、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上となった区間を検出し、その検出された区間の音データから前記埋め込まれた付加情報を読み出すようにしている。
【0041】
この付加情報読み出し方法の第2の発明にあっては、前記付加情報の埋め込み側において、前記閾値として、前記音データの振幅値が低下傾向にあることを検出するための第1の閾値と、この第1の閾値より小さい第2の閾値が設定されていて、前記音データの振幅値が前記第1の閾値未満となってその状態を一定時間保持したのちに、第2の閾値未満となって、その第2の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第2の閾値未満となった区間に前記付加情報が埋め込まれている場合、読み出し側においても、付加情報の埋め込み側で設定された前記第1の閾値と、前記第1の閾値より小さい第2の閾値を設定しておき、前記音データの振幅値が前記第1の閾値未満となってその状態を一定時間持続したのちに、第2の閾値未満となって、その第1の振幅値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さより大きくなったと判定された場合に、その第2の閾値未満となった区間から前記付加情報を読み出すようにしている。
【0042】
そして、この付加情報読み出し方法の第2の発明においても、読みされた付加情報が正当な付加情報であるか否かを、その付加情報に付加されたチェック用データから判断するようにしている。
【0043】
また、その付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のID情報とすることができる。
【0044】
このように、本発明の付加情報読み出し方法の第2の発明は、予め設定した振幅以下で、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上となった区間を検出するだけで、付加情報の埋め込み位置を検出できるので、単純な処理で確実に付加情報を読み出すことができる。
【0045】
また、この付加情報読み出し方法の第2の発明においては、読み出し側においても、埋め込み側と同じ第1の閾値と、その第1の閾値より小さい第2の閾値を設定しておき、音データの振幅値が前記第1の閾値未満となってその状態を一定時間保持したのちに、第2の閾値未満となって、その第1の振幅値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さより大きくなったと判定された場合に、その第2の閾値未満となった区間から前記付加情報を読み出すようにしているので、確実に付加情報の埋め込み位置を検出することができ、効率のよい付加情報の読み出しが可能となる。
【0046】
また、本発明の付加情報読み出し方法の第3の発明は、ディジタル化された各サンプリング点対応の振幅値を表す音データのそれぞれの最下位ビットに時系列に埋め込まれた付加情報を読み出す付加情報読み出し方法であって、前記各サンプリング点対応のそれぞれの音データの最下位ビットを時系列に読み出して行くことで付加情報の読み出しを行うようにしている。
【0047】
この付加情報読み出し方法の第3の発明にあっては、前記付加情報の埋め込み側において、前記付加情報の先頭が出現することを示すためのヘッダが前記最下位ビットに時系列で埋め込まれ、そのヘッダに続けて前記付加情報が時系列で埋め込まれている場合、読み出し側において音データのそれぞれの最下位ビットに時系列に埋め込まれた付加情報を読み出す際、前記ヘッダを検出したら、そのヘッダに続くデータを付加情報として読み出すようにしている。
【0048】
また、この付加情報読み出し方法の第3の発明においても、前記読みされた付加情報が正当な付加情報であるか否かを、その付加情報のあとに書き込まれているチェック用データを読み出して、そのチェック用データから判断するようにしている。
【0049】
また、その付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のID情報とすることができる。
【0050】
このように、本発明の付加情報読み出し方法の第3の発明では、音データのそれぞれの最下位ビットに時系列に埋め込まれた付加情報を読み出すだけでよいので、単純な処理で確実に付加情報を読み出すことができる。
【0051】
また、この付加情報の読み出しを行う際、まず、付加情報の先頭が出現することを示すためのヘッダを検出したら、そのヘッダに続くデータを付加情報として読み出すようにしているので、音データの処理する位置に関係なく、確実に付加情報の先頭を検出することができる。
【0052】
また、付加情報読み出し方法の第1、第2、第3の発明において、読みされた付加情報が正当な付加情報であるか否かを、その付加情報に付されたチェック用ビットから判断するようにしているので、付加情報の正当性を適性に判定できる。
【0053】
また、前述の付加情報読み出し方法の第1から第3の発明において、読み出される付加情報は、音データ生成機器に与えられた当該機器固有のID情報とすることができ、このようなID情報を読み出すことによって、音データ生成機器を特定することができ、それによって、その音データ生成機器の特性などに適合した雑音処理方法を自動選択することが可能となったり、また、たとえば、音声認識を行う装置においては、音声区間を検出するための音声信号レベルの自動設定を行うといったことが可能となる。さらにまた、たとえば、音データ生成機器を個々のユーザが専用に用いる場合には、ユーザの特定を行うこともでき、音声認識機能を有した機器などの話者識別など幅広い分野に適用することができる。
【0054】
また、本発明の音声認識システムは、話者の発話する音声を入力して、入力された音声をディジタル化して出力する音データ生成部と、この音データ生成部から出力される音声データを受け取って音声認識してその認識結果に応じた動作を行う音声認識部とを有した音声認識システムにおいて、前記音データ生成部は、前記請求項1から14のいずれかに記載の付加情報埋め込み方法によって付加情報の埋め込みを行う付加情報埋め込み手段を有し、前記音声認識部は、前記請求項15から26のいずれかに記載の付加情報読み出し方法によって付加情報の読み出しを行う付加情報読み出し手段を有している。そして、前記音データ生成部からは、付加情報埋め込み手段によって付加情報の埋め込まれた音声データを出力し、前記音声認識部では、前記音データ生成部から出力された付加情報の埋め込まれた音声データを入力して、その音声データから付加情報を読み出し、付加情報の読み出された音声データに対し、当該付加情報を用いた音声認識を行うようにしている。
【0055】
このような音声認識システムは、たとえば、各話者がそれぞれの話者ごとに音データ生成機器の機能を有するヘッドセットなどを持ち、そのヘッドセットを用いてその話者が発話することによって、それぞれのヘッドセットに与えられた固有のID情報などを付加情報として音声データに埋め込むことができるので、そのID情報を音声認識装置側で読み出すことで、どの話者の発話した音声データであるということを特定できる。
【0056】
これによって、認識時に話者識別が容易に行え、認識性能を大幅に向上させることができる。
【0057】
また、たとえば、音声で作動する機器を家族全員が共同で用いるような場合、家族全員がそれぞれのヘッドセットを装着して発話することにより、誰の発話であるかを容易に判別できるので、家族それぞれが発話する音声コマンドを高い認識率で認識することができるようになるなど、多様な機能を有する音声認識システムを実現することができる。
【0058】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の付加情報埋め込み方法および付加情報読み出し方法ならびに音声認識システムについての説明を含むものである。
【0059】
本発明は、話者の発話した音声信号を取り込んでディジタル化された音データとして出力することのできる機器や、音楽などのディジタル化された音データを生成することのできる機器(これらをまとめて音データ生成機器と呼ぶことにする)に与えられた機器固有のID情報などの付加情報を音声データや音楽データなどの音データに埋め込み、その音データを用いて何らかの処理を行う装置(たとえば、音声認識装置や音楽再生装置などであり、以下ではこれらをまとめて音データ処理装置と呼ぶことにする)では、音データに埋め込まれた付加情報を読み出し、その読み出した付加情報を、データ処理に用いることができるようにしたものである。
【0060】
なお、以下に示す実施の形態では、音声データにその音声データを生成した音データ生成機器(たとえば、ヘッドセットなど)に与えられた当該機器固有のID情報を埋め込んで、音データ処理装置側でそれを読み出す例について説明する。なお、この場合の音データ生成機器は、少なくとも、音声を入力する音声入力手段と入力された音声(アナログ信号)をディジタル信号に変換するA/D変換手段を有しているものとする。
【0061】
また、本発明は、埋め込まれたID情報を読み出す機能を持たない音データ処理装置で、ID情報の埋め込まれた音声データを処理した場合、そのID情報が音データ処理に何等影響を与えることがないようなID情報の埋め込み処理がなされる。
【0062】
一方、埋め込まれたID情報を読み出す機能を有する音データ処理装置で、その音データを処理した場合、その埋め込まれたID情報を読み出すことができ、読み出されたID情報を有効利用できるものである。
【0063】
しかも、従来からの電子透かし情報を埋め込む技術とは異なり、ID情報の埋め込みや、埋め込まれたID情報の読み出しを、少ない演算量と単純な処理で実現できることが特徴の1つである。
【0064】
図1は付加情報を埋め込む機能を音データ生成機器に持たせた場合の音データ生成機器の構成を示す図である。
【0065】
この図1に示す音データ生成機器10は、音声を入力する音声入力部11、この音声入力部11に入力されたアナログの音声信号を各サンプリング点対応のディジタル信号に変換するA/D変換部12、当該音データ生成機器10のID情報を保持する付加情報記憶部13、この付加情報記憶部13に保持されているID情報を読み出して、ディジタル化された音声データに対して、ID情報の埋め込み処理を行う付加情報埋め込み処理部14を有している。
【0066】
この図1に示す音データ生成機器10の場合、付加情報記憶部13に保持されるID情報は、この音データ生成機器10がもともと持っていて、それを付加情報記憶部13が保持しているものであってもよく、また、その音データ生成機器固有のID情報をあとから当該音データ生成機器10に与えて、付加情報記憶部13がそのID情報を保持するものであってもよい。
【0067】
なお、付加情報埋め込み処理部14が行う付加情報の埋め込み処理の具体的な内容については後述する。
【0068】
また、図2に示す音データ生成機器10は、図1で示す音データ生成機器10と同様に、付加情報を埋め込む機能を音データ生成機器に持たせた場合の音データ生成機器の構成を示す図であり、音声を入力する音声入力部11、この音声入力部11に入力されたアナログの音声信号をディジタル信号に変換するA/D変換部12、当該音データ生成機器1のID情報を記憶する付加情報記憶部13、付加情報の埋め込み処理を行う付加情報埋め込み処理部14を有するが、その他に、ID情報を受信可能な付加情報受信部15を有している。
【0069】
このように、図2に示す音データ生成機器10は、ID情報を受信可能な機能を有しており、たとえば、音データ生成機器10の存在するエリアごとにそのエリア内で有効なID情報を取得して、それを付加情報記憶部13に記憶することができるようになっている。
【0070】
この図2に示す音データ生成機器10は、たとえば、音データ生成機器10の存在するエリアごとにそのエリア内で有効なID情報を取得してそれを付加情報記憶部13に記憶することができるものであるため、たとえば携帯電話機などの移動機器に搭載可能である。
【0071】
図3は付加情報の埋め込まれた音声データ(付加情報付き音声データという)を受け取って、その付加情報付き音声データを用いて何らかの処理を行う音データ処理装置の概略的な構成を示す図であり、音データ生成機器10側から渡された付加情報付き音声データから付加情報としてのID情報を読み出して、その読み出されたID情報と音声データを出力する付加情報読み出し処理部21、この付加情報読み出し部21によって読み出されたID情報と音声データを用いて何らかのデータ処理(たとえば、音データ処理装置20が音声認識を行う装置であれば、音声認識に必要なデータ処理)を行うデータ処理部22を有している。
【0072】
なお、前述したように、本発明は、埋め込まれたID情報を読み出す機能を持たない音データ処理装置でその音声データを処理した場合、付加情報としてのID情報が音データ処理結果に何等影響を与えることのないような付加情報の埋め込み処理がなされる。一方、埋め込まれたID情報を読み出す機能を有する音データ処理装置でその音声データを処理した場合、その埋め込まれたID情報を読み出すことができ、読み出したID情報を有効利用できるものである。
【0073】
次に、付加情報埋め込み処理部14が行う付加情報の埋め込み処理と、この付加情報の埋め込まれた音声データ(付加情報付き音声データという)を受け取って、その付加情報付き音声データを用いて何らかの処理を行う音データ処理装置20における付加情報(ID情報)の読み出し処理を、第1から第3の実施の形態により具体的に説明する。
【0074】
〔第1の実施の形態〕
この第1の実施の形態は、ディジタル化された各サンプリング点対応の音声データに対し、ID情報(音データ生成機器10のID情報)を当該音声データの時間軸上に沿って離散的に埋め込むようにするもので、その離散的な埋め込み方として、各サンプリング点対応の音声データに対し、ID情報をその時間軸上に沿って一定の周期で埋め込むものである。なお、このID情報の埋め込み処理は、付加情報埋め込み処理部14が、付加情報記憶部13に保持されているID情報を読み出し、読み出したID情報を、A/D変換部12でディジタル化された音声データに埋め込むことで行われる。なお、付加情報記憶部13に保持されているID情報は、図1で説明したように、音データ生成機器10がもともと持っているID情報であってもよく、また、図2で説明したように、特定のエリアなどで与えられるID情報を受信したものであってもよい。
【0075】
図4は音声入力部11から入力されたアナログ音声信号をA/D変換部12でディジタル変換して得られたディジタル化された音声データであって、各サンプリング点対応の振幅値(たとえば、16ビットで与えられる振幅値)を時間軸tに沿って表したものである。
【0076】
たとえば、それぞれのサンプリング点t1,t2,t3,・・・ごとの振幅値が16ビットのデータとして与えられるとすれば、A/D変換部12から出力されるディジタル化された音声データは、この図4で示すように、それぞれのサンプリング点t1,t2,t3,・・・ごとに16ビットの音声データ(最下位ビットLSBを0ビット目、最上位ビットMSBを15ビット目とする)としてレジスタ(図示せず)などに保持される。
【0077】
このようなディジタル化された音声データに対し、予め定められた一定周期(これをΔtで表す)ごとに、微小な振幅値としてのID情報を埋め込んで行く。たとえば、A/D変換後の音声データが16ビットで表され、ID情報を構成するデータ(これをここではID要素と呼ぶ)を、それぞれのサンプリング点対応の16ビットの音声データの時間軸方向に並ぶ幾つかの音声データに対してそれぞれ2ビットずつ埋め込むことで予め定めたID情報が表現されるものとする。
【0078】
この第1の実施の形態では、個々のサンプリング点ごとの音声データの下位nビット(nは正の整数)のうち最下位ビットを除く、n−1個のビットの音声データにID要素を加算することでID情報の埋め込みを行う。
【0079】
ここで、下位nビットは音声データとして聴感上影響を及ぼさない振幅値を表すビットであり、ここでは、n=3とし、個々のサンプリング点ごとの音声データの最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)の音声データにID要素を加算するものとする。そして、それを時間軸方向に連続する幾つかの音声データに対して行うことで、予め定めたID情報が表現される。
【0080】
ここで、埋め込むべきID情報が“011011”で表され、このID情報を構成するID要素が各サンプリング点対応の連続した3つの音声データのそれぞれ最下位ビットLSB(0ビット目)を除く下位の2ビットの音声データに加算されて行くとする。また、このID情報の埋め込み処理は、サンプリング点t0を基点に、Δt時間ごとに周期的に行われるものとする。
【0081】
まず、図4に示すように、サンプリング点t0における音声データには、その最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)の音声データに、“011011”のID情報を構成するID要素のうち、“0”と“1”の2つのID要素を加算し、サンプリング点t1における音声データにも同様に、その最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)の音声データに“1”と“0”2つの のID要素を加算し、サンプリング点t2における音声データにも同様に、その最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)の音声データに“1”と“1” の2つのID要素を加算する。これをΔt時間ごとに繰り返すことによって、ID情報が一定周期で音声データに埋め込まれる。このID情報の埋め込み後の音声データは図5のようになる。
【0082】
なお、このようにして、音声データの中にID情報を埋め込む際、音データ処理装置20側で、そのID情報を読み出したときに、読み出されたID情報の正当性をチェックできるように、たとえば、パリティチェック用ビットなどのチェック用データを付加する。
【0083】
たとえば、ID情報が上述したように、“011011”で表されるとすれば、このID情報のあとにチェック用データとして、“00”を付加する。このチェック用データは、ID情報を埋め込んだ音声データの後に続く音声データの最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)の音声データに加算することで埋め込む。
【0084】
一例として、図4で示すように、サンプリング点t0,t1,t2の音声データの最下位ビットLSB(0ビット目)を除く下位の2ビットの音声データには、予め定められたID情報が埋め込まれるが、その後に続くサンプリング点t3の音声データの最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)の音声データには、このチェック用データとして“0”,“0”が加算されることによってチェック用データが埋め込まれる。
【0085】
このように、ID情報とともにチェック用データが埋め込まれることによって、音データ処理装置20側では、ID情報付き音声データからID情報として読み出したデータが、正当なID情報であるか否かをチェックすることができる。
【0086】
図5において、図示の太線で表す部分が音声データに埋め込まれたID情報を示している。この場合、音声データに一定周期で機械的にID情報が埋め込まれるので、この図5に示すように、音声データの振幅の大きい部分や振幅の小さい部分など様々な部分にID情報が埋め込まれることになる。なお、図5は、音声データの振幅値を、最下位ビットLSBを捨てた振幅値の変化として表している。
【0087】
このようなID情報が埋め込まれた音声データ(ID情報付き音声データ)を音データ処理装置20が受け取ると、音データ処理装置20では、埋め込まれているID情報の読み出し処理を行う。このID情報の読み出しは、音データ処理装置20に設けられた付加情報読み出し処理部21によって行われる。以下に音データ処理装置20の付加情報読み出し処理部21が行うID情報読み出し処理について説明する。
【0088】
ID情報は音声データに対して微小な振幅値のデータとして埋め込まれているので、振幅の大きい部分ではID情報を検出することは難しい。そこで、音声データの振幅が殆どゼロの部分(聴感上殆ど音の無い部分)を検出してID情報を読み出す。なお、音は連続的に出力されている場合であっても、必ずといってよいほど、聴感上殆ど音のない部分(振幅値が殆どゼロの部分)が存在するものであるため、その振幅が殆どゼロの部分を検出することは可能である。
【0089】
たとえば、この例では、一定周期で音声データの最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)の音声データにそれぞれID情報が加算されることによって、そのID情報の埋め込みがなされているので、振幅が3ビット以下で表される音声データ区間、つまり、この場合、音声データが16ビットで表わされているので、上位13ビットがゼロの音声データ区間を検出し、その区間内音声データにおいて、それぞれ最下位ビットLSB(0ビット目)を捨てた下位2ビット(1ビット目と2ビット目)でID情報を読み出す。
【0090】
たとえば、図5のようなID情報付き音声データを音声データ処理装置20でID情報の読み出しを行う場合、振幅値が下位3ビット以下の区間として、たとえば、Wで示す区間が検出されたとすると、この区間Wにおいて、最下位ビットLSB(0ビット目)を除く下位の2ビット(1ビット目と2ビット目)のデータをID情報として読み出す。
【0091】
なお、このとき、その読み出されたID情報が正当なID情報であるか否かはわからないので、その読み出されたID情報を仮のID情報として、この仮のID情報が正当なID情報であるか否かをチェックする。この正当性のチェックは、チェック用データによって行うことができる。
【0092】
ここでもし、正当なID情報であると判断されたら、そのID情報はそれを取り出して何らかの処理(これについては後述する)を行う。また、そのID情報の埋め込まれている音声データは、そのまま音声データ処理(たとえば、音声認識に必要なデータを得るためのデータ処理など)してもよいが、そのID情報の検出を行った区間をゼロに置き換えて音声データ処理するようにしてもよい。
【0093】
なお、このID情報の検出を行った区間の音声データは、もともと振幅値が殆どゼロの音声データであるので、音声データとして殆ど意味をなさないデータである。したがって、そのままで音声データ処理しても、また、ゼロに置き換えて音声データ処理しても、いずれの場合も音声データ処理結果に影響を与えることは殆どない。
【0094】
また、このようなID情報付き音声データを、ID情報の読み出し機能を持たない音データ処理装置で処理した場合には、ID情報付き音声データをそのまま信号処理することになるが、この場合も、ID情報は微小な振幅値のデータ(この場合、最下位ビットLSBを除く下位2ビット)であるので、聴感上殆ど気にならない音声データ、つまり、音声データとして殆ど意味をなさないため、ID情報が埋め込まれたまま音声データ処理を行ってもその処理結果に影響を与えることはない。
【0095】
一方、チェック用データによるID情報であることの正当性のチェックの結果、正当なID情報ではないと判定された場合は、それは音声データであると判断し、音声データとしての信号処理を行う。
【0096】
このように、この第1の実施の形態では、ディジタル化された音声データに対して一定周期で機械的にID情報を埋め込むようにしているので、ID情報埋め込み処理を単純なものとすることができる。
【0097】
また、そのID情報を利用する音データ処理装置20側では、渡されたID情報付き音声データにおいて、振幅値の小さい音声データ区間(上述の例では振幅値が3ビット以下で表される音声データ区間)を検出し、その区間からID情報を検出するようにしている(このとき、チェック用データによってID情報であることの正当性の判断を行う)ので、音データ処理装置20側も単純な処理で的確にID情報を読み出すことができる。
【0098】
また、音データ処理装置20側では、ID情報の埋め込まれている周期を知っていれば、ID情報を1回検出したあとは、予め定めた周期ごとにID情報が埋め込まれていることがわかるので、その周期ごとにID情報を読み出すことができる。また、周期の情報をID情報に付加することもでき、それによって、音データ処理装置20では読み出したID情報を解読することによって、周期情報をも得ることができ、その周期情報からID情報の埋め込み位置を特定することもできる。
【0099】
また、ID情報を読み出す機能を持たない音データ処理装置においては、聴感上影響を与えないような微小な振幅値として埋め込まれているので、ID情報の埋め込まれた音声データをそのままデータ処理したとしても、処理結果に何等影響を与えることはない。
【0100】
〔第2の実施の形態〕
この第2の実施の形態も、上述した第1の実施の形態と同様、ディジタル化された音声データに対し、ID情報を時間軸上に沿って離散的に埋め込むようにするものであるが、この第2の実施の形態では、その離散的な埋め込み方として、音声データの振幅値の小さい部分を検出して、その振幅値の小さい部分にID情報を埋め込むものである。
【0101】
これを実現するため、入力されたアナログの音声信号に対してゲイン検出回路(図示せず)でゲイン検出を行い、このゲイン検出回路で検出された信号レベル(振幅値)の低いときに、時間領域または周波数領域でID情報を埋め込むようにする。なお、入力されたアナログの音声信号に対しては、増幅回路で増幅処理してゲイン検出回路でゲイン検出を行ってAGC(自動ゲイン制御)を行うことが一般的になされているので、それを利用することができる。
【0102】
以下、この第2の実施の形態について図6を参照しながら具体的に説明する。なお、この第2の実施の形態においても、ID情報の埋め込み処理は、付加情報記憶部13に保持されているID情報を付加情報埋め込み処理部14が読み出し、読み出したID情報を、A/D変換部12によってディジタル化された音声データに埋め込むことで行われる。また、この第2の実施の形態においても、付加情報記憶部13に保持されているID情報は、図1で説明したように、音データ生成機器10がもともと持っているID情報であってもよく、また、図2で説明したように、特定のエリアなどで与えられるID情報を受信したものであってもよい。
【0103】
図6は音声入力部でから入力された音声信号をA/D変換部12でディジタル変換して得られたディジタル化された音声データの振幅の変化とその振幅に閾値(後述する)を設定し、その閾値によって振幅値がある値以下となったことを検出し、振幅値がある値以下の区間に、ID情報を埋め込んだ例を示す図である。なお、この第2の実施の形態においても、各サンプリング点対応の音声データの振幅値は、16ビットで与えられるものとする。この図6についてはのちに詳細に説明する。
【0104】
このような音声データに対して、付加情報埋め込み処理部14が行うID情報の埋め込み処理は次のような手順で行う。
【0105】
音声データの振幅値に対し、閾値として第1の閾値Aとその第1の閾値Aよりも小さい値を持つ第2の閾値Bを予め決めておく。この第1の閾値A(以下では単に閾値Aという)は、音声データの振幅値が低下傾向にあることを検出するための閾値である。すなわち、音声データがこの閾値Aを下回り、かつ、それが一定時間継続すれば、音声データが確実に下降傾向にあることが検出できる。
【0106】
また、第2の閾値B(以下では単に閾値Bという)は、音声データの振幅値が十分低く、音声データとして殆ど意味をなさない振幅値(たとえば、音声データの振幅値が16ビットで表されるとしたら、下位3ビットで表される程度の低い振幅値)とする。
【0107】
このような2つの閾値A,Bを設定しておく。そして、付加情報埋め込み処理部14では、音声データの振幅値の変化を監視していて、振幅値が、まず、閾値Aを下回るかを監視する。そして、音声データの振幅値がある時点で閾値A未満となったら、それ以降のある一定時間、その閾値A以下を保持し続ける状態か否かを監視する。このある一定時間は、たとえば、所定のサンプリング数に対応する時間Mを設定しておき、時間Mの間、閾値A未満の状態を保持しているかを監視する。
【0108】
このように、ある設定された時間(この場合、時間M)、振幅値が閾値A未満を保持していることを監視するのは、一度、閾値A未満となった直後に、急激に大きな振幅値が現れることもあり、そのような場合に対処できるようにするためである。
【0109】
そして、閾値A未満の状態がしばらく保持され、しかも、ある時点から閾値B未満になっていたとすれば、ID情報の埋め込みの可能性ありとして、時間Mのあと、予め定めた時間(予め設定したサンプリング数に対応する時間L)、振幅値が閾値B未満を保持しているか否かを監視する。なお、この時間Lは埋め込むべきID情報の時間的な長さである。したがって、この時間Lは埋め込むべきID情報によって予め決められる。
【0110】
そして、その時間Lの間、振幅値が閾値B以下を保持したかを監視した結果、もし、途中で振幅値が閾値Bを上回ることがあれば、その時間Lに対応する区間においてはID情報の埋め込みはできないと判断し、次の埋め込み候補となる区間を探す。
【0111】
一方、その時間Lの間、振幅値が閾値B未満を保持したままであれば、その時間Lに対応する区間の始点に遡って、その時間Lに対応する区間にID情報の埋め込みを行う。この時間Lに対応する区間にID情報を埋め込む際の埋め込み方としては、時間Lに対応する区間の音声データをID情報に置き換える。
【0112】
なお、このときのID情報も第1の実施の形態同様、微小な振幅値のデータとして埋め込まれるが、この第2の実施の形態では、音声データの振幅値をID情報で書き換えてしまうので、音声データ(この場合も16ビットで表されるものとする)の振幅値を表すデータとして信頼性の低い最下位ビットLSBを含めて2ビットあるいは3ビット程度を用いることができる。
【0113】
図6において、細い実線で示すデータは音声データ、時間Lに対応する区間における太い実線で示されるデータはID情報であり、ID情報が埋め込まれる前は、時間Lに対応する区間の音声データは、細い実線で示すような振幅値変化をなす音声データであるが、この区間がID情報の埋め込み区間とされた場合は、その区間の音声データは太い実線で示すようなID情報に置き換えられる。
【0114】
なお、このようにして、音声データの中にID情報を埋め込む際、前述の第1の実施の形態同様、音声データ処理装置20側で、そのID情報の正当性をチェックできるように、チェック用データをID情報に付加する。
【0115】
このように、ID情報の埋め込みが行われる区間(時間Lに対応する区間)においては、音声データがID情報に置き換えられるが、この区間は、もともと、振幅が小さく、音声データとして殆ど意味をなさない区間であるので、もし、ID情報を読み出す機能を持たない音データ処理装置によって、図6に示す時間Lに対応する区間がデータ処理されると、音声データの代わりに置き換えられたID情報をデータ処理することになるが、その区間に埋め込まれたID情報はもともと微小な振幅値であるので、それをデータ処理したとしても、そのデータ処理結果に何等影響を与えることはない。
【0116】
一方、ID情報を読み出す機能を有した音データ処理装置20がID情報付き音声データからID情報を読み出す場合は、音データ処理装置20に設けられた付加情報読み出し処理部21が予め決められた処理手順にしたがって読み出し処理を行う。この場合、その音データ処理装置20側では、閾値A、閾値B、時間M、時間Lなど予め決められたパラメータについての知識を持っている。
【0117】
したがって、まず、音データ生成機器10側から渡されたID情報付き音声データに対して、振幅値が閾値A未満となって、その状態が時間Mだけ保持され、かつ、その時点で、振幅値が閾値B未満であると判定されると、時間Mの経過後、そのあとに続く区間に、ID情報が存在する可能性があるということを判断する。
【0118】
そして、その時間Mの経過後、閾値B未満の状態が時間Lだけ続くことが判定されると、この時間Lに対応する区間の音声データをID情報(この時点では仮のID情報とする)として取り出し、その仮のID情報が正当なID情報であるか否かを判断する。この正当性のチェックは、前述の第1の実施の形態同様、ID情報に付加されているチェック用データによって行うことができる。
【0119】
この正当性のチェックの結果、ID情報であることの正当性が判断できた場合は、時間Lに対応する区間のデータをID情報として取り出して、それを以降のデータ処理に用いる。また、その部分の音声データはゼロに置き換える。
【0120】
一方、正当性のチェックの結果、ID情報でないと判断された場合は、音声データであると判断し、音生データとしてデータ処理する。このように、ID情報が埋め込まれている可能性のある区間において、ID情報が検出できなかった場合は、次に出現する閾値A以下の振幅値が時間Mだけ保持され、かつ、そのあとに閾値B以下が時間Lだけ続く区間を検出して、その区間で同様の読み出し処理を行う。
【0121】
図7および図8はこの第2の実施の形態の処理手順を説明するフローチャートであり、図7はID情報を音声データに埋め込む際の処理手順、図8はID情報の埋め込まれた音声データ(ID情報付き音声データ)からID情報を読み出す際の処理手順を示すもので、これらの具体的な処理内容については既に説明したので、ここでは全体的な処理手順について簡単に説明する。まず、 ID情報を音声データに埋め込む際の処理手順について図7を参照しながら説明する。
【0122】
図7において、まず、Ta=0,Tb=0とする(ステップS1)。ここで、Taは現在の振幅値が閾値A以下を保持し続けた時間であり、TbはTaが予め設定された時間Mだけ継続したあと、現在の振幅値が閾値B以下を保持し続けた時間である。
【0123】
そして、処理対象となる音声データが終わりか否かを調べ(ステップS2)、処理対象となる音声データが終わりであれば、処理を終了するが、処理対象となる音声データが存在すれば、現在の振幅値が閾値A未満(現在の振幅値<閾値A)を判断する(ステップS3)。
【0124】
この判断において、現在の振幅値が閾値A未満であれば、時間をカウントしそれをTaとする(ステップS4)。そして、Taが予め設定された時間M以上(Ta≧M)であるかを判断し(ステップS5)、 Ta≧Mとなれば、現在の振幅値が閾値B未満(現在の振幅値<閾値B)であるかを判断する(ステップS6)。
【0125】
ここで、現在の振幅値<閾値Bであれば、時間をカウントしそれをTbとする(ステップS7)。そして、Tbが予め設定された時間LつまりID情報を埋め込むに必要な時間L以上( Tb≧L)であるか否かを判定する(ステップS8)。この判定の結果、Tb≧Lであれば、ここまでの音声データ(時間Lに対応する区間の音声データ)を埋め込むべきID情報に置き換えて(ステップS9)、Ta,Tbをリセット、つまり、Ta,Tb=0として(ステップS10)、ステップS2に戻る。
【0126】
なお、上述したステップS1からS10の処理において、ステップS3の処理、つまり、現在の振幅値<閾値Aの判断を行った結果、現在の振幅値が閾値A以上であると判定された場合は、それまでにカウントされたTa,Tbがあればそれをリセット、つまり、Ta,Tb=0として(ステップS11)、ステップS2に戻り、ステップS2以降の処理を繰り返す。
【0127】
また、ステップS5の処理、つまり、Ta≧Mの判断を行った結果、TaがM未満であると判定された場合は、ステップS2に処理が戻り、ステップS2以降の処理を繰り返す。
【0128】
また、ステップS6における現在の振幅値<閾値Bの判断を行った結果、現在の振幅値が閾値Bよりも大きいと判定された場合、つまり、Taが時間M以上となった状態で、現在の振幅値が閾値Bよりも大きいと判定された場合は、現在のそれまでにカウントされたTbをリセット、つまり、Tb=0として(ステップS12)、ステップS2に戻り、ステップS2以降の処理を繰り返す。
【0129】
また、ステップS8におけるTb≧Lを判断した結果、 TbがL未満であると判定された場合は、ステップS2に処理が戻り、ステップS2以降の処理を繰り返す。
【0130】
次に、ID情報の埋め込まれた音声データ(ID情報付き音声データ)からID情報を読み出す際の処理手順について図8を参照しながら説明する。このID情報の読み出し側の処理手順の殆どは図7の処理手順と同じである。すなわち、図8に示す処理手順のうち、ステップS21からステップS28の処理手順(これら各ステップのなかで、ステップS23,S25,S26,S28におけるそれぞれの判断結果が“No”である場合の処理も含む)は、図7におけるステップS1からS8の処理に対応している。
【0131】
この図8に示す処理手順が図7と異なるのは、ステップS28(図7ではステップS8)において、 Tb≧Lである場合以降の処理である。
【0132】
すなわち、ID情報を読み出す側においては、Tb≧L である場合には、ここまでの音声データ(Lの区間の音声データ)を仮のID情報として取り出し(ステップS29)、その仮のID情報が正当なID情報であるか否かを判断する処理を行う(ステップS30)。
【0133】
そして、その判断の結果、正当なID情報ではないと判断された場合には、それはID情報ではなく、音声データであると判断して(ステップS31)、Ta,Tbをリセット、つまり、Ta,Tb=0(ステップS32)としたのち、ステップS22に戻る。また、正当なID情報であると判断された場合には、時間Lに対応する区間の音声データをゼロに置き換えて(ステップS33)、 Ta,Tbをリセット、つまり、Ta,Tb=0(ステップS32)したのちに、ステップS22に戻る。
【0134】
なお、上述したステップS21からS33の処理において、ステップS23の処理、つまり、現在の振幅値<閾値Aの判断を行った結果、現在の振幅値が閾値A以上であると判定された場合は、それまでにカウントされたTa,Tbがあればそれをリセット、つまり、Ta,Tb=0として(ステップS34)、ステップS22に戻り、ステップS22以降の処理を繰り返す。
【0135】
また、ステップS25の処理、つまり、Ta≧Mの判断を行った結果、TaがM未満であると判定された場合は、ステップS22に処理が戻り、ステップS22以降の処理を繰り返す。
【0136】
また、ステップS26における現在の振幅値<閾値Bの判断を行った結果、現在の振幅値が閾値Bよりも大きいと判定された場合、つまり、Taが時間M以上となった状態で、現在の振幅値が閾値Bよりも大きいと判定された場合は、現在のそれまでにカウントされたTbをリセット、つまり、Tb=0として(ステップS35)、ステップS22に戻り、ステップS22以降の処理を繰り返す。
【0137】
また、ステップS28におけるTb≧Lを判断した結果、 TbがL未満であると判定された場合は、ステップS22に処理が戻り、ステップS22以降の処理を繰り返す。
【0138】
以上説明したように第2の実施の形態では、音声データの振幅値に対して、音声データの振幅値が低下傾向にあることを検出するための閾値Aと、この閾値Aよりも小さい閾値B(この閾値Bは、音声データとして殆ど意味をなさない振幅値)を設定し、音声データの振幅値が閾値A未満となった状態が時間Mだけ保持され、その後、閾値B未満となった場合、時間M以降において、閾値B未満の状態がID情報の時間的長さ(時間L)以上であることが検出された場合には、その区間をID情報埋め込み対象区間として、そのID情報埋め込み対象区間における音声データをID情報で置き換えることによってID情報の埋め込みを行うようにしている。
【0139】
これによって、音声データにおいて振幅値が小さく音声として殆ど意味をなさない区間で、かつ、ID情報を埋め込むに最適な時間的長さを有する部分のみにID情報が埋め込まれるので、振幅が大きく、音声として有効な部分の音声データには何等影響を与えることがなくなり、それ以降の音声データ処理を高精度に行うことができる。
【0140】
また、ID情報を読み出す機能を有した音データ処理装置では、振幅値の大きさの変化を監視することによって、ID情報を読み出す区間を予測することができるので、ID情報の読み出し処理を効率よく行うことができ、ID情報を適切に読み出すことができる。
【0141】
なお、この第2の実施の形態においては、閾値Aとそれより小さい閾値Bの2つの閾値を設定しているが、閾値Aは特に設定せずに閾値Bだけを設定し、音声データの振幅値が閾値B未満を一定時間保持したら時間Lを監視して、時間Lが予め設定した時間以上であると判断できたら、その区間の音声データをID情報で書き換えるようにしてもよい。
【0142】
〔第3の実施の形態〕
以上説明した第1および第2の実施の形態では、元の音声データに対してID情報を時間軸方向に離散的に埋め込むようにしたが、この第3の実施の形態は、各サンプリング点対応の音声データの所定のビットに、クロック信号によって時系列で連続して繰り返し埋め込むようにしたものである。
【0143】
この第3の実施の形態においても、ID情報の埋め込み処理は、 付加情報記憶部13に記憶されているID情報を付加情報埋め込み処理部14が読み出し、読み出したID情報を、A/D変換部12によってディジタル化された音声データに埋め込むことで行われる。また、付加情報記憶部13に保持されているID情報は、図1の構成のように、音データ生成機器10がもともと持っているID情報であってもよく、図2の構成のように、エリアなどで与えられるID情報を受信したものであってもよい。以下、図9を参照しながら説明する。
【0144】
図9は音声入力部11でから入力された音声信号をA/D変換部12でディジタル変換して得られた音声データの最下位ビットLSBにID情報を時系列で連続的に繰り返し埋め込んだ様子を示すものであり、この音声データもこれまでの説明と同様、各サンプリング点対応のそれぞれの振幅値がたとえば、16ビットで表されるものとしている。
【0145】
ここで、A/D変換されて得られる音声データが16ビットで表されるとすれば、最下位ビットLSBを含む下位3ビット程度を他のデータに書き換えても、振幅値の大きさに殆ど影響を与えることがなく、音声データとして聴感上気になることはない。特に最下位ビットは16ビットで表される振幅値としては殆ど意味をなさないので、この実施の形態では、最下位ビットLSBをID情報の埋め込みビットとして用い、この最下位ビットLSBの音声データをID情報で置き換える。
【0146】
この第3の実施の形態では、ID情報は各サンプリング点対応の音声データに対して、時系列で連続的に繰り返し埋め込まれるので、音データ処理装置20側でID情報を読み出す際、ID情報がどこから始まるのかを示す情報、つまり、ID情報の先頭を示す情報を付加することが必要となる。そこで、まず、ID情報がその後に続くことを示す情報(これをIDヘッダという)を埋め込んで、このIDヘッダに続けてID情報を埋め込み、さらにそのあとにID情報の正当性をチェックするためのチェック用データを埋め込む。なお、これら、IDヘッダ、ID情報、チェック用データの埋め込みは、最下位ビットLSBの音声データをそれらのデータで置き換えることによって行う。
【0147】
この第3の実施の形態では、 IDヘッダとして4ビットを用いそのデータ内容を“1111”としている。また、ID情報は6ビットを用い、そのデータ内容を“011011”としている。また、チェック用データは2ビットを用いそのデータ内容を“00”としている。
【0148】
このように、付加情報埋め込み処理部14は、それぞれのサンプリング点ごとの音声データの最下位ビットLSBに、IDヘッダ、ID情報、 チェック用データを1ビットずつ時系列で連続的に繰り返し埋め込む処理を行い、このようなIDヘッダ、ID情報、 チェック用データの埋め込まれた音声データ(このような音声データをここでもID情報付き音声データという)は、音データ生成機器10から出力される。
【0149】
そして、この音データ生成機器10から出力されたID情報付き音声データを、音データ処理装置20側で受け取って、音データ処理装置20に設けられた付加情報読み出し処理部21が、そのID情報付き音声データからID情報の読み出しを行う。このID情報の読み出し処理について以下に説明する。
【0150】
この場合、音データ処理装置20では、音データ生成機器10側から渡されたID情報付き音声データのどの部分から読み出すかは未定であるとする。なお、音データ処理装置20側では、ID情報付き音声データの最下位ビットに、“1111”の4ビットのIDヘッダがあって、そのあとにID情報が6ビット存在し、そのあとにチェック用データが2ビット存在するということは予め知識として持っている。
【0151】
したがって、音データ処理装置20の付加情報読み出し部21では、音データ生成機器10側から渡されたID情報付き音声データの最下位ビットLSBを時系列に1ビットずつ読み込んで行き、ある時点以降、“1”が4個連続して読み出されたとすれば、それをIDヘッダであると判断し、それによって、そのIDヘッダに続いて、ID情報の先頭が出現すると判断する。
【0152】
この場合、“1111”の4ビットのIDヘッダ を検出できれば、それに続く“011011”のID情報を読み出すことができ(この時点では正当性のチェックがなされていないので、それを仮のID情報と呼ぶ)、さらに続いて、チェック用データ“00”を読み出すことができる。そして、このチェック用データ“00”によって、仮のID情報が正当なID情報であるか否かのチェックを行う。
【0153】
ここで、チェック用データによって仮のID情報が正当なID情報であると判定されたら、それをID情報として取り出して、取り出したID情報をそれ以降の何らかの処理に用いる。このとき、音声データは、個々のサンプリング点対応の音声データにおいて、その最下位ビットをゼロに置き換えて信号処理するようにしてもよく、また、その最下位ビットはもともと音声データとしての信頼性は低いデータであるので、音声データとしてのデータ処理を行う際に無視するようにしてもよい。
【0154】
一方、チェック用データによる正当性のチェックを行った結果、ID情報としての正当性が否定されたら、その仮のID情報を捨てて、次に出現するID情報を検出する処理を行う。
【0155】
この第3の実施の形態では、音声データとして殆ど意味を持たない最下位ビットLSBをID情報の埋め込み用ビットとして用い、その最下位の1ビットに時系列でID情報を連続して繰り返し書き込んで行けばよいので、ID情報の埋め込み処理を単純なものとすることができる。また、最下位ビットのみを用いているので、音声データそのものに及ぼす影響を最小限に抑えることができる。
【0156】
以上、本発明の付加情報埋め込み方法および付加情報読み出し方法についての実施の形態として3つの実施の形態を説明したが、このような本発明の付加情報埋め込み方法および付加情報読み出し方法は次に示すような技術に適用することができる。
【0157】
まず、以上の各実施の形態では音データ生成機器10に与えられたID情報を、その音声データ生成機器10から出力する音声データ(A/D変換部12によってディジタル変換された音声データ)に埋め込んで、ID情報付き音声データとして出力し、そのID情報付き音声データを音データ処理装置20が受け取って音声データ処理を行っている。
【0158】
このように、音声データの中に音データ生成機器10に与えられたID情報を埋め込むことによって、音データ処理装置20側でデータ処理する際、埋め込まれているID情報を読み出すことによって、音データ生成機器10を特定することができ、それによって、その音データ生成機器10の特性などに適合した雑音処理方法を自動的に選択することが可能となったり、音声区間を検出するための音声信号レベルの自動設定を行うといったことが可能となる。
【0159】
また、各話者がそれぞれの話者ごとに音データ生成機器10の機能を有するヘッドセットなどを持ち、そのヘッドセットを用いてその話者が発話することによって、それぞれのヘッドセットごとのID情報が音声データに埋め込まれるので、そのID情報を音データ処理装置20側で読み出すことで、どの話者の発話した音声データであるということを特定することができる。
【0160】
これによって、たとえば、話者の発話する音声を入力してディジタル化し、かつ、そのディジタル化された音声データに、当該音声データ生成機器10に与えられたID情報を埋め込む機能を有した音データ生成機器10と、この音データ生成機器10から出力される音声データを受け取って、音声認識してその認識結果に応じた動作を行う音声認識機能を有した音データ処理装置20とによって音声認識システムを構築すれば、認識時に話者識別が容易に行え、認識性能を大幅に向上させることができる。
【0161】
一例として、音声を認識して作動する機器(音声認識機器という)を家族全員が共同で用いるような場合、家族全員がそれぞれ自分専用のヘッドセット(音データ生成機器10としての機能を有している)を装着して発話することにより、それぞれのヘッドセットに与えられたID情報を音声認識機器側で読み出すことができ、それによって、音声認識機器側では、誰の発話であるかを容易に判別できるので、家族それぞれが発話する音声コマンドを高い認識率で認識することができるようになる。
【0162】
また、それぞれのユーザ一人一人に割り当てられた音声認識機器があって、それをそれぞれのユーザが同じ空間内で使用する場合、あるユーザに割り当てられた音声認識機器はそのユーザのみの音声コマンドで作動させる必要があるが、そのような場合においても、それぞれの話者が、音データ生成機器10の機能を有したヘッドセットを装着して発話することで、誰の発話であるかを容易に特定することができるので、ユーザそれぞれに割り当てられた音声認識機器のみを動作させることができる。
【0163】
また、このような音データ生成機器10に与えられたID情報による話者識別が可能となることによって、たとえば、音声コマンドにより電子メールの閲覧などが可能であるとすれば、音声コマンドをそれぞれの個人が所有するヘッドセット(音データ生成機器10の機能を有している)などを用いて発話すれば、話者の特定が可能となり、セキュリティの向上にもつながるというように、様々な分野に適用することができる。
【0164】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の各実施の形態では、音データ生成機器10内にID情報を埋め込む機能(付加情報埋め込み処理部14)を持たせて、この音データ生成機器10内部で付加情報の埋め込み処理を行って、音データ生成機器10からID情報が埋め込まれた音データ(ID情報付き音声データ)を出力する例で説明したが、これに限られるものではなく、付加情報埋め込み処理部14は、音データ生成機器10とは別個に設けることもできる。
【0165】
図10はその構成図を示すものであり、音データ生成機器10、付加情報埋め込み処理部14、データ処理部30からなる。この図10に示す音データ生成機器10は、図1および図2で示した音データ生成機器10からID情報埋め込み処理部14を取り除いた構成要素からなり、音データ生成機器10がID情報を始めから持っているもの(図1の構成)であってもよく、また、あるエリアなどでそのエリアで通用するID情報として外部から与えられるもの(図2の構成)のいずれであってもよい。
【0166】
すなわち、音データ生成機器10がID情報を始めから持っているものであれば、音声入力部11、A/D変換部12、付加情報記憶部13を有した構成である。また、あるエリアなどでそのエリアで通用するID情報として外部から与えられるものであれば、音声入力部11、A/D変換部12、付加情報記憶部13、付加情報受信部15を有した構成である。
【0167】
そして、付加情報埋め込み処理部14は、音データ生成機器10とは別個に設けられ、音データ生成機器10から出力されるディジタル化された音声データをデータ処理部30が何らかの処理を行う際に、音データ生成機器10から出力されるID情報を用いてそのID情報を音声データに埋め込む処理を行う。なお、このID情報の音声データへの埋め込みを行う処理は、前述の第1から第3の実施の形態で説明したアルゴリズムで可能となる。
【0168】
このように、音声データ生成機器10とは別個に設けられた付加情報埋め込み処理部14でID情報の埋め込みを行う際、付加情報埋め込み処理部14が音データ生成機器10から出力されるディジタル化された音声データやID情報をリアルタイムで受け取って埋め込み処理することも可能であるが、これらディジタル化された音声データやID情報を、コンピュータなどの記憶手段に保存しておき、それをデータ処理部30が必要な時に読み出してデータ処理するといったシステムにも適用することができる。この場合、そのデータ処理部30が、コンピュータなどに保存された音声データを読み出してデータ処理する際に、付加情報埋め込み処理部14が付加情報を読み出して音声データに埋め込み処理する。
【0169】
また、前述の各実施の形態では、音声データに埋め込む付加情報としては、その音声データを生成する音データ生成機器に与えられたID情報であるとしたが、埋め込むことができる付加情報はID情報だけでなく、たとえば、その音声データを生成した日付データなど他の付加的な情報であってもよい。
【0170】
また、埋め込み対象となるデータは音声に限られるものではなく音楽などであってもよい。
【0171】
また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0172】
【発明の効果】
以上説明したように本発明によれば、付加情報を微小な振幅値のデータとして音データに埋め込むだけの処理であるので、少ない演算量と単純な処理で付加情報の埋め込みが可能となり、また、それを読み出す側も少ない演算量と単純な処理で読み出しが可能となる。このように、本発明は音データに対し、聴感上気にならない微小な振幅値のデータとして付加情報を埋め込むようにしているので、埋め込まれた付加情報を読み出す機能を持たない音データ処理装置で、付加情報付き音声データを処理した場合、その付加情報が音データ処理に何等影響を与えることがなく、また、埋め込まれた付加情報を読み出す機能を有する音データ処理装置で、その付加情報付き音データを処理した場合、その埋め込まれた付加情報を読み出して、読み出された付加情報を有効利用できる。
【0173】
また、埋め込むべき付加情報は、音データ生成機器に与えられた当該機器固有のID情報とすることができる。このように、付加情報を音データ生成機器のID情報とすることによって、そのID情報付き音データを音データ処理装置側でデータ処理し、埋め込まれているID情報を読み出すことによって、音データ生成機器を特定することができ、それによって、その音データ生成機器の特性などに適合した雑音処理方法の自動選択が可能となったり、音声区間を検出するための音声信号レベルを自動設定するといったことが可能となる。
【0174】
また、たとえば、話者の発話する音声を入力してディジタル化し、かつ、そのディジタル化された音声データに、当該音声データ生成機器に与えられたID情報を埋め込む機能を有した音データ生成機器と、この音データ生成機器から出力される音声データを受け取って、音声認識してその認識結果に応じた動作を行う音声認識機能を有した音声データ処理装置とによって音声認識システムを構築すれば、音声データ生成機器からID情報付きの音声データを音声認識装置側が受け取って、ID情報を読み出すことによって音データ生成機器を特定することができる。したがって、音声データ生成機器を個々のユーザが専用に用いる場合には、ID情報によってユーザの特定を行うこともできるので、話者識別が可能となるなど、音声認識を行う際に、そのID情報を様々に有効利用できる。
【図面の簡単な説明】
【図1】本発明の付加情報埋め込み方法による付加情報埋め込み機能を有した音データ生成機器の概略的な構成図であり、付加情報としてのID情報を音データ生成機器が持っている場合の概略的な構成図である。
【図2】本発明の付加情報埋め込み方法による付加情報埋め込み機能を有した音データ生成機器の概略的な構成図であり、付加情報としてのID情報を受信する機能を有した場合の概略的な構成図である。
【図3】本発明の付加情報読み出し方法による付加情報読み出し機能を有した音データ処理装置の概略的な構成図である。
【図4】本発明の第1の実施の形態を説明する図であり、ディジタル化された音データを、各サンプリング点対応の振幅値(たとえば、16ビットで与えられる振幅値)のデータとして時間軸に沿って表した図である。
【図5】図4で示した各サンプリング点対応の振幅値のデータに一定周期でID情報を埋め込んだ音データの振幅の変化を示す図である。
【図6】本発明の第2の実施の形態を説明する図であり、ディジタル化された音データの振幅の変化とその振幅に閾値(閾値A、閾値B)を設定し、振幅がある値以下の区間にID情報を埋め込んだ例を示す図である。
【図7】本発明の第2の実施の形態における付加情報埋め込み方法の処理手順を説明するフローチャートである。
【図8】本発明の第2の実施の形態における付加情報読み出し方法の処理手順を説明するフローチャートである。
【図9】本発明の第3の実施の形態を説明する図であり、各サンプリング点対応の振幅値(たとえば、16ビットで与えられる振幅値)の音データの最下位ビットに時系列でIDヘッダとID情報とチェック用データを書き込んだ例を示す図である。
【図10】音データ生成機器に与えられたID情報を音データに埋め込む処理を音データ生成機器の外部で行う例を説明する構成図である。
【符号の説明】
10 音データ生成機器
11 音入力部
12 A/D変換部
13 付加情報記憶部
14 付加情報埋め込み処理部
15 付加情報受信部
20 音データ処理装置
21 付加情報読み出し処理部
22 データ処理部
A 第1の閾値
B 第2の閾値

Claims (6)

  1. ディジタル化された各サンプリング点対応の振幅の大きさを表す音データに対し、付加情報を埋め込む付加情報埋め込み方法であって、前記各サンプリング点対応の音データの振幅に対してその振幅値が予め定めた振幅値以下であることを検出できる閾値を設定し、振幅値がその閾値以下となって、かつ、その状態が埋め込むべき付加情報の埋め込み長さ以上であると判定された場合は、その埋め込み長さ以上となった区間の少なくとも1つのサンプリング点対応の音データに前記付加情報を埋め込むことを特徴とする付加情報埋め込み方法。
  2. 前記閾値は、前記音データの振幅値が低下傾向にあることを検出するための第1の閾値と、この第1の閾値より小さい第2の閾値でなり、前記音データの振幅値が前記第1の閾値未満となってその状態を一定時間保持したのちに、第2の閾値未満となって、その第2の閾値未満となった区間の長さが少なくとも前記埋め込むべき付加情報の長さ以上となったと判定された場合に、前記第2の閾値未満となった区間の少なくとも1つのサンプリング点対応の音データに前記付加情報を埋め込むことを特徴とする請求項記載の付加情報埋め込み方法。
  3. 前記第2の閾値は、音データとして聴感上影響を及ぼさない振幅値を表す下位nビット(nは正の整数)で表される振幅値とすることを特徴とする請求項6記載の付加情報埋め込み方法。
  4. 前記第2の閾値未満となった区間に前記付加情報を埋め込む際、その区間の音データを前記埋め込むべき付加情報で置き換えることを特徴とする請求または記載の付加情報埋め込み方法。
  5. 前記付加情報には、付加情報の正当性をチェック可能なチェック用データが付加されることを特徴とする請求項からのいずれかに記載の付加情報埋め込み方法。
  6. 前記付加情報は、音を入力してそれをディジタル化した音データとして出力する音データ生成機器に与えられた当該機器固有のID情報であることを特徴とする請求項からのいずれかに記載の付加情報埋め込み方法。
JP2002093159A 2002-03-28 2002-03-28 付加情報埋め込み方法 Expired - Fee Related JP4207445B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002093159A JP4207445B2 (ja) 2002-03-28 2002-03-28 付加情報埋め込み方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002093159A JP4207445B2 (ja) 2002-03-28 2002-03-28 付加情報埋め込み方法

Publications (3)

Publication Number Publication Date
JP2003295894A JP2003295894A (ja) 2003-10-15
JP2003295894A5 JP2003295894A5 (ja) 2005-09-15
JP4207445B2 true JP4207445B2 (ja) 2009-01-14

Family

ID=29237761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002093159A Expired - Fee Related JP4207445B2 (ja) 2002-03-28 2002-03-28 付加情報埋め込み方法

Country Status (1)

Country Link
JP (1) JP4207445B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11540302B2 (en) * 2006-10-22 2022-12-27 Viasat, Inc. Cyclical obstruction communication system

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4689873B2 (ja) * 2001-05-23 2011-05-25 Necエンジニアリング株式会社 信号埋め込み方法および装置
EP2133871A1 (en) * 2007-03-20 2009-12-16 Fujitsu Limited Data embedding device, data extracting device, and audio communication system
JP5434003B2 (ja) * 2008-07-29 2014-03-05 ヤマハ株式会社 音響機器、オーディオ信号処理装置、および音響システム
WO2010013752A1 (ja) 2008-07-29 2010-02-04 ヤマハ株式会社 演奏関連情報出力装置、演奏関連情報出力装置を備えるシステム、及び電子楽器
JP5401894B2 (ja) * 2008-09-29 2014-01-29 ヤマハ株式会社 信号処理装置および信号処理システム
EP2770751B1 (en) 2008-07-30 2017-09-06 Yamaha Corporation Audio signal processing device, audio signal processing system, and audio signal processing method
JP5463642B2 (ja) * 2008-09-30 2014-04-09 ヤマハ株式会社 音声信号処理装置
JP5401896B2 (ja) * 2008-09-30 2014-01-29 ヤマハ株式会社 オーディオ信号処理装置
JP5463634B2 (ja) * 2008-07-30 2014-04-09 ヤマハ株式会社 オーディオ信号処理装置、オーディオ信号処理システムおよびオーディオ信号処理方法
JP2011004260A (ja) * 2009-06-19 2011-01-06 Murayama Denki Seisakusho:Kk A/d変換ユニット、計測用機器
JP5782677B2 (ja) 2010-03-31 2015-09-24 ヤマハ株式会社 コンテンツ再生装置および音声処理システム
EP2573761B1 (en) 2011-09-25 2018-02-14 Yamaha Corporation Displaying content in relation to music reproduction by means of information processing apparatus independent of music reproduction apparatus
JP5494677B2 (ja) 2012-01-06 2014-05-21 ヤマハ株式会社 演奏装置及び演奏プログラム
JP2014082770A (ja) * 2013-11-29 2014-05-08 Yamaha Corp 表示装置およびオーディオ信号処理装置
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11540302B2 (en) * 2006-10-22 2022-12-27 Viasat, Inc. Cyclical obstruction communication system

Also Published As

Publication number Publication date
JP2003295894A (ja) 2003-10-15

Similar Documents

Publication Publication Date Title
JP4207445B2 (ja) 付加情報埋め込み方法
US7302574B2 (en) Content identifiers triggering corresponding responses through collaborative processing
US6233556B1 (en) Voice processing and verification system
Monrose et al. Cryptographic key generation from voice
JP4640461B2 (ja) 音量調整装置およびプログラム
US7672844B2 (en) Voice processing apparatus
JP2013527490A (ja) モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法
TW201246183A (en) Extraction and matching of characteristic fingerprints from audio signals
JP2007121626A (ja) ネットワーク接続装置およびネットワーク接続システム
US20090132250A1 (en) Robot apparatus with vocal interactive function and method therefor
WO2016184096A1 (zh) 一种音频解锁方法及装置
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP2010021627A (ja) 音量調整装置、音量調整方法および音量調整プログラム
CA2869884C (en) A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal
US11676610B2 (en) Acoustic signatures for voice-enabled computer systems
JP4770194B2 (ja) 音響信号に対する情報の埋め込み装置および方法
CN111107284A (zh) 一种视频字幕实时生成系统及生成方法
US11551707B2 (en) Speech processing method, information device, and computer program product
JP4548953B2 (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
US6704671B1 (en) System and method of identifying the onset of a sonic event
US20220272131A1 (en) Method, electronic device and system for generating record of telemedicine service
JP2016180918A (ja) 音声認識システム、音声認識方法、プログラム
CN112767953B (zh) 语音编码方法、装置、计算机设备和存储介质
JPH11175096A (ja) 音声信号処理装置
JP4713180B2 (ja) 音響信号からの情報の抽出装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050324

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081013

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees