JP2008309959A - Audio signal recording device and electronic file - Google Patents
Audio signal recording device and electronic file Download PDFInfo
- Publication number
- JP2008309959A JP2008309959A JP2007156628A JP2007156628A JP2008309959A JP 2008309959 A JP2008309959 A JP 2008309959A JP 2007156628 A JP2007156628 A JP 2007156628A JP 2007156628 A JP2007156628 A JP 2007156628A JP 2008309959 A JP2008309959 A JP 2008309959A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- information
- recording
- section
- encrypted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、オーディオ信号を記録するオーディオ信号記録装置、オーディオ信号の記録及び再生を行うオーディオ信号記録再生装置、並びに、デジタルビデオカメラ等の撮像装置に関する。また本発明は、オーディオ信号を格納した電子ファイルに関する。また本発明は、上記の各装置又は電子ファイルと関連する、情報提供装置、端末装置、オーディオ信号再生装置及び電子ファイルの記録方式に関する。 The present invention relates to an audio signal recording apparatus for recording audio signals, an audio signal recording / reproducing apparatus for recording and reproducing audio signals, and an imaging apparatus such as a digital video camera. The present invention also relates to an electronic file storing an audio signal. The present invention also relates to an information providing device, a terminal device, an audio signal reproducing device, and an electronic file recording method related to each of the above devices or electronic files.
近年、デジタルビデオカメラやボイスレコーダで記録したオーディオ信号のデータを、インターネットを介して、ソーシャルネットワーキングサービス(以下、「SNS」と略記する)や所謂ブログ等のウェブサイト上で公開することが多くなっている。これまでは、家族や知人の間だけで閲覧(視聴)していた記録データも、インターネットを介して公開することで不特定多数の人間が閲覧することが可能となる。このような背景の中、公開データに関するプライバシーを保護する技術の必要性も指摘されている。オーディオ信号に関してプライバシーの保護に重要なのは発話者の音声を含む部分であり、その部分のデータが適切に扱われれば、発話者のプライバシーが保護される。 In recent years, audio signal data recorded by a digital video camera or voice recorder is often published on a website such as a social networking service (hereinafter abbreviated as “SNS”) or a so-called blog via the Internet. ing. Until now, recorded data that has been viewed (viewed) only among family members and acquaintances can be viewed by an unspecified number of people by publishing it via the Internet. Against this background, the need for technology that protects the privacy of public data has been pointed out. What is important for protecting the privacy of the audio signal is a portion including the voice of the speaker, and if the data in the portion is appropriately handled, the privacy of the speaker is protected.
尚、オーディオ信号に関する従来技術として下記特許文献1及び2に記載された技術がある。
Note that there are techniques described in
特許文献1の技術は、著作権保護対象となる音楽情報を保護するための技術であり、人が会話しているシーンなどに対して提供可能な技術ではない。
The technique of
特許文献2の技術では、提供するデータを複数のブロックに分割して各ブロックにセキュリティレベルを設定する。そして、再生時に、設定されたセキュリティレベルに応じて各ブロックのデータの提供を許可するか否かを判断する。この技術では、データ提供時にブロックを分割して各ブロックにセキュリティレベルを設定するという作業が必要となり、手間がかかる。
In the technique of
そこで本発明は、オーディオ信号に関するプライバシー保護に寄与する、オーディオ信号記録装置、オーディオ信号記録再生装置、撮像装置、電子ファイル、情報提供装置、端末装置、オーディオ信号再生装置及び電子ファイルの記録方式を提供することを目的とする。 Therefore, the present invention provides an audio signal recording device, an audio signal recording / reproducing device, an imaging device, an electronic file, an information providing device, a terminal device, an audio signal reproducing device, and an electronic file recording method that contribute to privacy protection related to audio signals. The purpose is to do.
上記目的を達成するために本発明に係るオーディオ信号記録装置は、入力された元オーディオ信号の全区間から人の音声の信号成分が含まれている音声区間を検出する音声区間検出手段と、前記元オーディオ信号の内の、前記音声区間における信号に対して暗号化処理を施すことにより、前記元オーディオ信号から暗号化オーディオ信号を生成する暗号化手段と、前記暗号化オーディオ信号と、前記暗号化オーディオ信号を復号するための復号用情報と、を互いに関連付けて格納した電子ファイルを記録手段に記録する記録制御手段と、を備えたことを特徴とする。 In order to achieve the above object, an audio signal recording apparatus according to the present invention includes a speech section detecting means for detecting a speech section including a signal component of human speech from all sections of an input original audio signal, An encryption means for generating an encrypted audio signal from the original audio signal by performing an encryption process on the signal in the voice section of the original audio signal, the encrypted audio signal, and the encryption And a recording control unit that records in the recording unit an electronic file in which the decoding information for decoding the audio signal is stored in association with each other.
オーディオ信号記録装置上で電子ファイルを保存する時点で暗号化処理が実施され、電子ファイル内の音声区間におけるオーディオ信号は暗号化されるため、仮に、電子ファイルが不正に流出した場合でも、音声に関するプライバシーが保護される。また、プライバシー保護にとって重要な音声区間が自動的に検出され、音声区間に対して暗号化処理が自動的に施されるため、プライバシー保護を図るためのユーザ負担が極めて少ない。 When the electronic file is stored on the audio signal recording device, the encryption process is performed, and the audio signal in the audio section in the electronic file is encrypted. Therefore, even if the electronic file leaks illegally, Privacy is protected. In addition, since a voice section important for privacy protection is automatically detected and encryption processing is automatically performed on the voice section, the burden on the user for protecting privacy is extremely small.
そして例えば、前記記録制御手段は、前記復号用情報に従って前記暗号化オーディオ信号を復号して該復号によって得られた前記元オーディオ信号を再生出力することに対する許可/禁止を切替制御するための権限管理情報を、更に、前記暗号化オーディオ信号及び前記復号用情報に関連付けて前記電子ファイルに格納する。 And, for example, the recording control means controls authority to switch permission / prohibition for decrypting the encrypted audio signal according to the decryption information and reproducing and outputting the original audio signal obtained by the decryption. Information is further stored in the electronic file in association with the encrypted audio signal and the decryption information.
権限管理情報を適切に設定することにより、ユーザの意図に沿った、元オーディオ信号の再生制御が可能となる。 By appropriately setting the authority management information, it is possible to control the reproduction of the original audio signal in accordance with the user's intention.
具体的には例えば、前記復号用情報は、前記全区間中の何れの区間が前記音声区間であるかを表す音声区間情報を含む。 Specifically, for example, the decoding information includes speech section information indicating which section of the entire section is the speech section.
また具体的には例えば、前記暗号化手段は、前記元オーディオ信号の内の、前記音声区間以外の区間における信号を、前記暗号化処理の対象から除外する。 More specifically, for example, the encryption unit excludes a signal in a section other than the speech section in the original audio signal from the target of the encryption process.
また例えば、前記音声区間は、互いに異なる複数の要素区間から成り、当該オーディオ信号記録装置は、前記音声の発話者と予め登録された登録話者との一致又は不一致を要素区間ごとに判別する話者認識手段を更に備え、前記復号用情報は、前記全区間中の何れの区間が前記音声区間であるかを表すとともに各要素区間に対する前記話者認識手段の判別結果をも表す音声区間情報を含み、前記記録制御手段は、前記復号用情報に従って各要素区間の前記暗号化オーディオ信号を復号して該復号によって得られた各要素区間の前記元オーディオ信号を再生出力することに対する許可/禁止を切替制御するための権限管理情報を、更に、前記暗号化オーディオ信号及び前記復号用情報に関連付けて前記電子ファイルに格納し、前記権限管理情報は、前記登録話者の音声の信号成分を含む要素区間に対する第1の権限管理情報と、それ以外の要素区間に対する第2の権限管理情報と、を個別に含む。 In addition, for example, the voice section is composed of a plurality of different element sections, and the audio signal recording apparatus determines whether the voice speaker and the registered speaker registered in advance are identical or inconsistent for each element section. Further comprising speaker recognition means, wherein the decoding information includes speech section information indicating which section of the entire section is the speech section and also indicating a discrimination result of the speaker recognition means for each element section. The recording control means includes permission / prohibition for decoding the encrypted audio signal of each element section according to the decryption information and reproducing and outputting the original audio signal of each element section obtained by the decryption. Authority management information for switching control is further stored in the electronic file in association with the encrypted audio signal and the decryption information, and the authority management information Includes a first rights management information for the element section including a signal component of a voice of the registered speaker, and the second authorization control information for the other elements section, the individual.
また、本発明に係るオーディオ信号記録再生装置は、上記のオーディオ信号記録装置を備えている。そして、前記権限管理情報は、認証コードを含み、当該オーディオ信号記録再生装置と他のオーディオ信号記録再生装置との間で互いに異なる固有コードが当該オーディオ信号記録再生装置に予め与えられており、当該オーディオ信号記録再生装置は、オーディオ信号を再生出力する再生出力手段と、前記復号用情報に基づいて前記暗号化オーディオ信号を復号する復号処理手段と、前記認証コードと当該オーディオ信号記録再生装置に対する固有コードとを照合する照合手段と、前記照合手段による照合結果に基づいて、前記復号処理手段の復号によって得られた前記元オーディオ信号の前記再生出力手段での再生出力を許可するか否かを判別する判別手段と、を備え、前記判別手段の判別結果に応じて前記復号処理手段及び前記再生出力手段を制御することを特徴とする。 An audio signal recording / reproducing apparatus according to the present invention includes the above-described audio signal recording apparatus. The authority management information includes an authentication code, and unique codes different from each other between the audio signal recording / reproducing device and the other audio signal recording / reproducing device are given in advance to the audio signal recording / reproducing device, The audio signal recording / reproducing apparatus includes reproduction / output means for reproducing / outputting an audio signal, decryption processing means for decoding the encrypted audio signal based on the decryption information, and the authentication code and the audio signal recording / reproducing apparatus. It is determined whether or not reproduction output of the original audio signal obtained by decoding of the decoding processing unit is permitted in the reproduction output unit based on a verification result of the verification unit and a verification result of the verification unit Discriminating means, and the decoding processing means and the reproduction output according to the discrimination result of the discriminating means And controlling the stage.
これにより、電子ファイルを記録した記録媒体の紛失等があった場合でも、音声に関するプライバシーが保護される。 Thereby, even when the recording medium on which the electronic file is recorded is lost, the privacy regarding the voice is protected.
また、本発明に係る撮像装置は、被写体に応じた画像を取得する。そして、上記のオーディオ信号記録装置又はオーディオ信号記録再生装置を備えている。 In addition, the imaging apparatus according to the present invention acquires an image corresponding to a subject. The audio signal recording apparatus or the audio signal recording / reproducing apparatus is provided.
また、本発明に係る電子ファイルは、元オーディオ信号の内の、人の音声の信号成分が含まれている音声区間における信号に対して暗号化処理を施すことによって得られた暗号化オーディオ信号のデータと、前記暗号化オーディオ信号を復号するための復号用情報のデータと、を互いに関連付けて格納したことを特徴とする。 In addition, the electronic file according to the present invention is an encrypted audio signal obtained by performing encryption processing on a signal in a voice section including a signal component of human voice in the original audio signal. Data and decryption information data for decrypting the encrypted audio signal are stored in association with each other.
そして例えば、前記復号用情報に従って前記暗号化オーディオ信号を復号して該復号によって得られた前記元オーディオ信号を再生出力することに対する許可/禁止を切替制御するための権限管理情報のデータを、更に、前記暗号化オーディオ信号のデータ及び前記復号用情報のデータに関連付けて電子ファイルに格納するとよい。 And for example, authority management information data for switching permission / prohibition for decrypting the encrypted audio signal according to the decryption information and reproducing and outputting the original audio signal obtained by the decryption, and The data may be stored in an electronic file in association with the data of the encrypted audio signal and the data of the decryption information.
また、本発明に係る情報提供装置は、上記の電子ファイルを提供元装置から受け取り、前記提供元装置と所定の関係を有し且つオーディオ信号を再生出力する再生出力手段を備えた端末装置からの送信要求に従って通信網を介して前記電子ファイルに基づく情報を前記端末装置に送信する情報提供装置であって、前記電子ファイル内の復号用情報に基づいて前記電子ファイル内の前記暗号化オーディオ信号を復号する復号処理手段を備え、前記送信要求があった際、前記電子ファイル内の権限管理情報と前記関係に基づいて、前記復号処理手段の復号によって得られた元オーディオ信号の前記端末装置に対する送信を許可するか否かを判別し、その判別結果に応じて前記端末装置への送信内容を制御することを特徴とする。 Also, an information providing apparatus according to the present invention receives a digital file from the providing apparatus, receives the electronic file from the providing apparatus, and has a predetermined relationship with the providing apparatus and includes a reproduction output means for reproducing and outputting an audio signal. An information providing device that transmits information based on the electronic file to the terminal device via a communication network in accordance with a transmission request, wherein the encrypted audio signal in the electronic file is transmitted based on decryption information in the electronic file. Decoding processing means for decoding, and when there is a transmission request, based on the authority management information in the electronic file and the relationship, transmission of the original audio signal obtained by decoding of the decoding processing means to the terminal device It is characterized in that whether or not to permit is determined, and the transmission content to the terminal device is controlled according to the determination result.
これにより、SNS等において、オーディオ信号に関するプライバシーを保護する仕組みを導入することが可能である。 Thereby, it is possible to introduce a mechanism for protecting privacy related to audio signals in SNS and the like.
具体的には例えば、当該情報提供装置は、当該情報提供装置は、前記関係を事前に認識しており、前記権限管理情報と前記関係に応じて、前記端末装置に、第1及び第2の権限を含む複数段階の権限の内の何れかを与え、前記第1の権限を前記端末装置に与えているときにおいて、前記送信要求があった際、前記復号処理手段の復号によって得られた元オーディオ信号を前記端末装置に対して送信する一方、前記第2の権限を前記端末装置に与えているときにおいて、前記送信要求があった際、前記復号処理手段の復号によって得られた元オーディオ信号の前記端末装置に対する送信を禁止する。 Specifically, for example, the information providing apparatus recognizes the relationship in advance, and the first and second information is transmitted to the terminal device according to the authority management information and the relationship. An element obtained by decryption of the decryption processing means when there is the transmission request when giving any one of a plurality of authorities including an authority and giving the first authority to the terminal device An original audio signal obtained by decoding of the decoding processing means when the transmission request is made while the audio signal is transmitted to the terminal device and the second authority is given to the terminal device Is prohibited from being transmitted to the terminal device.
或いは例えば、当該情報提供装置は、当該情報提供装置は、前記関係を事前に認識しており、前記権限管理情報と前記関係に応じて、前記端末装置に、第1、第2及び第3の権限を含む複数段階の権限の内の何れかを与え、前記第1の権限を前記端末装置に与えているときにおいて、前記送信要求があった際、前記復号処理手段の復号によって得られた元オーディオ信号を前記端末装置に対して送信し、前記第2の権限を前記端末装置に与えているときにおいて、前記送信要求があった際、前記元オーディオ信号から第1加工オーディオ信号を生成して該第1加工オーディオ信号を前記端末装置に対して送信し、前記第3の権限を前記端末装置に与えているときにおいて、前記送信要求があった際、前記元オーディオ信号から第2加工オーディオ信号を生成して該第2加工オーディオ信号を前記端末装置に対して送信し、前記第1加工オーディオ信号は、前記元オーディオ信号の前記音声区間における音声の特徴を変化させることによって生成され、前記第2加工オーディオ信号は、前記元オーディオ信号の前記音声区間から音声の信号成分を排除することによって生成される。 Alternatively, for example, the information providing apparatus recognizes the relationship in advance, and the first, second, and third information is sent to the terminal device according to the authority management information and the relationship. An element obtained by decryption of the decryption processing means when there is the transmission request when giving any one of a plurality of authorities including an authority and giving the first authority to the terminal device When the audio signal is transmitted to the terminal device and the second authority is given to the terminal device, the first processed audio signal is generated from the original audio signal when the transmission request is made. When the first processed audio signal is transmitted to the terminal device and the third authority is given to the terminal device, a second processed audio signal is transmitted from the original audio signal when the transmission request is made. Generating a second signal and transmitting the second processed audio signal to the terminal device, wherein the first processed audio signal is generated by changing a voice characteristic in the voice section of the original audio signal; The second processed audio signal is generated by excluding an audio signal component from the audio section of the original audio signal.
また、本発明に係る端末装置は、オーディオ信号を再生出力する再生出力手段を備え、 上記の情報提供装置から通信網を介して前記電子ファイルに基づく情報を受け取って、受け取った情報に基づくオーディオ信号を前記再生出力手段にて再生出力することを特徴とする。 Further, the terminal device according to the present invention includes reproduction output means for reproducing and outputting an audio signal, receives information based on the electronic file from the information providing device via the communication network, and receives an audio signal based on the received information. Is reproduced and output by the reproduction output means.
また、本発明に係るオーディオ信号再生装置は、上記の電子ファイルを受け取るファイル入力手段と、オーディオ信号を再生出力する再生出力手段と、を備えている。そして、前記電子ファイル内の権限管理情報は、認証コードを含み、当該オーディオ信号再生装置は、前記電子ファイル内の復号用情報に基づいて前記電子ファイル内の暗号化オーディオ信号を復号する復号処理手段と、前記認証コードと当該オーディオ信号再生装置に登録されたコードとを照合する照合手段と、前記照合手段による照合結果に基づいて、前記復号処理手段の復号によって得られた前記元オーディオ信号の前記再生出力手段での再生出力を許可するか否かを判別する判別手段と、を備え、前記判別手段の判別結果に応じて前記復号処理手段及び前記再生出力手段を制御することを特徴とする。 An audio signal reproducing apparatus according to the present invention includes file input means for receiving the electronic file and reproduction output means for reproducing and outputting the audio signal. The authority management information in the electronic file includes an authentication code, and the audio signal reproduction device decrypts the encrypted audio signal in the electronic file based on the decoding information in the electronic file. A verification unit for verifying the authentication code and a code registered in the audio signal reproduction device, and based on a verification result by the verification unit, the original audio signal obtained by decoding by the decoding processing unit Discriminating means for discriminating whether or not reproduction output by the reproduction output means is permitted, and controlling the decoding processing means and the reproduction output means in accordance with the discrimination result of the discrimination means.
これにより、電子ファイルが不正に流出した場合でも、音声に関するプライバシーが保護される。 As a result, even when an electronic file is illegally leaked, privacy related to voice is protected.
また、本発明に係る電子ファイルの記録方式は、元オーディオ信号の内の、人の音声の信号成分が含まれている音声区間における信号に対して暗号化処理を施すことによって得られた暗号化オーディオ信号のデータと、前記暗号化オーディオ信号を復号するための復号用情報のデータと、を互いに関連付けて記録することを特徴とする。 Also, the electronic file recording method according to the present invention is an encryption method obtained by performing encryption processing on a signal in a voice section including a signal component of a human voice in an original audio signal. Audio signal data and decryption information data for decrypting the encrypted audio signal are recorded in association with each other.
本発明によれば、オーディオ信号に関するプライバシー保護に寄与するオーディオ信号記録装置等を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the audio signal recording device etc. which contribute to the privacy protection regarding an audio signal can be provided.
本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。 The significance or effect of the present invention will become more apparent from the following description of embodiments. However, the following embodiment is merely one embodiment of the present invention, and the meaning of the term of the present invention or each constituent element is not limited to that described in the following embodiment. .
以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。以下に、第1〜第8実施例を説明するが、或る実施例に記載した事項は、矛盾なき限り他の実施例にも適用される。 Hereinafter, embodiments of the present invention will be specifically described with reference to the drawings. In each of the drawings to be referred to, the same part is denoted by the same reference numeral, and redundant description regarding the same part is omitted in principle. The first to eighth embodiments will be described below, but the matters described in a certain embodiment can be applied to other embodiments as long as there is no contradiction.
<<第1実施例>>
まず、本発明の第1実施例について説明する。図1は、第1実施例に係るオーディオ信号記録装置1(以下、「記録装置1」と略記する)の内部ブロック図である。記録装置1は、符号11〜15にて参照される各部位を備える。
<< First Example >>
First, a first embodiment of the present invention will be described. FIG. 1 is an internal block diagram of an audio signal recording apparatus 1 (hereinafter abbreviated as “
マイク部11は、単数又は複数のマイクロホンから成り、記録装置1の周辺音を集音して該周辺音をデジタルの電気信号に変換する。このデジタルの電気信号は、記録装置1の周辺音を表すオーディオ信号としてオーディオ信号処理部12に与えられる。以下の説明では、或る特定の区間におけるオーディオ信号を考え、その特定の区間の全体を全区間と捉える。その特定の区間(即ち、全区間)の開始時点及び終了時点は、操作部15に対する操作によって指定される。
The
オーディオ信号処理部12は、マイク部11からのオーディオ信号に基づいてオーディオ信号の全区間内から人の音声の信号成分を含む区間を検出する音声検出部(図1において不図示)を備える。検出された、人の音声の信号成分を含む区間を、以下、「音声区間」と呼ぶ。また、オーディオ信号の全区間の内、音声区間以外の区間を「非音声区間」と呼ぶ。また、オーディオ信号に含まれる音声を発した人を発話者(又は話者)とも呼ぶ。
The audio
オーディオ信号処理部12は、マイク部11から与えられたオーディオ信号の全区間の内、音声区間における信号に対して所定の暗号化方式に従った暗号化処理を施すことにより暗号化オーディオ信号を生成する。この際、非音声区間における信号に対しては暗号化処理は施されない。暗号化オーディオ信号との区別を明確化するため、暗号化される前のオーディオ信号を、以下、元オーディオ信号と呼ぶことにする。
The audio
元オーディオ信号における音声区間内の信号に上記暗号化処理を施した信号と、元オーディオ信号における非音声区間内の信号(暗号化されていない信号)と、の合成信号が、暗号化オーディオ信号となる。但し、元オーディオ信号の全体に対して、暗号化以外の所定の処理(符号化処理等)は実施されうる。 A synthesized signal of a signal obtained by performing the above-described encryption processing on a signal in a voice section of the original audio signal and a signal (non-encrypted signal) in a non-voice section of the original audio signal is an encrypted audio signal. Become. However, predetermined processing (encoding processing or the like) other than encryption can be performed on the entire original audio signal.
オーディオ信号処理部12にて実施される暗号化処理の暗号化方式として任意の公知の暗号化方式を利用することが可能である。例えば、音声区間における暗号化前の信号のビット列を暗号鍵に従って所定のアルゴリズムで並べ替え、これによって暗号化後の信号を生成する。
Any known encryption method can be used as the encryption method of the encryption process performed by the audio
メモリカード13は、外部記録媒体であり、例えばSD(Secure Digital)メモリカードである。尚、外部記録媒体としてメモリカード13を例示しているが、外部記録媒体を、1または複数のランダムアクセス可能な記録媒体(半導体メモリ、メモリカード、光ディスク、磁気ディスク等)で構成することができる。
The
主制御部14は、オーディオ信号処理部12にて生成された暗号化オーディオ信号を格納したファイルを作成し、このファイルをメモリカード13に保存する(記録する)。尚、記録装置1は、暗号化オーディオ信号を格納したファイル以外にも、全く暗号化されていないオーディオ信号を含むファイルをもメモリカード13に保存することが可能である。但し、記録装置1は、暗号化オーディオ信号を格納したファイルを生成することに特徴点を有するため、暗号化オーディオ信号を格納したファイルを特殊ファイルと呼んで他のファイルと区別し、以下、特殊ファイルに関する説明を行うものとする。
The
操作部15は、操作キー等から成り、ユーザによる操作を受け付ける。操作部15に対する操作内容は主制御部14に伝達される。操作部15に対して所定操作を施すことにより、元オーディオ信号の取得並びに特殊ファイルの作成及び保存が実施される。
The
図2に、メモリカード13に保存される特殊ファイル300のデータ構造を示す。特殊ファイル300は、ヘッダ領域301と本体領域302から形成される。当然ではあるが、同一の特殊ファイル内に定義されたヘッダ領域と本体領域は互いに関連付けられている。特殊ファイル300の場合、ヘッダ領域301と本体領域302は互いに関連付けられ、特殊ファイル300内に格納された各データは互いに関連付けられている。尚、ヘッダ領域を、ユーザ領域と呼ぶこともできる。
FIG. 2 shows the data structure of the
本体領域302には暗号化オーディオ信号を表すデータが格納される。ヘッダ領域301には暗号化オーディオ信号の関連情報等が格納される。具体的には、ヘッダ領域301には、音声区間情報と復号鍵情報と権限管理情報とが格納される。
The
音声区間情報は、元オーディオ信号(又は暗号化オーディオ信号)の全区間中の何れの区間が音声区間であるかを表す情報である。 The voice section information is information indicating which section of all sections of the original audio signal (or encrypted audio signal) is a voice section.
復号鍵情報は、暗号化された信号を復号するための復号処理に用いられる復号鍵を表す情報である。上記の暗号化処理は、記録装置1に予め与えられた或いは記録装置1内で発生した暗号鍵を用いて行われ、この暗号鍵に対応する復号用の鍵が復号鍵である。暗号化オーディオ信号から元オーディオ信号を復元することのできる装置(以下、「復元用装置」という)上において、この復号鍵を用いれば暗号化オーディオ信号を復号することができる(復号に復号鍵は必須であるものとする)。
The decryption key information is information representing a decryption key used for decryption processing for decrypting an encrypted signal. The above encryption processing is performed using an encryption key given in advance to the
音声区間情報を参照すれば、暗号化されている音声区間の、全区間内における位置が分かる。このため、音声区間情報と復号鍵情報に基づけば、本体領域302内の暗号化オーディオ信号を復号して元オーディオ信号を復元することができる。従って、音声区間情報と復号鍵情報は、暗号化オーディオ信号を復号するための復号用情報を形成する。
By referring to the voice section information, the position of the encrypted voice section in all the sections can be known. Therefore, based on the voice section information and the decryption key information, the encrypted audio signal in the
尚、復元用装置がヘッダ領域301を参照することなく復号鍵を知っている場合は、特殊ファイル300内に復号鍵情報を含めておく必要は無い(後述の各実施例においても共通)。即ち例えば、復元用装置に予め復号鍵が与えられている場合、或いは、ユーザが手動操作等によって復元用装置に復号鍵を与える場合は、特殊ファイル300内に復号鍵情報を含めておく必要は無い。
Note that when the restoration device knows the decryption key without referring to the
復元用装置において、復号用情報に従って暗号化オーディオ信号を復号し、この復号によって得た元オーディオ信号を再生出力することが可能であるが、この復号及び再生出力を実施することに対する許可又は禁止を切替制御するための情報が、権限管理情報である。この権限管理情報の利用例については他の実施例にて詳説する。尚、記録装置1においてユーザが権限管理情報を設定する場合、その設定のための操作は、操作部15に対して行われる。
In the restoration device, it is possible to decrypt the encrypted audio signal according to the decryption information, and reproduce and output the original audio signal obtained by this decryption, but permission or prohibition to perform this decryption and reproduction output Information for switching control is authority management information. This usage example of the authority management information will be described in detail in another embodiment. When the user sets authority management information in the
暗号化オーディオ信号を復号することなく、そのまま再生しても音声区間における人の音声を聞き取ることはできない。暗号化オーディオ信号を元オーディオ信号に戻すためには、上述の暗号化方式のアルゴリズムに従った復号処理の実施が必須である。復元用装置は、オーディオ信号処理部12での暗号化方式のアルゴリズムに関する情報を事前に認識しており、復号用情報に基づいて、その暗号化方式のアルゴリズムに従った復号処理を実行可能である。その復号処理によって暗号化オーディオ信号から元オーディオ信号が復元される。後述のユーザPC2、サーバ3、オーディオ信号記録再生装置6及び撮像装置7は、暗号化オーディオ信号から元オーディオ信号を復元可能な復元用装置として機能する。
Even if the encrypted audio signal is reproduced without being decrypted, it is impossible to hear the human voice in the voice section. In order to return the encrypted audio signal to the original audio signal, it is essential to perform a decryption process according to the algorithm of the above-described encryption method. The restoration apparatus recognizes in advance information related to the algorithm of the encryption method in the audio
オーディオ信号に関してプライバシーの保護に重要なのは発話者の音声を含む部分であり、発話者の音声が含まれるオーディオ信号が不特定の人間に対して流通すると、発話者のプライバシーが害されるおそれがある。しかしながら、記録装置1上で特殊ファイルを保存する時点で暗号化処理が実施され、特殊ファイル内のオーディオ信号は暗号化されているため、仮に、メモリカード13が紛失又は盗難されたり、コンピュータウイルスやファイル交換ソフトの悪用等によってネット経由で特殊ファイルが流出した場合でも、プライバシーが保護される。また、プライバシー保護に関与する音声区間が自動的に検出され、音声区間に対して暗号化処理が自動的に施されるため、プライバシー保護を図るためのユーザ負担が極めて少ない(特許文献2のようなブロック分割の手間がかからない)。
What is important for privacy protection regarding the audio signal is a portion including the voice of the speaker, and if the audio signal including the voice of the speaker is distributed to an unspecified person, the privacy of the speaker may be impaired. However, since the encryption process is performed when the special file is stored on the
ヘッダ領域に復号鍵情報を含めた場合でも、暗号化のアルゴリズムを知る正規の装置上でしか復号鍵を用いて正しく元オーディオ信号を復元することができず、その正規の装置は、記録装置1のユーザの意図に沿うようにヘッダ領域内の権限管理情報に応じて復号処理の実施/非実施を管理するため(詳細は後述)、プライバシーは適切に保護される。勿論、ヘッダ領域に復号鍵情報を含めない方が意図しない復号がなされる危険性は減る。 Even when the decryption key information is included in the header area, the original audio signal can be correctly restored using the decryption key only on a legitimate device that knows the encryption algorithm. Since the execution / non-execution of the decryption process is managed according to the authority management information in the header area so as to conform to the user's intention (details will be described later), privacy is appropriately protected. Of course, the risk of unintentional decryption is reduced if the decryption key information is not included in the header area.
尚、ヘッダ領域へのデータ保存形式及び特殊ファイル全体のデータ保存形式は、任意に定めることができるが、各データを既存の規格に沿って保存することも可能である。既存の規格に沿って特殊ファイルを作成及び保存する場合は、その既存の規格に沿った任意の再生装置上で特殊ファイル内のオーディオ信号を再生出力することが可能となるが、この場合でも、特殊ファイル内のオーディオ信号は暗号化されているためプライバシーは保護される。 The data storage format in the header area and the data storage format of the entire special file can be arbitrarily determined, but each data can be stored in accordance with existing standards. When creating and saving a special file in accordance with an existing standard, it is possible to reproduce and output the audio signal in the special file on an arbitrary playback device in accordance with the existing standard. Since the audio signal in the special file is encrypted, privacy is protected.
第1実施例に記載した事項は、後述の各実施例に適用され、後述の各実施例の説明の基礎となる。 The matters described in the first embodiment are applied to each embodiment described later and serve as a basis for the description of each embodiment described later.
<<第2実施例>>
図1のオーディオ信号処理部12の内部構成例を示す実施例として、第2実施例を説明する。第2実施例は、第1実施例と組み合わせて実施される。
<< Second Example >>
A second embodiment will be described as an embodiment showing an example of the internal configuration of the audio
図3は、第2実施例に係る、図1のオーディオ信号処理部12の内部ブロック図である。図3のオーディオ信号処理部12は、符号21〜23にて参照される各部位を備える。
FIG. 3 is an internal block diagram of the audio
AACエンコーダ21は、元オーディオ信号に符号化処理を施す。この符号化処理は、AAC(Advanced Audio Coding)の符号化方式に従う。AACは、MPEG(Moving Picture Experts Group)において規格化された、オーディオ信号に対する符号化方式(圧縮方式)である。
The
オーディオ信号処理部12に与えられる元オーディオ信号は、時間軸上に離散的に並ぶデジタル信号(以下、離散オーディオ信号という)の集まりである。AACでは、1024サンプルの離散オーディオ信号を単位区間にして符号化及び記録が行われるため、本実施例では、1024サンプルごとに音声区間と非音声区間を判別する。上記の単位区間をフレームと呼ぶ。元オーディオ信号の全体は、順次訪れる第1、第2、第3、・・・、第(n−1)及び第nのフレームの離散オーディオ信号から形成され、各フレームは、1024サンプル分の離散オーディオ信号を含む(nは2以上の整数)。
The original audio signal given to the audio
AACエンコーダ21は、フレームごとに離散オーディオ信号をAACに従って符号化する。この符号化によって得られた信号を符号化信号と呼び、第kのフレームの離散オーディオ信号を符号化することによって得られた符号化信号を、第kのフレームの符号化信号と呼ぶ(kは、1≦k≦nを満たす整数)。各フレームの符号化信号は、暗号化処理部23に送られる。
The
音声/非音声判別部22は、ピッチ抽出に基づく手法によって、フレームごとに、そのフレームが音声区間と非音声区間の何れであるかを判別する。ピッチとは、声帯振動によるオーディオ信号の基本周波数のことである。一般的に、雑音が多い場合は正確にピッチを探し出すことが難しくなるが、本実施例では基本周波数を正確に探す必要はなく、ピッチの有無のみを判別すれば足る。ピッチ抽出手法として、一般的に自己相関処理を利用した手法が広く用いられ、本実施例でも自己相関処理を利用する。
The voice /
或る1つのフレームに着目して、音声/非音声判別部22の判別手法について説明する。着目したフレームを着目フレームと呼ぶ。着目フレームに含まれる1024サンプル分の離散オーディオ信号の内、t番目の離散オーディオ信号の信号値をx(t)で表す。tは、1〜1024の間の整数値をとる。
The discriminating method of the voice /
そして、図4に示す如く、1〜128番目の離散オーディオ信号から成るブロックを基準ブロックとして自己相関を計算する。つまり、着目フレーム内に、128個の連続する離散オーディオ信号から成る評価ブロックを定義し、評価ブロックを順次ずらしながら、基準ブロックと評価ブロックとの間の相関を求めてゆく。より具体的には、下記式(1)に従って自己相関値S(p)を算出する。自己相関値S(p)は、評価ブロックの位置を決める変数pの関数であり、pは、0≦p≦(1024−128)、を満たす各整数をとる。 Then, as shown in FIG. 4, the autocorrelation is calculated using the block composed of the 1st to 128th discrete audio signals as a reference block. That is, an evaluation block consisting of 128 continuous discrete audio signals is defined in the frame of interest, and the correlation between the reference block and the evaluation block is obtained while sequentially shifting the evaluation block. More specifically, the autocorrelation value S (p) is calculated according to the following formula (1). The autocorrelation value S (p) is a function of a variable p that determines the position of the evaluation block, and p is an integer that satisfies 0 ≦ p ≦ (1024−128).
図5に、求められた自己相関値S(p)の変数p依存性を示す。図5において、横軸は、変数pである。図5は、着目フレームにピッチが含まれている場合に対応している。着目フレームにピッチが含まれていると自己相関値S(p)が周期的に大きな値をとる。音声/非音声判別部22は、自己相関値S(p)が周期的に所定の閾値THを超えていると判断される場合、着目フレームが音声区間であると判断し、そうでない場合は、着目フレームが非音声区間であると判断する。例えば、不等式「S(p)>TH」を満たす変数pの間隔が一定(或いは略一定)の場合に、自己相関値S(p)が周期的に所定の閾値THを超えていると判断する。
FIG. 5 shows the variable p dependency of the calculated autocorrelation value S (p). In FIG. 5, the horizontal axis is the variable p. FIG. 5 corresponds to the case where the pitch of interest is included in the frame of interest. When the pitch is included in the frame of interest, the autocorrelation value S (p) takes a large value periodically. When it is determined that the autocorrelation value S (p) periodically exceeds the predetermined threshold TH, the speech /
音声/非音声判別部22は、各フレームが音声区間と非音声区間の何れであるかを表す情報を暗号化処理部23に出力する。この情報は、第1実施例で述べた音声区間情報に相当し、第2実施例では、音声/非音声判別部22の出力情報が音声区間情報として図2のヘッダ領域301内に格納されることとなる。
The speech /
暗号化処理部23は、音声/非音声判別部22の出力情報(音声区間情報)に基づきつつ、AACエンコーダ21から出力される第1〜第nのフレームの符号化信号の内、音声区間に分類されるフレームの符号化信号のみを所定の暗号化方式に従って暗号化する。非音声区間に分類されるフレームの符号化信号は暗号化されない。第1実施例でも述べたように、オーディオ信号処理部12(暗号化処理部23)にて実施される暗号化処理の暗号化方式として任意の公知の暗号化方式を利用することが可能である。
The
音声区間に分類されるフレームの符号化信号に暗号化処理を施した信号と、非音声区間に分類されるフレームの符号化信号そのものと、の合成信号が、暗号化オーディオ信号として暗号化処理部23から出力される。この暗号化オーディオ信号は、図2の特殊ファイル300の本体領域302内に格納されることとなる。
A combined signal of a signal obtained by performing encryption processing on an encoded signal of a frame classified as a speech section and an encoded signal itself of a frame classified as a non-speech section is an encryption processing unit as an encrypted audio signal. 23. This encrypted audio signal is stored in the
本体領域302に格納された暗号化オーディオ信号から元オーディオ信号を復元するためには、まず、音声区間情報と復号鍵情報に基づいて、音声区間における暗号化された符号化信号を復号して通常の符号化信号を復元し、これによって第1〜第nフレームについての符号化信号を得る。その後、各フレームについての符号化信号に対して、AACの符号化を元に戻すためのデコード処理を施すことによって、元オーディオ信号を復元することができる。この復元手法は、暗号化オーディオ信号から元オーディオ信号を復元する各復元用装置にて利用可能である(復元用装置については後述)。
In order to restore the original audio signal from the encrypted audio signal stored in the
AACの符号化方式に適合した、音声区間と非音声区間の判別手法を例示したが、音声区間と非音声区間の判別手法として他の任意の公知手法を用いることも可能である。 Although the speech section and non-speech section discrimination method adapted to the AAC coding scheme has been illustrated, any other known method can be used as the speech section and non-speech section discrimination method.
<<第3実施例>>
次に、第3実施例について説明する。第3実施例では、記録装置1にて生成された特殊ファイルを通信網を介して公開する場合を想定する。
<< Third Example >>
Next, a third embodiment will be described. In the third embodiment, it is assumed that a special file generated by the
図6に、記録装置1と協働して特徴的な動作を行うファイル管理システムの全体構成図を示す。図6において、符号2は、ユーザ用のコンピュータ(以下、「ユーザPC」という)である。符号3は、サーバコンピュータ(以下、単に「サーバ」という)である。符号4は、コンピュータ・ネットワークとしての通信網である。今、通信網4は、インターネットであるとする。符号101、102及び103は、夫々、サーバ3に格納されたファイルにアクセスするコンピュータ(以下、「閲覧側PC」という)である。
FIG. 6 shows an overall configuration diagram of a file management system that performs a characteristic operation in cooperation with the
図7に、ユーザPC2の概略内部ブロック図を示す。ユーザPC2は、符号41〜48にて参照される各部位を備える。図8に、サーバ3の概略内部ブロック図を示す。サーバ3は、符号61〜65にて参照される各部位を備える。閲覧側PC101〜103も、ユーザPC2と同様の構成を有し、それらの内部ブロック図は、図7のそれと同様であるため重複する図示を省略する。ユーザPC2とサーバ3は、通信網4を介して任意のデータの送受信が可能であり、閲覧側PC101〜103の夫々とサーバ3は、通信網4を介して任意のデータの送受信が可能である。尚、図示の簡略化及び説明の便宜上、図6には閲覧用PCが3台しか示されていないが、閲覧用PC101、102又は103と同様の多数の閲覧用PCが通信網4を介してサーバ3に接続されうる。
FIG. 7 shows a schematic internal block diagram of the
図1の記録装置1は特殊ファイルを作成し、特殊ファイルはメモリカード13に記録される。メモリカード13は記録装置1に対して着脱自在となっている。メモリカード13を記録装置1から取り外して図7のユーザPC2のカードスロット44に装着することにより、ユーザPC2は、メモリカード13内に記録された特殊ファイルを読み出すことが可能となる。また、記録装置1に装着されたメモリカード13内の特殊ファイルを、USB(Universal Serial Bus)などの規格に従った通信線を介してユーザPC2に読み込ませることもできる。
The
ユーザPC2に読み込まれた特殊ファイルは、オーディオ信号処理部42を含む主制御部41に与えられる。液晶ディスプレイ等から成る表示部45は、主制御部41の制御の下、映像の表示を行う。オーディオ信号再生出力部46は、スピーカを含み、主制御部41の制御の下、オーディオ信号の再生出力を行う(オーディオ信号を音として出力する)。以下、「オーディオ信号再生出力部」を「再生出力部」と略記する。PC操作キー47は、ユーザPC2のユーザの操作を受け付け、その操作内容を主制御部41に伝達する。また、メモリ48の記憶内容は、主制御部41に参照される。
The special file read by the
図7のPC操作キー47に所定の操作が施された時、主制御部41に与えられた特殊ファイルは、図8のサーバ3の、オーディオ信号処理部62を含む主制御部61に送信される(所謂アップロードが行われる)。この送信は、図7の通信部43、図6の通信網4及び図8の通信部63を介して行われる。主制御部61が受信した特殊ファイルは、ユーザPC2に割り当てられたID番号と関連付けられつつサーバHDD(ハードディスク)64に保存される。
When a predetermined operation is performed on the
サーバ3は、インターネット上で所定のIPアドレスが割り当てられたWWW(World Wide Web)サーバであり、SNS(ソーシャルネットワーキングサービス)や所謂ブログ等のウェブサイトを運営する。
The
サーバ3は、通信網4を介して閲覧側PC101〜103の夫々からの送信要求(配信要求)を受け付ける。サーバ3は、閲覧側PC101からサーバHDD64に格納された特殊ファイルに対する送信要求を受け取った時、特殊ファイルの内容と公開管理メモリ65の記憶内容に基づいて送信すべきデータを判断し、その判断結果に応じたデータを閲覧側PC101に送信する。閲覧側PC102及び103についても同様である。尚、公開管理メモリ65を、サーバHDD64内の一部記録領域から形成することも可能である。
The
サーバ3を含むファイル管理システムは、特殊ファイルのヘッダ領域内の情報を参照して特徴的な動作を行う。これについて具体的に説明する。
The file management system including the
今、説明の具体化のため、記録装置1にて作成されユーザPC2を介してサーバ3にアップロードされる(即ち、送信される)特殊ファイルが、図2の特殊ファイル300である場合を想定する。
For the sake of concrete explanation, it is assumed that the special file created in the
サーバ3が運営するSNSやウェブサイトの規定に従って、ユーザPC2と閲覧側PC101〜103の夫々には、互いに異なる固有のID番号が事前に割り振られているものとする。サーバ3の公開管理メモリ65(図8参照)には、各ID番号と、ユーザPC2と閲覧側PC101〜103の夫々との関係を示す公開管理関係情報が予め格納されている。公開管理関係情報によって示される関係を、以下「公開関係」と呼ぶ。
It is assumed that different unique ID numbers are assigned in advance to the
この公開管理関係情報の内容例を図9に示す。今、ユーザPC2と閲覧側PC101、102及び103との間の公開関係が、夫々、第1、第2及び第3の公開関係であったとし、それを表す情報が公開管理関係情報となっていたとする。実際には、各ID番号を用いてサーバ3は図9に示すような各公開関係を認識している。
An example of the contents of the public management related information is shown in FIG. Now, it is assumed that the public relationships between the
ところで、SNS等においては、一般的に、公開しようとする各情報に対して公開制限を加えることができ、“或る情報を「友人」に相当するID番号を有した閲覧用PCには公開するが、その情報を「友人の友人」又は「一般」に相当するID番号を有した閲覧用PCには公開しない”といったことを公開側のPC(ユーザPC2に相当)で自由に設定することが可能である。「一般」とは、「友人」でも「友人の友人」でもないことを示す。そこで、第1〜第3の公開関係を、サーバ3が運営するSNSやウェブサイトの公開制限に沿って規定しておく。今、第1、第2及び第3の公開関係を、夫々、公開制限における「友人」、「友人の友人」及び「一般」に割り当てるものとする。
By the way, in SNS or the like, generally, it is possible to apply disclosure restrictions to each piece of information to be disclosed. “Some information is disclosed to a browsing PC having an ID number corresponding to“ friend ”. However, the information on the public side (corresponding to the user PC 2) can be freely set such that the information is not disclosed to the browsing PC having the ID number corresponding to “friend of friend” or “general”. “General” means neither “friend” nor “friend of friend”. Therefore, the first to third public relations are defined in accordance with the SNS operated by the
本実施例では、公開管理関係情報とヘッダ領域341内の権限管理情報(図2参照)に基づいて公開の仕方を制御し、権限管理情報が「公開レベル情報」を含むものとする。
In this embodiment, it is assumed that the publication method is controlled based on the publication management relation information and the authority management information (see FIG. 2) in the
ユーザは、図1の操作部15の操作を介して記録装置1上で、又は、図7のPC操作キー47の操作を介してユーザPC2上で、公開レベル情報を任意に設定することができる。記録装置1上で公開レベル情報の設定のための操作を全く行わなかった場合は、記録装置1が自動的に規定の初期データを公開レベル情報としてヘッダ領域341に格納する。特殊ファイル300は、ユーザPC2及び通信網4を経由してサーバ3にアップロードされ(即ち、送信され)、サーバ3は、特殊ファイル300をユーザPC2のID番号と関連付けてサーバHDD64(図8参照)に保存する。
The user can arbitrarily set the public level information on the
今、公開レベル情報によって、公開の仕方を3段階に分類する場合を考える。サーバHDD64に格納された特殊ファイル300のヘッダ領域301内の公開レベル情報の内容例を図10に示す。今、ユーザPC2との間で第1、第2及び第3の公開関係を有する閲覧側PCに、夫々、第1、第2及び第3の権限を与えることを指示する内容が、公開レベル情報によって規定されていた場合を考える。この場合、図8のサーバ3の主制御部61は、サーバHDD64内の特殊ファイル300に対するアクセス権限として、閲覧側PC101、102及び103に、夫々、第1、第2及び第3の権限を与えることになる。
Consider a case where the disclosure method is classified into three stages according to the disclosure level information. An example of the content of the public level information in the
以上のような想定の下、各閲覧用PCがサーバ3内の特殊ファイル300にアクセスしようとした場合の、サーバ3の動作を説明する。
The operation of the
図11(a)、(b)、(c)及び(d)に、各閲覧用PCに送信されるオーディオ信号を示す。図11(a)、(b)及び(c)において、符号330は、着目した音声区間における元オーディオ信号のアナログ波形である。図11(a)の符号331、図11(b)の符号332及び図11(c)の符号333は、夫々、その音声区間に対応する、閲覧用PC101、102及び103への送信オーディオ信号のアナログ波形である。図11(d)において、符号340は着目した非音声区間における元オーディオ信号のアナログ波形であり、符号341はその非音声区間における各閲覧用PC(101、102及び103)への送信オーディオ信号のアナログ波形であり、両アナログ波形(340及び341)は同じである。
FIGS. 11A, 11B, 11C, and 11D show audio signals transmitted to each browsing PC. 11A, 11B, and 11C,
閲覧用PC101が、サーバ3内の特殊ファイル300に対応するオーディオ信号を閲覧用PC101に送信するように送信要求をサーバ3に対して出した際、サーバ3の主制御部61は、サーバHDD64内の特殊ファイル300の公開レベル情報と公開管理メモリ65内の公開管理関係情報に基づいて、閲覧用PC101に与えられるべき権限を認識する。上述したように、閲覧用PC101に与えられるべき権限は第1の権限である。この場合、サーバ3のオーディオ信号処理部62(図8参照)は、サーバHDD64から特殊ファイル300内の暗号化オーディオ信号と復号用情報を読み出し、復号用情報に基づいて暗号化オーディオ信号を復号することによって元オーディオ信号を復元する。そして、復元した元オーディオ信号を表すデータを閲覧用PC101に送信する。これにより、閲覧用PC101に備えられる、スピーカを含む再生出力部から、図11(a)のアナログ波形331及び図11(d)のアナログ波形341の信号を含む元オーディオ信号が再生出力される。
When the
閲覧用PC103が、サーバ3内の特殊ファイル300に対応するオーディオ信号を閲覧用PC103に送信するように送信要求をサーバ3に対して出した際、サーバ3の主制御部61は、サーバHDD64内の特殊ファイル300の公開レベル情報と公開管理メモリ65内の公開管理関係情報に基づいて、閲覧用PC103に与えられるべき権限を認識する。上述したように、閲覧用PC103に与えられるべき権限は第3の権限である。この場合、サーバ3のオーディオ信号処理部62(図8参照)は、サーバHDD64から特殊ファイル300内の暗号化オーディオ信号を読み出し、その暗号化オーディオ信号と音声区間情報に基づいて、音声区間における発話内容が特定できないような第2加工オーディオ信号を作成する。
When the
例えば、第2加工オーディオ信号の音声区間には、元オーディオ信号とは全く異なる、正弦波のオーディオ信号又は無音のオーディオ信号が挿入される。或いは、暗号化オーディオ信号がAACに従って符号化されている場合は、音声区間の前フレームの信号(非音声区間の信号)が音声区間に挿入される。これらにより、音声区間から発話者の音声の信号成分が排除される。一方において、非音声区間に関しては、特別な処理を施さない。従って、例えば、図11(c)のアナログ波形333及び図11(d)のアナログ波形341の信号を含む第2加工オーディオ信号を表すデータが閲覧用PC103に送信され、閲覧用PC103に備えられる、スピーカを含む再生出力部から、第2加工オーディオ信号が再生出力される。
For example, a sine wave audio signal or a silent audio signal, which is completely different from the original audio signal, is inserted into the voice section of the second processed audio signal. Alternatively, when the encrypted audio signal is encoded in accordance with AAC, the signal of the previous frame of the speech section (the signal of the non-speech section) is inserted into the speech section. As a result, the signal component of the speaker's voice is excluded from the voice section. On the other hand, no special processing is applied to the non-voice section. Therefore, for example, data representing the second processed audio signal including the signals of the
閲覧用PC102が、サーバ3内の特殊ファイル300に対応するオーディオ信号を閲覧用PC102に送信するように送信要求をサーバ3に対して出した際、サーバ3の主制御部61は、サーバHDD64内の特殊ファイル300の公開レベル情報と公開管理メモリ65内の公開管理関係情報に基づいて、閲覧用PC102に与えられるべき権限を認識する。上述したように、閲覧用PC102に与えられるべき権限は第2の権限である。この場合、サーバ3のオーディオ信号処理部62(図8参照)は、サーバHDD64から特殊ファイル300内の暗号化オーディオ信号と復号用情報を読み出し、復号用情報に基づいて暗号化オーディオ信号を復号することによって元オーディオ信号を復元する。その後、音声区間情報に基づきつつ、音声区間における元オーディオ信号に所定の加工処理を施し、音声区間における発話者が特定できないような第1加工オーディオ信号を作成する。
When the
具体的には、第1加工オーディオ信号の音声区間における発話者の音声の特徴(例えば、声色)を元オーディオ信号のそれと異ならせるような加工処理を施す。但し、発話内容が特定できないほどの加工処理を施さないようにする。音声の特徴を変える手法として公知の手法を採用可能である。例えば、音声区間における元オーディオ信号を書き込むバッファメモリを用意し、そのバッファメモリへの書き込み周波数と読み出し周波数を変えることにより、発話者の声色(音程)を変えることができる。また、第1加工オーディオ信号を作成する際、非音声区間に関しては、特別な処理を施さない。従って、例えば、図11(b)のアナログ波形332及び図11(d)のアナログ波形341の信号を含む第1加工オーディオ信号を表すデータが閲覧用PC102に送信され、閲覧用PC102に備えられる、スピーカを含む再生出力部から、第1加工オーディオ信号が再生出力される。
Specifically, a processing process is performed so that the voice characteristics (for example, voice color) of the speaker in the voice section of the first processed audio signal are different from those of the original audio signal. However, the processing is not performed so that the utterance contents cannot be specified. A known method can be adopted as a method of changing the characteristics of the voice. For example, the voice color (pitch) of the speaker can be changed by preparing a buffer memory for writing the original audio signal in the voice section and changing the writing frequency and the reading frequency to the buffer memory. Further, when the first processed audio signal is created, no special processing is applied to the non-voice section. Therefore, for example, data representing the first processed audio signal including the signal of the
上述のようにすれば、SNSやブログ等のウェブサイトにおいて、オーディオ信号に関するプライバシーを保護する仕組みを導入することが可能である。公開側のユーザは、公開レベル情報を設定しておくだけで(或いは記録装置1で自動的に設定される公開レベル情報を利用するだけで)、簡便にプライバシーの保護効果を享受することができる。 If it carries out as mentioned above, it is possible to introduce the mechanism which protects the privacy regarding an audio signal in websites, such as SNS and a blog. The user on the public side can simply enjoy the privacy protection effect simply by setting the public level information (or simply using the public level information automatically set by the recording device 1). .
また、公開レベル情報に基づく公開制御の他に、認証コードを利用した公開制御も実施することが可能である。この場合、例えば、特殊ファイル300のヘッダ領域301内の権限管理情報に、記録装置1又はユーザPC2上で設定可能な認証コードを含めておく。例えば、ユーザPC2のユーザが、第3の権限しか有さない閲覧用PC103のユーザに、特別に元オーディオ信号をサーバ3経由で提供したい場合、ユーザPC2のユーザが閲覧用PC103のユーザに、上記の認証コードをパスワードとして伝える。閲覧用PC103のユーザが該パスワードを沿えて特殊ファイル300に対応するオーディオ信号の送信要求をサーバ3に対して出力した際、サーバ3の主制御部61は、閲覧用PC103から送られてきたパスワードとサーバHDD64内の特殊ファイル300に格納された認証コードとを照合し、両者の合致が確認されれば、特殊ファイル300内の暗号化オーディオ信号と復号用情報から元オーディオ信号を復元して元オーディオ信号を表すデータを閲覧用PC103に送信する(合致しなければ該送信は行われない)。これにより、閲覧用PC103に備えられる、スピーカを含む再生出力部から、元オーディオ信号が再生出力される。
In addition to public control based on public level information, public control using an authentication code can be performed. In this case, for example, the authorization management information in the
尚、パスワードを伝える代わりに、閲覧用PC103のID番号と認証コードをリンクさせておいてもよい。つまり、単純には例えば、ヘッダ領域301の認証コードが閲覧用PC103のID番号と同じとなるように、認証コードを記録装置1又はユーザPC2上で設定しておき、その認証コードを含む特殊ファイル300をサーバ3にアップロードするようにする。閲覧用PC103のユーザが特殊ファイル300に対応するオーディオ信号の送信要求をサーバ3に対して出力した際、サーバ3の主制御部61は、閲覧用PC103のID番号とヘッダ領域301の認証コードを照合し、両者の合致が確認されれば、特殊ファイル300内の暗号化オーディオ信号と復号用情報から元オーディオ信号を復元して元オーディオ信号を表すデータを閲覧用PC103に送信する(合致しなければ該送信は行われない)。
Instead of transmitting the password, the ID number of the
この他、様々な変形例があるが、以下に利用可能な変形例を列記する。 In addition, there are various modifications, but the modifications that can be used are listed below.
変形例1:図10に示すような内容を規定の記述形式に従って記述したものを公開レベル情報としてもよいが、例えば、図6に示されるファイル管理システムの全体で図10に示す内容が「1」であることを規定しておくようにしてもよい。この場合、ヘッダ領域301には「1」を公開レベル情報として記述しておけば足る。この場合、勿論、図10に示す公開レベル情報と異なる公開レベル情報には1以外の文字列が割り当てられる。それ以外にも、ファイル管理システム内で規定された任意の記述方式で公開レベル情報を表すことが可能である。また、図10に示す各公開関係と各権限との関係は例示であり、ユーザがそれを様々に変更可能である。
Modification 1: The content described in FIG. 10 according to a prescribed description format may be used as the public level information. For example, the content shown in FIG. 10 is “1” in the entire file management system shown in FIG. You may make it prescribe | regulate that it is. In this case, it is sufficient to describe “1” as the public level information in the
変形例2:上述の例では、第1、第2、第3の権限を有する閲覧用PCからの送信要求に対して、夫々、図11(a)に対応する元オーディオ信号、図11(b)に対応する第1加工オーディオ信号及び図11(c)に対応する第2加工オーディオ信号を送信しているが、これはあくまでも例示であり、様々に変形可能である。例えば、第1、第2、第3の権限を有する閲覧用PCからの送信要求に対して、夫々、元オーディオ信号、第1加工オーディオ信号及び第1加工オーディオ信号を送信するようにしてもよいし、夫々、元オーディオ信号、元オーディオ信号及び第1加工オーディオ信号を送信するようにしてもよい。また、第3の権限を有する閲覧用PCからの送信要求に対してはオーディオ信号の送信を一切行わないといったことも可能である。 Modification 2: In the above example, in response to a transmission request from a viewing PC having the first, second, and third authorities, the original audio signal corresponding to FIG. ) And the second processed audio signal corresponding to FIG. 11C are transmitted merely as examples, and various modifications can be made. For example, the original audio signal, the first processed audio signal, and the first processed audio signal may be transmitted in response to a transmission request from the viewing PC having the first, second, and third authorities, respectively. However, the original audio signal, the original audio signal, and the first processed audio signal may be transmitted, respectively. It is also possible that no audio signal is transmitted in response to a transmission request from a viewing PC having the third authority.
変形例3:上述の例では、公開レベル情報によって、公開の仕方を3段階に分類しているが、この段階数は任意である。SNS等の規定に応じて、公開の仕方を4段階以上に分類することも可能であるし、2段階までの分類に限定されることもある。また、同様に、権限の分類数も3以外となりうる。尚、変形例2で例示した如く、第1、第2、第3の権限を有する閲覧用PCからの送信要求に対して、夫々、元オーディオ信号、第1加工オーディオ信号及び第1加工オーディオ信号を送信するようにした場合は、結果的に公開の仕方が2段階に分類されていることになる。 Modification 3: In the above example, the disclosure method is classified into three stages according to the disclosure level information, but the number of stages is arbitrary. It is possible to classify the disclosure method into four or more stages according to the SNS or the like, or the classification may be limited to classification up to two stages. Similarly, the number of authority classifications can be other than three. As illustrated in the second modification, in response to a transmission request from the viewing PC having the first, second, and third authorities, the original audio signal, the first processed audio signal, and the first processed audio signal, respectively. As a result, the release method is classified into two stages.
<<第4実施例>>
次に、第4実施例について説明する。第4実施例は、第3実施例の変形例に相当し、第3実施例に記載した事項は本実施例にも適用される(また、第1実施例に記載した事項も適用される)。
<< 4th Example >>
Next, a fourth embodiment will be described. The fourth embodiment corresponds to a modification of the third embodiment, and the items described in the third embodiment are also applied to the present embodiment (and the items described in the first embodiment are also applied). .
第4実施例では、図1の記録装置1が話者認識機能を備えているものとする。話者認識機能は、図1のオーディオ信号処理部12内に設けられた話者認識部によって実現される。この話者認識部は、マイク部11から与えられる元オーディオ信号に基づき、音声区間における発話者(話者)が予め登録された登録話者と一致しているか否かを判断する。
In the fourth embodiment, it is assumed that the
例えば、任意の言葉にて話者認識を行う発声内容独立型の話者認識処理を利用する。話者認識処理を実現する手法として、公知の任意の手法を採用可能である。話者認識の手法について簡単に説明する。図12に、公知の話者認識処理を行うための話者認識部のブロック図を示す。 For example, an utterance content independent type speaker recognition process for performing speaker recognition with an arbitrary word is used. Any known method can be adopted as a method for realizing the speaker recognition processing. A method for speaker recognition will be briefly described. FIG. 12 shows a block diagram of a speaker recognition unit for performing known speaker recognition processing.
まず、話者認識を行う前に話者の登録を行う。話者登録時において、マイク部11から出力されるオーディオ信号は、特徴量抽出部71に供給される。話者が発生した文章などの音声に含まれる、ケプストラムやピッチ等の特徴量が特徴量抽出部71にて抽出される。話者登録時において、該特徴量は話者モデル作成部72に与えられる。話者モデル作成部72は、抽出された特徴量に基づき、話者の音声のモデル(以下、登録話者モデルという)、例えば隠れマルコフモデル(Hidden Markov Model)を作成する。登録話者モデルは、話者モデル記録部73に記録される。
First, speaker registration is performed before speaker recognition. At the time of speaker registration, the audio signal output from the
話者認識時には、マイク11部からの元オーディオ信号に含まれる認識対象話者(現在の話者)の音声は、特徴量抽出部71に供給される。認識対象話者が発生した文章などの音声に含まれる、ケプストラムやピッチ等の特徴量が特徴量抽出部71にて抽出される。話者認識時において、該特徴量は尤度算出部74に与えられる。尤度算出部74は、話者モデル記録部73に記録されている登録話者モデルと認識対象話者に対応する特徴量とを比較し、それらの尤度(類似度)を算出する。そして、尤度が所定の閾値より大きければ認識対象話者が登録話者と一致すると判断し、そうでなければ、認識対象話者は登録話者と相違すると判断する。
At the time of speaker recognition, the speech of the recognition target speaker (current speaker) included in the original audio signal from the
図13に、本実施例で想定される元オーディオ信号の模式図を示す。この元オーディオ信号の全区間には、音声区間と非音声区間が含まれるが、音声区間は、時間的に互いに分離した複数の区間から形成される。今、図13に示す如く、音声区間が時間的に互いに分離した3つの区間を含む場合を考え、3つの区間を、第1、第2及び第3の要素区間と呼ぶことにする。そして、図12に示されるような話者認識部を利用することによって、第1及び第2の要素区間に含まれる音声の発話者(話者)が登録話者と一致し、第3の要素区間に含まれる音声の発話者(話者)が登録話者と相違すると判断されたとする。以下、登録話者と相違する発話者(話者)を非登録話者と呼ぶ。 FIG. 13 shows a schematic diagram of an original audio signal assumed in this embodiment. The entire section of the original audio signal includes a voice section and a non-voice section, and the voice section is formed from a plurality of sections that are separated from each other in time. Now, as shown in FIG. 13, considering a case where a speech section includes three sections separated from each other in time, the three sections will be referred to as first, second, and third element sections. Then, by using the speaker recognition unit as shown in FIG. 12, the voice speaker (speaker) included in the first and second element sections matches the registered speaker, and the third element Assume that it is determined that the voice speaker (speaker) included in the section is different from the registered speaker. Hereinafter, a speaker (speaker) different from the registered speaker is referred to as a non-registered speaker.
本実施例で想定される特殊ファイルを、特殊ファイル400と呼び、それのデータ構造を図14に示す。図1のメモリカード13に保存される特殊ファイル400の本体領域には暗号化オーディオ信号のデータが格納され、特殊ファイル400のヘッダ領域には、音声区間情報、復号鍵情報及び権限管理情報が格納される。
A special file assumed in this embodiment is called a
特殊ファイル400の音声区間情報には、各要素区間の発話者を表す情報も含められる。今の例の場合、音声区間情報は、元オーディオ信号(又は暗号化オーディオ信号)の全区間中の何れの区間が音声区間であるかを表すだけでなく、第1及び第2の要素区間の発話者が登録話者であり且つ第3の要素区間の発話者が非登録話者であることをも表す。そして、第3実施例の如く、特殊ファイル400の権限管理情報に公開レベル情報を含めるようにし、更に、この公開レベル情報を登録話者に対応する要素区間と非登録話者に対応する要素区間とで区別して設定できるようにする。
The voice section information of the
登録話者に対応する要素区間についての公開レベル情報を登録話者用公開レベル情報と呼び、非登録話者に対応する要素区間についての公開レベル情報を非登録話者用公開レベル情報と呼ぶ。登録話者用公開レベル情報と非登録話者用公開レベル情報は、図10を参照して述べたような各公開関係と各権限との関係を規定する。ユーザは、記録装置1又はユーザPC2上で、登録話者用公開レベル情報と非登録話者用公開レベル情報を個別に設定することが可能である。また、本実施例において、サーバ3の公開管理メモリ65(図8)には、図9に示す公開管理関係情報が格納されていたものとする。
The public level information for the element section corresponding to the registered speaker is referred to as registered speaker public level information, and the public level information for the element section corresponding to the non-registered speaker is referred to as non-registered speaker public level information. The registered speaker public level information and the non-registered speaker public level information define the relationship between each public relationship and each authority as described with reference to FIG. The user can individually set the registered speaker public level information and the unregistered speaker public level information on the
仮に、登録話者(例えば、記録装置1の所持者)の音声は友人の友人までに公開されても構わないが、登録話者の周りで話している話者の会話を友人以外に公開したくない場合は、例えば、図15(a)に示す登録話者用公開レベル情報と図15(b)に示す非登録話者用公開レベル情報を設定しておく。 For example, the voice of a registered speaker (for example, the owner of the recording apparatus 1) may be disclosed to a friend of a friend, but the conversation of a speaker talking around the registered speaker is disclosed to a friend other than the friend. If not, for example, the registered speaker public level information shown in FIG. 15A and the unregistered speaker public level information shown in FIG. 15B are set.
設定された登録話者用公開レベル情報は、ユーザPC2との間で第1、第2及び第3の公開関係を有する閲覧側PCに、夫々、第1、第1及び第2の権限を与えることを指示する。この指示は、登録話者が発話していた第1及び第2の要素区間のみに対する指示である。
設定された非登録話者用公開レベル情報は、ユーザPC2との間で第1、第2及び第3の公開関係を有する閲覧側PCに、夫々、第1、第3及び第3の権限を与えることを指示する。この指示は、非登録話者が発話していた第3の要素区間のみに対する指示である。
The set registered speaker public level information gives the first, first, and second authorities to the viewing side PC having the first, second, and third public relations with the
The set public level information for the non-registered speaker gives the first, third, and third authorities to the viewing-side PC having the first, second, and third public relations with the
この設定後、特殊ファイル400を、図6のユーザPC2及び通信網4を介してサーバ3にアップロードすると、それは図8のサーバHDD64に格納される。
After this setting, when the
各閲覧用PC(101〜103)からサーバ3内の特殊ファイル400に対する送信要求が出力された際、サーバ3の主制御部61は、サーバHDD64内の特殊ファイル400の公開レベル情報と公開管理関係情報に基づいて、各閲覧用PC(101〜103)に与えられるべき権限を認識する。そして、認識した権限と特殊ファイル400の音声区間情報に基づいて、各閲覧用PCに対する送信内容を制御する。
When a transmission request for the
今の例の場合、主制御部61は、閲覧用PC101に対しては、第1〜第3の要素区間の全てに関して第1の権限を与える。このため、第1〜第3の要素区間における暗号化オーディオ信号を全て正しく復号し、復号後のオーディオ信号(即ち、元オーディオ信号の全て)を閲覧用PC101に送信する。
In the case of the present example, the
主制御部61は、閲覧用PC102に対しては、第1及び第2の要素区間に関して第1の権限を与える一方、第3の要素区間に関しては第3の権限を与える。このため、第1及び第2の要素区間における暗号化オーディオ信号を正しく復号し、第1及び第2の要素区間における元オーディオ信号を閲覧用PC102に送信する。但し、第3の要素区間に関しては、元オーディオ信号の代わりに発話内容が特定できないような信号を閲覧用PC102に送信する(図11(c)参照)。閲覧用PC103に対しても、これらに準じた送信制御がなされる。また、非音声区間については、第3実施例と同様、記録時におけるオーディオ信号と同じオーディオ信号が各閲覧用PC(101〜103)に送信される。
The
上述の如く処理することにより、発話者に応じた公開制御が可能となり、きめ細かなプライバシー保護が可能となる。 By performing the processing as described above, it is possible to perform public control according to the speaker, and fine privacy protection is possible.
尚、登録話者が複数である場合は、登録話者ごとに公開レベル情報を設定できるようにするとよい。 When there are a plurality of registered speakers, public level information may be set for each registered speaker.
[複数の非登録話者間の区別]
また、非登録話者が複数である場合も、非登録話者ごとに公開レベル情報を設定できるようにするとよい。これについて説明を加える。今、非登録話者として、互いに異なる第1及び第2の非登録話者が存在していた場合を想定する。また、登録話者を無視して考える。この場合、本実施例に係る話者認識部は、音声区間における発話者が第1と第2の非登録話者の何れであるかを区別する。この区別の手法に対して、公知の手法を適用可能である。例えば、話者認識時において、マイク11部からの元オーディオ信号に含まれる認識対象話者(現在の話者)の音声を特徴量抽出部71に供給し、認識対象話者が発生した文章などの音声に含まれる、ケプストラムやピッチ等の特徴量を特徴量抽出部71にて抽出する。この特徴量に基づけば、話者認識部は、或る区間における発話者と他の区間における発話者が同一であるか否かを判別可能である。
[Distinction between multiple unregistered speakers]
Even when there are a plurality of non-registered speakers, it is preferable that public level information can be set for each non-registered speaker. This will be explained. Assume that there are first and second unregistered speakers different from each other as unregistered speakers. Also, ignore the registered speaker. In this case, the speaker recognition unit according to the present embodiment distinguishes whether the speaker in the voice section is the first or second non-registered speaker. A known technique can be applied to this distinction technique. For example, at the time of speaker recognition, the speech of the recognition target speaker (current speaker) included in the original audio signal from the
今の例でも、上述の第1〜第3の要素区間を想定する(図13参照)。そして例えば、話者認識部によって、第1及び第2の要素区間における音声の発話者が同一であり、且つ、第1及び第2の要素区間における音声の発話者と第3の要素区間における音声の発話者が異なる、と判断されたとする。そうすると、話者認識部によって、第1及び第2の要素区間に含まれる音声の発話者が第1の非登録話者であり、第3の要素区間に含まれる音声の発話者が第2の非登録話者であると判断されることになる。 Also in the present example, the above-described first to third element sections are assumed (see FIG. 13). And, for example, the speaker recognizer has the same voice speaker in the first and second element sections, and the voice speaker in the first and second element sections and the voice in the third element section. Suppose that the speakers are different. Then, by the speaker recognition unit, the voice speaker included in the first and second element sections is the first non-registered speaker, and the voice speaker included in the third element section is the second speaker. It is determined that the speaker is an unregistered speaker.
そして、特殊ファイル400(図14参照)の音声区間情報に、各要素区間の発話者を表す情報を含めるようにする。今の例の場合、音声区間情報は、元オーディオ信号(又は暗号化オーディオ信号)の全区間中の何れの区間が音声区間であるかを表すだけでなく、第1及び第2の要素区間の発話者が第1の非登録話者であり且つ第3の要素区間の発話者が第2の非登録話者であることをも表す。そして、第3実施例の如く、特殊ファイル400の権限管理情報に公開レベル情報を含めるようにし、更に、この公開レベル情報を発話者ごとに区別して設定できるようにする(換言すれば、公開レベル情報を第1の非登録話者に対応する要素区間と第2の非登録話者に対応する要素区間とで区別して設定できるようにする)。
Then, information representing the speaker in each element section is included in the voice section information of the special file 400 (see FIG. 14). In the case of the present example, the voice section information not only indicates which section of all sections of the original audio signal (or encrypted audio signal) is the voice section, but also the first and second element sections. It also represents that the speaker is the first unregistered speaker and the speaker in the third element section is the second unregistered speaker. Then, as in the third embodiment, the public level information is included in the authority management information of the
今の例の場合、第1及び第2の非登録話者に対する公開レベル情報として、夫々、第1及び第2の非登録話者用公開レベル情報が設けられる。第1の非登録話者用公開レベル情報は、第1の非登録話者が発話していた第1及び第2の要素区間に対する公開レベル情報として取り扱われ、第2の非登録話者用公開レベル情報は、第2の非登録話者が発話していた第3の要素区間に対する公開レベル情報として取り扱われる。ユーザは、記録装置1又はユーザPC2上で、第1及び第2の非登録話者用公開レベル情報を個別に設定することが可能である。この設定内容に従ったサーバ3の動作は、上述したものと同様である。
In the case of the present example, as public level information for the first and second non-registered speakers, first and second non-registered speaker public level information are provided, respectively. The first public level information for non-registered speakers is treated as public level information for the first and second element sections spoken by the first non-registered speaker, and is disclosed for the second non-registered speaker. The level information is handled as public level information for the third element section spoken by the second non-registered speaker. The user can individually set the first and second unregistered speaker public level information on the
尚、非登録話者ごとに公開レベル情報を設定するという手法は、登録話者と非登録話者とを区別する手法と切り離して実施することが可能である。 Note that the method of setting the public level information for each non-registered speaker can be performed separately from the method of distinguishing the registered speaker from the non-registered speaker.
[音源分離]
また、実際の会話では、同一区間において複数の発話者が存在することもある(同時に複数の人間が発話することがある)。これを考慮し、上述してきた内容に、音源分離処理を組み合わせるようにしてもよい。これについて説明する。
[Sound source separation]
In an actual conversation, there may be a plurality of speakers in the same section (a plurality of people may speak at the same time). In consideration of this, the above-described content may be combined with sound source separation processing. This will be described.
複数の発話者が同時に発話している区間に対して音源分離処理を適用することにより、その区間内における各発話者を区別して認識することが可能となる。音源分離処理では、互いに異なる発話者を互いに異なる音源として捉える。音源分離を行うためには、例えば、図1のマイク部11を互いに異なる位置に配置された複数のマイクロホンにて形成するようにし、各マイクロホンの出力信号間の遅延量や各マイクロホンの出力信号間の信号レベル差などから音源を分離する。音源分離の処理内容自体は公知であるため、詳細な説明を割愛する。音源を分離することができれば、互いに異なる複数の発話者を分離して認識することができる。
By applying sound source separation processing to a section in which a plurality of speakers are speaking at the same time, it is possible to distinguish and recognize each speaker in the section. In the sound source separation process, different speakers are regarded as different sound sources. In order to perform sound source separation, for example, the
例えば、図13における第1の要素区間において、第1の発話者と第2の発話者が同時に発話していた場合を考える。第1及び第2の発話者がそれぞれ第1及び第2の音源であると想定する。また、第1及び第2の発話者の音声をそれぞれ第1及び第2の音声と呼ぶ。この場合、本実施例に係る話者認識部は、第1の要素区間に対して音源分離処理を施し、これによって音源を分離する。つまり、第1の要素区間に含まれる、第1の音源からの第1の音声(第1の音声の信号成分)と第2の音源からの第2の音声(第2の音声の信号成分)を分離する。この後、話者認識部は、分離によって得られた各音声に対して上述してきた話者認識を行う。 For example, consider a case where the first speaker and the second speaker are speaking simultaneously in the first element section in FIG. Assume that the first and second speakers are first and second sound sources, respectively. The voices of the first and second speakers are referred to as first and second voices, respectively. In this case, the speaker recognition unit according to the present embodiment performs sound source separation processing on the first element section, thereby separating the sound sources. That is, the first sound from the first sound source (the signal component of the first sound) and the second sound from the second sound source (the signal component of the second sound) included in the first element section. Isolate. Thereafter, the speaker recognition unit performs the above-described speaker recognition for each voice obtained by the separation.
図13の第2及び第3の要素区間に対しても同様の処理を行う。これにより、例えば、第1の要素区間において第1及び第2の非登録話者が発話しており、第2の要素区間において第1の非登録話者のみが発話しており、第3の要素区間において第2の非登録話者のみが発話していると判断された場合を想定する。この判断結果は、特殊ファイル400(図14参照)の音声区間情報に含められる。そして、第3実施例の如く、特殊ファイル400の権限管理情報に公開レベル情報を含めるようにし、更に、この公開レベル情報を発話者ごとに区別して設定できるようにする。
Similar processing is performed for the second and third element sections in FIG. Thus, for example, the first and second non-registered speakers are speaking in the first element interval, only the first non-registered speaker is speaking in the second element interval, and the third Assume that it is determined that only the second unregistered speaker is speaking in the element section. This determination result is included in the audio section information of the special file 400 (see FIG. 14). Then, as in the third embodiment, the public level information is included in the authority management information of the
今の例の場合、第1及び第2の非登録話者に対する公開レベル情報として、夫々、第1及び第2の非登録話者用公開レベル情報が設けられる。第1の非登録話者用公開レベル情報は、第1の非登録話者が発話していた第1及び第2の要素区間に対する公開レベル情報として取り扱われ、第2の非登録話者用公開レベル情報は、第2の非登録話者が発話していた第1及び第3の要素区間に対する公開レベル情報として取り扱われる。ユーザは、記録装置1又はユーザPC2上で、第1及び第2の非登録話者用公開レベル情報を個別に設定することが可能である。
In the case of the present example, as public level information for the first and second non-registered speakers, first and second non-registered speaker public level information are provided, respectively. The first public level information for non-registered speakers is treated as public level information for the first and second element sections spoken by the first non-registered speaker, and is disclosed for the second non-registered speaker. The level information is handled as public level information for the first and third element sections spoken by the second unregistered speaker. The user can individually set the first and second unregistered speaker public level information on the
この設定内容に従ったサーバ3の動作は、上述したものと同様であるが、第1の要素区間に対しては、第1及び第2の非登録話者用公開レベル情報が競合するため、どちらか一方が優先して使用される。例えば、第1の非登録話者用公開レベル情報が「ユーザPC2との間で第3の公開関係を有する閲覧側PCに、第1の権限を与えることを指示」している一方で、第2の非登録話者用公開レベル情報が「ユーザPC2との間で第3の公開関係を有する閲覧側PCに、第3の権限を与えることを指示」している場合において、ユーザPC2との間で第3の公開関係を有する閲覧用PC103がサーバ3内の特殊ファイル400に対する送信要求をサーバ3に対して出力した際、サーバ3は以下のように動作する。
The operation of the
サーバ3は、第1の非登録話者用公開レベル情報が指示する第1の権限と、第2の非登録話者用公開レベル情報が指示する第3の権限と、を比較し、権限を表す数値の大きい方を選択する。今の例の場合、第3の権限を選択されることになる。従って、サーバ3は、第1の要素区間に関しては、元オーディオ信号の代わりに発話内容が特定できないような信号を閲覧用PC103に送信する(図11(c)参照)。このように処理することにより、第2の非登録話者のプライバシーが適切に保護される。
The
<<第5実施例>>
次に、第5実施例について説明する。図1の記録装置1に再生機能を付加することにより、オーディオ信号記録再生装置を形成することができる。図16に、オーディオ信号記録再生装置6(以下、「記録再生装置6」と略記する)の内部ブロック図を示す。記録再生装置6は、図1の記録装置1を含み、更にオーディオ信号処理部16及びスピーカを含む再生出力部17を備える。記録再生装置6に含まれる記録装置1は、上述の各実施例で述べたそれと同じものである。
<< 5th Example >>
Next, a fifth embodiment will be described. By adding a reproduction function to the
再生時において、オーディオ信号処理部16は、主制御部14の制御の下、メモリカード13に保存されている特殊ファイルから暗号化オーディオ信号と復号用情報を読み出し、復号用情報に基づいて暗号化オーディオ信号を復号することにより元オーディオ信号を復元する。そして、復元した元オーディオ信号を再生出力部17に与えることにより、再生出力部17から元オーディオ信号が再生出力される。
At the time of reproduction, the audio
<<第6実施例>>
次に、第6実施例について説明する。図16の記録再生装置6に撮影機能を付加することにより、撮像装置を形成することができる。図17に、撮像装置7の内部ブロック図を示す。撮像装置7は、図16の記録再生装置6を含み、更に、撮像部18、映像信号処理部19及び表示部20を備える。撮像装置7は、静止画像又は動画像を撮影可能なデジタルビデオカメラである。
<< Sixth Example >>
Next, a sixth embodiment will be described. An imaging device can be formed by adding a photographing function to the recording / reproducing
撮像部18は、CCD(Charge Coupled Devices)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等からなる撮像素子と、光学系と、絞りとを含み、被写体の光学像を電気信号に変換することによって該光学像に応じた画像を取得する。映像信号処理部19は、取得された画像を表す映像信号を生成し、映像信号に所定の圧縮処理を施してからメモリカード13に送る。静止画像又は動画像の撮影及び記録時において、映像信号処理部19からの映像信号はメモリカード13に記録される。
The
特に、動画像の撮影及び記録時には、オーディオ信号処理部12にて生成された暗号化オーディオ信号と映像信号処理部19からの映像信号(即ち、撮像部18にて取得された画像に応じた画像データ)が互いに関連付けられて1つのファイルに格納される。つまり、上述してきた特殊ファイルの本体領域内に暗号化オーディオ信号と映像信号が格納される。この際、オーディオ信号に対するプライバシー保護手法に関連して、特殊ファイルに格納される画像データに対しても何らかの加工処理を施しておいても良い(例えば、顔領域にモザイク処理等を施してから特殊ファイルに保存する)。
In particular, when capturing and recording a moving image, the encrypted audio signal generated by the audio
表示部20は、撮像部18による現時点の取得画像又はメモリカード13に記録された映像信号によって表される画像を表示する。
The
尚、撮像装置7から、オーディオ信号処理部16及び再生出力部17を省くことも可能である。
Note that the audio
<<第7実施例>>
次に、第7実施例について説明する。第7実施例では、通信網4などを介して公開する予定がないオーディオ信号に対してプライバシーの保護を図る手法を説明する。
<< Seventh Embodiment >>
Next, a seventh embodiment will be described. In the seventh embodiment, a method for protecting privacy for an audio signal that is not scheduled to be disclosed via the communication network 4 will be described.
複数の記録再生装置間におけるプライバシーの保護手法を説明する。今、図18に示す如く、2台の記録再生装置6及び6aがあったとする。図18における記録再生装置6は、図16に示すそれと同じものである。記録再生装置6aは、記録再生装置6と同一の構成を有する記録再生装置である。記録再生装置6aの内部ブロック図は、図16のそれと同じであるため、重複する図示を省略する。
A method for protecting privacy between a plurality of recording / reproducing apparatuses will be described. Assume that there are two recording / reproducing
記録再生装置6及び6aを含む各記録再生装置には、互いに異なる固有コードが割り振られている。この固有コードは、例えば、各記録再生装置に割り当てられたシリアル番号である。例えば、各記録再生装置の出荷時において、記録再生装置(6又は6a)の内部に設けられた不揮発性メモリ(不図示)に上記の固有コードを保存しておく。今、記録再生装置6に割り当てられた固有コードを第1の固有コードと呼び、記録再生装置6aに割り当てられた固有コードを第2の固有コードと呼ぶ。上述の説明から明らかなように、第1の固有コードと第2の固有コードは互いに異なる。
Different recording codes are allocated to the recording / reproducing apparatuses including the recording / reproducing
本実施例において、特殊ファイルの権限管理情報は認証コードを含み、ユーザは該認証コードを変更できないものとする。そして、各記録再生装置(6、6a)は、自身に割り当てられた固有コードを認証コードとして特殊ファイルのヘッダ領域内に書き込むものとする。 In the present embodiment, it is assumed that the authority management information of the special file includes an authentication code, and the user cannot change the authentication code. Each recording / reproducing device (6, 6a) writes the unique code assigned to it in the header area of the special file as an authentication code.
また、本実施例において、各記録再生装置(6、6a)には特殊ファイルに対する閲覧用ソフトウェアが導入されており、各記録再生装置(6、6a)は該閲覧用ソフトウェア上で特殊ファイル内のデータを読み出すものとする(該閲覧用ソフトウェアを用いることなく、特殊ファイル内のデータを読み出すことができないとする)。閲覧用ソフトウェアは、図16の主制御部14上で動作する。
In the present embodiment, each recording / playback device (6, 6a) is installed with browsing software for a special file, and each recording / playback device (6, 6a) is stored in the special file on the browsing software. Data is read (assuming that data in a special file cannot be read without using the browsing software). The browsing software operates on the
そして、今、記録再生装置6において、元オーディオ信号が取得され、その元オーディオ信号に対応する特殊ファイル430が記録再生装置6のメモリカード13に保存された場合を考える(図18参照)。特殊ファイル430は図2の特殊ファイル300と同様のデータ構造を有しているが、特殊ファイル430のヘッダ領域には、記録再生装置6に割り当てられた第1の固有コードが認証コードとして書き込まれることになる。
Now, consider a case where the original audio signal is acquired in the recording / reproducing
閲覧用ソフトウェアは、特殊ファイル430のヘッダ領域に書き込まれた認証コードと当該閲覧用ソフトウェアが導入された記録再生装置の固有コードとを照合し、両者の一致が確認された場合にのみ、復号用情報に基づいて特殊ファイル430内の暗号化オーディオ信号を復号し、この復号によって得られた元オーディオ信号を当該閲覧用ソフトウェアが導入された記録再生装置にて再生出力させる。尚、認証コードと固有コードとの照合を行う照合部と、その照合結果に基づく暗号化オーディオ信号の復号及び元オーディオ信号の再生出力に対する許可/禁止を判別する判別部は、主制御部14によって実現されることになる。
The browsing software collates the authentication code written in the header area of the
具体的には、記録再生装置6において以下のような動作が行われる。記録再生装置6のユーザが特殊ファイル430に対応するオーディオ信号を再生出力しようとする場合、再生出力を指示する操作を操作部15に対して行う。この操作がなされると、閲覧用ソフトウェア(即ち、記録再生装置6の主制御部14)が特殊ファイル430のヘッダ領域に書き込まれた認証コードをメモリカード13から読み出すと共に記録再生装置6に割り当てられた固有コードを上記不揮発性メモリ等から読み出し、読み出した認証コードと固有コードを照合する。今の場合、両者が一致しているため、閲覧用ソフトウェア(即ち、記録再生装置6の主制御部14)は暗号化オーディオ信号の復号及び元オーディオ信号の再生出力を許可する。従って、記録再生装置6のオーディオ信号処理部16にて特殊ファイル430内の暗号化オーディオ信号が復号されて、復号によって得られた元オーディオ信号が記録再生装置6の再生出力部17から再生出力される。
Specifically, the following operation is performed in the recording / reproducing
一方、特殊ファイル430を格納したメモリカード13を記録再生装置6aに装着し、記録再生装置6aのユーザが特殊ファイル430に対応するオーディオ信号を再生出力しようとした場合は、記録再生装置6aにおいて以下のような動作が行われる。記録再生装置6aにおいて、再生出力を指示する操作がなされると、閲覧用ソフトウェア(即ち、記録再生装置6aの主制御部14)が特殊ファイル430のヘッダ領域に書き込まれた認証コードをメモリカード13から読み出すと共に記録再生装置6aに割り当てられた固有コードを上記不揮発性メモリ等から読み出し、読み出した認証コードと固有コードを照合する。今の場合、両者は一致していないため、閲覧用ソフトウェア(即ち、記録再生装置6aの主制御部14)は暗号化オーディオ信号の復号及び元オーディオ信号の再生出力を禁止する。この場合、例えば、暗号化オーディオ信号をそのまま記録再生装置6aの再生出力部17に与える。このようにすれば、記録再生装置6aのユーザは、音声区間における人の音声を聞き取ることができない。或いは、オーディオ信号を一切再生出力部17に与えないようにしてもよい。
On the other hand, when the
尚、記録再生装置6及び6aの内、記録再生装置6においてのみ、暗号化オーディオ信号の復号の許可/禁止に対する、上述のような処理を解除可能としておくとよい。この解除は、閲覧用ソフトウェア上で、認証コードと固有コードとの合致を条件として実行される(従って、記録再生装置6aでは実行できない)。この解除を指示する操作が記録再生装置6に対してなされた後は、特殊ファイル430に対応する元オーディオ信号の復元及び再生出力を記録再生装置6a上でも行うことが可能となる。
Of the recording / reproducing
また、複数の記録再生装置間の動作について説明したが、記録再生装置を含む複数の撮像装置間でも同様の動作を行うことができる。 Moreover, although the operation | movement between several recording / reproducing apparatuses was demonstrated, the same operation | movement can also be performed between several imaging devices containing a recording / reproducing apparatus.
次に、上記の特殊ファイル430を例にとりつつ、PC上におけるプライバシー保護手法を説明する。今、図19に示す如く、ユーザPC2の他に、ユーザPC2とは異なるパーソナルコンピュータ2a(以下、PC2aという)があったとする。PC2aは、ユーザPC2と同一の構成を有する。PC2aの内部ブロック図は、図7のそれと同じであるため、重複する図示を省略する。特殊ファイル430は、ユーザPC2とPC2aに提供される。
Next, a privacy protection method on the PC will be described using the
本実施例において、ユーザPC2及びPC2aには特殊ファイルに対する専用ソフトウェアが導入されており、ユーザPC2及びPC2aを含む、特殊ファイルにアクセス可能な再生機器(オーディオ信号再生装置)は、その専用ソフトウェア上でしか特殊ファイル内の各データの読み出し及び編集ができないものとする。専用ソフトウェアを表すプログラムは、ハードディスク等から成る図7のメモリ48に格納され、専用ソフトウェアは主制御部41上で動作する。 In the present embodiment, dedicated software for special files is introduced into the user PC2 and PC2a, and playback devices (audio signal playback devices) including the user PC2 and PC2a that can access the special file are on the dedicated software. However, it is assumed that each data in the special file cannot be read and edited. The program representing the dedicated software is stored in the memory 48 of FIG.
専用ソフトウェアには、PC用登録コードを登録可能である。この登録は、専用ソフトウェアを再生機器(例えば、ユーザPC2及びPC2a)に導入する際に行われる。記録再生装置6及びユーザPC2のユーザは、ユーザPC2に専用ソフトウェアを導入する際に、記録再生装置6に割り当てられた第1の固有コードをユーザPC2に与えることにより、第1の固有コードをPC用登録コードとしてユーザPC2の専用ソフトウェア上に登録する。一方、記録再生装置6a及びPC2aのユーザは、PC2aに専用ソフトウェアを導入する際に、記録再生装置6aに割り当てられた第2の固有コードをPC2aに与えることにより、第2の固有コードをPC用登録コードとしてPC2aの専用ソフトウェア上に登録する。第1の固有コードは、記録再生装置6a及びPC2aのユーザにとって不明である。
A PC registration code can be registered in the dedicated software. This registration is performed when the dedicated software is introduced into the playback device (for example, the
専用ソフトウェアは、特殊ファイル430のヘッダ領域に書き込まれた認証コード(今の例の場合、第1の固有コード)と当該専用ソフトウェアに登録されたPC用登録コードとを照合し、両者の一致が確認された場合にのみ、特殊ファイル430内の暗号化オーディオ信号を復号して、復号によって得られた元オーディオ信号を当該専用ソフトウェアが導入された再生機器の再生出力部から再生出力させる。尚、暗号化オーディオ信号の復号は、例えば、図7のオーディオ信号処理部42(復号処理部)によって実施される。また、認証コードとPC用登録コードとの照合を行う照合部と、その照合結果に基づく暗号化オーディオ信号の復号及び元オーディオ信号の再生出力に対する許可/禁止を判別する判別部は、主制御部41によって実現されることになる。
The dedicated software collates the authentication code written in the header area of the special file 430 (in this case, the first unique code) with the registration code for PC registered in the dedicated software. Only when it is confirmed, the encrypted audio signal in the
具体的には、ユーザPC2において以下のような動作が行われる。ユーザPC2のユーザが特殊ファイル430に対応するオーディオ信号を再生出力しようとする場合、再生出力を指示する操作をPC操作キー47に対して行う。この操作がなされると、専用ソフトウェア(即ち、ユーザPC2の主制御部41)が特殊ファイル430のヘッダ領域に書き込まれた認証コードとユーザPC2の専用ソフトウェアに登録されたPC用登録コードを照合する。今の場合、両者が一致しているため、専用ソフトウェア(即ち、ユーザPC2の主制御部41)は暗号化オーディオ信号の復号及び元オーディオ信号の再生出力を許可する。従って、ユーザPC2において特殊ファイル430内の暗号化オーディオ信号が復号されて、復号によって得られた元オーディオ信号がユーザPC2の再生出力部46から再生出力される。また、ユーザPC2において、元オーディオ信号の編集も許可される。
Specifically, the following operation is performed in the
一方、PC2aのユーザが特殊ファイル430に対応するオーディオ信号を再生出力しようとした場合は、PC2aにおいて以下のような動作が行われる。PC2aのユーザは、その再生出力を指示する操作をPC2aのPC操作キー47に対して行う。この操作がなされると、専用ソフトウェア(即ち、PC2aの主制御部41)が特殊ファイル430のヘッダ領域に書き込まれた認証コードとPC2aの専用ソフトウェアに登録されたPC用登録コードを照合する。今の場合、両者は一致していないため、専用ソフトウェア(即ち、PC2aの主制御部41)は暗号化オーディオ信号の復号及び元オーディオ信号の再生出力を禁止する。この場合、例えば、暗号化オーディオ信号をそのままPC2aの再生出力部46に与える。このようにすれば、PC2aのユーザは、音声区間における人の音声を聞き取ることができない。或いは、オーディオ信号を一切再生出力部46に与えないようにしてもよい。
On the other hand, when the user of the
尚、ユーザPC2及びPC2aの内、ユーザPC2においてのみ、暗号化オーディオ信号の復号の許可/禁止に対する、上述のような処理を解除可能としておくとよい。この解除は、専用ソフトウェア上で、認証コードとPC用登録コードとの合致を条件として実行される(従って、PC2aでは実行できない)。この解除を指示する操作がユーザPC2に対してなされた後は、特殊ファイル430に対応する元オーディオ信号の復元及び再生出力をPC2a上でも行うことが可能となる。
It should be noted that only the user PC2 out of the user PC2 and PC2a may be able to cancel the processing as described above for permission / prohibition of decryption of the encrypted audio signal. This cancellation is executed on the dedicated software on condition that the authentication code matches the PC registration code (and therefore cannot be executed by the
上述のように処理することで、記録再生装置6又はユーザPC2以外では元オーディオ信号は再生出力されなくなるため、メモリカード13が紛失又は盗難されたり、コンピュータウイルスやファイル交換ソフトの悪用等によってネット経由で特殊ファイル430が流出した場合でも、プライバシーが保護される。
By performing the processing as described above, the original audio signal is not reproduced and output except for the recording / reproducing
<<第8実施例>>
上述の各実施例にて生成された特殊ファイルは、メモリカード13以外の記録媒体にコピー(複製)される可能性があるが、このコピーに対して、プライバシー保護を図る仕組みを導入することもできる。本実施例では、特殊ファイルを特定の複製用ソフトウェア上でしかコピーできないものとする。複製用ソフトウェアは、例えば、ユーザPC2に導入され、ユーザPC2上で動作する。
<< Eighth Example >>
The special file generated in each of the above-described embodiments may be copied (replicated) to a recording medium other than the
本実施例において、特殊ファイルの権限管理情報は権限レベル情報を含み、ユーザは権限レベル情報を変更できないものとする。図1の記録装置1、図16の記録再生装置6又は図17の撮像装置7上で作成された特殊ファイルに対し、ユーザは、パスワードとしての認証コードを付与することができる。この付与は、記録装置1、記録再生装置6若しくは撮像装置7又はユーザPC2上で行われる。その付与が行われた後の特殊ファイル500のデータ構造を図20に示す。尚、認証コードの付与は必須ではない。
In this embodiment, it is assumed that the authority management information of the special file includes authority level information, and the user cannot change the authority level information. The user can give an authentication code as a password to the special file created on the
特殊ファイル500のヘッダ領域には、音声区間情報、復号鍵情報及び権限管理情報が格納され、その権限管理情報に、上記の権限レベル情報及び認証コードが含まれることになる。特殊ファイル500の本体領域には、暗号化オーディオ信号のデータが格納される。権限レベル情報は、複数段階に分類された権限レベルの何れかを示す。今、権限レベル情報は「1」、「2」又は「3」の何れかの値をとり、権限レベルが3段階で分類されるものとする。勿論、権限レベルを3段階以外の段階数で分類しても構わない。権限レベル情報が「1」である時に権限レベルは最も高く、権限レベル情報の数値が大きくなるにつれて権限レベルが低くなるものとする。
The header area of the
権限レベル情報は、当初「1」となっている。つまり、特殊ファイル500が作成されてメモリカード13に保存される際、権限レベル情報として「1」が書き込まれる。
The authority level information is initially “1”. That is, when the
複製用ソフトウェア上で特殊ファイル500を複製する時、権限レベル情報だけは複製元の特殊ファイルのそれから変更される。具体的には、複製元の特殊ファイルにおける権限レベル情報の数値に対して複製先の特殊ファイルにおける権限レベル情報の数値を1以上大きくする。例えば、複製元の特殊ファイルにおける権限レベル情報が「1」であるとき、複製先の特殊ファイルにおける権限レベル情報は「2」とされ、複製元の特殊ファイルにおける権限レベル情報が「2」であるとき、複製先の特殊ファイルにおける権限レベル情報は「3」とされる。但し、複製しようとするユーザが複製用ソフトウェアが導入された機器(例えばユーザPC2)に対して上記の認証コードを与えた上で複製を行った場合は、権限レベル情報の変更は行われないものとする。
When the
本実施例において、記録再生装置6及び撮像装置7並びにユーザPC2を含む、特殊ファイル500にアクセス可能な再生機器(オーディオ信号再生装置)は、権限レベル情報に応じた再生制御を行う。説明の具体化のため、再生機器が、ユーザPC2である場合を考える。
In the present embodiment, playback devices (audio signal playback devices) that can access the
例えば、特殊ファイルに対応するオーディオ信号を再生出力するように指示された際、ユーザPC2は自身に与えられた特殊ファイル500内の権限レベル情報を参照する。そして、権限レベル情報に応じて、以下のような動作を行う。
For example, when instructed to reproduce and output an audio signal corresponding to a special file, the
権限レベル情報が「1」の時、ユーザPC2は、特殊ファイル500内の復号用情報に基づいて特殊ファイル500内の暗号化オーディオ信号の復号を行い、復号によって得られた元オーディオ信号をユーザPC2の再生出力部46にて再生出力する。
When the authority level information is “1”, the
権限レベル情報が「2」の時、ユーザPC2は、復号用情報に基づいて暗号化オーディオ信号から元オーディオ信号を復元した後、音声区間情報に基づきつつ音声区間における元オーディオ信号に所定の加工処理を施し、音声区間における発話者が特定できないような第1加工オーディオ信号を作成する。この第1加工オーディオ信号は、第3実施例で述べたそれと同様のものであり、第3実施例で述べた手法にてそれを作成することができる(図11(b)参照)。そして、その第1加工オーディオ信号をユーザPC2の再生出力部46にて再生出力する。
When the authority level information is “2”, the
権限レベル情報が「3」の時、ユーザPC2は、特殊ファイル500内の暗号化オーディオ信号を読み出し、その暗号化オーディオ信号と音声区間情報に基づいて、音声区間における発話内容が特定できないような第2加工オーディオ信号を作成する。この第2加工オーディオ信号は、第3実施例で述べたそれと同様のものであり、第3実施例で述べた手法にてそれを作成することができる(図11(c)参照)。そして、その第2加工オーディオ信号をユーザPC2の再生出力部46にて再生出力する。
When the authority level information is “3”, the
複製された特殊ファイルを含む記録媒体は、最初は知人や家族に渡されるが、その先々で不特定の人間に行き渡ることもある。これを考慮し、上述の如く、コピーを繰り返す度に権限レベル情報を変更していく(再生に関する権限レベルを低下させていく)。これにより、最終的に、複製された特殊ファイルでは音声が再生されないようになる。結果、不特定の人間に音声情報が流通する可能性が抑制され、プライバシーの保護が図られる。また、パスワードとしての認証コードを利用することで、権限レベルを維持したままでのコピーも可能である。認証コードを利用すれば、知人や家族などに対しては同じ特殊ファイルを配布すること可能である。 The recording medium containing the copied special file is initially delivered to an acquaintance or family, but may be passed on to unspecified people. Considering this, as described above, the authority level information is changed each time copying is repeated (the authority level related to reproduction is lowered). As a result, the sound is not reproduced in the copied special file. As a result, the possibility of voice information being distributed to unspecified persons is suppressed, and privacy can be protected. Further, by using an authentication code as a password, copying can be performed while maintaining the authority level. By using an authentication code, it is possible to distribute the same special file to acquaintances and family members.
<<変形等>>
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈1〜注釈4を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。
<< Deformation, etc. >>
The specific numerical values shown in the above description are merely examples, and as a matter of course, they can be changed to various numerical values. As modifications or annotations of the above-described embodiment, notes 1 to 4 are described below. The contents described in each comment can be arbitrarily combined as long as there is no contradiction.
[注釈1]
上述の各実施例では、音声区間の元オーディオ信号に対してのみ暗号化処理を施し、非音声区間の元オーディオ信号に対しては暗号化処理を施さないと述べたが、暗号化処理を音声区間と非音声区間の双方の元オーディオ信号に対して施すようにしても構わない。この場合においても、例えば、非音声区間に関しては、権限管理情報の如何によらず記録時の元オーディオ信号が再生機器側で再生出力されるようにする。
[Note 1]
In each of the above-described embodiments, it is described that only the original audio signal in the speech section is encrypted and the original audio signal in the non-speech section is not subjected to the encryption process. You may make it apply with respect to the original audio signal of both the area and a non-voice area. Also in this case, for example, with respect to the non-speech section, the original audio signal at the time of recording is reproduced and output on the reproduction device side regardless of the authority management information.
[注釈2]
暗号化オーディオ信号を復号する時に音声区間情報を利用する例を説明したが、この音声区間情報を利用して早送り再生等を実施することも可能である。例えば、暗号化オーディオ信号から元オーディオ信号を復号した後、音声区間情報に基づいて元オーディオ信号の全区間の内の音声区間における信号を切り出し、その切り出した部分の信号のみを再生出力することで早送り再生が可能となる。また例えば、その切り出した部分の信号を非音声区間にまで伸張して、音声をゆっくり再生することもできる。
[Note 2]
Although an example in which voice segment information is used when decrypting an encrypted audio signal has been described, fast-forward playback or the like can be performed using this voice segment information. For example, after decrypting the original audio signal from the encrypted audio signal, the signal in the voice section of all sections of the original audio signal is cut out based on the voice section information, and only the signal of the cut out part is reproduced and output. Fast forward playback is possible. In addition, for example, it is also possible to reproduce the sound slowly by extending the extracted signal to the non-speech section.
[注釈3]
図1の記録装置1、図16の記録再生装置6及び図17の撮像装置7は、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。特に、主制御部14、オーディオ信号処理部12及び16の各機能は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせによって実現可能である。
[Note 3]
The
図7のユーザPC2及び図8のサーバ3も、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。特に、図7の主制御部41の機能及び図8の主制御部61の機能は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせによって実現可能である。ソフトウェアを用いて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。
The
[注釈4]
例えば、以下のように考えることができる。図1等に示される主制御部14は、特殊ファイルをメモリカード13に記録する記録制御手段としての機能を備える。図7のユーザPC2において、カードスロット44は、特殊ファイルを受け取るためのファイル入力手段として機能しうる。勿論、特殊ファイルを有線又は無線の通信によってユーザPC2に提供することもできる。上述してきた特殊ファイルは、勿論、電子ファイルであり、その電子ファイルには、オーディオ信号のデータだけでなく画像データも格納されうる。
[Note 4]
For example, it can be considered as follows. The
1 オーディオ信号記録装置
2 ユーザPC
3 サーバ
6 オーディオ信号記録再生装置
7 撮像装置
101、102、103 閲覧用PC
1 Audio
3
Claims (12)
入力された元オーディオ信号の全区間から人の音声の信号成分が含まれている音声区間を検出する音声区間検出手段と、
前記元オーディオ信号の内の、前記音声区間における信号に対して暗号化処理を施すことにより、前記元オーディオ信号から暗号化オーディオ信号を生成する暗号化手段と、
前記暗号化オーディオ信号と、前記暗号化オーディオ信号を復号するための復号用情報と、を互いに関連付けて格納した電子ファイルを記録手段に記録する記録制御手段と、を備えた
ことを特徴とするオーディオ信号記録装置。 In an audio signal recording device,
Speech section detecting means for detecting a speech section including a signal component of human speech from all sections of the input original audio signal;
Encryption means for generating an encrypted audio signal from the original audio signal by performing an encryption process on the signal in the voice section of the original audio signal;
An audio comprising: recording control means for recording an electronic file in which the encrypted audio signal and decryption information for decrypting the encrypted audio signal are stored in association with each other in a recording means Signal recording device.
ことを特徴とする請求項1に記載のオーディオ信号記録装置。 The recording control means includes authority management information for switching permission / prohibition for decrypting the encrypted audio signal according to the decryption information and reproducing and outputting the original audio signal obtained by the decryption, 2. The audio signal recording apparatus according to claim 1, wherein the audio signal recording apparatus is further stored in the electronic file in association with the encrypted audio signal and the decryption information.
ことを特徴とする請求項1または請求項2に記載のオーディオ信号記録装置。 The audio signal recording apparatus according to claim 1 or 2, wherein the decoding information includes voice section information indicating which section of the whole section is the voice section.
当該オーディオ信号記録装置は、前記音声の発話者と予め登録された登録話者との一致又は不一致を要素区間ごとに判別する話者認識手段を更に備え、
前記復号用情報は、前記全区間中の何れの区間が前記音声区間であるかを表すとともに各要素区間に対する前記話者認識手段の判別結果をも表す音声区間情報を含み、
前記記録制御手段は、前記復号用情報に従って各要素区間の前記暗号化オーディオ信号を復号して該復号によって得られた各要素区間の前記元オーディオ信号を再生出力することに対する許可/禁止を切替制御するための権限管理情報を、更に、前記暗号化オーディオ信号及び前記復号用情報に関連付けて前記電子ファイルに格納し、
前記権限管理情報は、前記登録話者の音声の信号成分を含む要素区間に対する第1の権限管理情報と、それ以外の要素区間に対する第2の権限管理情報と、を個別に含む
ことを特徴とする請求項1に記載のオーディオ信号記録装置。 The speech section is composed of a plurality of different element sections,
The audio signal recording apparatus further includes speaker recognition means for determining, for each element section, a match or mismatch between the voice speaker and a registered speaker registered in advance.
The decoding information includes speech section information that represents which section of the entire section is the speech section and also represents a discrimination result of the speaker recognition means for each element section,
The recording control means performs switching control of permission / prohibition for reproducing and outputting the original audio signal of each element section obtained by decrypting the encrypted audio signal of each element section in accordance with the decoding information. Authority management information for further storing in the electronic file in association with the encrypted audio signal and the decryption information,
The authority management information individually includes first authority management information for an element section including a signal component of the voice of the registered speaker, and second authority management information for other element sections. The audio signal recording apparatus according to claim 1.
前記権限管理情報は、認証コードを含み、
当該オーディオ信号記録再生装置と他のオーディオ信号記録再生装置との間で互いに異なる固有コードが当該オーディオ信号記録再生装置に予め与えられており、
当該オーディオ信号記録再生装置は、
オーディオ信号を再生出力する再生出力手段と、
前記復号用情報に基づいて前記暗号化オーディオ信号を復号する復号処理手段と、
前記認証コードと当該オーディオ信号記録再生装置に対する固有コードとを照合する照合手段と、
前記照合手段による照合結果に基づいて、前記復号処理手段の復号によって得られた前記元オーディオ信号の前記再生出力手段での再生出力を許可するか否かを判別する判別手段と、を備え、
前記判別手段の判別結果に応じて前記復号処理手段及び前記再生出力手段を制御する
ことを特徴とするオーディオ信号記録再生装置。 An audio signal recording / reproducing apparatus comprising the audio signal recording apparatus according to claim 2,
The authority management information includes an authentication code,
Unique codes different from each other between the audio signal recording / reproducing device and the other audio signal recording / reproducing device are given in advance to the audio signal recording / reproducing device,
The audio signal recording / reproducing apparatus includes:
Reproduction output means for reproducing and outputting an audio signal;
Decryption processing means for decrypting the encrypted audio signal based on the decryption information;
Collating means for collating the authentication code with the unique code for the audio signal recording / reproducing device;
Determining means for determining whether to permit reproduction output of the original audio signal obtained by decoding of the decoding processing means in the reproduction output means, based on the result of matching by the matching means;
An audio signal recording / reproducing apparatus, wherein the decoding processing means and the reproduction output means are controlled in accordance with a discrimination result of the discrimination means.
請求項1〜請求項4の何れかに記載のオーディオ信号記録装置又は請求項5に記載のオーディオ信号記録再生装置を備えた
ことを特徴とする撮像装置。 In an imaging device that acquires an image according to a subject,
An image pickup apparatus comprising the audio signal recording apparatus according to any one of claims 1 to 4 or the audio signal recording / reproducing apparatus according to claim 5.
前記暗号化オーディオ信号を復号するための復号用情報のデータと、を互いに関連付けて格納した
ことを特徴とする電子ファイル。 Data of an encrypted audio signal obtained by performing encryption processing on a signal in a voice section including a signal component of a human voice in the original audio signal;
An electronic file, wherein data of decryption information for decrypting the encrypted audio signal is stored in association with each other.
ことを特徴とする請求項7に記載の電子ファイル。 Data of authority management information for switching control of permission / prohibition for decrypting the encrypted audio signal according to the decryption information and reproducing and outputting the original audio signal obtained by the decryption is further provided. 8. The electronic file according to claim 7, wherein the electronic file is stored in association with the data of the digitized audio signal and the data of the decoding information.
前記電子ファイル内の復号用情報に基づいて前記電子ファイル内の前記暗号化オーディオ信号を復号する復号処理手段を備え、
前記送信要求があった際、前記電子ファイル内の権限管理情報と前記関係に基づいて、前記復号処理手段の復号によって得られた元オーディオ信号の前記端末装置に対する送信を許可するか否かを判別し、その判別結果に応じて前記端末装置への送信内容を制御する
ことを特徴とする情報提供装置。 9. The electronic file according to claim 2 or 8 is received from a provider device, and according to a transmission request from a terminal device that has a predetermined relationship with the provider device and includes playback output means for playing back and outputting an audio signal. An information providing device that transmits information based on the electronic file to the terminal device via a communication network,
A decryption processing means for decrypting the encrypted audio signal in the electronic file based on the decryption information in the electronic file;
When there is a transmission request, based on the authority management information in the electronic file and the relationship, it is determined whether or not transmission of the original audio signal obtained by decoding of the decoding processing means to the terminal device is permitted. And an information providing apparatus that controls transmission contents to the terminal device according to the determination result.
請求項10に記載された情報提供装置から通信網を介して前記電子ファイルに基づく情報を受け取って、受け取った情報に基づくオーディオ信号を前記再生出力手段にて再生出力する
ことを特徴とする端末装置。 Reproduction output means for reproducing and outputting an audio signal is provided,
11. A terminal device, wherein information based on the electronic file is received from the information providing device according to claim 10 via a communication network, and an audio signal based on the received information is reproduced and output by the reproduction output means. .
前記電子ファイル内の権限管理情報は、認証コードを含み、
当該オーディオ信号再生装置は、
前記電子ファイル内の復号用情報に基づいて前記電子ファイル内の暗号化オーディオ信号を復号する復号処理手段と、
前記認証コードと当該オーディオ信号再生装置に登録されたコードとを照合する照合手段と、
前記照合手段による照合結果に基づいて、前記復号処理手段の復号によって得られた前記元オーディオ信号の前記再生出力手段での再生出力を許可するか否かを判別する判別手段と、を備え、
前記判別手段の判別結果に応じて前記復号処理手段及び前記再生出力手段を制御する
ことを特徴とするオーディオ信号再生装置。 An audio signal reproduction apparatus comprising: file input means for receiving the electronic file according to claim 2; and reproduction output means for reproducing and outputting an audio signal.
The authority management information in the electronic file includes an authentication code,
The audio signal reproduction device
Decryption processing means for decrypting the encrypted audio signal in the electronic file based on the decryption information in the electronic file;
Verification means for verifying the authentication code and the code registered in the audio signal reproduction device;
Determining means for determining whether to permit reproduction output of the original audio signal obtained by decoding of the decoding processing means in the reproduction output means, based on the result of matching by the matching means;
An audio signal reproducing apparatus, wherein the decoding processing means and the reproduction output means are controlled in accordance with a discrimination result of the discrimination means.
元オーディオ信号の内の、人の音声の信号成分が含まれている音声区間における信号に対して暗号化処理を施すことによって得られた暗号化オーディオ信号のデータと、
前記暗号化オーディオ信号を復号するための復号用情報のデータと、を互いに関連付けて記録する
ことを特徴とする電子ファイルの記録方式。 In the electronic file recording method,
Data of an encrypted audio signal obtained by performing encryption processing on a signal in a voice section including a signal component of a human voice in the original audio signal;
A recording method of an electronic file, wherein data of decryption information for decrypting the encrypted audio signal is recorded in association with each other.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007156628A JP2008309959A (en) | 2007-06-13 | 2007-06-13 | Audio signal recording device and electronic file |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007156628A JP2008309959A (en) | 2007-06-13 | 2007-06-13 | Audio signal recording device and electronic file |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008309959A true JP2008309959A (en) | 2008-12-25 |
Family
ID=40237626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007156628A Pending JP2008309959A (en) | 2007-06-13 | 2007-06-13 | Audio signal recording device and electronic file |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008309959A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191798A (en) * | 2009-02-19 | 2010-09-02 | Nec Corp | Security enhancing system, method, program and usb memory |
JP2012175658A (en) * | 2011-02-24 | 2012-09-10 | Aiphone Co Ltd | Hands-free intercom device |
JP2015029241A (en) * | 2013-06-24 | 2015-02-12 | パナソニックIpマネジメント株式会社 | Directivity control system and voice output control method |
JP2020021505A (en) * | 2019-10-09 | 2020-02-06 | 株式会社ニコン | Information processing device |
CN111953727A (en) * | 2020-05-06 | 2020-11-17 | 上海明略人工智能(集团)有限公司 | Audio transmission method and device |
CN113571068A (en) * | 2021-07-27 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | Method and device for voice data encryption, electronic equipment and readable storage medium |
-
2007
- 2007-06-13 JP JP2007156628A patent/JP2008309959A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191798A (en) * | 2009-02-19 | 2010-09-02 | Nec Corp | Security enhancing system, method, program and usb memory |
JP2012175658A (en) * | 2011-02-24 | 2012-09-10 | Aiphone Co Ltd | Hands-free intercom device |
JP2015029241A (en) * | 2013-06-24 | 2015-02-12 | パナソニックIpマネジメント株式会社 | Directivity control system and voice output control method |
US9747454B2 (en) | 2013-06-24 | 2017-08-29 | Panasonic Intellectual Property Management Co., Ltd. | Directivity control system and sound output control method |
JP2020021505A (en) * | 2019-10-09 | 2020-02-06 | 株式会社ニコン | Information processing device |
CN111953727A (en) * | 2020-05-06 | 2020-11-17 | 上海明略人工智能(集团)有限公司 | Audio transmission method and device |
CN113571068A (en) * | 2021-07-27 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | Method and device for voice data encryption, electronic equipment and readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI581250B (en) | Adaptive processing with multiple media processing nodes | |
US7185201B2 (en) | Content identifiers triggering corresponding responses | |
US20110038594A1 (en) | Handheld recorder incorporating true raw audio or video certification | |
KR101775461B1 (en) | Collaborative audio conversation attestation | |
KR20170027260A (en) | communication method and electronic devices thereof | |
US20090013195A1 (en) | Data Storing Method, Data Playback Method, Data Recording Device, Data Playback Device, and Recording Medium | |
JP4683116B2 (en) | Information processing apparatus, information processing method, information processing program, and imaging apparatus | |
JP2008309959A (en) | Audio signal recording device and electronic file | |
JP2010134578A (en) | Information processing apparatus and content protection method | |
US20160104475A1 (en) | Speech synthesis dictionary creating device and method | |
KR100754189B1 (en) | Information storage medium recording digital contents, method and system for managing digital contents | |
CN115035903A (en) | Physical voice watermark injection method, voice tracing method and device | |
Rappaport | Establishing a standard for digital audio authenticity: A critical analysis of tools, methodologies, and challenges | |
JP2010074391A (en) | Sound recorder, program, and sound recording/sound reproducing system | |
JP3927155B2 (en) | Dialog recording apparatus and dialog recording program | |
Shahid et al. | " Is this my president speaking?" Tamper-proofing Speech in Live Recordings | |
WO2001043422A1 (en) | Information processing method and recorded medium | |
WO2023119629A1 (en) | Information processing system, information processing method, recording medium, and data structure | |
JP2008078950A (en) | Information processor and processing method | |
JP2005341138A (en) | Video summarizing method and program, and storage medium with the program stored therein | |
KR20210154044A (en) | Illegal Video Content Detection System | |
JP2005318110A (en) | Reproduction method and device | |
KR20160043732A (en) | Method and apparatus for providing a filtered voice | |
KR20090071411A (en) | Audio data reproduction system, audio data reproduction method, and electronic device used in the system |