JP2019132912A - Living sound recording device and living sound recording method - Google Patents
Living sound recording device and living sound recording method Download PDFInfo
- Publication number
- JP2019132912A JP2019132912A JP2018013032A JP2018013032A JP2019132912A JP 2019132912 A JP2019132912 A JP 2019132912A JP 2018013032 A JP2018013032 A JP 2018013032A JP 2018013032 A JP2018013032 A JP 2018013032A JP 2019132912 A JP2019132912 A JP 2019132912A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- frames
- living
- life
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、生活音記録装置及び生活音記録方法に関する。 The present invention relates to a living sound recording apparatus and a living sound recording method.
近年、人工知能技術の発達や膨大な会話データベースの蓄積などにより、電子機器に対して人間の音声による入力をすることが実用的になりつつある。また、比較的マイクロフォンから離れた位置の音声を認識するファーフィルド音声認識も実用レベルに達し、例えばマイクロフォンから数m程度離れた位置からの音声認識が可能となっている。これらの技術は、多様なサービスの実現に貢献すると期待されている。 In recent years, with the development of artificial intelligence technology and the accumulation of a huge conversation database, it has become practical to input electronic devices using human speech. Further, far-field speech recognition for recognizing sound at a position relatively far from the microphone has reached a practical level, and for example, sound recognition from a position about several meters away from the microphone is possible. These technologies are expected to contribute to the realization of various services.
一方、人間の生活空間において発生する音は、発話によって発生する音声に限らず、例えば咳き込む音、足音及びドアの開閉音など、突発的な音や人間の可聴域を超えた音が発生することがある。このような生活音は、例えば高齢者の安否を確認する見守りサービスなど種々のサービスに活用可能であると考えられる。 On the other hand, sounds generated in human living space are not limited to sounds generated by utterances, but sudden sounds such as coughing sounds, footsteps and door opening / closing sounds, and sounds exceeding the human audible range may be generated. There is. Such living sounds can be used for various services such as a watch service for confirming the safety of elderly people.
しかしながら、生活音を活用するサービスを提供する上で、生活音を記録することについては具体的に検討されていない。すなわち、例えばユーザの住宅で発生する音を単にすべて記録する場合には、ユーザが発話した音声もそのまま記録されてしまい、ユーザのプライバシーが保護されないという問題がある。そこで、電子機器へ入力される音声に対してリアルタイム処理を施し、特定のイベントを検出して記録することも考えられるが、リアルタイム処理の処理負荷が大きく、現実的ではない。 However, in providing a service that utilizes living sounds, recording of living sounds has not been specifically studied. That is, for example, when all sounds generated in the user's house are simply recorded, the voice spoken by the user is recorded as it is, and there is a problem that the privacy of the user is not protected. Therefore, it is conceivable to perform real-time processing on audio input to the electronic device and detect and record a specific event. However, the processing load of the real-time processing is large, which is not realistic.
1つの側面では、本発明は、ユーザのプライバシーを保護しつつ生活音を記録することができる生活音記録装置及び生活音記録方法を提供することを目的とする。 In one aspect, an object of the present invention is to provide a living sound recording apparatus and a living sound recording method capable of recording a living sound while protecting a user's privacy.
一態様では、生活音記録装置は、ユーザの生活空間において発生する音声が含まれる音声データを取得する取得部と、前記取得部によって取得された音声データを、ユーザの行動又は動作に伴う生活音の継続時間に対応する時間長のフレームに分割する分割部と、前記分割部によって分割されて得られた複数のフレームの順番を変更してメモリに記録する記録制御部とを有する。 In one aspect, the living sound recording device includes an acquisition unit that acquires audio data including audio generated in a user's living space, and the audio data acquired by the acquisition unit is used as a living sound associated with a user's action or action. And a recording control unit that changes the order of a plurality of frames obtained by dividing by the dividing unit and records them in a memory.
ユーザのプライバシーを保護しつつ生活音を記録することができる。 Life sounds can be recorded while protecting user privacy.
以下に添付図面を参照して本願に係る生活音記録装置及び生活音記録方法について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 The living sound recording apparatus and the living sound recording method according to the present application will be described below with reference to the accompanying drawings. Note that this embodiment does not limit the disclosed technology. Each embodiment can be appropriately combined within a range in which processing contents are not contradictory.
[情報処理システム]
図1は、実施例1に係る情報処理システムの構成例を示す図である。図1に示す情報処理システムにおいては、例えばユーザの住宅内などに生活音記録装置100が設置され、生活音記録装置100と基地局装置10とが互いに通信可能となっている。そして、基地局装置10は、例えばインターネットなどのネットワークNを介してサーバ装置200と接続されている。生活音記録装置100は、例えばユーザが所持するパーソナルコンピュータやスマートフォンなどの汎用の情報処理端末であっても良いし、専用のIoT(Internet of Things)端末であっても良い。
[Information processing system]
FIG. 1 is a diagram illustrating a configuration example of an information processing system according to the first embodiment. In the information processing system shown in FIG. 1, a living
生活音記録装置100は、例えばマイクロフォンなどの音声入力デバイスを備え、音声入力デバイスから入力される周囲の音声を記録する。このとき、生活音記録装置100は、入力される音声を生活音が判別可能な時間長(例えば500ms(ミリ秒))のフレームに分割し、フレームの順番を変更した上で、各フレームの音声データを記録する。そして、生活音記録装置100は、記録した音声データを基地局装置10へ送信する。なお、生活音記録装置100の具体的な構成及び動作については、後に詳述する。
The living
基地局装置10は、例えば生活音記録装置100と同じ住宅内に設置されたアクセスポイント、又は住宅外に設置された移動体通信システムの基地局装置であり、生活音記録装置100から送信された音声データを受信して、サーバ装置200へ転送する。なお、基地局装置10は、必ずしも生活音記録装置100と無線通信する必要はなく、生活音記録装置100と基地局装置10が有線接続されていても良い。生活音記録装置100と基地局装置10が有線接続される場合には、基地局装置10は、例えばゲートウェイに相当する。
The
サーバ装置200は、基地局装置10から転送される音声データを取得し、各フレームの音声データに含まれる生活音を抽出する。そして、サーバ装置200は、抽出した生活音が何の音であるかを判別し、判別結果を出力する。このとき、生活音記録装置100によってフレームの順番が変更されているため、ユーザの発話による音声など複数フレームにわたって連続する音声はサーバ装置200において判別されず、ユーザのプライバシーが保護される。
The
[生活音記録装置の構成]
図2は、実施例1に係る生活音記録装置100の構成を示すブロック図である。図2に示す生活音記録装置100は、音声入力部110、プロセッサ120、無線送信部130及びメモリ140を有する。
[Configuration of living sound recording device]
FIG. 2 is a block diagram illustrating the configuration of the life
音声入力部110は、例えばマイクロフォンを備え、生活音記録装置100の周囲の音声の入力を受け付ける。そして、音声入力部110は、入力された音声を例えば192kHzのサンプリング周波数で高速サンプリングし、得られた音声データをプロセッサ120へ出力する。なお、音声入力部110は、音声データを取得する取得部の一例である。
The
生活音記録装置100が例えばユーザの住宅内に設置されるため、音声入力部110へ入力される音声には、ユーザが発話して発生する話声音やユーザの生活に伴って発生する生活音が含まれる。生活音は、ユーザの発話以外の行動や動作に伴って発生する音声であり、具体的な例としては例えば図3に示すようなものがある。
Since the living
図3は、生活音の具体例として、(A)包丁使用時の音、(B)冷蔵庫のドアを閉じる音、及び(C)ガスコンロに点火する音のレベルの時間変化を示す図である。これらの生活音は、人間の可聴周波数より高い周波数帯域での特徴があるとともに、継続時間が概ね200〜300msであり、大部分が500ms以下であることがわかっている。すなわち、例えば図3に示す(A)包丁使用時の音では、所定レベル以上の音が断続的に複数回発生するものの、1回当たりの音の継続時間は100ms程度である。また、図3に示す(B)冷蔵庫のドアを閉じる音の継続時間は210ms程度であり、(C)ガスコンロに添加する音の継続時間は420ms程度である。 FIG. 3 is a diagram showing temporal changes in the levels of (A) a sound when using a kitchen knife, (B) a sound that closes a refrigerator door, and (C) a sound that ignites a gas stove as specific examples of daily life sounds. These living sounds have characteristics in a frequency band higher than the human audible frequency and have a duration of approximately 200 to 300 ms, and most of them are known to be 500 ms or less. That is, for example, in the sound when the knife (A) shown in FIG. 3 is used, a sound of a predetermined level or higher is intermittently generated a plurality of times, but the sound duration per time is about 100 ms. Further, (B) the duration of the sound of closing the refrigerator door shown in FIG. 3 is about 210 ms, and (C) the duration of the sound added to the gas stove is about 420 ms.
このように、ユーザの発話以外の行動や動作に伴って発生する生活音は、継続時間が500ms以下であることが多く、ユーザの発話に伴って発生する話声音よりも短く突発的である傾向が見られる。 As described above, life sounds generated with actions and actions other than the user's utterance often have a duration of 500 ms or less, and tend to be shorter and more sudden than the voice sound generated with the user's utterance. Is seen.
図2に戻って、プロセッサ120は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)又はDSP(Digital Signal Processor)などを備え、生活音記録装置100全体を統括制御する。具体的には、プロセッサ120は、分割部121、生活音判定部122、記録制御部123及び通信制御部124を有する。
Returning to FIG. 2, the
分割部121は、音声入力部110から入力される音声データをフレームに分割する。具体的には、分割部121は、連続して入力される音声データを、生活音を判別することができる時間長のフレームに分割する。上述したように、生活音の継続時間は、大部分が500ms以下であるため、分割部121は、音声データを例えば500msのフレームに分割する。フレームの時間長が200〜500ms程度であれば、個々のフレームから生活音を抽出可能である一方、生活音よりも継続時間が長い話声音は1フレーム内に収まらないため、個々のフレームからユーザの発話の内容を判別することは困難である。
The dividing
生活音判定部122は、分割部121によって音声データが分割されて得られたフレームそれぞれに生活音が含まれるか否かを判定する。具体的には、生活音判定部122は、例えば各フレームの音声データに所定の閾値以上のレベルの音声が含まれるか否かを判定し、所定の閾値以上のレベルの音声が含まれるフレームに生活音が含まれると判定する。
The living
記録制御部123は、生活音判定部122による判定結果に基づいて、各フレームの音声データの記録を制御する。具体的には、記録制御部123は、生活音判定部122によって生活音が含まれると判定されたフレームに音声の入力時刻などのタグを付与し、メモリ140に記録する。また、記録制御部123は、生活音判定部122によって生活音が含まれないと判定されたフレームを破棄して削除する。つまり、記録制御部123は、生活音が含まれないフレームを間引き、生活音が含まれるフレームのみをメモリ140に記録する。結果として、記録制御部123は、音声データのフレームの順番を変更してメモリ140に記録することになる。
The
通信制御部124は、音声データの送信を制御する。具体的には、通信制御部124は、メモリ140に記録された音声データのフレームから送信データを生成し、送信データの宛先をサーバ装置200に設定して無線送信部130へ出力する。通信制御部124は、メモリ140に音声データが記録された際にリアルタイムで送信データを生成しても良いし、メモリ140に蓄積された音声データから所定の周期で送信データを生成しても良い。換言すれば、通信制御部124は、音声データをリアルタイムで送信しても良いし、一定量メモリ140に蓄積されてから送信しても良い。
The communication control unit 124 controls transmission of audio data. Specifically, the communication control unit 124 generates transmission data from a frame of audio data recorded in the
無線送信部130は、通信制御部124によって生成された送信データに対して所定の無線送信処理を施し、アンテナを介して基地局装置10へ送信する。送信データは、基地局装置10によって受信された後、宛先として設定されたサーバ装置200へ転送される。
The
メモリ140は、例えばRAM(Random Access Memory)又はROM(Read Only Memory)などを備え、記録制御部123から出力される音声データのフレームを記録する。メモリ140に記録されるフレームの順番は、記録制御部123によってフレームが間引かれた結果、入力された音声データのフレームの順番から変更されている。このため、複数のフレームにわたって連続する話声音の内容は判別困難となり、ユーザのプライバシーが保護される。また、メモリ140は、プロセッサ120によって処理が実行される際に、種々の情報を記憶する。
The
[サーバ装置の構成]
図4は、実施例1に係るサーバ装置200の構成を示すブロック図である。図4に示すサーバ装置200は、通信インタフェース(以下「通信I/F」と略記する)210、プロセッサ220及びメモリ230を有する。
[Configuration of server device]
FIG. 4 is a block diagram illustrating the configuration of the
通信I/F210は、例えばインターネットなどのネットワークNに接続し、種々のデータを送受信する。具体的には、通信I/F210は、生活音記録装置100から送信された音声データを受信する。
The communication I /
プロセッサ220は、例えばCPU、MPU、ASIC、FPGA又はDSPなどを備え、サーバ装置200全体を統括制御する。具体的には、プロセッサ220は、生活音抽出部221、生活音判別部222及び結果出力部223を有する。
The
生活音抽出部221は、通信I/F210によって受信された音声データの各フレームから生活音を抽出する。具体的には、生活音抽出部221は、音声データの各フレームから、例えば所定の閾値以上のレベルの音声を生活音として抽出する。本実施例では、生活音記録装置100が所定の閾値以上のレベルの音声を含むフレームのみを記録して送信するため、生活音抽出部221は、受信された音声データのすべてのフレームから、レベルが所定の閾値以上の生活音を抽出する。ただし、生活音抽出部221が生活音記録装置100とは異なる閾値を用いたり、生活音記録装置100とは異なる方法を用いたりして生活音を抽出する場合は、必ずしもすべてのフレームから生活音が抽出されなくても良い。
The living
生活音判別部222は、生活音抽出部221によって抽出された生活音が何の音であるかを判別する。具体的には、生活音判別部222は、例えば各種の生活音の時間波形のパターンを類型化した生活音パターン情報をメモリ230から読み出し、抽出された生活音と生活音パターン情報とのパターンマッチングにより、各フレームから抽出された生活音の種類を判別する。なお、生活音判別部222による判別方法は、時間波形のパターンマッチングに限定されず、例えば音声データをフーリエ変換して得られる周波数スペクトラムのパターンマッチングによる方法などであっても良い。
The life
結果出力部223は、生活音判別部222による判別結果を出力する。すなわち、結果出力部223は、フレームごとの生活音の種類を各フレームに付与されたタグの情報とともに出力する。したがって、結果出力部223は、音声の入力時刻と音声の種類とを対応付けた情報を表示したり、さらに他の処理を実行するアプリケーションへ提供したりする。
The
メモリ230は、例えばRAM又はROMなどを備え、各種の生活音のパターンを類型化した生活音パターン情報をあらかじめ記憶する。また、メモリ230は、プロセッサ220によって処理が実行される際に、種々の情報を記憶する。
The
[生活音記録方法]
次いで、実施例1に係る生活音記録方法について、図5に示すフロー図を参照しながら説明する。以下に説明する生活音記録処理は、生活音記録装置100によって実行される。
[Life sound recording method]
Next, the living sound recording method according to the first embodiment will be described with reference to the flowchart shown in FIG. The life sound recording process described below is executed by the life
生活音記録装置100の稼働中には、音声入力部110に備えられたマイクロフォンなどを介して生活音記録装置100の周囲の音声が入力される(ステップS101)。入力された音声は、音声入力部110によって、例えば192kHzのサンプリング周波数で高速サンプリングされ(ステップS102)、得られた音声データがプロセッサ120の分割部121へ入力される。
While the living
そして、音声データは、分割部121によってフレームごとの音声データに分割される(ステップS103)。すなわち、音声データは、生活音を抽出可能である一方、話声音の内容が判別されない時間長(例えば500ms)のフレームに分割される。なお、フレームの時間長は、例えば200〜500msの範囲で適宜設定されれば良く、生活音記録装置100が設置された環境で頻繁に発生する生活音の種類に応じて、適切な時間長に設定されても良い。
Then, the audio data is divided into audio data for each frame by the dividing unit 121 (step S103). That is, the voice data is divided into frames having a length of time (for example, 500 ms) in which life sounds can be extracted, but the content of the spoken voice is not discriminated. In addition, the time length of a frame should just be suitably set, for example in the range of 200-500 ms, for example, according to the kind of the life sound frequently generate | occur | produced in the environment where the life
分割部121によって生成された音声データの各フレームは、生活音判定部122へ入力され、それぞれのフレームに生活音が含まれるか否かが判定される(ステップS104)。具体的には、生活音判定部122によって、各フレームの音声のレベルが所定の閾値と比較され、所定の閾値以上のレベルの音声を含むフレームが生活音を含むフレームであると判定される。
Each frame of the audio data generated by the dividing
フレームが生活音を含むと判定された場合には(ステップS104Yes)、このフレームは、記録制御部123によって、音声の入力時刻などの情報を示すタグが付与された上で(ステップS105)、メモリ140に記録される(ステップS106)。一方、フレームが生活音を含まないと判定された場合には(ステップS104No)、このフレームは、記録制御部123によって破棄されて削除される(ステップS107)。
If it is determined that the frame includes a living sound (Yes at Step S104), the
そして、記録制御部123によって、入力された音声に対応するすべてのフレームの記録又は削除が終了したか否かが判定され(ステップS108)、記録も削除もされていないフレームが残っている場合には(ステップS108No)、残りのフレームに対して上記の処理が繰り返される。また、すべてのフレームが記録又は削除された場合には(ステップS108Yes)、生活音の記録に係る処理が終了する。
Then, it is determined by the
このように、生活音を含むフレームはメモリ140に記録される一方、生活音を含まないフレームは削除される結果、メモリ140に記録されるフレームの順番は連続しておらず、分割部121によって生成されるフレームの順番とは異なる。結果として、生活音よりも継続時間が長く複数フレームにわたる話声音の内容は、メモリ140に記録されたフレームから判別困難となる。これに対して、生活音は、個々のフレームから抽出可能であり、フレームに含まれる生活音の種類を判別することが可能である。このため、生活音を用いた解析を可能としつつ、ユーザの発話の内容を秘匿することができ、プライバシーを保護することができる。
As described above, the frames including the living sounds are recorded in the
以上のように、本実施例によれば、生活音を抽出可能かつ話声音の内容が判別されない時間長のフレームに音声データを分割し、生活音を含まないフレームを間引いてメモリに記録する。このため、入力された音声に対応するフレームの順番が変更されてメモリに記録され、ユーザの発話の内容を秘匿してプライバシーを保護することができる。 As described above, according to the present embodiment, voice data is divided into time-long frames in which life sounds can be extracted and the contents of spoken voice sounds are not discriminated, and frames that do not contain life sounds are thinned out and recorded in a memory. For this reason, the order of frames corresponding to the input voice is changed and recorded in the memory, and the contents of the user's utterance can be concealed to protect the privacy.
[変形例]
上述した実施例では、生活音判定部122による判定の結果、生活音が含まれないと判定されたフレームは破棄されて削除されるものとした。しかしながら、生活音が含まれないと判定されたすべてのフレームが削除されなくても良い。すなわち、生活音が含まれないと判定されたフレームであっても、一部のフレームにはタグを付与してメモリ140に記録するようにしても良い。このように生活音が含まれないフレームを記録しておくことにより、生活音及び話声音とは異なり継続的に発生する環境音の判別をすることも可能となる。具体的には、例えば住宅の近くを走行する自動車や電車の走行音を環境音として判別することなどができる。
[Modification]
In the above-described embodiment, it is assumed that the frame determined as not including the living sound as a result of the determination by the living
生活音が含まれないと判定されたフレームの記録に際しては、例えば生活音が含まれないと判定されたフレームを所定数間隔でメモリ140に記録すれば良い。この場合でも、すべてのフレームがメモリ140に記録されることはないため、入力された音声に対応するフレームの順番が変更されて記録されることになる。結果として、ユーザの発話の内容を秘匿してプライバシーを保護することができる。
When recording a frame determined not to include a living sound, for example, the frames determined to not include a living sound may be recorded in the
実施例2の特徴は、音声データを分割して得られたフレームを入れ替えることにより、フレームの順番を変更する点である。実施例2に係る情報処理システムの構成例は、実施例1(図1)と同様であるため、その説明を省略する。 A feature of the second embodiment is that the order of frames is changed by replacing frames obtained by dividing audio data. Since the configuration example of the information processing system according to the second embodiment is the same as that of the first embodiment (FIG. 1), the description thereof is omitted.
[生活音記録装置の構成]
図6は、実施例2に係る生活音記録装置100の構成を示すブロック図である。図6において、図2と同じ部分には同じ符号を付し、その説明を省略する。図6に示す生活音記録装置100は、図2に示す生活音記録装置100の記録制御部123に代えて、記録制御部151を有する。
[Configuration of living sound recording device]
FIG. 6 is a block diagram illustrating the configuration of the life
記録制御部151は、生活音判定部122による判定結果に基づいて、各フレームの音声データの記録を制御する。具体的には、記録制御部151は、生活音判定部122によって生活音が含まれると判定されたフレームに音声の入力時刻などのタグを付与する。そして、記録制御部151は、判定結果に関わらず、生活音判定部122から出力されるフレームを所定数蓄積し、蓄積された複数のフレームの順序を入れ替える。そして、記録制御部151は、順序が入れ替えられた複数のフレームをメモリ140に記録する。つまり、記録制御部151は、生活音判定部122から出力されるフレームを、所定数ずつ順序を入れ替えた上でメモリ140に記録する。結果として、記録制御部151は、音声データのフレームの順番を変更してメモリ140に記録することになる。
The
記録制御部151が蓄積するフレームの数は、例えば音声から意味のある日常イベントを検出可能な最短時間に応じて設定されれば良い。すなわち、例えば意味のある日常イベントが3秒間の音声から検出可能であり、フレームの時間長が500msである場合、記録制御部151は、6フレーム(500ms×6=3s)を蓄積してから順序を入れ替える。フレームの順序の入れ替えは、例えば乱数発生器によって乱数を発生させ、ランダムな入れ替えパターンを生成することにより実現可能である。このとき、記録制御部151は、生活音が含まれると判定されてタグが付与されたフレームは順序の入れ替えの対象とせず、生活音が含まれないと判定されたフレームのみを順序の入れ替えの対象としても良い。つまり、記録制御部151は、生活音が含まれるフレームについては、時間的な位置を維持しても良い。これにより、生活音が発生した時系列を維持したままフレームを記録することができる。
The number of frames stored in the
[サーバ装置の構成]
図7は、実施例2に係るサーバ装置200の構成を示すブロック図である。図7において、図4と同じ部分には同じ符号を付し、その説明を省略する。図7に示すサーバ装置200は、図4に示すサーバ装置200に環境音抽出部251及び環境音判別部252を追加した構成を採る。
[Configuration of server device]
FIG. 7 is a block diagram illustrating the configuration of the
環境音抽出部251は、音声データのフレームに含まれる環境音を抽出する。具体的には、環境音抽出部251は、音声データの複数のフレームを取得し、これらの複数のフレームに共通して含まれる音声を環境音として抽出する。環境音とは、生活音及び話声音とは異なり継続的に発生する音声であり、例えば住宅の近くを走行する自動車や電車の走行音などが環境音となる。本実施例では、生活音が含まれないと判定されたフレームも含めて生活音記録装置100のメモリ140に記録されるため、サーバ装置200の通信I/F210が受信する音声データには、生活音が含まれないフレームも含まれる。また、生活音記録装置100によってフレームの順序が入れ替えられているものの、時間的な位置が近い所定数のフレームの範囲内で順序が入れ替えられている。このため、環境音抽出部251は、連続する複数のフレームに共通して含まれる音声を、継続的に発生する環境音として抽出することができる。
The environmental
環境音判別部252は、環境音抽出部251によって抽出された環境音が何の音であるかを判別する。具体的には、環境音判別部252は、例えば各種の環境音の周波数スペクトラムのパターンを類型化した環境音パターン情報を用いて、抽出された環境音のパターンマッチングを行い、複数のフレームから抽出された環境音の種類を判別する。なお、環境音判別部252による判別方法は、パターンマッチングに限定されず、音声の種類を判別可能な他の方法であっても良い。環境音判別部252による判別結果は、結果出力部223によって、生活音の判別結果とともに出力される。
The environmental
[生活音記録方法]
次いで、実施例2に係る生活音記録方法について、図8に示すフロー図を参照しながら説明する。図8において、図5と同じ部分には同じ符号を付し、その詳しい説明を省略する。以下に説明する生活音記録処理は、生活音記録装置100によって実行される。
[Life sound recording method]
Next, a living sound recording method according to the second embodiment will be described with reference to the flowchart shown in FIG. 8, the same parts as those in FIG. 5 are denoted by the same reference numerals, and detailed description thereof is omitted. The life sound recording process described below is executed by the life
生活音記録装置100へ入力された音声は、音声入力部110によって高速サンプリングされ、得られた音声データがプロセッサ120の分割部121へ入力される(ステップS101〜S102)。そして、音声データは、分割部121によってフレームごとの音声データに分割される(ステップS103)。
The voice input to the living
分割部121によって生成された音声データの各フレームは、生活音判定部122へ入力され、それぞれのフレームに生活音が含まれるか否かが判定される(ステップS104)。フレームが生活音を含むと判定された場合には(ステップS104Yes)、記録制御部151によって、このフレームに音声の入力時刻などの情報を示すタグが付与されて蓄積される(ステップS105)。同様に、生活音を含まないと判定されたフレームについても(ステップS104No)、記録制御部151によって蓄積される。
Each frame of the audio data generated by the dividing
そして、記録制御部151によって、所定数のフレームが蓄積されたか否かが判定される(ステップS201)。具体的には、例えば音声から意味のある日常イベントを検出可能な最短時間に対応する数のフレームが記録制御部151に蓄積されたか否かが判定される。この判定の結果、また所定数のフレームが蓄積されていなければ(ステップS201No)、以降のフレームに対して上記の処理が繰り返される。そして、生活音を含むか否かに関わらず、所定数のフレームが記録制御部151に蓄積されると(ステップS201Yes)、蓄積されたフレームは、順序が入れ替えられた上でメモリ140に記録される(ステップS202)。
Then, the
図9は、フレームの順序の入れ替えの具体例を示す図である。図9に示すように、記録制御部151には、フレーム#1〜#NのN個(Nは2以上の整数)のフレームが蓄積されており、蓄積されたN個のフレームの順序が入れ替えられる。図9において、レベルが閾値Th以上の音声を含むフレームは、生活音判定部122によって生活音を含むと判定されたフレームである。したがって、図9の例では、フレーム#3が生活音を含むと判定され、他のフレームは生活音を含まないと判定される。これらのフレーム#1〜#Nは、生活音を含むか否かに関わらず順番に記録制御部151に蓄積され(図9上図)、N個のフレームの範囲内でフレーム#1〜#Nの順序がランダムに入れ替えられる(図9下図)。これにより、フレームの順番が変更され、個々のフレームから抽出可能な生活音の情報は保持されたまま、複数にフレームにわたる話声音の内容が判別困難となる。
FIG. 9 is a diagram illustrating a specific example of changing the order of frames. As shown in FIG. 9, the
また、記録制御部151は、蓄積されたフレームのうち、生活音を含むと判定されたフレームについては、順序の入れ替えの対象としなくても良い。すなわち、例えば図10に示すように、記録制御部151は、フレーム#1〜#Nのうち生活音を含むと判定されたフレーム#3については時間的な位置を維持し、他のフレームのみの順序を入れ替えても良い。これにより、生活音が含まれるフレームの時刻が変更されることがなく、生活音が発生した時系列を維持したままフレームを記録することができる。
Further, the
図8に戻って、順序が入れ替えられた所定数のフレームがメモリ140に記録されると、記録制御部151によって、入力された音声に対応するすべてのフレームの記録が終了したか否かが判定され(ステップS108)、記録されていないフレームが残っている場合には(ステップS108No)、残りのフレームに対して上記の処理が繰り返される。また、すべてのフレームが記録された場合には(ステップS108Yes)、生活音の記録に係る処理が終了する。
Returning to FIG. 8, when a predetermined number of frames whose order has been changed are recorded in the
このように、記録制御部151に蓄積された所定数のフレームが順序を入れ替えてメモリ140に記録される結果、メモリ140に記録されるフレームの順番は連続しておらず、分割部121によって生成されるフレームの順番とは異なる。結果として、生活音よりも継続時間が長く複数フレームにわたる話声音の内容は、メモリ140に記録されたフレームから判別困難となる。これに対して、生活音は、個々のフレームから抽出可能であり、フレームに含まれる生活音の種類を判別することが可能である。このため、生活音を用いた解析を可能としつつ、ユーザの発話の内容を秘匿することができ、プライバシーを保護することができる。さらに、生活音が含まれないフレームを含めて比較的短い時間内のフレームがまとめて記録されるため、これらのフレームから、継続的に発生する環境音を抽出することが可能となる。
As described above, the predetermined number of frames accumulated in the
以上のように、本実施例によれば、生活音を抽出可能かつ話声音の内容が判別されない時間長のフレームに音声データを分割し、所定数ずつのフレームを順序を入れ替えてメモリに記録する。このため、入力された音声に対応するフレームの順番が変更されてメモリに記録され、ユーザの発話の内容を秘匿してプライバシーを保護することができる。 As described above, according to the present embodiment, the voice data is divided into time-length frames in which life sounds can be extracted and the content of the spoken voice is not discriminated, and a predetermined number of frames are switched in order and recorded in the memory. . For this reason, the order of frames corresponding to the input voice is changed and recorded in the memory, and the contents of the user's utterance can be concealed to protect the privacy.
実施例3の特徴は、異なる位置に設置された複数の生活音記録装置によって記録された音声データを用いて、生活音の音源を推定する点である。 A feature of the third embodiment is that a sound source of a living sound is estimated using sound data recorded by a plurality of living sound recording devices installed at different positions.
[情報処理システム]
図11は、実施例3に係る情報処理システムの構成例を示す図である。図11において、図1と同じ部分には同じ符号を付す。図11に示す情報処理システムにおいては、例えばユーザの住宅内などに複数の生活音記録装置100−1、100−2が設置され、生活音記録装置100−1、100−2と基地局装置10とが互いに通信可能となっている。そして、基地局装置10は、例えばインターネットなどのネットワークNを介してサーバ装置200と接続されている。生活音記録装置100−1、100−2は、例えばユーザが所持するパーソナルコンピュータやスマートフォンなどの汎用の情報処理端末であっても良いし、専用のIoT(Internet of Things)端末であっても良い。ただし、生活音記録装置100−1、100−2は、時刻同期しているものとし、その設置位置がサーバ装置200によって既知であるものとする。また、生活音記録装置100−1、100−2は、必ずしも同一の基地局装置10と通信しなくても良い。
[Information processing system]
FIG. 11 is a diagram illustrating a configuration example of an information processing system according to the third embodiment. In FIG. 11, the same parts as those in FIG. In the information processing system shown in FIG. 11, for example, a plurality of life sound recording devices 100-1 and 100-2 are installed in a user's house, and the life sound recording devices 100-1 and 100-2 and the
生活音記録装置100−1、100−2は、例えばマイクロフォンなどの音声入力デバイスを備え、音声入力デバイスから入力される周囲の音声を記録する。このとき、生活音記録装置100−1、100−2は、入力される音声を生活音が判別可能な時間長(例えば500ms)のフレームに分割し、フレームの順番を変更した上で、各フレームの音声データを記録する。そして、生活音記録装置100−1、100−2は、記録した音声データを基地局装置10へ送信する。生活音記録装置100−1、100−2が異なる位置に設置されているため、1つの音源で発生した生活音は、音源から生活音記録装置100−1、100−2までの距離に応じて異なる時刻に入力される。したがって、生活音記録装置100−1、100−2は、同一の生活音を、同じタイミングのフレーム内の異なる時刻又は異なるタイミングのフレームに記録することになる。
The living sound recording apparatuses 100-1 and 100-2 include a voice input device such as a microphone, for example, and record surrounding sounds input from the voice input device. At this time, the living sound recording devices 100-1 and 100-2 divide the input sound into frames of a length of time (for example, 500 ms) that the living sound can be discriminated, and change the order of the frames. Record audio data. The life sound recording devices 100-1 and 100-2 transmit the recorded sound data to the
なお、生活音記録装置100−1、100−2の構成は、実施例1、2に係る生活音記録装置100の構成(図2、6)と同様である。
The configuration of the life sound recording devices 100-1 and 100-2 is the same as the configuration of the life
サーバ装置200は、基地局装置10から転送される音声データを取得し、各フレームの音声データに含まれる生活音を抽出する。そして、サーバ装置200は、抽出した生活音が何の音であるかを判別し、判別結果を出力する。このとき、生活音記録装置100によってフレームの順番が変更されているため、ユーザの発話による音声など複数フレームにわたって連続する音声はサーバ装置200において判別されず、ユーザのプライバシーが保護される。
The
また、サーバ装置200は、生活音記録装置100−1、100−2の設置場所のレイアウト情報、生活音記録装置100−1、100−2の設置位置、及び生活音記録装置100−1、100−2から送信された音声データを用いて、生活音の音源を推定する。具体的には、サーバ装置200は、生活音記録装置100−1、100−2から送信された音声データにおける生活音の記録時刻の時間差から、生活音の音源の位置を推定する。そして、サーバ装置200は、レイアウト情報を参照して、推定された音源の位置にある生活音の音源を特定する。
In addition, the
なお、サーバ装置200の構成は、実施例1、2に係るサーバ装置200の構成(図4、7)と同様である。上述した音源の推定は、生活音判別部222によって実行される。
The configuration of the
[生活音判別方法]
次いで、実施例3に係る生活音判別方法について、図12に示すフロー図を参照しながら説明する。以下に説明する生活音判別処理は、サーバ装置200によって実行される。
[Life sound discrimination method]
Next, a living sound discrimination method according to the third embodiment will be described with reference to the flowchart shown in FIG. The life sound determination process described below is executed by the
本実施例において、生活音記録装置100−1、100−2は、実施例1、2に係る生活音記録装置100と同様に、生活音を抽出可能かつ話声音の内容が判別されない時間長のフレームに音声データを分割し、フレームの順番を変更して記録及び送信する。このため、サーバ装置200の通信I/F210は、生活音記録装置100−1、100−2から送信された音声データのフレームをそれぞれ受信する(ステップS301)。そして、生活音抽出部221によって、生活音記録装置100−1、100−2それぞれから受信されたフレームから生活音が抽出される(ステップS302)。
In the present embodiment, the life sound recording devices 100-1 and 100-2 have a length of time during which the life sound can be extracted and the content of the spoken voice is not determined, similar to the life
生活音が抽出されたフレームには入力時刻を示すタグが付与されているため、生活音判別部222によって、生活音がそれぞれの生活音記録装置100−1、100−2へ入力された時刻が特定される。ここで、生活音記録装置100−1、100−2は、異なる位置に設置されているため、生活音の音源から生活音記録装置100−1、100−2までの距離は異なり、生活音の入力時刻も異なる。そこで、生活音判別部222によって、1つの生活音が生活音記録装置100−1、100−2へ入力された時刻の時間差が算出される(ステップS303)。
Since the tag indicating the input time is assigned to the frame from which the life sound is extracted, the time when the life sound is input to each of the life sound recording devices 100-1 and 100-2 by the life
算出された時間差は、生活音の音源から生活音記録装置100−1、100−2それぞれまでの距離の差に対応する。したがって、生活音記録装置100−1、100−2の設置位置が既知であれば、生活音の音源の位置を絞り込むことができる。具体的には、2点からの距離の差が一定の位置は、この2点を焦点とする双曲線上であるため、生活音の音源は、生活音記録装置100−1、100−2の設置位置を焦点とする双曲線上に位置する。そして、生活音判別部222によって、生活音記録装置100−1、100−2の設置場所のレイアウト情報が参照され、双曲線上に位置し、生活音を発生させ得る音源が推定される(ステップS304)。
The calculated time difference corresponds to a difference in distance from the sound source of the living sound to each of the living sound recording devices 100-1 and 100-2. Therefore, if the installation positions of the living sound recording devices 100-1 and 100-2 are known, the position of the sound source of the living sound can be narrowed down. Specifically, since the position where the difference in distance from the two points is constant is on a hyperbola with the two points as the focal point, the sound source of the living sound is the installation of the living sound recording devices 100-1 and 100-2. Located on a hyperbola with the position as the focal point. Then, the living
具体的に例を挙げると、例えば図13に示すレイアウト情報が用いられることにより、生活音の音源が特定される。図13に示すレイアウト情報では、生活音記録装置100−1、100−2がそれぞれ点x、yに設置されており、この設置位置付近には、ドアA、ドアB、冷蔵庫及びカウンターが配置されることが示されている。生活音が生活音記録装置100−1、100−2へ入力される時刻の時間差から、生活音の音源は、点x、yを焦点とする双曲線301上に位置すると推定される。そして、この双曲線301上に位置するのはドアAであるため、生活音判別部222は、生活音の音源がドアAであると推定する。
Specifically, for example, the layout information shown in FIG. 13 is used to specify the sound source of the living sound. In the layout information shown in FIG. 13, the living sound recording devices 100-1 and 100-2 are installed at points x and y, respectively, and door A, door B, refrigerator and counter are arranged near the installation position. It has been shown that. From the time difference of the time when the living sound is input to the living sound recording devices 100-1 and 100-2, it is estimated that the sound source of the living sound is located on the
なお、生活音判別部222は、生活音の種類を特定した上で、生活音の音源を推定しても良い。すなわち、生活音判別部222は、生活音の種類がドアを閉じる音であると特定した後、上記のように音源を推定することにより、生活音がドアBではなくドアAを閉じる音であると特定することが可能である。また、ここでは生活音記録装置100−1、100−2の2つから音声データが取得されるものとしたため、生活音の入力時刻の時間差から、音源が位置し得る双曲線が求められるにとどまった。しかしながら、3つ以上の生活音記録装置から音声データが取得される場合は、生活音の入力時刻の時間差から、音源が位置する点を特定可能である。
Note that the living
生活音判別部222によって音源が推定されると、生活音の種類及び音源を示す結果が結果出力部223によって出力される(ステップS305)。この結果は、さらに他の処理を実行するアプリケーションへ提供されても良い。
When the sound source is estimated by the life
以上のように、本実施例によれば、複数の生活音記録装置からそれぞれフレームの順番が変更された音声データを取得し、複数の生活音記録装置へ入力された生活音の時間差に基づいて生活音の音源を特定する。このため、ユーザのプライバシーを保護しつつ、生活音を用いた詳細な解析をすることができる。 As described above, according to the present embodiment, the sound data in which the order of the frames is changed from each of the plurality of living sound recording devices is acquired, and based on the time difference between the living sounds input to the plurality of living sound recording devices. Identify the sound source of daily life. For this reason, it is possible to perform a detailed analysis using life sounds while protecting the user's privacy.
[生活音記録プログラム]
上記各実施例において説明した生活音記録装置100、100−1、100−2及びサーバ装置200の処理をそれぞれコンピュータが実行可能なプログラムとして記述することも可能である。この場合、これらのプログラムをコンピュータが読み取り可能な記録媒体に格納し、コンピュータに導入することも可能である。コンピュータが読み取り可能な記録媒体としては、例えばCD−ROM、DVDディスク、USBメモリなどの可搬型記録媒体や、例えばフラッシュメモリなどの半導体メモリが挙げられる。
[Life sound recording program]
It is also possible to describe the processes of the life
以上の各実施例に関し、さらに以下の付記を開示する。 The following additional notes are disclosed for each of the above embodiments.
(付記1)ユーザの生活空間において発生する音声が含まれる音声データを取得する取得部と、
前記取得部によって取得された音声データを、ユーザの行動又は動作に伴う生活音の継続時間に対応する時間長のフレームに分割する分割部と、
前記分割部によって分割されて得られた複数のフレームの順番を変更してメモリに記録する記録制御部と
を有することを特徴とする生活音記録装置。
(Additional remark 1) The acquisition part which acquires the audio | voice data containing the audio | voice which generate | occur | produces in a user's living space,
A division unit that divides the audio data acquired by the acquisition unit into frames of a time length corresponding to a duration of a life sound associated with a user's action or action;
A life sound recording apparatus comprising: a recording control unit that changes the order of a plurality of frames obtained by the division by the division unit and records the change in a memory.
(付記2)前記分割部によって分割されて得られたフレームそれぞれに、生活音が含まれるか否かを判定する判定部をさらに有し、
前記記録制御部は、
前記判定部によって生活音が含まれないと判定されたフレームを削除することにより、前記複数のフレームの順番を変更することを特徴とする付記1記載の生活音記録装置。
(Additional remark 2) It further has the determination part which determines whether each frame obtained by dividing | segmenting by the said division | segmentation part contains a living sound,
The recording control unit
The life sound recording apparatus according to appendix 1, wherein the order of the plurality of frames is changed by deleting a frame determined by the determination unit as not containing life sound.
(付記3)前記記録制御部は、
前記分割部によって分割されて得られたフレームを所定数ずつ蓄積し、蓄積された所定数のフレームの順序を入れ替えることにより、前記複数のフレームの順番を変更することを特徴とする付記1記載の生活音記録装置。
(Supplementary Note 3) The recording control unit
The addition of claim 1, wherein a predetermined number of frames obtained by dividing by the dividing unit are accumulated, and the order of the plurality of frames is changed by changing the order of the accumulated number of frames. Life sound recording device.
(付記4)前記分割部によって分割されて得られたフレームそれぞれに、生活音が含まれるか否かを判定する判定部をさらに有し、
前記記録制御部は、
前記判定部による判定後のフレームを所定数ずつ蓄積し、蓄積された所定数のフレームのうち前記判定部によって生活音が含まれないと判定されたフレームの順序を入れ替えることにより、前記複数のフレームの順番を変更することを特徴とする付記1記載の生活音記録装置。
(Additional remark 4) It further has the determination part which determines whether each frame obtained by dividing | segmenting by the said division part contains a living sound,
The recording control unit
By storing a predetermined number of frames after determination by the determination unit, and by switching the order of the frames determined by the determination unit as not including a living sound among the stored predetermined number of frames, the plurality of frames The life sound recording apparatus according to supplementary note 1, wherein the order of the sound is changed.
(付記5)前記分割部は、
音声データを200ms(ミリ秒)以上500ms以下の時間長のフレームに分割することを特徴とする付記1記載の生活音記録装置。
(Supplementary note 5)
The life sound recording apparatus according to appendix 1, wherein the sound data is divided into frames having a time length of 200 ms (milliseconds) to 500 ms.
(付記6)前記記録制御部は、
フレームに含まれる音声の入力時刻を示すタグを当該フレームに付与してメモリに記録することを特徴とする付記1記載の生活音記録装置。
(Appendix 6) The recording control unit
The life sound recording apparatus according to appendix 1, wherein a tag indicating an input time of sound included in a frame is attached to the frame and recorded in a memory.
(付記7)前記メモリに記録された順番のフレームからなる音声データを送信する送信部をさらに有することを特徴とする付記1記載の生活音記録装置。 (Supplementary note 7) The life sound recording apparatus according to supplementary note 1, further comprising a transmission unit that transmits audio data composed of frames in the order recorded in the memory.
(付記8)ユーザの行動又は動作に伴う生活音の継続時間に対応する時間長のフレームからなる音声データを取得する取得部と、
前記取得部によって取得された音声データの各フレームから生活音を抽出する抽出部と、
前記抽出部によって抽出された生活音の種類を判別する判別部と
を有することを特徴とする情報処理装置。
(Additional remark 8) The acquisition part which acquires the audio | voice data which consist of a frame of the time length corresponding to the duration of the life sound accompanying a user's action or operation | movement,
An extraction unit for extracting a living sound from each frame of the audio data acquired by the acquisition unit;
An information processing apparatus comprising: a discrimination unit that discriminates a type of life sound extracted by the extraction unit.
(付記9)前記取得部は、
互いに異なる位置に設置された第1の生活音記録装置及び第2の生活音記録装置からそれぞれ第1の音声データ及び第2の音声データを取得し、
前記判別部は、
前記第1の音声データのフレーム及び前記第2の音声データのフレームから抽出された生活音の時間差を算出し、算出された時間差に基づいて生活音の音源の位置を推定することを特徴とする付記8記載の情報処理装置。
(Supplementary Note 9) The acquisition unit
Obtaining the first sound data and the second sound data from the first living sound recording device and the second living sound recording device installed at different positions, respectively;
The discrimination unit
Calculating a time difference between living sounds extracted from the frame of the first sound data and the frame of the second sound data, and estimating a position of a sound source of the living sound based on the calculated time difference; The information processing apparatus according to appendix 8.
(付記10)ユーザの生活空間において発生する音声が含まれる音声データを取得し、
取得された音声データを、ユーザの行動又は動作に伴う生活音の継続時間に対応する時間長のフレームに分割し、
分割されて得られた複数のフレームの順番を変更してメモリに記録する
処理をコンピュータが実行することを特徴とする生活音記録方法。
(Supplementary Note 10) Acquire audio data including audio generated in the user's living space,
Dividing the acquired voice data into frames of a time length corresponding to the duration of the life sound accompanying the user's action or action,
A life sound recording method, wherein a computer executes a process of changing the order of a plurality of frames obtained by division and recording the same in a memory.
(付記11)ユーザの生活空間において発生する音声が含まれる音声データを取得し、
取得された音声データを、ユーザの行動又は動作に伴う生活音の継続時間に対応する時間長のフレームに分割し、
分割されて得られた複数のフレームの順番を変更してメモリに記録する
処理をコンピュータに実行させることを特徴とする生活音記録プログラム。
(Supplementary Note 11) Acquire audio data including audio generated in the user's living space,
Dividing the acquired voice data into frames of a time length corresponding to the duration of the life sound accompanying the user's action or action,
A life sound recording program characterized by causing a computer to execute a process of changing the order of a plurality of frames obtained by division and recording them in a memory.
110 音声入力部
120、220 プロセッサ
121 分割部
122 生活音判定部
123、151 記録制御部
124 通信制御部
130 無線送信部
140、230 メモリ
210 通信I/F
221 生活音抽出部
222 生活音判別部
223 結果出力部
251 環境音抽出部
252 環境音判別部
DESCRIPTION OF
221 Living
Claims (10)
前記取得部によって取得された音声データを、ユーザの行動又は動作に伴う生活音の継続時間に対応する時間長のフレームに分割する分割部と、
前記分割部によって分割されて得られた複数のフレームの順番を変更してメモリに記録する記録制御部と
を有することを特徴とする生活音記録装置。 An acquisition unit for acquiring audio data including audio generated in the user's living space;
A division unit that divides the audio data acquired by the acquisition unit into frames of a time length corresponding to a duration of a life sound associated with a user's action or action;
A life sound recording apparatus comprising: a recording control unit that changes the order of a plurality of frames obtained by the division by the division unit and records the change in a memory.
前記記録制御部は、
前記判定部によって生活音が含まれないと判定されたフレームを削除することにより、前記複数のフレームの順番を変更することを特徴とする請求項1記載の生活音記録装置。 Each of the frames obtained by the division by the division unit further includes a determination unit that determines whether or not life sounds are included,
The recording control unit
The life sound recording apparatus according to claim 1, wherein the order of the plurality of frames is changed by deleting a frame determined by the determination unit as not containing life sound.
前記分割部によって分割されて得られたフレームを所定数ずつ蓄積し、蓄積された所定数のフレームの順序を入れ替えることにより、前記複数のフレームの順番を変更することを特徴とする請求項1記載の生活音記録装置。 The recording control unit
2. The order of the plurality of frames is changed by accumulating a predetermined number of frames obtained by dividing by the dividing unit and changing an order of the accumulated number of frames. Life sound recording device.
前記記録制御部は、
前記判定部による判定後のフレームを所定数ずつ蓄積し、蓄積された所定数のフレームのうち前記判定部によって生活音が含まれないと判定されたフレームの順序を入れ替えることにより、前記複数のフレームの順番を変更することを特徴とする請求項1記載の生活音記録装置。 Each of the frames obtained by the division by the division unit further includes a determination unit that determines whether or not life sounds are included,
The recording control unit
By storing a predetermined number of frames after determination by the determination unit, and by switching the order of the frames determined by the determination unit as not including a living sound among the stored predetermined number of frames, the plurality of frames The life sound recording apparatus according to claim 1, wherein the order is changed.
音声データを200ms(ミリ秒)以上500ms以下の時間長のフレームに分割することを特徴とする請求項1記載の生活音記録装置。 The dividing unit is
The life sound recording apparatus according to claim 1, wherein the sound data is divided into frames having a time length of 200 ms (milliseconds) to 500 ms.
フレームに含まれる音声の入力時刻を示すタグを当該フレームに付与してメモリに記録することを特徴とする請求項1記載の生活音記録装置。 The recording control unit
The life sound recording apparatus according to claim 1, wherein a tag indicating an input time of sound included in a frame is attached to the frame and recorded in a memory.
前記取得部によって取得された音声データの各フレームから生活音を抽出する抽出部と、
前記抽出部によって抽出された生活音の種類を判別する判別部と
を有することを特徴とする情報処理装置。 An acquisition unit that acquires audio data composed of a frame of a length corresponding to a duration of a life sound associated with a user's action or action;
An extraction unit for extracting a living sound from each frame of the audio data acquired by the acquisition unit;
An information processing apparatus comprising: a discrimination unit that discriminates a type of life sound extracted by the extraction unit.
互いに異なる位置に設置された第1の生活音記録装置及び第2の生活音記録装置からそれぞれ第1の音声データ及び第2の音声データを取得し、
前記判別部は、
前記第1の音声データのフレーム及び前記第2の音声データのフレームから抽出された生活音の時間差を算出し、算出された時間差に基づいて生活音の音源の位置を推定することを特徴とする請求項8記載の情報処理装置。 The acquisition unit
Obtaining the first sound data and the second sound data from the first living sound recording device and the second living sound recording device installed at different positions, respectively;
The discrimination unit
Calculating a time difference between living sounds extracted from the frame of the first sound data and the frame of the second sound data, and estimating a position of a sound source of the living sound based on the calculated time difference; The information processing apparatus according to claim 8.
取得された音声データを、ユーザの行動又は動作に伴う生活音の継続時間に対応する時間長のフレームに分割し、
分割されて得られた複数のフレームの順番を変更してメモリに記録する
処理をコンピュータが実行することを特徴とする生活音記録方法。 Acquire audio data that includes audio generated in the user's living space,
Dividing the acquired voice data into frames of a time length corresponding to the duration of the life sound accompanying the user's action or action,
A life sound recording method, wherein a computer executes a process of changing the order of a plurality of frames obtained by division and recording the same in a memory.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018013032A JP2019132912A (en) | 2018-01-29 | 2018-01-29 | Living sound recording device and living sound recording method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018013032A JP2019132912A (en) | 2018-01-29 | 2018-01-29 | Living sound recording device and living sound recording method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019132912A true JP2019132912A (en) | 2019-08-08 |
Family
ID=67547454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018013032A Pending JP2019132912A (en) | 2018-01-29 | 2018-01-29 | Living sound recording device and living sound recording method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019132912A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021174372A (en) * | 2020-04-28 | 2021-11-01 | アルセンス株式会社 | Sensor device and livestock management system |
WO2023008260A1 (en) * | 2021-07-29 | 2023-02-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Information processing system, information processing method, and information processing program |
-
2018
- 2018-01-29 JP JP2018013032A patent/JP2019132912A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021174372A (en) * | 2020-04-28 | 2021-11-01 | アルセンス株式会社 | Sensor device and livestock management system |
WO2023008260A1 (en) * | 2021-07-29 | 2023-02-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Information processing system, information processing method, and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102450993B1 (en) | Responding to Remote Media Classification Queries Using Classifier Models and Context Parameters | |
JP5607627B2 (en) | Signal processing apparatus and signal processing method | |
US20130006633A1 (en) | Learning speech models for mobile device users | |
TW201320058A (en) | Mobile device context information using speech detection | |
JP5664480B2 (en) | Abnormal state detection device, telephone, abnormal state detection method, and program | |
CN111279414B (en) | Segmentation-based feature extraction for sound scene classification | |
CN105118522B (en) | Noise detection method and device | |
Sun et al. | UltraSE: single-channel speech enhancement using ultrasound | |
KR20140031391A (en) | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context | |
KR101616112B1 (en) | Speaker separation system and method using voice feature vectors | |
CN111640411B (en) | Audio synthesis method, device and computer readable storage medium | |
CN112242149B (en) | Audio data processing method and device, earphone and computer readable storage medium | |
JP2019132912A (en) | Living sound recording device and living sound recording method | |
Lezzoum et al. | Voice activity detection system for smart earphones | |
CN111081275A (en) | Terminal processing method and device based on sound analysis, storage medium and terminal | |
JP6268916B2 (en) | Abnormal conversation detection apparatus, abnormal conversation detection method, and abnormal conversation detection computer program | |
CN113129876A (en) | Network searching method and device, electronic equipment and storage medium | |
CN112992153B (en) | Audio processing method, voiceprint recognition device and computer equipment | |
KR101774236B1 (en) | Apparatus and method for context-awareness of user | |
Diaconita et al. | Do you hear what i hear? using acoustic probing to detect smartphone locations | |
CN112466287A (en) | Voice segmentation method and device and computer readable storage medium | |
WO2017117234A1 (en) | Responding to remote media classification queries using classifier models and context parameters | |
JP2007187748A (en) | Sound selective processing device | |
CN111986657B (en) | Audio identification method and device, recording terminal, server and storage medium | |
KR101660306B1 (en) | Method and apparatus for generating life log in portable termianl |