JP2021021815A - Voice grasping system of species - Google Patents

Voice grasping system of species Download PDF

Info

Publication number
JP2021021815A
JP2021021815A JP2019137682A JP2019137682A JP2021021815A JP 2021021815 A JP2021021815 A JP 2021021815A JP 2019137682 A JP2019137682 A JP 2019137682A JP 2019137682 A JP2019137682 A JP 2019137682A JP 2021021815 A JP2021021815 A JP 2021021815A
Authority
JP
Japan
Prior art keywords
basic
voice
value
frequency
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019137682A
Other languages
Japanese (ja)
Other versions
JP7312046B2 (en
Inventor
聖哉 阿部
Seiya Abe
聖哉 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Research Institute of Electric Power Industry
Original Assignee
Central Research Institute of Electric Power Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Research Institute of Electric Power Industry filed Critical Central Research Institute of Electric Power Industry
Priority to JP2019137682A priority Critical patent/JP7312046B2/en
Publication of JP2021021815A publication Critical patent/JP2021021815A/en
Application granted granted Critical
Publication of JP7312046B2 publication Critical patent/JP7312046B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

To grasp the voice of species by easily and rapidly extracting only the voice of desired species.SOLUTION: When comparing actual data collected by recording means 5 with the frequency of basic voice data stored in basic voice data storage means 6, a voice grasping system performs filter processing to the frequency of actual voice by a filter function 11, eliminates noise etc., extracts the voice of a portion almost certainly including birdcalls, and compares data in which information on clear noise and sound other than the voice of species does not exist.SELECTED DRAWING: Figure 2

Description

本発明は、生物種の音声把握システムに関する。 The present invention relates to a species voice grasping system.

環境アセスメントの重要性が高まり、鳥類や哺乳類、両生類、昆虫類等の野生動物(生物種)の生息状況を把握することが重要になってきている。このため、調査対象地域に生物種の鳴き声等の音声を収集する音源検出手段を備え、通信網を介して音源検出手段で得られた音声情報をデータベースに登録する、生物種の生息状況を把握するシステム(生物種の音声把握システム)が従来から提案されている(例えば、特許文献1)。 The importance of environmental assessment is increasing, and it is becoming important to understand the habitat status of wild animals (species) such as birds, mammals, amphibians, and insects. For this reason, the survey area is equipped with a sound source detection means that collects voices such as the barking of the species, and the voice information obtained by the sound source detection means is registered in the database via the communication network to grasp the habitat status of the species. A system (for example, a voice grasping system for a species) has been conventionally proposed (for example, Patent Document 1).

従来から提案されている生物種の音声把握システムでは、無線端末等を特定の生物種に保持させることなく、生物種の音声データを基にして行動をデータベース化することができる。このため、現地での調査やデータ収集等を行うことなく、調査対象の制限を少なくして生物種の音声データを収集し、生息状況を把握することができる。 In the conventionally proposed voice grasping system for species, it is possible to create a database of behaviors based on the voice data of the species without holding a wireless terminal or the like in a specific species. For this reason, it is possible to collect audio data of species and grasp the habitat status by reducing the restrictions on the survey target without conducting on-site surveys or data collection.

従来から提案されている生物種の音声把握システムでは、無線端末等を特定の生物種に保持させることなく、音声データを収集することができる。所望の生物種の音声だけを容易に抽出するためには、録音された音声データと所望の生物種の音声データとを比較し、機械的に適切に判別する必要がある。 In the conventionally proposed voice grasping system for species, voice data can be collected without holding a wireless terminal or the like in a specific species. In order to easily extract only the voice of a desired species, it is necessary to compare the recorded voice data with the voice data of the desired species and make an appropriate mechanical determination.

しかし、特許文献1に開示された技術では、継続して長時間、もしくは、反復して長期間にわたり、録音された音声データと所望の生物種の音声データとを、機械的に適切に判別する点は考慮されておらず、所望の生物種の音声だけを短時間で容易に抽出するには至っていないのが現状である。 However, in the technique disclosed in Patent Document 1, the recorded voice data and the voice data of a desired biological species are mechanically and appropriately discriminated continuously for a long period of time or repeatedly for a long period of time. The point is not taken into consideration, and the current situation is that it has not been possible to easily extract only the voice of a desired species in a short time.

特願2018−99114号公報Japanese Patent Application No. 2018-99114

本発明は上記状況に鑑みてなされたもので、所望の生物種の音声だけを短時間で容易に抽出して生物種の音声を把握することができる生物種の音声把握システムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and provides a voice grasping system for a species that can easily extract only the voice of a desired species in a short time and grasp the voice of the species. The purpose.

特に、継続して長時間、もしくは、反復して長期間にわたり、録音された音声データを基に、所望の生物種の音声だけを短時間で容易に抽出して生物種の音声を把握することができる生物種の音声把握システムを提供することを目的とする。 In particular, it is necessary to easily extract only the voice of a desired species in a short time based on the voice data recorded continuously for a long time or repeatedly for a long period of time to grasp the voice of the species. The purpose is to provide a voice grasping system for species that can be used.

上記目的を達成するための請求項1に係る本発明の生物種の音声把握システムは、対象となる生物種の音声データが基礎音声データとして記憶される基礎音声データ記憶手段と、所望の場所における音声を録音して対象となる生物種の実音声データを含む実データを得る録音手段と、前記基礎音声データ記憶手段に記憶されている前記基礎音声データ、及び、前記録音手段で録音された前記実データを比較し、前記実データの中から対象となる生物種の実音声データの部分を特定する制御手段とを備え、前記制御手段は、前記基礎音声データと前記実データの周波数を比較することで、実音声データの部分を特定する比較機能と、前記基礎音声データと比較する前記実データに、比較対象となる周波数の範囲を設定するフィルター処理を施すフィルター機能とを有していることを特徴とする。 The voice grasping system for a species of the present invention according to claim 1 for achieving the above object is a basic voice data storage means in which voice data of a target species is stored as basic voice data, and at a desired location. A recording means for recording audio to obtain actual data including actual audio data of a target organism, the basic audio data stored in the basic audio data storage means, and the recording means recorded by the recording means. The control means is provided with a control means for comparing the actual data and specifying a part of the actual voice data of the target organism from the actual data, and the control means compares the frequency of the basic voice data with the frequency of the actual data. By doing so, it has a comparison function for specifying a part of the actual audio data and a filter function for performing a filtering process for setting a frequency range to be compared with the actual data to be compared with the basic audio data. It is characterized by.

請求項1に係る本発明では、対象となる生物種の実音声データを含む実データ(生物種の実際の鳴き声と周囲の音全て)に、比較対象となる周波数の範囲を設定するフィルター処理を施し、フィルター処理が施された実データと基礎音声データとを比較し、周波数の範囲が設定された実データから実音声データ(実際の鳴き声の部分)を抽出する。 In the present invention according to claim 1, a filter process for setting a frequency range to be compared is performed on actual data including actual audio data of the target biological species (actual bark of the biological species and all surrounding sounds). The actual data that has been applied and filtered is compared with the basic audio data, and the actual audio data (the part of the actual bark) is extracted from the actual data in which the frequency range is set.

所望の場所で、継続して長時間、もしくは、反復して長期間にわたり、録音された実データの中から実音声データを抽出することができ、対象となる生物種の鳴き声が生じている時期(時刻)や頻度を明らかにして、生物種の生息状況を把握することが可能になる。 The time when the real voice data can be extracted from the recorded real data continuously for a long time or repeatedly for a long time at a desired place, and the bark of the target species is generated. By clarifying the (time) and frequency, it becomes possible to grasp the habitat status of species.

従って、所望の生物種の音声だけを短時間で容易に抽出して生物種の音声を把握することが可能になる。 Therefore, it is possible to easily extract only the voice of a desired species in a short time and grasp the voice of the species.

そして、請求項2に係る本発明の生物種の音声把握システムは、請求項1に記載の生物種の音声把握システムにおいて、前記制御手段は、実データの音声の時間範囲を所定区分の音節に分割する音節区分機能を有し、前記比較機能は、前記音節区分機能で分割された音節の単位で周波数を比較することを特徴とする。 The voice grasping system for the species of the present invention according to claim 2 is the voice grasping system for the species according to claim 1, wherein the control means sets the time range of the voice of the actual data into syllables of a predetermined division. It has a syllable division function for dividing, and the comparison function is characterized in that frequencies are compared in units of syllables divided by the syllable division function.

請求項2に係る本発明では、生物種の音声(鳴き声)が生じている部分を音節として区分し、区分した音節を単位で周波数を比較することで、生物種の音声を把握することができる。 In the present invention according to claim 2, the voice of the species can be grasped by classifying the portion where the voice (squeal) of the species is generated as a syllable and comparing the frequencies of the divided syllables in units. ..

また、請求項3に係る本発明の生物種の音声把握システムは、請求項2に記載の生物種の音声把握システムにおいて、前記制御手段は、前記音節区分機能で分割された音節における時間経過の音の周波数の変化を、音の大きさと周波数との関係である周波数特性に変換する変換機能を有し、前記比較機能は、前記変換機能で変換された前記周波数特性を比較することを特徴とする。 Further, the voice grasping system for the biological species of the present invention according to claim 3 is the voice grasping system for the biological species according to claim 2, wherein the control means is the time lapse in the syllables divided by the syllable division function. It has a conversion function that converts a change in the frequency of sound into a frequency characteristic that is the relationship between the loudness of the sound and the frequency, and the comparison function is characterized in that the frequency characteristic converted by the conversion function is compared. To do.

請求項3に係る本発明では、音節における音の経時変化を、音の大きさ(強度)と周波数との関係である周波数特性に変換し、周波数の特性を比較することで、生物種の音声を把握することができる。 In the present invention according to claim 3, the change with time of the sound in the syllable is converted into the frequency characteristic which is the relationship between the loudness (intensity) of the sound and the frequency, and the frequency characteristic is compared. Can be grasped.

また、請求項4に係る本発明の生物種の音声把握システムは、請求項3に記載の生物種の音声把握システムにおいて、前記制御手段の前記比較機能は、周波数特性を比較する際に、パラメータとして、音の周波数が上昇から低下に変わる値の最大値である最大ピーク値、音の周波数が低下から上昇に変わる値の最小値である最小ピーク値、最大ピーク値と最小ピーク値の差であるピーク差値、音の周波数が上昇から低下に変わる値及び音の周波数が低下から上昇に変わる値の平均値である平均ピーク値の少なくとも一つを用いることを特徴とする。 Further, the sound grasping system for the species of the present invention according to claim 4 is the sound grasping system for the species according to claim 3, wherein the comparison function of the control means is a parameter when comparing frequency characteristics. The maximum peak value, which is the maximum value of the value at which the sound frequency changes from rising to falling, the minimum peak value, which is the minimum value of the value at which the sound frequency changes from falling to rising, and the difference between the maximum peak value and the minimum peak value. It is characterized in that at least one of a certain peak difference value, a value at which the sound frequency changes from an increase to a decrease, and an average value of a value at which a sound frequency changes from a decrease to an increase is used.

請求項4に係る本発明では、音の周波数が変化する位置での値(ピークの値)を用いることで、特徴が出やすい部分を比較することができる。 In the present invention according to claim 4, by using the value (peak value) at the position where the frequency of the sound changes, it is possible to compare the parts where the characteristics are likely to appear.

また、請求項5に係る本発明の生物種の音声把握システムは、請求項4に記載の生物種の音声把握システムにおいて、前記基礎音声データ記憶手段では、前記基礎音声データは、音声の時間範囲が所定区分の音節である基礎音節に分割され、基礎音節の時間経過が、大きさと周波数との関係である基礎周波数特性に変換され、基礎周波数特性から基礎パラメータとして、音の周波数が上昇から低下に変わる値の最大値である基礎最大ピーク値、音の周波数が低下から上昇に変わる値の最小値である基礎最小ピーク値、基礎最大ピーク値と基礎最小ピーク値の差である基礎ピーク差値、音の周波数が上昇から低下に変わる値及び音の大きさが低下から上昇に変わる値の平均値である基礎平均ピーク値が定義され、基礎パラメータの少なくとも二つを含む複数の基礎パラメータが抽出され、複数の基礎パラメータの値から、多変量の分散行列に基づいて発生させた正規乱数を発生させ、発生させた正規乱数に基づいて外れ値が排除された状態の二次基礎パラメータが特定され、前記制御手段では、二次基礎パラメータと実データの周波数特性が比較されることで、実音声データと基礎音声データの周波数が比較されることを特徴とする。 Further, the voice grasping system of the biological species of the present invention according to claim 5 is the voice grasping system of the biological species according to claim 4, and in the basic voice data storage means, the basic voice data is a voice time range. Is divided into basic tunes, which are the tunes of a predetermined division, and the time passage of the basic tunes is converted into the basic frequency characteristics, which is the relationship between the magnitude and the frequency, and the frequency of the sound rises and falls as a basic parameter from the basic frequency characteristics. The basic maximum peak value, which is the maximum value of the value that changes to, the basic minimum peak value, which is the minimum value of the value at which the sound frequency changes from decreasing to rising, and the basic peak difference value, which is the difference between the basic maximum peak value and the basic minimum peak value. , The basic average peak value, which is the average value of the value at which the frequency of the sound changes from rising to falling and the value at which the loudness changes from falling to rising, is defined, and a plurality of basic parameters including at least two of the basic parameters are extracted. Then, from the values of multiple basic parameters, a normal random number generated based on a multivariate variance matrix is generated, and a quadratic basic parameter in a state in which outliers are excluded based on the generated normal random number is specified. The control means is characterized in that the frequencies of the actual audio data and the basic audio data are compared by comparing the frequency characteristics of the secondary basic parameters and the actual data.

請求項5に係る本発明では、比較の基礎となる基礎音声データとして、鳴き声の部分の音節、音の周波数が変化する位置での値の基礎パラメータに基づいた状態で、及び、データの平均とばらつきから正規乱数を多数生成すると共に外れ値を排除した状態で、二次基礎パラメータが特定され、二次基礎パラメータと実データの周波数特性が比較されることで、実音声データと基礎音声データの周波数が比較される。 In the present invention according to claim 5, as the basic audio data on which the comparison is based, the syllables of the bark part, the state based on the basic parameters of the values at the positions where the frequency of the sound changes, and the average of the data The secondary basic parameters are specified in a state where many normal random numbers are generated from the variation and outliers are excluded, and the frequency characteristics of the secondary basic parameters and the actual data are compared, so that the real voice data and the basic voice data The frequencies are compared.

このため、基礎音声データの雑音が排除されると共に、基礎音声データの地域差等によるばらつきを補正することができ、二次基礎パラメータを比較の対象として用いることで、機械的な比較を容易に実施することができる。 Therefore, the noise of the basic voice data can be eliminated, and the variation due to the regional difference of the basic voice data can be corrected. By using the secondary basic parameters as the comparison target, the mechanical comparison can be easily performed. Can be carried out.

本発明の生物種の音声把握システムは、所望の生物種の音声だけを短時間で容易に抽出して生物種の音声を把握することが可能になる。 The voice grasping system for a species of the present invention can easily extract only the voice of a desired species in a short time and grasp the voice of the species.

つまり、本発明の生物種の音声把握システムは、継続して長時間、もしくは、反復して長期間にわたり、録音された音声データを基に、所望の生物種の音声だけを短時間で容易に抽出して生物種の音声を把握し、所望の生物種が、いつ(時間、時季)いるのか、どの程度いるのか、その場所にはいないのかを確認することが可能になる。 That is, the voice grasping system of the species of the present invention can easily obtain only the voice of a desired species in a short time based on the voice data recorded continuously for a long time or repeatedly for a long period of time. It is possible to extract and grasp the sound of the species, and confirm when (time, season) the desired species is present, how much it is, and whether it is not in that place.

本発明の一実施例に係る生物種の音声把握システムの全体の状況を説明する概念図である。It is a conceptual diagram explaining the whole situation of the voice grasping system of the species which concerns on one Example of this invention. 本発明の一実施例に係る生物種の音声把握システムの概略ブロック構成図である。It is a schematic block block diagram of the voice grasping system of the biological species which concerns on one Example of this invention. 比較の基礎となる基礎音声データの基礎音節を説明する音声レベルの図(基礎周波数特性)である。It is a figure (basic frequency characteristic) of the voice level explaining the basic syllable of the basic voice data which is the basis of comparison. 基礎音節の中のピーク周波数の経時変化(基礎パラメータ)を表す図である。It is a figure which shows the time-dependent change (basic parameter) of the peak frequency in a basic syllable. 基礎周波数特性から発生させた正規乱数の概念図である。It is a conceptual diagram of a normal random number generated from the basic frequency characteristic. 実データの音節を説明する音声レベルの図(周波数特性)である。It is a figure (frequency characteristic) of the voice level explaining the syllable of the real data. 音節の中のピーク周波数の経時変化(パラメータ)を表す図である。It is a figure which shows the time-dependent change (parameter) of the peak frequency in a syllable.

環境アセスメントにおいて、調査の対象となる生物種、例えば、特定の鳥類(単に鳥類と記す)の生息状況を把握する必要がある場合、鳥類の鳴き声(音声データ)が基礎音声データとして準備される。そして、所望の場所で、鳥類の実際の鳴き声と周囲の音全てを含む音声(実データ)を所定の期間継続して、もしくは、反復して長時間にわたり録音し、実データと基礎音声データとを比較することで、実データの中から鳥類の実際の鳴き声(実音声データ)を抽出する(特定する)。 When it is necessary to grasp the habitat status of a specific bird (simply referred to as a bird) of the species to be surveyed in the environmental assessment, the song of the bird (voice data) is prepared as the basic voice data. Then, at a desired place, the voice (actual data) including the actual sounds of the birds and all the surrounding sounds is continuously or repeatedly recorded for a predetermined period of time, and the actual data and the basic voice data are recorded. By comparing, the actual bark (actual voice data) of birds is extracted (identified) from the actual data.

鳥類の実際の鳴き声(実音声データ)を抽出する(特定する)ことで、所望の場所で、鳥類の鳴き声が生じている時刻、時季、頻度等を明らかにして、生物種の生息状況を把握することができる。つまり、所望の鳥類が、いつ(時間、時季)いるのか、どの程度いるのか、その場所にはいないのかを確認することが可能になる。 By extracting (identifying) the actual song of birds (actual voice data), the time, season, frequency, etc. of the song of birds are clarified at the desired location, and the habitat status of the species can be grasped. can do. In other words, it is possible to confirm when (time, season) the desired bird is, how much it is, and whether it is not in that place.

本発明では、鳥類の実際の鳴き声(実音声データ)を抽出する場合に、実データと基礎音声データの周波数を比較して鳥類の実際の鳴き声を特定する。そして、比較をする際に、フィルター処理を施すことで、雑音等を排除すると共に、鳥類の鳴き声であることが、ほぼ確実な部分の音声を抽出し、比較の対象となる周波数の範囲を特定することが特徴となっている。 In the present invention, when the actual song of a bird (actual voice data) is extracted, the actual song of the bird is specified by comparing the frequencies of the actual data and the basic voice data. Then, when making a comparison, by applying a filter process, noise and the like are eliminated, and the sound of the part that is almost certain to be the song of a bird is extracted, and the range of frequencies to be compared is specified. It is a feature to do.

具体的には、バンドパスフィルターにより、周波数の上限値と下限値を設定し、上限値よりも大きな周波数と下限値よりも小さな周波数の音声の情報を排除して実データと基礎音声データの周波数を比較する。 Specifically, the bandpass filter sets the upper and lower limits of the frequency, and excludes the audio information of the frequency larger than the upper limit and the frequency smaller than the lower limit, and the frequencies of the actual data and the basic audio data. To compare.

このため、明らかな雑音や鳥類の鳴き声以外の音声の情報が存在しないデータを比較することができ、所望の鳥類の鳴き声だけを短時間で容易に抽出して鳥類の音声を把握することが可能になる。 Therefore, it is possible to compare data in which there is no clear noise or voice information other than the bird's bark, and it is possible to easily extract only the desired bird's bark in a short time and grasp the bird's voice. become.

図面を参照して本願発明を具体的に説明する。 The present invention will be specifically described with reference to the drawings.

図1には本発明の一実施例に係る生物種の音声把握システムの全体の状況を説明するための概念を示してある。 FIG. 1 shows a concept for explaining the overall situation of a voice grasping system for a species according to an embodiment of the present invention.

図に示すように、所望の生物種である、特定の鳥類(対象となる生物種)の生息状況を調査するため、調査対象となる場所、例えば、市街地に隣接する農地1、市街地から外れた山間部2、海沿いに広がる林群3には、録音手段5が設置される。録音手段5では、所望の場所(農地1、山間部2、林群3)における音声を録音して特定の鳥類の実音声データ(特定の鳥類の鳴き声)を含む実データ(全ての録音データ)が得られる。 As shown in the figure, in order to investigate the habitat status of a specific bird (target species), which is a desired species, the survey target location, for example, agricultural land 1 adjacent to the city area or out of the city area. Recording means 5 is installed in the mountainous area 2 and the forest group 3 extending along the sea. The recording means 5 records audio at a desired location (farmland 1, mountainous area 2, forest group 3) and includes actual audio data of a specific bird (sound of a specific bird) (all recorded data). Is obtained.

所望の鳥類の実際の鳴き声のデータが基礎音声データ(音声データ)として記憶される基礎音声データ記憶手段6が備えられ、基礎音声データ記憶手段6の情報は制御手段7に収められている。制御手段7には、録音手段5で録音された、特定の鳥類の実音声データ(特定の鳥類の鳴き声)を含む実データ(全ての録音データ)が入力される。 A basic voice data storage means 6 for storing the actual bark data of a desired bird as basic voice data (voice data) is provided, and the information of the basic voice data storage means 6 is stored in the control means 7. The control means 7 is input with real data (all recorded data) including real voice data of a specific bird (song of a specific bird) recorded by the recording means 5.

制御手段7では、基礎音声データ(音声データ)の周波数と、実データ(全ての録音データ)の周波数が比較され、特定の鳥類の実音声データ(特定の鳥類の鳴き声)の部分が特定される(比較機能)。そして、基礎音声データ(音声データ)と比較する実データには、比較対象となる周波数の範囲を設定するフィルター処理が施される(フィルター機能)。 In the control means 7, the frequency of the basic audio data (audio data) and the frequency of the actual data (all recorded data) are compared, and the part of the actual audio data (song of a specific bird) of a specific bird is specified. (Comparison function). Then, the actual data to be compared with the basic voice data (voice data) is subjected to a filter process for setting a frequency range to be compared (filter function).

図2に基づいて制御手段7における機能の構成を説明する。図2には本発明の一実施例に係る音声把握システムの制御手段7における機能の概略のブロック構成を示してある。 The configuration of the function in the control means 7 will be described with reference to FIG. FIG. 2 shows a schematic block configuration of a function in the control means 7 of the voice grasping system according to the embodiment of the present invention.

図に示すように、制御手段7には録音手段5で録音された実データが入力される。制御手段7は、比較対象となる実データの周波数の範囲を設定するフィルター機能11を有している。また、実データの音声の時間範囲を所定区分の音節(音素の集合)に分割する音節区分機能12を有している。 As shown in the figure, the actual data recorded by the recording means 5 is input to the control means 7. The control means 7 has a filter function 11 for setting a frequency range of actual data to be compared. It also has a syllable division function 12 that divides the time range of the voice of the actual data into syllables (a set of phonemes) of a predetermined division.

そして、制御手段7は、音節区分機能12で分割された音節における時間経過の音の大きさの変化を、音の大きさと周波数との関係である周波数特性に変換する変換機能13を有している。そして、変換機能13で変換された周波数特性が比較機能14に送られ、比較機能14は変換機能13で変換された周波数特性を比較する。 Then, the control means 7 has a conversion function 13 that converts a change in the loudness of the sound in the syllables divided by the syllable division function 12 into a frequency characteristic that is a relationship between the loudness and the frequency. There is. Then, the frequency characteristics converted by the conversion function 13 are sent to the comparison function 14, and the comparison function 14 compares the frequency characteristics converted by the conversion function 13.

このため、鳥類の音声(鳴き声)が生じている部分を音節として区分し、区分した音節を単位で周波数を比較することで、鳥類の音声を把握することができる。 Therefore, the voice of a bird can be grasped by classifying the portion where the voice of the bird (screaming) is generated as a syllable and comparing the frequencies of the divided syllables in units.

制御手段7の比較機能14は、周波数特性を比較する際に、パラメータとして、音の周波数が上昇から低下に変わる値の最大値である最大ピーク値、音の周波数が低下から上昇に変わる値の最小値である最小ピーク値、最大ピーク値と最小ピーク値の差であるピーク差値、音の周波数が上昇から低下に変わる値、及び、音の周波数が低下から上昇に変わる値の平均値である平均ピーク値が求められる。 When comparing the frequency characteristics, the comparison function 14 of the control means 7 has, as parameters, a maximum peak value which is the maximum value of the value at which the sound frequency changes from an increase to a decrease, and a value at which the sound frequency changes from a decrease to an increase. The average value of the minimum peak value, which is the minimum value, the peak difference value, which is the difference between the maximum peak value and the minimum peak value, the value at which the sound frequency changes from rising to falling, and the value at which the sound frequency changes from falling to rising. A certain average peak value is obtained.

このため、音の周波数が変化する位置での値(ピークの値)を用いることで、特徴が出やすい部分を比較することができる。 Therefore, by using the value (peak value) at the position where the frequency of the sound changes, it is possible to compare the parts where the features are likely to appear.

一方、基礎音声データ記憶手段6では、基礎音声データは、音声の時間範囲が所定区分の音節である基礎音節に分割され、基礎音節の時間経過が、大きさと周波数との関係である基礎周波数特性に変換される。 On the other hand, in the basic voice data storage means 6, the basic voice data is divided into basic syllables whose voice time range is a syllable of a predetermined division, and the time passage of the basic syllable is a basic frequency characteristic in which the relationship between the magnitude and the frequency. Is converted to.

そして、基礎周波数特性から基礎パラメータとして、音の周波数が上昇から低下に変わる値の最大値である基礎最大ピーク値、音の周波数が低下から上昇に変わる値の最小値である基礎最小ピーク値、基礎最大ピーク値と基礎最小ピーク値の差である基礎ピーク差値、音の周波数が上昇から低下に変わる値、及び、音の周波数が低下から上昇に変わる値の平均値である基礎平均ピーク値が定義され、基礎パラメータを含む複数の基礎パラメータが抽出される。 Then, from the basic frequency characteristics, as basic parameters, the basic maximum peak value, which is the maximum value of the value at which the sound frequency changes from rising to falling, and the basic minimum peak value, which is the minimum value of the value at which the sound frequency changes from falling to rising, The basic peak difference value, which is the difference between the basic maximum peak value and the basic minimum peak value, the value at which the sound frequency changes from rising to falling, and the basic average peak value, which is the average value of the values at which the sound frequency changes from falling to rising. Is defined and multiple basic parameters including the basic parameters are extracted.

更に、複数の基礎パラメータの値から、多変量の分散行列に基づいて発生させた正規乱数を発生させ、発生させた正規乱数に基づいて外れ値が排除された状態の二次基礎パラメータが特定される。 Furthermore, from the values of multiple basic parameters, a normal random number generated based on a multivariate variance matrix is generated, and outliers are excluded based on the generated normal random number. To.

制御手段7の比較機能14では、基礎音声データの二次基礎パラメータと実データの周波数特性が比較されることで、実音声データと基礎音声データの周波数が比較される。 In the comparison function 14 of the control means 7, the frequencies of the actual voice data and the basic voice data are compared by comparing the secondary basic parameters of the basic voice data with the frequency characteristics of the actual data.

このため、比較の基礎となる基礎音声データとして、鳴き声の部分の音節、音の周波数が変化する位置での値の基礎パラメータに基づいた状態で、及び、データの平均とばらつきから正規乱数を多数生成すると共に外れ値を排除した状態で、二次基礎パラメータが特定され、二次基礎パラメータと実データの周波数特性が比較されることで、実音声データと基礎音声データの周波数が比較される。 For this reason, as basic audio data that is the basis of comparison, a large number of normal random numbers are used based on the basic parameters of the syllable part of the bark and the value at the position where the frequency of the sound changes, and from the average and variation of the data. The frequencies of the actual audio data and the basic audio data are compared by specifying the secondary basic parameters and comparing the frequency characteristics of the secondary basic parameters and the actual data in a state of generating and eliminating outliers.

図3から図5に基づいて音声データが基礎音声データとして記憶される基礎音声データ記憶手段6を具体的に説明する。即ち、二次基礎パラメータを得るまでの状況を具体的に説明する。 The basic voice data storage means 6 in which voice data is stored as basic voice data will be specifically described with reference to FIGS. 3 to 5. That is, the situation until the secondary basic parameters are obtained will be specifically described.

図3には比較の基礎となる基礎音声データの基礎音節を説明する音声レベルの時間経過、図4には基礎音節の中のピーク周波数の経時変化(基礎周波数特性、基礎パラメータ)、図5には基礎周波数特性から発生させた正規乱数の概念を示してある。 FIG. 3 shows the passage of time of the voice level explaining the basic syllables of the basic voice data that is the basis of comparison, FIG. 4 shows the time course of the peak frequency in the basic syllables (basic frequency characteristics, basic parameters), and FIG. 5 shows. Shows the concept of normal syllables generated from the basic frequency characteristics.

図3に示すように、基礎音声データは、音声の時間範囲が所定区分(1)(2)(3)(4)・・・・・(n)の音節である基礎音節に分割される。例えば、鳥の鳴き声であれば、音声の時間範囲が「ピーッ」「ピーッ」といった音節の単位で分割される。多数の基礎音節の時間経過が、大きさと周波数との関係である基礎周波数特性に変換される。基礎周波数特性の基礎音節は、多数の音素の集合体となっている。 As shown in FIG. 3, the basic voice data is divided into basic syllables whose voice time range is the syllables of the predetermined divisions (1), (2), (3), (4), ... (N). For example, in the case of a bird's bark, the time range of the voice is divided into syllable units such as "pee" and "pee". The time course of many fundamental syllables is transformed into the fundamental frequency characteristics, which is the relationship between magnitude and frequency. The basic syllable of the basic frequency characteristic is a collection of many phonemes.

そして、基礎周波数特性のそれぞれに対し、基礎パラメータとして、音の周波数が上昇から低下に変わる値の最大値である基礎最大ピーク値、音の周波数が低下から上昇に変わる値の最小値である基礎最小ピーク値、基礎最大ピーク値と基礎最小ピーク値の差である基礎ピーク差値、音の周波数が上昇から低下に変わる値、及び、音の周波数が低下から上昇に変わる値の平均値である基礎平均ピーク値が定義され、基礎パラメータが抽出される。 Then, for each of the basic frequency characteristics, as basic parameters, the basic maximum peak value, which is the maximum value of the value at which the sound frequency changes from rising to falling, and the basic value, which is the minimum value of the value at which the sound frequency changes from falling to rising. The minimum peak value, the basic peak difference value which is the difference between the basic maximum peak value and the basic minimum peak value, the value at which the sound frequency changes from rising to falling, and the average value of the values at which the sound frequency changes from falling to rising. The basal average peak value is defined and the basal parameters are extracted.

抽出された基礎パラメータに基づいて、基礎音節(1)(2)(3)(4)・・・・・(n)それぞれに対し、基礎音節の中のピーク周波数の経時変化(1a)(2a)(3a)(4a)・・・・・(na)が示される。例えば、基礎音節(2)の基礎音節の中のピーク周波数の経時変化(2a)を例に挙げると、周波数の大きさと時間との関係が、ピークの経時変化として図4に示すように示される。 With respect to the basic syllables (1), (2), (3), (4), ... (N), the peak frequency in the basic syllable changes with time (1a) and (2a) based on the extracted basic parameters. ) (3a) (4a) ... (na) are shown. For example, taking the time-dependent change (2a) of the peak frequency in the basic syllable of the basic syllable (2) as an example, the relationship between the magnitude of the frequency and the time is shown as the time-dependent change of the peak as shown in FIG. ..

つまり、図4に示すように、ピーク周波数の経時変化として、基礎最大ピーク値M、基礎最小ピーク値m、基礎最大ピーク値Mと基礎最小ピーク値mの差である基礎ピーク差値、ピーク周波数の平均値である基礎平均ピーク値aが定義される。 That is, as shown in FIG. 4, as the change with time of the peak frequency, the basic maximum peak value M, the basic minimum peak value m, the basic peak difference value which is the difference between the basic maximum peak value M and the basic minimum peak value m, and the peak frequency. The basic average peak value a, which is the average value of, is defined.

更に、図5に示すように、互いに相関する二つ(複数)の基礎パラメータの値(例えば、基礎最大ピーク値と基礎最小ピーク値)から、多変量の分散行列に基づいて正規乱数を発生させる。例えば、図中点線の中に納まっていない外れ値が●で示すように存在する。 Further, as shown in FIG. 5, a normal random number is generated based on a multivariate variance matrix from the values of two (plurality) basic parameters that correlate with each other (for example, the basic maximum peak value and the basic minimum peak value). .. For example, there are outliers that are not within the dotted line in the figure, as shown by ●.

図5中点線の中に納まっていない外れ値は、例えば、図3中の基礎音節の中のピーク周波数の経時変化(1a)(7a)に相当することが判断される。即ち、基礎音節の中のピーク周波数の経時変化(1a)(7a)が、図4に示した状態に近似していないと判断されて、外れ値に該当する基礎音節の中のピーク周波数の経時変化(1a)(7a)とされる。 It is determined that the outliers not within the middle dotted line in FIG. 5 correspond to, for example, the temporal changes (1a) and (7a) of the peak frequency in the basic syllable in FIG. That is, it is determined that the time-dependent changes (1a) and (7a) of the peak frequency in the basic syllable do not approximate the state shown in FIG. 4, and the time-dependent change of the peak frequency in the basic syllable corresponding to the outlier is determined. Changes (1a) and (7a).

そして、図5中点線の中に納まっていない外れ値の基礎音節(1)(7)が排除され、外れ値が排除された状態の基礎周波数特性(図中点線の中に納まっている基礎音節の基礎周波数特性)が二次基礎パラメータとして特定される。つまり、図3に示した状態における、基礎音節(2)(3)(4)(5)(6)における周波数の特性が二次基礎パラメータとして特定される。 Then, the basic frequency characteristics (1) and (7) of the outliers that are not contained in the middle dotted line in FIG. 5 are excluded, and the basic frequency characteristics (the basic syllables that are contained in the dotted line in the figure) are excluded. Basic frequency characteristics) is specified as a secondary basic parameter. That is, the frequency characteristics of the basic syllables (2), (3), (4), (5), and (6) in the state shown in FIG. 3 are specified as secondary basic parameters.

即ち、図3に示した状態では、基礎音節(1)(2)(3)(4)・・・・・(n)に対し、例えば、基礎音節の中のピーク周波数の経時変化(2a)(3a)(4a)(5a)(6a)が図4に示した状態に近似していると判断され、二次基礎パラメータとして特定される。 That is, in the state shown in FIG. 3, for example, the change with time of the peak frequency in the basic syllable (2a) with respect to the basic syllables (1), (2), (3), (4), ... (N). It is determined that (3a), (4a), (5a), and (6a) are close to the state shown in FIG. 4, and they are specified as secondary basic parameters.

このため、基礎音声データの雑音が排除されると共に、基礎音声データの地域差等によるばらつきを補正することができ、二次基礎パラメータを比較の対象として用いることで、機械的な比較を容易に実施することができる。 Therefore, the noise of the basic voice data can be eliminated, and the variation due to the regional difference of the basic voice data can be corrected. By using the secondary basic parameters as the comparison target, the mechanical comparison can be easily performed. Can be carried out.

尚、多変量の分散行列に基づいて正規乱数を発生させる複数の基礎パラメータの値は、他のパラメータの組み合わせでも同様に正規乱数を発生させる。 It should be noted that the values of a plurality of basic parameters that generate normal random numbers based on the multivariate variance matrix also generate normal random numbers in combination with other parameters.

上述したように構築された基礎音声データの二次基礎パラメータが基礎音声データ記憶手段6に記憶され、制御手段7の比較機能14で実データの周波数特性と比較される。 The secondary basic parameters of the basic voice data constructed as described above are stored in the basic voice data storage means 6, and are compared with the frequency characteristics of the actual data by the comparison function 14 of the control means 7.

尚、基礎音声データの二次基礎パラメータの構築は上述した実施例の手法に限定されず、多数のデータをデータベース化し、データベースの中から使用目的に応じて種々選択して目的の二次基礎パラメータとすることも可能である。 The construction of the secondary basic parameters of the basic voice data is not limited to the method of the above-described embodiment, and a large number of data are stored in a database and variously selected from the database according to the purpose of use to obtain the desired secondary basic parameters. It is also possible to.

図6、図7に基づいて実音声データ(特定の鳥類の鳴き声)を含む実データ(全ての録音データ)から、二次基礎パラメータと比較される周波数特性を設定するフィルター機能11(図2)、音節区分機能(図2)、変換機能13(図2)の状況を具体的に説明する。 Filter function 11 (FIG. 2) that sets the frequency characteristics to be compared with the secondary basic parameters from the actual data (all recorded data) including the actual voice data (songs of specific birds) based on FIGS. 6 and 7. , The situation of the syllable division function (FIG. 2) and the conversion function 13 (FIG. 2) will be specifically described.

図6には実音声データ(特定の鳥類の鳴き声)を含む実データ(全ての録音データ)の音節を説明する音声レベルの時間経過、図7には音節の中のピーク周波数の経時変化(周波数特性、パラメータ)を示してある。 FIG. 6 shows the passage of time of the voice level explaining the syllables of the real data (all recorded data) including the real voice data (songs of specific birds), and FIG. 7 shows the time course of the peak frequency in the syllables (frequency). Characteristics (characteristics, parameters) are shown.

実データには、雑音や周囲の他の生き物の生息音等が含まれているため、フィルター機能11により、周波数の範囲が設定される。つまり、所定の周波数の範囲のバンドパスフィルターにより、周波数の上限値と下限値を設定し、上限値よりも大きな周波数と下限値よりも小さな周波数の音声の情報を排除する。このため、明らかな雑音が排除され、特定の鳥類の鳴き声の周波数で間違えない範囲の周波数帯が設定される。 Since the actual data includes noise, living sounds of other surrounding creatures, and the like, the frequency range is set by the filter function 11. That is, a bandpass filter in a predetermined frequency range sets an upper limit value and a lower limit value of the frequency, and excludes voice information having a frequency larger than the upper limit value and a frequency smaller than the lower limit value. For this reason, obvious noise is eliminated, and a frequency band within a range that is not mistaken for the frequency of the song of a specific bird is set.

対象となる鳥類の実音声データを含む実データ(鳥類の実際の鳴き声と周囲の音全て)に、比較対象となる周波数の範囲を設定するフィルター処理を施したことにより、フィルター処理が施された実データと基礎音声データとを比較し、周波数の範囲が設定された実データから実音声データ(実際の鳴き声の部分)を抽出することができる。 The actual data including the actual voice data of the target bird (the actual bark of the bird and all the surrounding sounds) was filtered by applying a filter process to set the frequency range to be compared. It is possible to compare the actual data with the basic voice data and extract the actual voice data (the part of the actual bark) from the actual data in which the frequency range is set.

このため、所望の場所で、継続して長時間、もしくは、反復して長期間にわたり、録音された実データの中から実音声データを抽出することができ、対象となる鳥類の鳴き声が生じている時期(時刻)や頻度を明らかにして、鳥類の生息状況を把握することが可能になり、所望の鳥類の音声だけを短時間で容易に抽出して鳥類の音声を把握することが可能になる。 Therefore, the real voice data can be extracted from the recorded real data continuously for a long time or repeatedly for a long time at a desired place, and the song of the target bird is generated. It is possible to clarify the time (time) and frequency of the bird, and to grasp the habitat of birds, and it is possible to easily extract only the desired bird's voice in a short time and grasp the bird's voice. Become.

図6に示すように、所定の周波数帯が設定された実音声データは、音声の時間範囲が所定区分(1)(2)(3)(4)・・・・・(n)の音節に分割される(音節区分機能12)。基礎音節と同様に、例えば、鳥の鳴き声であれば、音声の時間範囲が「ピーッ」「ピーッ」といった音節の単位で分割される。 As shown in FIG. 6, the actual voice data in which a predetermined frequency band is set has a syllable in which the voice time range is divided into predetermined divisions (1), (2), (3), (4), ... (N). It is divided (syllable division function 12). Similar to the basic syllables, for example, in the case of a bird song, the time range of the voice is divided into syllable units such as "pee" and "pee".

多数の音節の時間経過が、大きさと周波数との関係である周波数特性に変換される(変換機能13)。周波数特性の音節は、多数の音素の集合体となっている。そして、周波数特性のそれぞれに対し、パラメータとして、音の周波数が上昇から低下に変わる値の最大値である最大ピーク値、音の周波数が低下から上昇に変わる値の最小値である最小ピーク値、最大ピーク値と最小ピーク値の差であるピーク差値、音の周波数が上昇から低下に変わる値、及び、音の周波数が低下から上昇に変わる値の平均値である平均ピーク値が定義され、少なくとも一つのパラメータが抽出される。 The time course of a large number of syllables is converted into frequency characteristics, which is the relationship between magnitude and frequency (conversion function 13). A syllable with frequency characteristics is a collection of many phonemes. Then, for each of the frequency characteristics, as parameters, the maximum peak value, which is the maximum value of the value at which the sound frequency changes from rising to falling, and the minimum peak value, which is the minimum value of the value at which the sound frequency changes from falling to rising, The peak difference value, which is the difference between the maximum peak value and the minimum peak value, the value at which the sound frequency changes from rising to falling, and the average peak value, which is the average value of the values at which the sound frequency changes from falling to rising, are defined. At least one parameter is extracted.

抽出されたパラメータに基づいて、音節(1)(2)(3)(4)・・・・・(n)それぞれに対し、音節の中のピーク周波数の経時変化(1b)(2b)(3b)(4b)・・・・・(nb)が示される。例えば、音節(2)の基礎音節の中のピーク周波数の経時変化(2b)を例に挙げると、周波数の大きさと時間との関係が、ピークの経時変化として図7に示すように示される。 With respect to each of the syllables (1), (2), (3), (4), ... (N), the peak frequency in the syllable changes with time (1b), (2b), and (3b) based on the extracted parameters. ) (4b) ... (nb) is shown. For example, taking the time-dependent change (2b) of the peak frequency in the basic syllable of the syllable (2) as an example, the relationship between the magnitude of the frequency and the time is shown as the time-dependent change of the peak as shown in FIG.

つまり、図7に示すように、ピーク周波数の経時変化として、最大ピーク値M、最小ピーク値m、最大ピーク値Mと最小ピーク値mの差であるピーク差値、ピーク周波数の平均値である平均ピーク値aが定義される。 That is, as shown in FIG. 7, as changes with time of the peak frequency, the maximum peak value M, the minimum peak value m, the peak difference value which is the difference between the maximum peak value M and the minimum peak value m, and the average value of the peak frequencies. The average peak value a is defined.

即ち、抽出されたパラメータに基づいて、音節(1)(2)(3)(4)・・・・・(n)それぞれに対し、音節(1)(2)(3)(4)・・・・・(n)の中のピーク周波数の経時変化(1b)(2b)(3b)(4b)・・・・・(nb)が示される(変換機能13)。音節の中のピーク周波数の経時変化が用いられて、周波数特性が比較される。音の周波数が変化する位置での値(ピークの値)を用いることで、特徴が出やすい部分を比較することができる。 That is, based on the extracted parameters, for each of the syllables (1), (2), (3), (4), ... (N), the syllables (1), (2), (3), (4) ... The time course of the peak frequency in (n) (1b), (2b), (3b), (4b), ... (Nb) is shown (conversion function 13). The time course of the peak frequency in the syllable is used to compare the frequency characteristics. By using the value (peak value) at the position where the frequency of the sound changes, it is possible to compare the parts where the characteristics are likely to appear.

制御手段7の比較機能14では、音の大きさが変化する位置での値(ピークの値)が加味された基礎パラメータ、及び、パラメータが考慮されて、二次基礎パラメータと実データの周波数特性が比較されることで、実音声データと基礎音声データの周波数が比較される。 In the comparison function 14 of the control means 7, the basic parameter in which the value (peak value) at the position where the loudness changes is added, and the parameter are taken into consideration, and the secondary basic parameter and the frequency characteristic of the actual data are taken into consideration. By comparing, the frequencies of the actual audio data and the basic audio data are compared.

比較機能14では、基礎音節の周波数の特性である二次基礎パラメータと、音節の周波数の特性である実データの周波数特性が比較され、比較の結果、例えば、一致の度合い(近時の度合い)が高い場合に、実データの音声が基礎音声データの音声とみなされ、基礎音声データに記録された鳥類の音声が実データから抽出された鳥類の音声と一致していると判断される。この結果、所望の鳥類の存在状況を具体的に確認することができる。 In the comparison function 14, the secondary basic parameter, which is the frequency characteristic of the basic syllable, and the frequency characteristic of the actual data, which is the frequency characteristic of the syllable, are compared, and as a result of the comparison, for example, the degree of matching (recent degree). When is high, the audio of the actual data is regarded as the audio of the basic audio data, and it is determined that the audio of the birds recorded in the basic audio data matches the audio of the birds extracted from the actual data. As a result, it is possible to specifically confirm the existence status of desired birds.

例えば、比較の結果、基礎音節(2)(3)(4)(5)(6)(7)における周波数の経時変化(2a)(3a)(4a)(5a)(6a)(7a)である二次基礎パラメータ(図3参照)に対し、音節(2)(4)(6)におけるピーク周波数の経時変化(2b)(4b)(6b)である周波数特性(図6参照)が近似した結果と判断される。このため、実データから抽出された音節(2)(4)(6)における鳥類の音声が基礎音声データに記録された鳥類の音声と一致していると判断される。 For example, as a result of comparison, the frequency changes (2a) (3a) (4a) (5a) (6a) (7a) in the basic syllables (2) (3) (4) (5) (6) (7) The frequency characteristics (see FIG. 6), which are the temporal changes (2b) (4b) (6b) of the peak frequencies in the syllables (2), (4), and (6), were approximated to a certain secondary basic parameter (see FIG. 3). It is judged as a result. Therefore, it is determined that the bird's voice in the syllables (2), (4), and (6) extracted from the actual data matches the bird's voice recorded in the basic voice data.

この結果、音節(2)(4)(6)に対応した時間に、所望の鳥類の存在状況を具体的に確認することができる。言い換えれば、音節(2)(4)(6)に対応した時間以外には、所望の鳥類が存在しないことを確認することができる。 As a result, the existence status of the desired bird can be specifically confirmed at the time corresponding to the syllables (2), (4), and (6). In other words, it can be confirmed that the desired bird does not exist except for the time corresponding to the syllables (2), (4) and (6).

上述した音声把握システムは、フィルター処理が施された実データと基礎音声データとを比較し、周波数の範囲が設定された実データから実音声データ(実際の鳴き声の部分)を抽出する。そして、音の大きさが変化する位置での値(ピークの値)のパラメータを考慮しているため、特徴が出やすい部分で実データと基礎音声データとを比較することができる。 The voice grasping system described above compares the filtered real data with the basic voice data, and extracts the real voice data (the part of the actual bark) from the real data in which the frequency range is set. Then, since the parameter of the value (peak value) at the position where the loudness changes is taken into consideration, the actual data and the basic voice data can be compared in the part where the feature is likely to appear.

従って、継続して長時間、もしくは、反復して長期間にわたり、録音された音声データを基に、鳥類の実際の鳴き声(実音声データ)を抽出する(特定する)ことが容易に行え、所望の場所で、鳥類の鳴き声が生じている時刻、時季、頻度等を明らかにして、鳥類の生息状況を把握することができる。 Therefore, it is possible to easily extract (identify) the actual song of birds (actual voice data) based on the recorded voice data for a long period of time continuously or repeatedly for a long period of time, which is desired. It is possible to grasp the habitat status of birds by clarifying the time, season, frequency, etc. of the birds singing at the place.

つまり、所望の鳥類が、いつ(時間、時季)いるのか、どの程度いるのか、その場所にはいないのかを容易に確認することが可能になる。即ち、所望の鳥類の音声だけを短時間で容易に抽出して鳥類の音声を把握することが可能になる。 In other words, it is possible to easily confirm when (time, season) the desired bird is present, how much it is, and whether it is not in that place. That is, it is possible to easily extract only the desired bird's voice in a short time and grasp the bird's voice.

尚、上述した実施例では、生物種として鳥類を例に挙げて説明したが、本願発明は、生物種として、哺乳類、両生類、昆虫類等の野生動物を対象とすることが可能であり、本願発明を適用することにより、種々の生物種の生息状況を把握することが可能になる。 In the above-mentioned examples, birds have been taken as an example as a biological species, but the present invention can target wild animals such as mammals, amphibians, and insects as biological species. By applying the invention, it becomes possible to grasp the habitat status of various species.

本発明は、生物種の音声把握システムの産業分野で利用することができる。 The present invention can be used in the industrial field of voice grasping systems for species.

1 農地
2 山間部
3 林群
5 録音手段
6 基礎音声データ記憶手段
7 制御手段
11 フィルター機能
12 音節区分機能
13 変換機能
14 比較機能
1 Agricultural land 2 Mountains 3 Forests 5 Recording means 6 Basic voice data storage means 7 Control means 11 Filter function 12 Syllable division function 13 Conversion function 14 Comparison function

Claims (5)

対象となる生物種の音声データが基礎音声データとして記憶される基礎音声データ記憶手段と、
所望の場所における音声を録音して対象となる生物種の実音声データを含む実データを得る録音手段と、
前記基礎音声データ記憶手段に記憶されている前記基礎音声データ、及び、前記録音手段で録音された前記実データを比較し、前記実データの中から対象となる生物種の実音声データの部分を特定する制御手段とを備え、
前記制御手段は、
前記基礎音声データと前記実データの周波数を比較することで、実音声データの部分を特定する比較機能と、
前記基礎音声データと比較する前記実データに、比較対象となる周波数の範囲を設定するフィルター処理を施すフィルター機能とを有している
ことを特徴とする生物種の音声把握システム。
Basic voice data storage means that stores voice data of the target species as basic voice data,
A recording means for recording audio at a desired location to obtain actual data including actual audio data of the target species, and
The basic voice data stored in the basic voice data storage means and the actual data recorded by the recording means are compared, and a part of the real voice data of the target organism species is selected from the actual data. With control means to identify
The control means
A comparison function that identifies a part of the actual voice data by comparing the frequencies of the basic voice data and the actual data, and
A voice grasping system for a species having a filter function of performing a filtering process for setting a frequency range to be compared with the actual data to be compared with the basic voice data.
請求項1に記載の生物種の音声把握システムにおいて、
前記制御手段は、
実データの音声の時間範囲を所定区分の音節に分割する音節区分機能を有し、
前記比較機能は、
前記音節区分機能で分割された音節の単位で周波数を比較する
ことを特徴とする生物種の音声把握システム。
In the voice grasping system for the species according to claim 1,
The control means
It has a syllable division function that divides the time range of the actual data voice into syllables of a predetermined division.
The comparison function
A voice grasping system for species, characterized in that frequencies are compared in units of syllables divided by the syllable division function.
請求項2に記載の生物種の音声把握システムにおいて、
前記制御手段は、
前記音節区分機能で分割された音節における時間経過の音の周波数の変化を、音の大きさと周波数との関係である周波数特性に変換する変換機能を有し、
前記比較機能は、
前記変換機能で変換された前記周波数特性を比較する
ことを特徴とする生物種の音声把握システム。
In the voice grasping system for the species according to claim 2,
The control means
It has a conversion function that converts the change in the frequency of the sound over time in the syllables divided by the syllable division function into the frequency characteristic that is the relationship between the loudness and frequency of the sound.
The comparison function
A voice grasping system for a species, characterized in that the frequency characteristics converted by the conversion function are compared.
請求項3に記載の生物種の音声把握システムにおいて、
前記制御手段の前記比較機能は、
周波数特性を比較する際に、パラメータとして、
音の周波数が上昇から低下に変わる値の最大値である最大ピーク値、
音の周波数が低下から上昇に変わる値の最小値である最小ピーク値、
最大ピーク値と最小ピーク値の差であるピーク差値、
音の周波数が上昇から低下に変わる値及び音の周波数が低下から上昇に変わる値の平均値である平均ピーク値
の少なくとも一つを用いる
ことを特徴とする生物種の音声把握システム。
In the voice grasping system for the species according to claim 3,
The comparison function of the control means
As a parameter when comparing frequency characteristics
The maximum peak value, which is the maximum value of the value at which the frequency of sound changes from rising to falling,
The minimum peak value, which is the minimum value of the value at which the frequency of sound changes from decreasing to increasing,
Peak difference value, which is the difference between the maximum peak value and the minimum peak value,
A voice grasping system for a species, characterized in that it uses at least one of an average peak value, which is the average value of the value at which the sound frequency changes from rising to falling and the value at which the sound frequency changes from falling to rising.
請求項4に記載の生物種の音声把握システムにおいて、
前記基礎音声データ記憶手段では、
前記基礎音声データは、
音声の時間範囲が所定区分の音節である基礎音節に分割され、
基礎音節の時間経過が、大きさと周波数との関係である基礎周波数特性に変換され、
基礎周波数特性から基礎パラメータとして、音の周波数が上昇から低下に変わる値の最大値である基礎最大ピーク値、音の周波数が低下から上昇に変わる値の最小値である基礎最小ピーク値、基礎最大ピーク値と基礎最小ピーク値の差である基礎ピーク差値、音の周波数が上昇から低下に変わる値、及び、音の周波数が低下から上昇に変わる値の平均値である基礎平均ピーク値が定義され、
基礎パラメータの少なくとも二つを含む複数の基礎パラメータが抽出され、
複数の基礎パラメータの値から、多変量の分散行列に基づいて発生させた正規乱数を発生させ、発生させた正規乱数に基づいて外れ値が排除された状態の二次基礎パラメータが特定され、
前記制御手段では、
二次基礎パラメータと実データの周波数特性が比較されることで、実音声データと基礎音声データの周波数が比較される
ことを特徴とする生物種の音声把握システム。
In the voice grasping system for the species according to claim 4,
In the basic voice data storage means,
The basic voice data is
The time range of the voice is divided into basic syllables, which are syllables of a predetermined division.
The time course of the basic syllable is converted into the basic frequency characteristic, which is the relationship between magnitude and frequency.
From the basic frequency characteristics, as basic parameters, the basic maximum peak value, which is the maximum value of the value at which the sound frequency changes from rising to falling, the basic minimum peak value, which is the minimum value of the value at which the sound frequency changes from falling to rising, and the basic maximum. The basic peak difference value, which is the difference between the peak value and the basic minimum peak value, the value at which the sound frequency changes from rising to falling, and the basic average peak value, which is the average value of the values at which the sound frequency changes from falling to rising, are defined. Being done
Multiple basic parameters are extracted, including at least two of the basic parameters
From the values of multiple basic parameters, a normal random number generated based on a multivariate variance matrix is generated, and outliers are excluded based on the generated normal random number.
In the control means
A voice grasping system for species, characterized in that the frequencies of real voice data and basic voice data are compared by comparing the frequency characteristics of secondary basic parameters and real data.
JP2019137682A 2019-07-26 2019-07-26 Species voice recognition system Active JP7312046B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019137682A JP7312046B2 (en) 2019-07-26 2019-07-26 Species voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019137682A JP7312046B2 (en) 2019-07-26 2019-07-26 Species voice recognition system

Publications (2)

Publication Number Publication Date
JP2021021815A true JP2021021815A (en) 2021-02-18
JP7312046B2 JP7312046B2 (en) 2023-07-20

Family

ID=74574446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019137682A Active JP7312046B2 (en) 2019-07-26 2019-07-26 Species voice recognition system

Country Status (1)

Country Link
JP (1) JP7312046B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179579A (en) * 1995-12-25 1997-07-11 Casio Comput Co Ltd Retrieval device
JP2003255984A (en) * 2002-03-06 2003-09-10 Asahi Kasei Corp Apparatus and method for recognizing song of wild bird
JP2008310138A (en) * 2007-06-15 2008-12-25 Toshiba Corp Scene classifier
JP2016181780A (en) * 2015-03-24 2016-10-13 株式会社Jvcケンウッド Photographing control apparatus, photographing control method, and photographing control program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179579A (en) * 1995-12-25 1997-07-11 Casio Comput Co Ltd Retrieval device
JP2003255984A (en) * 2002-03-06 2003-09-10 Asahi Kasei Corp Apparatus and method for recognizing song of wild bird
JP2008310138A (en) * 2007-06-15 2008-12-25 Toshiba Corp Scene classifier
JP2016181780A (en) * 2015-03-24 2016-10-13 株式会社Jvcケンウッド Photographing control apparatus, photographing control method, and photographing control program

Also Published As

Publication number Publication date
JP7312046B2 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
Heinicke et al. Assessing the performance of a semi‐automated acoustic monitoring system for primates
Buxton et al. Acoustic indices as rapid indicators of avian diversity in different land-use types in an Indian biodiversity hotspot
Brauer et al. A comparison of acoustic monitoring methods for common anurans of the northeastern United States
Lambert et al. A low‐cost, yet simple and highly repeatable system for acoustically surveying cryptic species
Darden et al. A potential tool for swift fox (Vulpes velox) conservation: individuality of long-range barking sequences
Garcia et al. Temporal and spectral analyses reveal individual variation in a non‐vocal acoustic display: The drumming display of the ruffed grouse (Bonasa umbellus, L.)
Colbert et al. Application of autonomous recording units to monitor gobbling activity by wild turkey
Budka et al. Is it possible to acoustically identify individuals within a population?
Carroll et al. Detecting symptoms of diseases in poultry through audio signal processing
Abrahams Bird bioacoustic surveys-developing a standard protocol
Naguib et al. Microgeographic variation, habitat effects and individual signature cues in calls of chiffchaffs Phylloscopus collybita canarensis
Ethier et al. Using microphone arrays to investigate microhabitat selection by declining breeding birds: Oroignal
Manzano-Rubio et al. Low-cost open-source recorders and ready-to-use machine learning approaches provide effective monitoring of threatened species
Dutilleux et al. Automated acoustic monitoring of endangered common spadefoot toad populations reveals patterns of vocal activity
Yip et al. Automated classification of avian vocal activity using acoustic indices in regional and heterogeneous datasets
Runkel et al. The handbook of acoustic bat detection
McIlraith et al. Bird song identification using artificial neural networks and statistical analysis
Thoret et al. Characterizing amplitude and frequency modulation cues in natural soundscapes: A pilot study on four habitats of a biosphere reserve
Winiarska et al. Detection ranges of forest bird vocalisations: guidelines for passive acoustic monitoring
JP2021021815A (en) Voice grasping system of species
Ellis Decay of apparent individual distinctiveness in the begging calls of adult female white-throated magpie-jays
Symes et al. Estimation of katydid calling activity from soundscape recordings
Soha et al. Non‐Salient Geographic Variation in Birdsong in a Species That Learns by Improvisation
Heise et al. Bumble bee traffic monitoring using acoustics
Stehelin et al. Social stimulation of dawn singing in Dusky Flycatchers: a serendipitous experiment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230707

R150 Certificate of patent or registration of utility model

Ref document number: 7312046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150