JP4209122B2 - 野鳥の鳴き声及び人の音声認識装置及びその認識方法 - Google Patents
野鳥の鳴き声及び人の音声認識装置及びその認識方法 Download PDFInfo
- Publication number
- JP4209122B2 JP4209122B2 JP2002060981A JP2002060981A JP4209122B2 JP 4209122 B2 JP4209122 B2 JP 4209122B2 JP 2002060981 A JP2002060981 A JP 2002060981A JP 2002060981 A JP2002060981 A JP 2002060981A JP 4209122 B2 JP4209122 B2 JP 4209122B2
- Authority
- JP
- Japan
- Prior art keywords
- wild bird
- wild
- human
- bird
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、野鳥の鳴き声から野鳥の種類を認識すると共に人の音声を認識するようにした野鳥の鳴き声及び人の音声認識装置及びその認識方法に関する。
【0002】
【従来の技術】
一般に、野鳥の鳴き声には非常に類似しているものがあるため、一般の人々にとって、野鳥の鳴き声からその種類を特定するのは困難である。このため、例えば、鳴き声を記憶しておき、後に、事典等を参照して野鳥の種別を認識したり、野鳥の専門家が同行しているときに、専門家にその鳴き声から野鳥を特定してもらうこと等によって、野鳥の種別を認識するようにしている。
【0003】
【発明が解決しようとする課題】
しかしながら、野鳥の鳴き声を記憶しておき、後に事典等を参照して野鳥の種別を認識するような方法では、記憶が不鮮明になってしまい、的確に野鳥の種別を判定することができない。また、仮に野鳥の種別がわかっても、めずらしい野鳥であった場合等には、後に野鳥の鳴き声がわかったとしても、その野鳥の鳴き声を聞いたという感動が薄れてしまう。また、野鳥の鳴き声を聞いたときに専門家が常に同行しているとは限らず、野鳥の専門家でなくとも、鳴き声を聞いた時点で野鳥の種類を識別することのできる装置が望まれていた。
【0004】
そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、野鳥の鳴き声からその種別を容易に識別すると共に人の音声を認識することの可能な野鳥の鳴き声及び人の音声認識装置、及びその認識方法を提供することを目的としている。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本発明の請求項1に係る野鳥の鳴き声及び人の音声認識装置は、野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出する特徴抽出手段と、野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルからなるデータベースと、隠れマルコフモデル(HMM)を用いて前記特徴抽出手段で抽出した音情報の特徴と前記データベースのモデルとを照合して、前記音情報に該当する野鳥の鳴き声又は人の音声を検出する野鳥の鳴き声及び人の音声認識手段と、野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段と、前記音情報が観測されたときの環境状況を入力するための環境条件設定手段と、を備えた野鳥の鳴き声及び人の音声認識装置であって、前記野鳥の鳴き声のモデルは、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定され、前記野鳥の鳴き声及び人の音声認識手段は、前記識別モード設定手段で前記野鳥モードが設定されたとき、前記複数のモデルのうち、前記環境条件設定手段で設定された環境条件下に存在すると予測される野鳥の鳴き声のモデルを選択し、当該選択したモデルについてのみ前記照合を行うようになっていることを特徴としている。
【0006】
また、請求項2に係る野鳥の鳴き声及び人の音声認識装置は、前記請求項1に係る野鳥の鳴き声及び人の音声認識装置において、前記野鳥の鳴き声のモデルは、同一の特徴が繰り返し出現する繰り返しパターンからなるモデルであることを特徴としている。
また、請求項3に係る野鳥の鳴き声及び人の音声認識装置は、前記請求項1に係る野鳥の鳴き声及び人の音声認識装置において、前記野鳥の鳴き声のモデルは、同一の特徴を有し且つ継続時間の異なるパターンからなる複数のモデルであることを特徴としている。
【0009】
また、請求項4に係る野鳥の鳴き声及び人の音声認識装置は、前記請求項1に係る野鳥の鳴き声及び人の音声認識装置において、前記環境条件設定手段は、GPS人工衛星からの衛星電波を受信する受信手段を備え、前記衛星電波に含まれるGPS情報を前記環境条件として利用するようになっていることを特徴としている。
また、本発明の請求項5に係る野鳥の鳴き声及び人の音声認識方法は、野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出し、抽出した特徴と、予め設定した野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルとを、隠れマルコフモデル(HMM)を用いて照合して前記音情報に該当する野鳥の鳴き声又は人の音声を特定するようにした野鳥の鳴き声及び人の音声認識方法であって、前記野鳥の鳴き声のモデルを、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定すると共に、野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段を設け、前記識別モード設定手段で前記野鳥モードが設定されたときには、前記複数のモデルのうち、前記音情報が観測されたときの環境状況下に存在すると予測される野鳥の鳴き声のモデルについてのみ前記照合を行うことを特徴としている。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本発明における野鳥の鳴き声認識装置の一例を示すブロック図であって、図1に示すように、マイクロフォン1と、A/D変換部2と、特徴抽出手段としての音響解析部3と、鳴き声認識手段としての音声認識部4と、データベース5と、出力部6と、環境条件設定手段としての条件入力部7と、を備えている。
【0012】
前記マイクロフォン1は、野鳥の鳴き声等の音情報をその音情報に対応するアナログの電気信号に変換し、この電気信号を、A/D変換部2においてデジタル信号に変換する。前記音響解析部3は、公知の音声認識装置における音響解析部3と同等の機能構成を有し、前記A/D変換部2で変換されたデジタル信号に基づいて、例えばケプストラム分析や線形予測分析等を行い、入力される音情報の特徴を表す特徴パラメータを求め、この特徴パラメータの時系列に変換する。
【0013】
前記音声認識部4は、公知の音声認識装置における音声認識部と同等の機能構成を有し、例えば、公知の隠れマルコフモデル(HMM)による方法等を用いて、前記データベース5に予め格納された、後述の、野鳥の鳴き声及び音声の特徴パラメータに関する情報、つまり音響モデルと、音響解析部3で変換した特徴パラメータとを照合し、ビタビアルゴリズムにより確率演算を行い、最大確率を持つ認識対象、つまり、最も類似度の高いモデルに該当する野鳥又は音声を認識結果としこれを出力する。なお、音声認識部4における認識方法は、これに限るものではなく、人間の音声認識を行うための機能を有するものであれば、どのような認識方法であってもよい。
【0014】
前記出力部6は、音声認識部4での認識結果をもとに、認識した単語や、鳴き声に該当する野鳥の名前を表示装置に表示したり、また、野鳥の場合には、これに該当する画像を表示する等の処理を行い、入力された音情報に対する認識結果を出力する。
前記データベース5には、公知の音声認識装置と同様に、人の音声の特徴を表す人用音響モデルが格納されていると共に、さらに、野鳥の種別を識別するための、鳴き声の特徴を表す野鳥用音響モデルが格納されている。
【0015】
ここで、人間の音声に対する音声認識は、音声の周波数情報の時間的変化をパターン認識することと同等であるとみなすことができる。したがって、周波数情報の時間的変化パターンに特徴のある音情報であれば、人間の音声認識を行う場合と同様の手順で、識別を行うことが可能であり、野鳥の鳴き声についても識別を行うことが可能である。
【0016】
前記人用音響モデルは、公知の音声認識装置における音響モデルと同様であって、例えば、不特定の話者が発生した音声を認識対象とする場合には、不特定話者の音声データを大量に収集し、公知のEMアルゴリズムを用いて認識音声単位のHMMのパラメータを推定することにより音響モデルを作成する。
また、野鳥用音響モデルの場合も同様であって、野鳥の鳴き声のデータを大量に収集し、人用音響モデルと同様にして音響モデルを作成したものであるが、音声の認識単位は、野鳥の種別毎にその鳴き方のパターンに応じた鳴き声の特徴の出現パターンに応じて設定される。
【0017】
図2及び図3は、野鳥の鳴き声波形とそのスペクトログラムの一例を示したものであって、図2(a)はキジバトの鳴き声、図2(b)はフクロウの鳴き声である。また、図3はヒヨドリの鳴き声であって、(a)は短く鳴いた場合、(b)は長く鳴いた場合である。
図2(a)に示すように、キジバトの鳴き声の場合、鳴き声波形及びスペクトログラムにおいて特定のパターンa11及びa21を繰り返している。ここで、図2(a)のキジバトの鳴き声におけるパターンa11、a21の前半部a12、a22の一部a13、a23と、図2(b)のフクロウの鳴き声波形におけるパターンb1 、b2 とを比較してみると、これらは類似している。なお、図2(a)において、パターンa13、a23の時間長は、0.41秒、図2(b)において、パターンb1 、b2 の時間長は、0.52秒である。
【0018】
ところで、キジバトは一般に同じ鳴き方で連続して繰り返し鳴くことが多く、その鳴き声には、図2(a)に示すように、パターンa11及びa21を繰り返す特徴がある。したがって、キジバトの鳴き声の認識単位としては、繰り返し現れるパターンa11及びa21をキジバトの鳴き声の特徴を表す特徴パターンとする。
一方、フクロウは、一般に、ある特定のパターンを繰り返し連続して鳴くことはないから、図2(b)に示すように、b1 及びb2をフクロウの鳴き声の特徴を表す特徴パターンとする。
【0019】
また、図3(a)及び(b)に示すように、ヒヨドリの場合、短く鳴く場合と長く鳴く場合とがあり、これらの場合、その音響的な特徴は同一であるがその継続時間が異なっている。したがって、短く鳴く場合のパターンc1 と、長く鳴く場合のパターンd1 とをそれぞれ特徴パターンとして設定する。なお、図3(a)においてパターンc1 、c2 の時間長は0.27秒、図3(b)においてパターンd1 、d2 の時間長は0.75秒である。
【0020】
なお、ここでは、ヒヨドリの特徴パターンとして短く鳴く場合と長く鳴く場合の2つを設定した場合について説明したが、これに限らず、鳴き声の継続時間に応じて、複数設定することも可能である。
そして、これら特徴パターンに基づいてそれぞれ野鳥用音響モデルを作成する。
【0021】
前記データベース5には、さらに、前記条件入力部7から入力される識別モード及び環境条件に応じて、複数の音響モデルの中から、入力された識別モード及び環境条件に該当する音響モデルを選定するための選定情報が格納されている。ここで、前記条件入力部7から入力される条件としては、野鳥の鳴き声を識別する野鳥モード、人間の音声を識別する人モードの何れのモードを選択するかといった識別モードと、野鳥の鳴き声を観測した場所が、山、川、野、或いは海であるかといった場所情報、緯度、経度等といった位置情報、観測時期、観測時間等の時刻情報等といった、野鳥の鳴き声を観測した環境を表す環境条件とが入力される。
【0022】
そして、これら識別モードとこれに該当する音響モデルと、環境条件とこの環境条件で特定される環境下において観測されると予測される野鳥に該当する音響モデルとが対応づけられて、前記選定情報として設定されている。
次に、上記実施の形態の動作を、音声認識部4の処理手順の一例を示す図4のフローチャートに基づいて説明する。
【0023】
今、野鳥の鳴き声から野鳥の種類を識別するものとすると、まず、条件入力部7において、識別モードとして野鳥モードを設定する。また、条件入力部7において、環境条件を設定する。
この状態で、野鳥の鳴き声がマイクロフォン1で集音されると、A/D変換部2で野鳥の鳴き声に対応する電気信号に変換され、これが音響解析部3で処理されて時系列の特徴パラメータに変換され音声認識部4に出力される。
【0024】
音声認識部4では、図4のフローチャートに示すように、条件入力部7において、識別モードとして野鳥モードが設定されているから、ステップS1からステップS2に移行する。このとき、環境条件が設定されている場合には、ステップS3に移行し、データベース4に格納されている選定情報に基づき、設定された環境条件に対応する音響モデルを選定する。例えば、観測位置が、水辺であれば、水辺に存在する野鳥の音響モデルが選定され、野山等に存在する野鳥の音響モデルは排除される。また、観測時期が、冬であれば、日本に夏にしか存在しない野鳥の音響モデルは排除される。また、観測時刻が、夜であれば、昼間にしか活動しない野鳥の音響モデルは排除される。したがって、環境条件にそぐわない野鳥はこの時点で排除されることになるから、観測環境からみてあり得ない野鳥が、入力された鳴き声に対応する野鳥として認識されることが回避される。
【0025】
前記音声認識部4では、選定された音響モデルと、音響解析部3から入力された特徴パラメータとを照合し(ステップS3)、最も類似度の高い鳴き声を認識結果とし、この鳴き声に該当する野鳥名を出力部6に出力する(ステップS4)。これによって出力部6では、その認識結果を、例えば表示装置に表示する。これによって、利用者は、集音した野鳥の鳴き声がどの野鳥の鳴き声であるかを認識することができる。
【0026】
一方、環境条件が設定されていない場合には、ステップS2からステップS7に移行し、各野鳥用音響モデルと照合を行い、最も類似度の高い鳴き声に該当する野鳥を認識結果とする(ステップS7)。
また、識別モードが人モードである場合には、ステップS1からステップS9に移行し、人用音響モデルに基づいて照合を行い、最も類似度の高い音声を認識結果とする(ステップS9)。
【0027】
ここで、例えば、マイクロフォン1でキジバトの鳴き声を集音したとする。上述のようにキジバトの鳴き声は、図2(a)に示すように、パターンa11、a21に相当する特定パターンを繰り返す。このパターンa11、a21の一部分a13、a23に相当する部分は、図2(b)に示すフクロウのパターンb1 、b2 と類似している。
【0028】
しかしながら、キジバトの音響モデルは特徴パターンa11、a21に基づいて設定されているから、各種の音響モデルと照合した場合、キジバトの音響モデルに対する類似度が最も高くなる。したがって、部分的にみればキジバトとフクロウとが類似したパターンであっても、フクロウとして誤認識されることが回避される。
【0029】
逆に、フクロウの鳴き声を集音した場合、フクロウの鳴き声は、図2(b)に示すように、その特徴パターンb1 、b2 を繰り返さないから、入力された鳴き声の特徴を表すパターンはb1 、b2 に相当するパターンとなり、これと各音響モデルとを比較した場合、キジバトの音響モデルとはパターンa13、a23に相当する部分においては類似するが、キジバトの場合、パターンa13、a23を含む特徴パターンa11、a21に基づいて音響モデルとして設定している。したがって、キジバトよりもフクロウの音響モデルに対する類似度の方が高くなることから、フクロウとして認識される。
【0030】
このように、キジバトの音響モデルを、その特徴を表す例えばパターンa13、a23ではなく、繰り返し現れる特徴パターンa11、a21に基づいて音響モデルを設定しているから、鳴き声の特徴に、他の鳴き声と類似するパターンが含まれる場合であっても、的確に識別することができる。
次に、マイクロフォン1によって、ヒヨドリの鳴き声を集音したものとする。
【0031】
ヒヨドリの音響モデルとしては、図3(a)及び(b)に示すように、長く鳴いた場合の音響モデルと短く鳴いた場合の音響モデルとが用意されている。
ヒヨドリの音響モデルとして図3(b)に示す長く鳴いた場合の特徴パターンd1 、d2 に基づく音響モデルしか設けられていないものとすると、ヒヨドリが短く鳴いた場合、その特徴パターンは図3(a)に示すc1 、c2 に相当することになる。このパターンc1 、c2 に相当するパターンと、図3(b)のパターンd1 、d2 に基づく音響モデルとを比較した場合、入力された鳴き声の特徴を表すパターンは図3(a)に示すc1 、c2 に相当するため、これとヒヨドリの音響モデルとを照合した場合、その類似度は低くなり、ヒヨドリとして認識されない場合がある。
【0032】
しかしながら、図3(a)のヒヨドリが短く鳴いた場合の特徴パターンc1 、c2 に基づく音響モデルだけでなく、図3(b)に示すヒヨドリが長く鳴いた場合の特徴パターンd1 、d2 に基づく音響モデルも備えているから、各音響モデルと照合を行ったとき、図3(a)に示す短く鳴いた場合の音響モデルとの類似度は低いが、図3(b)に示す長く鳴いた場合の音響モデルとの類似度は高くなるため、ヒヨドリとして認識することが可能となる。
【0033】
逆に、ヒヨドリが長く鳴いた場合には、長く鳴いた場合の音響モデルとの類似度が最も高くなるから、この場合もヒヨドリとして認識することができる。
このように、同一種の野鳥であっても鳴き方によって、音響的な特徴は同じであっても、その特徴パターンの長さが大きく異なる場合には、その長さに応じて音響モデルを複数設けるようにしているから、音響モデルとの照合を的確に行うことができる。
【0034】
また、ヒヨドリが短く鳴いた場合の音響的な特徴は、シジュウカラやヤマガラの鳴き声の音響的な特徴と類似している。このため、ヒヨドリの音響モデルとして、短く鳴いた場合、また、長く鳴いた場合でも区別ができるような一つの音響モデルを設定した場合には、ヒヨドリが短く鳴いた場合或いは長く鳴いた場合の何れにおいても識別精度が低下してしまう。しかしながら、シジュウカラやヤマガラの鳴き声の音響的な特徴の継続時間とは異なる音響モデルであり、且つヒヨドリの音響的な特徴の継続時間に応じて複数の音響モデルを用意することによって、ヒヨドリが短く鳴いた場合或いは長く鳴いた場合であっても的確に識別することができる。
【0035】
また、例えば、キジバトの鳴き声を集音した場合、条件入力部7によって入力された環境条件から、フクロウの鳴き声が聞こえない環境下にあると予測される場合には、データベース5に格納された選定情報に基づいて、入力された環境条件に応じた音響モデルが選定されるため、この時点で、フクロウの音響モデルは照合対象の音響モデルから排除される。したがって、集音したキジバトの鳴き声に対して、図2(b)に示す特徴をもつフクロウの音響モデルは選ばれず、仮に、図2のa13、a23に相当するパターンがキジバトの鳴き声として集音されたとしても、フクロウとして誤認識されることを回避することができる。
【0036】
このように、データベース5に、人間の音声の音響モデルだけでなく、野鳥の鳴き声に基づく音響モデルをも含むようにし、入力された音情報の特徴について、これら音響モデルについて照合を行うようにしたから、人間の音声だけでなく、野鳥の鳴き声から野鳥の種別をも識別することができる。
また、このとき、野鳥の鳴き声の特徴が類似している場合であっても、この鳴き声の特徴を表すパターンの出現状況が野鳥毎に異なることに着目し、例えば図2(a)の場合には、パターンa13、a23のような鳴き声の特徴を表すパターンの最小単位ではなく、パターンa11、a21を特徴パターンとしたように、最小単位のパターンの出現状況に応じて特徴パターンを設定し、これに基づき音響モデルを形成するようにしたから、鳴き声の特徴に、類似するパターンを含む野鳥が複数存在する場合であっても、的確に識別することができる。
【0037】
また、同一の野鳥であっても、鳴き方によって、その特徴を表す音響的な特徴の継続時間が長い場合と、短い場合とがある場合には、その継続長さの異なる複数の音響モデルを形成するようにしたから、鳴き方によってその特徴の出現状況が異なる場合であっても、的確に識別することができる。
また、鳴き声の観測環境に応じた環境条件を入力可能にし、設定された環境条件に該当する音響モデルを選定し、この選定した音響モデルについてのみ照合を行うようにしたから、環境条件からあり得ない野鳥が、鳴き声に該当する野鳥として認識されることを回避することができ、その分、認識精度を向上させることができる。
【0038】
また、音声認識部4としては、公知の人間の音声を認識するための音声認識部をそのまま用いることができる。したがって、従来の人間用の音声認識装置に、野鳥用の音響モデルを新たに設けるだけで容易に実現することができる。
また、野鳥用の音響モデルを作成する際に、野鳥の鳴き声からその野鳥を識別するための専門的な情報、つまり、専門家のみが知り得る情報を考慮して音響モデルを作成することによって、素人には識別しにくい鳴き声であっても、的確に識別することができ、素人であっても、専門家と同等に識別を行うことができる。
【0039】
ちなみに、上述のようにして設定した野鳥用音響モデルを用いて、鳴き声の識別を行ったところ、16種類の野鳥について識別することができることが確認できた。
なお、上記実施の形態においては、鳴き声の特徴を表すパターンが類似した野鳥として、キジバトとフクロウとについて説明し、また、鳴き方によって音響的な特徴の出現状況が異なる野鳥としてヒヨドリについて説明したが、これに限るものではない。鳴き声の特徴を表すパターンの最小単位からは識別が困難なものや、鳴き方によって、音響的な特徴は同一であるがその出現状況が異なるものであれば適用することができる。
【0040】
また、上記実施の形態においては、鳴き声の特徴を表す最小単位のパターンが類似しているもの、或いは鳴き方によって特徴の出現状況が異なるものについて、これを考慮して音響モデルを設定するようにした場合について説明したが、これに限るものではなく、鳴き声に、その音響的な特徴が現れる出現状況に特徴があるもの、つまり、その音響的な特徴の出現状況からその野鳥を識別可能なものであれば、この出現状況を識別可能なパターンを特徴パターンとし、これに基づいて音響モデルを形成するようにすればよい。
【0041】
また、上記実施の形態においては、音声認識を行う際に、野鳥モードと人モードとを設定し、照合する音響モデルを選定するようにした場合について説明したが、必ずしもモードの設定を行う必要はない。
ここで、野鳥及び人モードの設定を行わないようにした場合、野鳥用及び人用音響モデルについて照合が行われることになる。このとき、例えばキジバトの鳴き声は、その音響的な特徴が、部分的に見るとフクロウの鳴き声に類似しているだけでなく、男性の声にも類似している。しかしながら、上述のように、キジバトの音響モデルを、繰り返し現れる特定パターンをひとまとまりとした特徴パターンに基づいて設定しているから、フクロウの鳴き声だけでなく、男性の声との識別も可能である。
【0042】
また、上記実施の形態においては、人モード及び野鳥モードの切換を可能にした場合について説明したが、野鳥用音響モデルのみを搭載し、野鳥用音声認識装置とするようにしてもよい。また、人及び野鳥の音声及び鳴き声認識を行う単体の装置として説明したが、例えば、上述の音声認識装置の機能を実現するための処理機能を携帯電話或いはPDA等、他の装置に組み込むようにしてもよい。
【0043】
また、上記実施の形態においては、条件入力部7の設定に応じて、設定された条件に該当する音響モデルを選定し、この選定した音響モデルに基づいて照合を行うようにした場合について説明したが、これに限るものではない。例えば、各音響モデルについて照合を行い、その類似度に条件入力部7からの入力条件に応じて重み付けを行い、重み付けを行った類似度に基づいて、最終的な認識判定を行うようにしてもよく、また、入力条件に応じて選定した音響モデルについて照合を行うと共に、その類似度に重み付けを行い、その結果に基づいて最終的な認識判定を行うようにしてもよい。前記重み付けとしては、例えば、冬に認識を行う場合には、冬鳥の類似度には1.0、夏鳥の類似度には1.0よりも小さな値を乗算するようにすればよい。
【0044】
また、上記実施の形態においては、緯度、経度等の位置情報、また、季節、時期、日付、時刻等の時刻情報を、条件入力部7から入力するようにした場合について説明したが、これに限るものではなく、GPS人工衛星からの衛星電波を受信するためのGPS受信機等の受信手段を搭載し、衛星電波に含まれるGPS情報に基づいて位置情報或いは時刻情報を設定するようにしてもよい。
【0045】
また、上記実施の形態においては、環境条件として位置、場所、時間、時期等を設定し、この環境条件に応じた音響モデルを選定するようにした場合について説明したが、これに限るものではない。例えば、ウグイス等のように、春先の繁殖期には「ホーホケキョ」(さえずり)となき、それ以外の時期では、地鳴きという短い鳴き声で鳴くような場合には、さえずり時の音響モデルと地鳴き時の音響モデルとを作成し、時期条件に応じて何れかの音響モデルを選定するようにしてもよい。また、渡り鳥の場合には、時期情報に基づいて、音響モデルを選定するようにしてもよい。
【0046】
【発明の効果】
本発明の請求項1乃至3に係る野鳥の鳴き声及び人の音声認識装置によれば、野鳥の鳴き声の音響的な特徴を表す野鳥の鳴き声のモデルを、野鳥の鳴き方パターンに応じた音響的な特徴の出現パターンに応じて設定したから、鳴き声の特徴が類似した野鳥であっても、その特徴の出現パターンの違いから的確に識別することができ、認識精度を向上させることができる。
【0047】
例えば、キジバトのように同一の特徴が繰り返し現れる場合には、この繰り返しパターンに基づいてモデルを作成することによって、例えば、キジバトの特徴の一部と同じ特徴を有する野鳥であっても、キジバトのモデルとは特徴が一致しないことから、的確に識別することができる。
また、ヒヨドリのように、同一の特徴を有するが、鳴き方によって、前記特徴の継続時間が異なる場合には、その継続時間に応じて音響モデルを作成することによって、鳴き方によって特徴の継続時間が異なった場合でも、的確に識別することができる。
【0048】
また、音情報が観測されたときの環境状況を入力するための環境条件設定手段を備え、この環境条件設定手段で設定された環境条件下に存在すると予測される野鳥の鳴き声のモデルを選択し、当該選択したモデルについてのみ前記照合を行うようにしたから、条件に該当しない野鳥が、誤認識されることを回避することができ、その分、認識精度を向上させることができる。
【0049】
また、請求項4に係る野鳥の鳴き声及び人の音声認識装置によれば、GPS人工衛星からの衛星電波を受信する受信手段を備え、この衛星電波に含まれるGPS情報を環境条件として利用するようにしたから、環境条件を、人手を介さずに容易に設定することができる。
【0050】
また、請求項5に係る野鳥の鳴き声及び人の音声認識方法によれば、野鳥の鳴き声の音響的な特徴を表す野鳥の鳴き声のモデルを、野鳥の鳴き方パターンに応じた音響的な特徴の出現パターンに応じて設定したから、鳴き声の特徴が類似した野鳥であっても、その特徴の出現パターンの違いから的確に識別することができ、認識精度を向上させることができる。
【0051】
また、音情報が観測されたときの環境状況を考慮して野鳥の認識を行うようにしたから、その認識精度をより向上させることができる。
【図面の簡単な説明】
【図1】本発明における野鳥の鳴き声及び人の音声認識装置の概略構成を示すブロック図である。
【図2】キジバト及びフクロウの鳴き声波形とそのスペクトログラムの一例である。
【図3】ヒヨドリの鳴き声波形とそのスペクトログラムの一例である。
【図4】音声認識部における処理手順の一例を示すフローチャートである。
【符号の説明】
1 マイクロフォン
2 A/D変換器
3 音響解析部
4 音声認識部
5 データベース
6 出力部
7 条件入力部
Claims (5)
- 野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出する特徴抽出手段と、
野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルからなるデータベースと、
隠れマルコフモデル(HMM)を用いて前記特徴抽出手段で抽出した音情報の特徴と前記データベースのモデルとを照合して、前記音情報に該当する野鳥の鳴き声又は人の音声を検出する野鳥の鳴き声及び人の音声認識手段と、
野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段と、
前記音情報が観測されたときの環境状況を入力するための環境条件設定手段と、を備えた野鳥の鳴き声及び人の音声認識装置であって、
前記野鳥の鳴き声のモデルは、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定され、
前記野鳥の鳴き声及び人の音声認識手段は、前記識別モード設定手段で前記野鳥モードが設定されたとき、前記複数のモデルのうち、前記環境条件設定手段で設定された環境条件下に存在すると予測される野鳥の鳴き声のモデルを選択し、当該選択したモデルについてのみ前記照合を行うようになっていることを特徴とする野鳥の鳴き声及び人の音声認識装置。 - 前記野鳥の鳴き声のモデルは、同一の特徴が繰り返し出現する繰り返しパターンからなるモデルであることを特徴とする請求項1記載の野鳥の鳴き声及び人の音声認識装置。
- 前記野鳥の鳴き声のモデルは、同一の特徴を有し且つ継続時間の異なるパターンからなる複数のモデルであることを特徴とする請求項1記載の野鳥の鳴き声及び人の音声認識装置。
- 前記環境条件設定手段は、GPS人工衛星からの衛星電波を受信する受信手段を備え、前記衛星電波に含まれるGPS情報を前記環境条件として利用するようになっていることを特徴とする請求項1記載の野鳥の鳴き声及び人の音声認識装置。
- 野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出し、抽出した特徴と、予め設定した野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルとを、隠れマルコフモデル(HMM)を用いて照合して前記音情報に該当する野鳥の鳴き声又は人の音声を特定するようにした野鳥の鳴き声及び人の音声認識方法であって、
前記野鳥の鳴き声のモデルを、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定すると共に、野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段を設け、
前記識別モード設定手段で前記野鳥モードが設定されたときには、前記複数のモデルのうち、前記音情報が観測されたときの環境状況下に存在すると予測される野鳥の鳴き声のモデルについてのみ前記照合を行うことを特徴とする野鳥の鳴き声及び人の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002060981A JP4209122B2 (ja) | 2002-03-06 | 2002-03-06 | 野鳥の鳴き声及び人の音声認識装置及びその認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002060981A JP4209122B2 (ja) | 2002-03-06 | 2002-03-06 | 野鳥の鳴き声及び人の音声認識装置及びその認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003255984A JP2003255984A (ja) | 2003-09-10 |
JP4209122B2 true JP4209122B2 (ja) | 2009-01-14 |
Family
ID=28670131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002060981A Expired - Fee Related JP4209122B2 (ja) | 2002-03-06 | 2002-03-06 | 野鳥の鳴き声及び人の音声認識装置及びその認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4209122B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6085538B2 (ja) * | 2013-09-02 | 2017-02-22 | 本田技研工業株式会社 | 音響認識装置、音響認識方法、及び音響認識プログラム |
CN110706725A (zh) * | 2018-07-09 | 2020-01-17 | 广西大学 | 一种鸟声录制系统 |
JP7312046B2 (ja) * | 2019-07-26 | 2023-07-20 | 一般財団法人電力中央研究所 | 生物種の音声把握システム |
CN111048101A (zh) * | 2020-01-15 | 2020-04-21 | 合肥慧图软件有限公司 | 基于语音识别技术的生物多样性物种分析方法 |
CN114708857A (zh) * | 2020-12-31 | 2022-07-05 | 中兴通讯股份有限公司 | 语音识别模型训练方法、语音识别方法及相应装置 |
CN113303281B (zh) | 2021-06-01 | 2022-04-01 | 广东省科学院动物研究所 | 一种具有景观丰容作用的绿海龟人工繁育喂食装置及其方法 |
CN118173105B (zh) * | 2024-05-15 | 2024-07-05 | 百鸟数据科技(北京)有限责任公司 | 基于音频信号处理的鸟类鸣声识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02300799A (ja) * | 1989-05-15 | 1990-12-12 | Matsushita Electric Ind Co Ltd | 音の図鑑 |
JP3090344B2 (ja) * | 1991-06-25 | 2000-09-18 | 株式会社東芝 | 音声認識装置 |
NO941999L (no) * | 1993-06-15 | 1994-12-16 | Ontario Hydro | Automatisert intelligent overvåkingssystem |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
JPH09179579A (ja) * | 1995-12-25 | 1997-07-11 | Casio Comput Co Ltd | 検索装置 |
JP2000172291A (ja) * | 1998-12-02 | 2000-06-23 | Sony Corp | 音声認識装置 |
JP2000322436A (ja) * | 1999-05-13 | 2000-11-24 | Nippon Telegr & Teleph Corp <Ntt> | サイバー図鑑検索システム |
-
2002
- 2002-03-06 JP JP2002060981A patent/JP4209122B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003255984A (ja) | 2003-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4078918B1 (en) | Real-time voice phishing detection | |
Ibrahim et al. | An approach for automatic classification of grouper vocalizations with passive acoustic monitoring | |
Clemins et al. | Automatic classification and speaker identification of African elephant (Loxodonta africana) vocalizations | |
Roch et al. | Gaussian mixture model classification of odontocetes in the Southern California Bight and the Gulf of California | |
JP4166153B2 (ja) | 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法 | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
Brandes | Feature vector selection and use with hidden Markov models to identify frequency-modulated bioacoustic signals amidst noise | |
Reby et al. | Cepstral coefficients and hidden Markov models reveal idiosyncratic voice characteristics in red deer (Cervus elaphus) stags | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
Ting Yuan et al. | Frog sound identification system for frog species recognition | |
US9089123B1 (en) | Wild game information system | |
Ogundile et al. | A hidden Markov model with selective time domain feature extraction to detect inshore Bryde's whale short pulse calls | |
Duan et al. | Acoustic component detection for automatic species recognition in environmental monitoring | |
US7650281B1 (en) | Method of comparing voice signals that reduces false alarms | |
JP4209122B2 (ja) | 野鳥の鳴き声及び人の音声認識装置及びその認識方法 | |
Ogundile et al. | Analysis of template-based detection algorithms for inshore Bryde’s whale short pulse calls | |
Mouy et al. | Automatic recognition of fin and blue whale calls for real-time monitoring in the St. Lawrence | |
Trawicki | Multispecies discrimination of whales (cetaceans) using Hidden Markov Models (HMMS) | |
JP2009020460A (ja) | 音声処理装置およびプログラム | |
Li et al. | Research on environmental sound classification algorithm based on multi-feature fusion | |
Stattner et al. | Acoustic scheme to count bird songs with wireless sensor networks | |
Wielgat et al. | HFCC based recognition of bird species | |
CN109271480A (zh) | 一种语音搜题方法及电子设备 | |
CN114372513A (zh) | 一种鸟声识别模型的训练方法、分类方法、设备及介质 | |
Vogelbacher et al. | Deep learning for recognizing bat species and bat behavior in audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040204 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20040204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040323 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081022 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131031 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |