JP4209122B2

JP4209122B2 - 野鳥の鳴き声及び人の音声認識装置及びその認識方法

Info

Publication number: JP4209122B2
Application number: JP2002060981A
Authority: JP
Inventors: 邦彦尾和
Original assignee: Asahi Kasei Corp; Kajima Corp
Current assignee: Asahi Kasei Corp; Kajima Corp
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2009-01-14
Anticipated expiration: 2022-03-06
Also published as: JP2003255984A

Description

【０００１】
【発明の属する技術分野】
この発明は、野鳥の鳴き声から野鳥の種類を認識すると共に人の音声を認識するようにした野鳥の鳴き声及び人の音声認識装置及びその認識方法に関する。
【０００２】
【従来の技術】
一般に、野鳥の鳴き声には非常に類似しているものがあるため、一般の人々にとって、野鳥の鳴き声からその種類を特定するのは困難である。このため、例えば、鳴き声を記憶しておき、後に、事典等を参照して野鳥の種別を認識したり、野鳥の専門家が同行しているときに、専門家にその鳴き声から野鳥を特定してもらうこと等によって、野鳥の種別を認識するようにしている。
【０００３】
【発明が解決しようとする課題】
しかしながら、野鳥の鳴き声を記憶しておき、後に事典等を参照して野鳥の種別を認識するような方法では、記憶が不鮮明になってしまい、的確に野鳥の種別を判定することができない。また、仮に野鳥の種別がわかっても、めずらしい野鳥であった場合等には、後に野鳥の鳴き声がわかったとしても、その野鳥の鳴き声を聞いたという感動が薄れてしまう。また、野鳥の鳴き声を聞いたときに専門家が常に同行しているとは限らず、野鳥の専門家でなくとも、鳴き声を聞いた時点で野鳥の種類を識別することのできる装置が望まれていた。
【０００４】
そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、野鳥の鳴き声からその種別を容易に識別すると共に人の音声を認識することの可能な野鳥の鳴き声及び人の音声認識装置、及びその認識方法を提供することを目的としている。
【０００５】
【課題を解決するための手段】
上記目的を達成するために、本発明の請求項１に係る野鳥の鳴き声及び人の音声認識装置は、野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出する特徴抽出手段と、野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルからなるデータベースと、隠れマルコフモデル（ＨＭＭ）を用いて前記特徴抽出手段で抽出した音情報の特徴と前記データベースのモデルとを照合して、前記音情報に該当する野鳥の鳴き声又は人の音声を検出する野鳥の鳴き声及び人の音声認識手段と、野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段と、前記音情報が観測されたときの環境状況を入力するための環境条件設定手段と、を備えた野鳥の鳴き声及び人の音声認識装置であって、前記野鳥の鳴き声のモデルは、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定され、前記野鳥の鳴き声及び人の音声認識手段は、前記識別モード設定手段で前記野鳥モードが設定されたとき、前記複数のモデルのうち、前記環境条件設定手段で設定された環境条件下に存在すると予測される野鳥の鳴き声のモデルを選択し、当該選択したモデルについてのみ前記照合を行うようになっていることを特徴としている。
【０００６】
また、請求項２に係る野鳥の鳴き声及び人の音声認識装置は、前記請求項１に係る野鳥の鳴き声及び人の音声認識装置において、前記野鳥の鳴き声のモデルは、同一の特徴が繰り返し出現する繰り返しパターンからなるモデルであることを特徴としている。
また、請求項３に係る野鳥の鳴き声及び人の音声認識装置は、前記請求項１に係る野鳥の鳴き声及び人の音声認識装置において、前記野鳥の鳴き声のモデルは、同一の特徴を有し且つ継続時間の異なるパターンからなる複数のモデルであることを特徴としている。
【０００９】
また、請求項４に係る野鳥の鳴き声及び人の音声認識装置は、前記請求項１に係る野鳥の鳴き声及び人の音声認識装置において、前記環境条件設定手段は、ＧＰＳ人工衛星からの衛星電波を受信する受信手段を備え、前記衛星電波に含まれるＧＰＳ情報を前記環境条件として利用するようになっていることを特徴としている。
また、本発明の請求項５に係る野鳥の鳴き声及び人の音声認識方法は、野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出し、抽出した特徴と、予め設定した野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルとを、隠れマルコフモデル（ＨＭＭ）を用いて照合して前記音情報に該当する野鳥の鳴き声又は人の音声を特定するようにした野鳥の鳴き声及び人の音声認識方法であって、前記野鳥の鳴き声のモデルを、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定すると共に、野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段を設け、前記識別モード設定手段で前記野鳥モードが設定されたときには、前記複数のモデルのうち、前記音情報が観測されたときの環境状況下に存在すると予測される野鳥の鳴き声のモデルについてのみ前記照合を行うことを特徴としている。
【００１１】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
図１は、本発明における野鳥の鳴き声認識装置の一例を示すブロック図であって、図１に示すように、マイクロフォン１と、Ａ／Ｄ変換部２と、特徴抽出手段としての音響解析部３と、鳴き声認識手段としての音声認識部４と、データベース５と、出力部６と、環境条件設定手段としての条件入力部７と、を備えている。
【００１２】
前記マイクロフォン１は、野鳥の鳴き声等の音情報をその音情報に対応するアナログの電気信号に変換し、この電気信号を、Ａ／Ｄ変換部２においてデジタル信号に変換する。前記音響解析部３は、公知の音声認識装置における音響解析部３と同等の機能構成を有し、前記Ａ／Ｄ変換部２で変換されたデジタル信号に基づいて、例えばケプストラム分析や線形予測分析等を行い、入力される音情報の特徴を表す特徴パラメータを求め、この特徴パラメータの時系列に変換する。
【００１３】
前記音声認識部４は、公知の音声認識装置における音声認識部と同等の機能構成を有し、例えば、公知の隠れマルコフモデル（ＨＭＭ）による方法等を用いて、前記データベース５に予め格納された、後述の、野鳥の鳴き声及び音声の特徴パラメータに関する情報、つまり音響モデルと、音響解析部３で変換した特徴パラメータとを照合し、ビタビアルゴリズムにより確率演算を行い、最大確率を持つ認識対象、つまり、最も類似度の高いモデルに該当する野鳥又は音声を認識結果としこれを出力する。なお、音声認識部４における認識方法は、これに限るものではなく、人間の音声認識を行うための機能を有するものであれば、どのような認識方法であってもよい。
【００１４】
前記出力部６は、音声認識部４での認識結果をもとに、認識した単語や、鳴き声に該当する野鳥の名前を表示装置に表示したり、また、野鳥の場合には、これに該当する画像を表示する等の処理を行い、入力された音情報に対する認識結果を出力する。
前記データベース５には、公知の音声認識装置と同様に、人の音声の特徴を表す人用音響モデルが格納されていると共に、さらに、野鳥の種別を識別するための、鳴き声の特徴を表す野鳥用音響モデルが格納されている。
【００１５】
ここで、人間の音声に対する音声認識は、音声の周波数情報の時間的変化をパターン認識することと同等であるとみなすことができる。したがって、周波数情報の時間的変化パターンに特徴のある音情報であれば、人間の音声認識を行う場合と同様の手順で、識別を行うことが可能であり、野鳥の鳴き声についても識別を行うことが可能である。
【００１６】
前記人用音響モデルは、公知の音声認識装置における音響モデルと同様であって、例えば、不特定の話者が発生した音声を認識対象とする場合には、不特定話者の音声データを大量に収集し、公知のＥＭアルゴリズムを用いて認識音声単位のＨＭＭのパラメータを推定することにより音響モデルを作成する。
また、野鳥用音響モデルの場合も同様であって、野鳥の鳴き声のデータを大量に収集し、人用音響モデルと同様にして音響モデルを作成したものであるが、音声の認識単位は、野鳥の種別毎にその鳴き方のパターンに応じた鳴き声の特徴の出現パターンに応じて設定される。
【００１７】
図２及び図３は、野鳥の鳴き声波形とそのスペクトログラムの一例を示したものであって、図２（ａ）はキジバトの鳴き声、図２（ｂ）はフクロウの鳴き声である。また、図３はヒヨドリの鳴き声であって、（ａ）は短く鳴いた場合、（ｂ）は長く鳴いた場合である。
図２（ａ）に示すように、キジバトの鳴き声の場合、鳴き声波形及びスペクトログラムにおいて特定のパターンａ₁₁及びａ₂₁を繰り返している。ここで、図２（ａ）のキジバトの鳴き声におけるパターンａ₁₁、ａ₂₁の前半部ａ₁₂、ａ₂₂の一部ａ₁₃、ａ₂₃と、図２（ｂ）のフクロウの鳴き声波形におけるパターンｂ₁、ｂ₂とを比較してみると、これらは類似している。なお、図２（ａ）において、パターンａ₁₃、ａ₂₃の時間長は、０．４１秒、図２（ｂ）において、パターンｂ₁、ｂ₂の時間長は、０．５２秒である。
【００１８】
ところで、キジバトは一般に同じ鳴き方で連続して繰り返し鳴くことが多く、その鳴き声には、図２（ａ）に示すように、パターンａ₁₁及びａ₂₁を繰り返す特徴がある。したがって、キジバトの鳴き声の認識単位としては、繰り返し現れるパターンａ₁₁及びａ₂₁をキジバトの鳴き声の特徴を表す特徴パターンとする。
一方、フクロウは、一般に、ある特定のパターンを繰り返し連続して鳴くことはないから、図２（ｂ）に示すように、ｂ₁及びｂ２をフクロウの鳴き声の特徴を表す特徴パターンとする。
【００１９】
また、図３（ａ）及び（ｂ）に示すように、ヒヨドリの場合、短く鳴く場合と長く鳴く場合とがあり、これらの場合、その音響的な特徴は同一であるがその継続時間が異なっている。したがって、短く鳴く場合のパターンｃ₁と、長く鳴く場合のパターンｄ₁とをそれぞれ特徴パターンとして設定する。なお、図３（ａ）においてパターンｃ₁、ｃ₂の時間長は０．２７秒、図３（ｂ）においてパターンｄ₁、ｄ₂の時間長は０．７５秒である。
【００２０】
なお、ここでは、ヒヨドリの特徴パターンとして短く鳴く場合と長く鳴く場合の２つを設定した場合について説明したが、これに限らず、鳴き声の継続時間に応じて、複数設定することも可能である。
そして、これら特徴パターンに基づいてそれぞれ野鳥用音響モデルを作成する。
【００２１】
前記データベース５には、さらに、前記条件入力部７から入力される識別モード及び環境条件に応じて、複数の音響モデルの中から、入力された識別モード及び環境条件に該当する音響モデルを選定するための選定情報が格納されている。ここで、前記条件入力部７から入力される条件としては、野鳥の鳴き声を識別する野鳥モード、人間の音声を識別する人モードの何れのモードを選択するかといった識別モードと、野鳥の鳴き声を観測した場所が、山、川、野、或いは海であるかといった場所情報、緯度、経度等といった位置情報、観測時期、観測時間等の時刻情報等といった、野鳥の鳴き声を観測した環境を表す環境条件とが入力される。
【００２２】
そして、これら識別モードとこれに該当する音響モデルと、環境条件とこの環境条件で特定される環境下において観測されると予測される野鳥に該当する音響モデルとが対応づけられて、前記選定情報として設定されている。
次に、上記実施の形態の動作を、音声認識部４の処理手順の一例を示す図４のフローチャートに基づいて説明する。
【００２３】
今、野鳥の鳴き声から野鳥の種類を識別するものとすると、まず、条件入力部７において、識別モードとして野鳥モードを設定する。また、条件入力部７において、環境条件を設定する。
この状態で、野鳥の鳴き声がマイクロフォン１で集音されると、Ａ／Ｄ変換部２で野鳥の鳴き声に対応する電気信号に変換され、これが音響解析部３で処理されて時系列の特徴パラメータに変換され音声認識部４に出力される。
【００２４】
音声認識部４では、図４のフローチャートに示すように、条件入力部７において、識別モードとして野鳥モードが設定されているから、ステップＳ１からステップＳ２に移行する。このとき、環境条件が設定されている場合には、ステップＳ３に移行し、データベース４に格納されている選定情報に基づき、設定された環境条件に対応する音響モデルを選定する。例えば、観測位置が、水辺であれば、水辺に存在する野鳥の音響モデルが選定され、野山等に存在する野鳥の音響モデルは排除される。また、観測時期が、冬であれば、日本に夏にしか存在しない野鳥の音響モデルは排除される。また、観測時刻が、夜であれば、昼間にしか活動しない野鳥の音響モデルは排除される。したがって、環境条件にそぐわない野鳥はこの時点で排除されることになるから、観測環境からみてあり得ない野鳥が、入力された鳴き声に対応する野鳥として認識されることが回避される。
【００２５】
前記音声認識部４では、選定された音響モデルと、音響解析部３から入力された特徴パラメータとを照合し（ステップＳ３）、最も類似度の高い鳴き声を認識結果とし、この鳴き声に該当する野鳥名を出力部６に出力する（ステップＳ４）。これによって出力部６では、その認識結果を、例えば表示装置に表示する。これによって、利用者は、集音した野鳥の鳴き声がどの野鳥の鳴き声であるかを認識することができる。
【００２６】
一方、環境条件が設定されていない場合には、ステップＳ２からステップＳ７に移行し、各野鳥用音響モデルと照合を行い、最も類似度の高い鳴き声に該当する野鳥を認識結果とする（ステップＳ７）。
また、識別モードが人モードである場合には、ステップＳ１からステップＳ９に移行し、人用音響モデルに基づいて照合を行い、最も類似度の高い音声を認識結果とする（ステップＳ９）。
【００２７】
ここで、例えば、マイクロフォン１でキジバトの鳴き声を集音したとする。上述のようにキジバトの鳴き声は、図２（ａ）に示すように、パターンａ₁₁、ａ₂₁に相当する特定パターンを繰り返す。このパターンａ₁₁、ａ₂₁の一部分ａ₁₃、ａ₂₃に相当する部分は、図２（ｂ）に示すフクロウのパターンｂ₁、ｂ₂と類似している。
【００２８】
しかしながら、キジバトの音響モデルは特徴パターンａ₁₁、ａ₂₁に基づいて設定されているから、各種の音響モデルと照合した場合、キジバトの音響モデルに対する類似度が最も高くなる。したがって、部分的にみればキジバトとフクロウとが類似したパターンであっても、フクロウとして誤認識されることが回避される。
【００２９】
逆に、フクロウの鳴き声を集音した場合、フクロウの鳴き声は、図２（ｂ）に示すように、その特徴パターンｂ₁、ｂ₂を繰り返さないから、入力された鳴き声の特徴を表すパターンはｂ₁、ｂ₂に相当するパターンとなり、これと各音響モデルとを比較した場合、キジバトの音響モデルとはパターンａ₁₃、ａ₂₃に相当する部分においては類似するが、キジバトの場合、パターンａ₁₃、ａ₂₃を含む特徴パターンａ₁₁、ａ₂₁に基づいて音響モデルとして設定している。したがって、キジバトよりもフクロウの音響モデルに対する類似度の方が高くなることから、フクロウとして認識される。
【００３０】
このように、キジバトの音響モデルを、その特徴を表す例えばパターンａ₁₃、ａ₂₃ではなく、繰り返し現れる特徴パターンａ₁₁、ａ₂₁に基づいて音響モデルを設定しているから、鳴き声の特徴に、他の鳴き声と類似するパターンが含まれる場合であっても、的確に識別することができる。
次に、マイクロフォン１によって、ヒヨドリの鳴き声を集音したものとする。
【００３１】
ヒヨドリの音響モデルとしては、図３（ａ）及び（ｂ）に示すように、長く鳴いた場合の音響モデルと短く鳴いた場合の音響モデルとが用意されている。
ヒヨドリの音響モデルとして図３（ｂ）に示す長く鳴いた場合の特徴パターンｄ₁、ｄ₂に基づく音響モデルしか設けられていないものとすると、ヒヨドリが短く鳴いた場合、その特徴パターンは図３（ａ）に示すｃ₁、ｃ₂に相当することになる。このパターンｃ₁、ｃ₂に相当するパターンと、図３（ｂ）のパターンｄ₁、ｄ₂に基づく音響モデルとを比較した場合、入力された鳴き声の特徴を表すパターンは図３（ａ）に示すｃ₁、ｃ₂に相当するため、これとヒヨドリの音響モデルとを照合した場合、その類似度は低くなり、ヒヨドリとして認識されない場合がある。
【００３２】
しかしながら、図３（ａ）のヒヨドリが短く鳴いた場合の特徴パターンｃ₁、ｃ₂に基づく音響モデルだけでなく、図３（ｂ）に示すヒヨドリが長く鳴いた場合の特徴パターンｄ₁、ｄ₂に基づく音響モデルも備えているから、各音響モデルと照合を行ったとき、図３（ａ）に示す短く鳴いた場合の音響モデルとの類似度は低いが、図３（ｂ）に示す長く鳴いた場合の音響モデルとの類似度は高くなるため、ヒヨドリとして認識することが可能となる。
【００３３】
逆に、ヒヨドリが長く鳴いた場合には、長く鳴いた場合の音響モデルとの類似度が最も高くなるから、この場合もヒヨドリとして認識することができる。
このように、同一種の野鳥であっても鳴き方によって、音響的な特徴は同じであっても、その特徴パターンの長さが大きく異なる場合には、その長さに応じて音響モデルを複数設けるようにしているから、音響モデルとの照合を的確に行うことができる。
【００３４】
また、ヒヨドリが短く鳴いた場合の音響的な特徴は、シジュウカラやヤマガラの鳴き声の音響的な特徴と類似している。このため、ヒヨドリの音響モデルとして、短く鳴いた場合、また、長く鳴いた場合でも区別ができるような一つの音響モデルを設定した場合には、ヒヨドリが短く鳴いた場合或いは長く鳴いた場合の何れにおいても識別精度が低下してしまう。しかしながら、シジュウカラやヤマガラの鳴き声の音響的な特徴の継続時間とは異なる音響モデルであり、且つヒヨドリの音響的な特徴の継続時間に応じて複数の音響モデルを用意することによって、ヒヨドリが短く鳴いた場合或いは長く鳴いた場合であっても的確に識別することができる。
【００３５】
また、例えば、キジバトの鳴き声を集音した場合、条件入力部７によって入力された環境条件から、フクロウの鳴き声が聞こえない環境下にあると予測される場合には、データベース５に格納された選定情報に基づいて、入力された環境条件に応じた音響モデルが選定されるため、この時点で、フクロウの音響モデルは照合対象の音響モデルから排除される。したがって、集音したキジバトの鳴き声に対して、図２（ｂ）に示す特徴をもつフクロウの音響モデルは選ばれず、仮に、図２のａ₁₃、ａ₂₃に相当するパターンがキジバトの鳴き声として集音されたとしても、フクロウとして誤認識されることを回避することができる。
【００３６】
このように、データベース５に、人間の音声の音響モデルだけでなく、野鳥の鳴き声に基づく音響モデルをも含むようにし、入力された音情報の特徴について、これら音響モデルについて照合を行うようにしたから、人間の音声だけでなく、野鳥の鳴き声から野鳥の種別をも識別することができる。
また、このとき、野鳥の鳴き声の特徴が類似している場合であっても、この鳴き声の特徴を表すパターンの出現状況が野鳥毎に異なることに着目し、例えば図２（ａ）の場合には、パターンａ₁₃、ａ₂₃のような鳴き声の特徴を表すパターンの最小単位ではなく、パターンａ₁₁、ａ₂₁を特徴パターンとしたように、最小単位のパターンの出現状況に応じて特徴パターンを設定し、これに基づき音響モデルを形成するようにしたから、鳴き声の特徴に、類似するパターンを含む野鳥が複数存在する場合であっても、的確に識別することができる。
【００３７】
また、同一の野鳥であっても、鳴き方によって、その特徴を表す音響的な特徴の継続時間が長い場合と、短い場合とがある場合には、その継続長さの異なる複数の音響モデルを形成するようにしたから、鳴き方によってその特徴の出現状況が異なる場合であっても、的確に識別することができる。
また、鳴き声の観測環境に応じた環境条件を入力可能にし、設定された環境条件に該当する音響モデルを選定し、この選定した音響モデルについてのみ照合を行うようにしたから、環境条件からあり得ない野鳥が、鳴き声に該当する野鳥として認識されることを回避することができ、その分、認識精度を向上させることができる。
【００３８】
また、音声認識部４としては、公知の人間の音声を認識するための音声認識部をそのまま用いることができる。したがって、従来の人間用の音声認識装置に、野鳥用の音響モデルを新たに設けるだけで容易に実現することができる。
また、野鳥用の音響モデルを作成する際に、野鳥の鳴き声からその野鳥を識別するための専門的な情報、つまり、専門家のみが知り得る情報を考慮して音響モデルを作成することによって、素人には識別しにくい鳴き声であっても、的確に識別することができ、素人であっても、専門家と同等に識別を行うことができる。
【００３９】
ちなみに、上述のようにして設定した野鳥用音響モデルを用いて、鳴き声の識別を行ったところ、１６種類の野鳥について識別することができることが確認できた。
なお、上記実施の形態においては、鳴き声の特徴を表すパターンが類似した野鳥として、キジバトとフクロウとについて説明し、また、鳴き方によって音響的な特徴の出現状況が異なる野鳥としてヒヨドリについて説明したが、これに限るものではない。鳴き声の特徴を表すパターンの最小単位からは識別が困難なものや、鳴き方によって、音響的な特徴は同一であるがその出現状況が異なるものであれば適用することができる。
【００４０】
また、上記実施の形態においては、鳴き声の特徴を表す最小単位のパターンが類似しているもの、或いは鳴き方によって特徴の出現状況が異なるものについて、これを考慮して音響モデルを設定するようにした場合について説明したが、これに限るものではなく、鳴き声に、その音響的な特徴が現れる出現状況に特徴があるもの、つまり、その音響的な特徴の出現状況からその野鳥を識別可能なものであれば、この出現状況を識別可能なパターンを特徴パターンとし、これに基づいて音響モデルを形成するようにすればよい。
【００４１】
また、上記実施の形態においては、音声認識を行う際に、野鳥モードと人モードとを設定し、照合する音響モデルを選定するようにした場合について説明したが、必ずしもモードの設定を行う必要はない。
ここで、野鳥及び人モードの設定を行わないようにした場合、野鳥用及び人用音響モデルについて照合が行われることになる。このとき、例えばキジバトの鳴き声は、その音響的な特徴が、部分的に見るとフクロウの鳴き声に類似しているだけでなく、男性の声にも類似している。しかしながら、上述のように、キジバトの音響モデルを、繰り返し現れる特定パターンをひとまとまりとした特徴パターンに基づいて設定しているから、フクロウの鳴き声だけでなく、男性の声との識別も可能である。
【００４２】
また、上記実施の形態においては、人モード及び野鳥モードの切換を可能にした場合について説明したが、野鳥用音響モデルのみを搭載し、野鳥用音声認識装置とするようにしてもよい。また、人及び野鳥の音声及び鳴き声認識を行う単体の装置として説明したが、例えば、上述の音声認識装置の機能を実現するための処理機能を携帯電話或いはＰＤＡ等、他の装置に組み込むようにしてもよい。
【００４３】
また、上記実施の形態においては、条件入力部７の設定に応じて、設定された条件に該当する音響モデルを選定し、この選定した音響モデルに基づいて照合を行うようにした場合について説明したが、これに限るものではない。例えば、各音響モデルについて照合を行い、その類似度に条件入力部７からの入力条件に応じて重み付けを行い、重み付けを行った類似度に基づいて、最終的な認識判定を行うようにしてもよく、また、入力条件に応じて選定した音響モデルについて照合を行うと共に、その類似度に重み付けを行い、その結果に基づいて最終的な認識判定を行うようにしてもよい。前記重み付けとしては、例えば、冬に認識を行う場合には、冬鳥の類似度には１．０、夏鳥の類似度には１．０よりも小さな値を乗算するようにすればよい。
【００４４】
また、上記実施の形態においては、緯度、経度等の位置情報、また、季節、時期、日付、時刻等の時刻情報を、条件入力部７から入力するようにした場合について説明したが、これに限るものではなく、ＧＰＳ人工衛星からの衛星電波を受信するためのＧＰＳ受信機等の受信手段を搭載し、衛星電波に含まれるＧＰＳ情報に基づいて位置情報或いは時刻情報を設定するようにしてもよい。
【００４５】
また、上記実施の形態においては、環境条件として位置、場所、時間、時期等を設定し、この環境条件に応じた音響モデルを選定するようにした場合について説明したが、これに限るものではない。例えば、ウグイス等のように、春先の繁殖期には「ホーホケキョ」（さえずり）となき、それ以外の時期では、地鳴きという短い鳴き声で鳴くような場合には、さえずり時の音響モデルと地鳴き時の音響モデルとを作成し、時期条件に応じて何れかの音響モデルを選定するようにしてもよい。また、渡り鳥の場合には、時期情報に基づいて、音響モデルを選定するようにしてもよい。
【００４６】
【発明の効果】
本発明の請求項１乃至３に係る野鳥の鳴き声及び人の音声認識装置によれば、野鳥の鳴き声の音響的な特徴を表す野鳥の鳴き声のモデルを、野鳥の鳴き方パターンに応じた音響的な特徴の出現パターンに応じて設定したから、鳴き声の特徴が類似した野鳥であっても、その特徴の出現パターンの違いから的確に識別することができ、認識精度を向上させることができる。
【００４７】
例えば、キジバトのように同一の特徴が繰り返し現れる場合には、この繰り返しパターンに基づいてモデルを作成することによって、例えば、キジバトの特徴の一部と同じ特徴を有する野鳥であっても、キジバトのモデルとは特徴が一致しないことから、的確に識別することができる。
また、ヒヨドリのように、同一の特徴を有するが、鳴き方によって、前記特徴の継続時間が異なる場合には、その継続時間に応じて音響モデルを作成することによって、鳴き方によって特徴の継続時間が異なった場合でも、的確に識別することができる。
【００４８】
また、音情報が観測されたときの環境状況を入力するための環境条件設定手段を備え、この環境条件設定手段で設定された環境条件下に存在すると予測される野鳥の鳴き声のモデルを選択し、当該選択したモデルについてのみ前記照合を行うようにしたから、条件に該当しない野鳥が、誤認識されることを回避することができ、その分、認識精度を向上させることができる。
【００４９】
また、請求項４に係る野鳥の鳴き声及び人の音声認識装置によれば、ＧＰＳ人工衛星からの衛星電波を受信する受信手段を備え、この衛星電波に含まれるＧＰＳ情報を環境条件として利用するようにしたから、環境条件を、人手を介さずに容易に設定することができる。
【００５０】
また、請求項５に係る野鳥の鳴き声及び人の音声認識方法によれば、野鳥の鳴き声の音響的な特徴を表す野鳥の鳴き声のモデルを、野鳥の鳴き方パターンに応じた音響的な特徴の出現パターンに応じて設定したから、鳴き声の特徴が類似した野鳥であっても、その特徴の出現パターンの違いから的確に識別することができ、認識精度を向上させることができる。
【００５１】
また、音情報が観測されたときの環境状況を考慮して野鳥の認識を行うようにしたから、その認識精度をより向上させることができる。
【図面の簡単な説明】
【図１】本発明における野鳥の鳴き声及び人の音声認識装置の概略構成を示すブロック図である。
【図２】キジバト及びフクロウの鳴き声波形とそのスペクトログラムの一例である。
【図３】ヒヨドリの鳴き声波形とそのスペクトログラムの一例である。
【図４】音声認識部における処理手順の一例を示すフローチャートである。
【符号の説明】
１マイクロフォン
２Ａ／Ｄ変換器
３音響解析部
４音声認識部
５データベース
６出力部
７条件入力部

Claims

野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出する特徴抽出手段と、
野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルからなるデータベースと、
隠れマルコフモデル（ＨＭＭ）を用いて前記特徴抽出手段で抽出した音情報の特徴と前記データベースのモデルとを照合して、前記音情報に該当する野鳥の鳴き声又は人の音声を検出する野鳥の鳴き声及び人の音声認識手段と、
野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段と、
前記音情報が観測されたときの環境状況を入力するための環境条件設定手段と、を備えた野鳥の鳴き声及び人の音声認識装置であって、
前記野鳥の鳴き声のモデルは、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定され、
前記野鳥の鳴き声及び人の音声認識手段は、前記識別モード設定手段で前記野鳥モードが設定されたとき、前記複数のモデルのうち、前記環境条件設定手段で設定された環境条件下に存在すると予測される野鳥の鳴き声のモデルを選択し、当該選択したモデルについてのみ前記照合を行うようになっていることを特徴とする野鳥の鳴き声及び人の音声認識装置。
前記野鳥の鳴き声のモデルは、同一の特徴が繰り返し出現する繰り返しパターンからなるモデルであることを特徴とする請求項１記載の野鳥の鳴き声及び人の音声認識装置。
前記野鳥の鳴き声のモデルは、同一の特徴を有し且つ継続時間の異なるパターンからなる複数のモデルであることを特徴とする請求項１記載の野鳥の鳴き声及び人の音声認識装置。
前記環境条件設定手段は、ＧＰＳ人工衛星からの衛星電波を受信する受信手段を備え、前記衛星電波に含まれるＧＰＳ情報を前記環境条件として利用するようになっていることを特徴とする請求項１記載の野鳥の鳴き声及び人の音声認識装置。
野鳥の鳴き声及び人の音声を含む音情報からその音響的な特徴を抽出し、抽出した特徴と、予め設定した野鳥の鳴き声及び人の音声の音響的な特徴を表す複数のモデルとを、隠れマルコフモデル（ＨＭＭ）を用いて照合して前記音情報に該当する野鳥の鳴き声又は人の音声を特定するようにした野鳥の鳴き声及び人の音声認識方法であって、
前記野鳥の鳴き声のモデルを、前記野鳥の鳴き方パターンに応じた前記音響的な特徴の出現パターンに応じて設定すると共に、野鳥の鳴き声又は人の音声のいずれを認識するかを設定する識別モード設定手段を設け、
前記識別モード設定手段で前記野鳥モードが設定されたときには、前記複数のモデルのうち、前記音情報が観測されたときの環境状況下に存在すると予測される野鳥の鳴き声のモデルについてのみ前記照合を行うことを特徴とする野鳥の鳴き声及び人の音声認識方法。