JP2022001967A

JP2022001967A - 音響イベント認識装置

Info

Publication number: JP2022001967A
Application number: JP2018169717A
Authority: JP
Inventors: 一希島田; Kazuki Shimada
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2022-01-06
Also published as: CN112639969A; WO2020054409A1; US20210217439A1

Abstract

【課題】事後に認識対象を追加することができるようにする。
【解決手段】音響イベント認識装置は、入力音響信号から特徴量を抽出する特徴量抽出部と、特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、ラベル内認識部または同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部とを備える。本技術は音響イベント認識装置に適用することができる。
【選択図】図１

Description

本技術は、音響イベント認識装置に関し、特に、事後に認識対象を追加することができるようにした音響イベント認識装置に関する。

従来、音響信号に基づいて音響イベントを認識する音響イベント認識システムが知られている。

例えば音響イベントの認識に関連する技術として、事前に認識対象が用意される音響イベント認識システム（例えば、特許文献１参照）や、音声認識において対話から未知語を獲得するシステム（例えば、特許文献２参照）に関する技術が提案されている。

特開２０１５−４９３９８号公報特開２００３−２７１１８０号公報

しかしながら、上述した技術では音響イベント認識システムにおいて認識対象は事前に固定されており、音響イベント認識システムが事後に認識対象を追加することは考慮されていない。つまり、予め定められた音響イベントのみが認識対象とされている。

そのため、このような音響イベント認識システムでは、ユーザが提示した音響イベントを事後に認識対象として追加できない。また、音響イベント認識システム自身が環境に応じて獲得した音響イベントを事後に認識対象として追加することもできない。

例えば特許文献１に記載の技術では、認識対象となる音響イベントが事前に用意されているため、認識対象を事後に追加することはできない。また、特許文献１ではモデルデータの生成に用いる一般音データの取得方法として事前にコーパスから取得する例が挙げられているが、認識対象の設計に関係する一般音データ取得部については殆ど言及されていない。

さらに特許文献２に記載の技術では、ユーザとの対話の中で未知語を取得して記憶部に保存することで、未知の音響的なカテゴリを登録することはできる。しかし、これはあくまで未知語、すなわち言語情報を有するものの登録と音声認識との連携を想定したものであって、言語情報を有さない音響イベントについては言及されておらず、事後に認識対象を追加することはできない。

本技術は、このような状況に鑑みてなされたものであり、事後に認識対象を追加することができるようにするものである。

本技術の一側面の音響イベント認識装置は、入力音響信号から特徴量を抽出する特徴量抽出部と、前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、前記ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、前記フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部とを備える。

本技術の一側面においては、入力音響信号から特徴量が抽出され、前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かがラベル内認識部により認識されて、その認識結果が出力され、前記ラベル内認識部により音響イベントを認識できなかった場合、同異判定部によってラベルによらず取得した音響イベントとの同異を判定することにより判定結果が出力され、前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかが判定され、前記フラグが有効になっている場合、当該音響イベントが認識結果として出力される。

音響イベント認識装置の構成例を示す図である。システムの対応範囲について説明する図である。特徴量取得処理を説明するフローチャートである。特徴量取得処理を説明するフローチャートである。マッピング、クラスタリング、およびクラスタの選択について説明する図である。認識対象追加処理を説明するフローチャートである。特徴量に対応する音響イベントとその追加処理について説明する図である。認識処理を説明するフローチャートである。音響イベント認識装置の構成例を示す図である。音響イベント認識装置の構成例を示す図である。音響イベント認識装置の構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈音響イベント認識装置の構成例〉
本技術は、認識対象を事後に追加することができる音響イベント認識システムに関するものである。

ここで、音響イベントとは、環境音や楽音など音響的な特徴が共通するイベントのことであり、例えば拍手、鈴、汽笛、足音、車のエンジン音、鳥の鳴き声などである。また、音響イベント認識とは、録音した音響信号から対象の音響イベントを認識することである。

本技術では、動作モードとして認識モード、取得モード、追加モードがある。

認識モードでは、入力される音響信号から音響イベントが認識される。

取得モードでは、入力される音響信号からある区間の特徴量（音響特徴量）が取得される。

追加モードでは、取得モードで取得された特徴量の対応する音響イベントが認識対象として事後に追加される。

以下、このような音響イベント認識システムを実現する音響イベント認識装置について説明する。

図１は、本技術を適用した音響イベント認識装置の一実施の形態の構成例を示す図である。

図１に示す音響イベント認識装置１１は、特徴量抽出部２１、認識部２２、フラグ管理部２３、取得部２４、および制御部２５を有している。

特徴量抽出部２１は、システムの入力である音響信号から特徴量を抽出し、認識部２２および取得部２４に供給する。

認識部２２は、供給された音響イベントモデルと、特徴量抽出部２１から供給された特徴量とに基づいて音響イベント認識を行う。すなわち、認識部２２は音響イベントモデルを参照して、特徴量から音響イベント認識結果を出力する。ここで、音響イベントモデルは特徴量と音響イベントの対応を示す情報である。

認識部２２は、事前に付けたラベルの範囲内の音響イベントを認識するラベル内認識部３１と、ラベルによらず取得した音響イベントとの同異を判定する同異判定部３２とを有している。

フラグ管理部２３は、フラグ表を管理する。フラグ表は、認識部２２の出力する音響イベント認識結果とシステム（音響イベント認識装置１１）の出力する音響イベント認識結果の対応を示している。

フラグ管理部２３は、フラグ表を管理し、認識部２２の出力する音響イベント認識結果からシステム（音響イベント認識装置１１）としての音響イベント認識結果を出力する。

取得部２４は、入力される音響信号からある区間の特徴量を取得して認識部２２に供給する。制御部２５は、認識部２２、フラグ管理部２３、および取得部２４を制御する。

図２は、本出願人が提案するシステム（音響イベント認識装置１１）の対応範囲を示している。

本システム（音響イベント認識装置１１）は、認識モードの他に取得モード、追加モードがあり、事後的に認識対象を追加できる。

本システム、すなわち音響イベント認識装置１１では、ラベル内認識部３１およびフラグ管理部２３の他に同異判定部３２が設けられており、ラベル範囲外の音響イベントの追加および認識にも対応している。

〈特徴量取得処理の説明〉
次に、音響イベント認識装置１１の動作について説明する。

まず、図３および図４を参照して、取得モードにおける動作について説明する。

図３は、取得モードにおいて、ユーザが提示する音響信号から抽出した特徴量を取得する特徴量取得処理を説明するためのフローチャートを示している。以下、図３のフローチャートを参照して、音響イベント認識装置１１により行われる、ユーザが音響信号を提示する場合における特徴量取得処理について説明する。

ステップＳ１１において制御部２５は、取得部２４に対して特徴量の取得区間を指定する。

ステップＳ１２において取得部２４は、特徴量抽出部２１から供給された特徴量のうち、ステップＳ１１の処理で制御部２５により指定された取得区間（指定区間）の特徴量を取得し、認識部２２に供給する。

このようにして特徴量が取得されると特徴量取得処理は終了する。なお、特徴量に加えて音響信号も補助情報として取得しておくようにしてもよい。

以上のようにして音響イベント認識装置１１は、ユーザが提示した音響信号から特徴量を取得する。

次に、図４のフローチャートを参照して、取得モードで音響イベント認識装置１１（システム）自身が環境に応じて特徴量を獲得する場合における特徴量取得処理について説明する。

ステップＳ４１において制御部２５は、取得部２４に対して特徴量の参照区間を指定する。

ステップＳ４２において取得部２４は、特徴量抽出部２１から供給された特徴量のうち、ステップＳ４１の処理で制御部２５により指定された参照区間の特徴量を特徴空間に逐次マッピングする。

ステップＳ４３において取得部２４は、マッピングされた特徴量群をクラスタリングする。

ステップＳ４４において取得部２４は、クラスタリングにより得られた所定のクラスタを選択する。

ステップＳ４５において取得部２４は、ステップＳ４４で選択したクラスタに関する特徴量を取得し、認識部２２に供給する。なお、特徴量に加えて音響信号も補助情報として取得しておくようにしてもよい。

ここで、図５にマッピング、クラスタリング、およびクラスタの選択に関する概念を示す。すなわち、図５は、マッピング、クラスタリング、およびクラスタの選択に関する概念図を示している。

特に、図５では矢印Q11に示す部分には特徴量の特徴空間へのマッピングを示しており、矢印Q12に示す部分にはクラスタリングの例を示しており、矢印Q13に示す部分にはクラスタの選択例を示している。

例えば特徴空間としてはMFCC（Mel-Frequency Cepstrum Coefficients）が考えられる。また、クラスタリングとしてk-means法が考えられ、クラスタの選択方法としては、クラスタを構成する要素数が閾値以上、閾値以下であるものを選択することが考えられる。

図４のフローチャートの説明に戻り、取得部２４により特徴量が取得されると、特徴量取得処理は終了する。

以上のようにして音響イベント認識装置１１は、取得モードにおいて、自身が環境に応じて特徴量を取得する。

〈認識対象追加処理の説明〉
続いて、追加モードにおける動作について説明する。

すなわち、以下、図６のフローチャートを参照して、音響イベント認識装置１１により行われる認識対象追加処理について説明する。

この認識対象追加処理は、取得モード後の追加モードにおいて行われる処理であり、認識対象追加処理では、図３や図４を参照して説明した特徴量取得処理で取得された特徴量に対応する音響イベントが認識対象として追加される。

ステップＳ７１において、ラベル内認識部３１はラベル内の音響イベントか否かを判定する。すなわち、ラベル内認識部３１は取得部２４から供給された特徴量から音響イベント認識結果を出力する。

ラベル内認識部３１で音響イベント認識結果の出力がない場合、ラベル内の音響イベントではないと判定され、処理はステップＳ７２へと進む。

ステップＳ７２において同異判定部３２は、その音響イベントとの同異を判定するように同異判定部３２を設定し、ステップＳ７４においてフラグ管理部２３は、その音響イベントを認識した際のフラグを有効化して認識対象追加処理は終了する。

一方、ステップＳ７１においてラベル内の音響イベントであると判定された場合、すなわち音響イベント認識結果の出力がある場合、ラベル内認識部３１は音響イベント認識結果をフラグ管理部２３に供給し、その後、ステップＳ７３へと進む。

ステップＳ７３においてフラグ管理部２３は、認識部２２から供給された音響イベント認識結果に基づいて、音響イベントのフラグが有効か否かを判定する。

ステップＳ７３において音響イベントのフラグが有効であると判定された場合、特に何も処理は行われず、認識対象追加処理は終了する。

これに対して、ステップＳ７３において音響イベントのフラグが有効でないと判定された、つまり音響イベント認識結果から該当する音響イベントのフラグが無効となっている場合、処理はステップＳ７４に進む。

ステップＳ７４においてフラグ管理部２３は、音響イベントを認識した際のフラグを有効化し、認識対象追加処理は終了する。

以上のようにして音響イベント認識装置１１は、適宜、認識対象とする音響イベントを追加する。

ここで、図７に追加モードにおける、取得した特徴量に対応する音響イベントとその追加処理を分類した表を示す。

この例では、ラベル内の音響イベント認識結果として出力があり、該当する音響イベントのフラグが有効になっている場合は、特に何も行われない。

また、ラベル内の音響イベント認識結果として出力があり、フラグが無効になっている場合は、該当する音響イベントを認識した際のフラグが有効化され、以降は事前に用意された認識対象と同様に扱われる。

ラベル内の音響イベント認識結果の出力がない場合は、追加する音響イベントとの同異を判定するよう同異判定部３２が設定され、追加する音響イベントと同じと判定した際の行動フラグが有効化され、以降は事前に用意された認識対象と同様に扱われる。

〈認識処理の説明〉
さらに、図８を参照して、認識モードにおける動作について説明する。すなわち、以下、図８のフローチャートを参照して、音響イベント認識装置１１による認識処理について説明する。

ステップＳ１０１において特徴量抽出部２１は、入力された音響信号（入力音響信号）から特徴量を抽出し、その抽出結果を認識部２２に供給する。

ステップＳ１０２において認識部２２のラベル内認識部３１は、特徴量抽出部２１から供給された特徴量に基づいて音響イベント認識結果を出力することで、ラベル内の音響イベントであるか否かを判定する。

ステップＳ１０２においてラベル内の音響イベントではないと判定された場合、ステップＳ１０３において同異判定部３２は、特徴量に基づいて音響イベント認識結果を出力することで、ラベル外で追加された音響イベントであるか否かを判定する。

例えば同異判定部３２で音響イベント認識結果の出力がない場合、ラベル外で追加された音響イベントではないと判定される。

ステップＳ１０３においてラベル外で追加された音響イベントではないと判定された場合、ステップＳ１０４においてフラグ管理部２３は、システム（音響イベント認識装置１１）として出力を行わず、認識処理は終了する。

これに対してステップＳ１０３においてラベル外で追加された音響イベントであると判定された場合、同異判定部３２は音響イベント認識結果をフラグ管理部２３に出力し、その後、処理はステップＳ１０５へと進む。

また、ステップＳ１０２においてラベル内の音響イベントであると判定された場合、その後、処理はステップＳ１０５へと進む。

ステップＳ１０２においてラベル内の音響イベントであると判定されたか、またはステップＳ１０３でラベル外で追加された音響イベントであると判定された場合、ステップＳ１０５の処理が行われる。

ステップＳ１０５においてフラグ管理部２３は、認識部２２から供給された音響イベント認識結果に基づいて、該当する音響イベントのフラグが有効であるか否かを判定する。

ステップＳ１０５において音響イベントのフラグが有効でないと判定された場合、ステップＳ１０４においてフラグ管理部２３は、システム（音響イベント認識装置１１）として出力を行わず、認識処理は終了する。

一方、ステップＳ１０５において音響イベントのフラグが有効であると判定された場合、その後、処理はステップＳ１０６へと進む。

ステップＳ１０６において、フラグ管理部２３は、システム（音響イベント認識装置１１）として該当する音響イベント、つまり認識部２２の出力結果を出力し、認識処理は終了する。

以上のようにして音響イベント認識装置１１は、ラベル内の音響イベントだけでなく、ラベル外で追加した音響イベントも認識する。このようにすることで、事後に認識対象とする音響イベントを追加することができる。

なお、特徴量抽出部２１では、システムの入力である音響信号から特徴量が抽出されるが、例えば特徴量としてはMFCCやスペクトログラムが考えられる。

また、音響イベントモデルは、特徴量と音響イベントの対応を示しており、例えば音響イベントE1,…を対象とする音響イベントモデルを事前に学習して、ラベル内認識部３１で参照する。また、任意の音響イベントとの同異を判定する音響イベントモデルを事前に学習して、同異判定部３２で参照する。

さらに認識部２２は、音響イベントモデルを参照し、特徴量から音響イベント認識結果を出力する。認識部２２は、事前に付けたラベルの範囲内の音響イベントを認識するラベル内認識部３１と、ラベルによらず取得した音響イベントとの同異を判定する同異判定部３２を有している。例えば、ラベル内認識部３１としてCNN（Convolutional Neural Network）が考えられる。また、例えば同異判定部３２としてSiamese Networkが考えられる。

〈第１の実施の形態の変形例〉
〈音響イベント認識装置の構成例〉
また、音響イベント認識装置１１は、図１に示した構成に限らず、例えば図９や図１０、図１１に示す構成とすることもできる。なお、図９乃至図１１において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜諸略する。

図９に示す音響イベント認識装置１１は、特徴量抽出部２１、認識部２２、フラグ管理部２３、取得部２４、および制御部２５を有している。また、認識部２２はラベル内認識部３１を有している。

図９に示す音響イベント認識装置１１の構成は、同異判定部３２を有していない点で図１に示した音響イベント認識装置１１の構成と異なり、その他の点では図１に示した音響イベント認識装置１１と同じ構成となっている。

図９の音響イベント認識装置１１では、同異判定部３２が設けられていないため、ラベル範囲外の音響イベントについての追加および認識には対応していない。

また、図１０に示す音響イベント認識装置１１は、特徴量抽出部２１、認識部２２、フラグ管理部２３、取得部２４、および制御部２５を有している。また、認識部２２は同異判定部３２を有している。

図１０に示す音響イベント認識装置１１の構成は、ラベル内認識部３１を有していない点で図１に示した音響イベント認識装置１１の構成と異なり、その他の点では図１に示した音響イベント認識装置１１と同じ構成となっている。

図１０の音響イベント認識装置１１では、ラベル内認識部３１が設けられていないため、事前に認識対象となる音響イベントを固定することができない。

さらに、図１１に示す音響イベント認識装置１１は、特徴量抽出部２１、認識部２２、取得部２４、および制御部２５を有している。また、認識部２２はラベル内認識部３１および同異判定部３２を有している。

図１１に示す音響イベント認識装置１１の構成は、フラグ管理部２３を有していない点で図１に示した音響イベント認識装置１１の構成と異なり、その他の点では図１に示した音響イベント認識装置１１と同じ構成となっている。

図１１の音響イベント認識装置１１では、フラグ管理部２３が設けられていないため、各認識対象の音響イベントのフラグを管理することができない。

〈本技術の適用例〉
さらに、以下、本技術を適用した音響イベント認識システムを自律型ロボットに搭載した場合における例について説明する。

まず、事前の音響イベントモデルやフラグ表などの用意について説明する。

「拍手」および「鈴」という音響イベントをラベル範囲内とする音響イベントモデルが事前に学習されているとする。また、ラベル範囲外に対しても適用できる、指定された音響イベントとの同異を判定する音響イベントモデルが事前に学習されている。

「拍手」に対しては、（フラグ表において認識部２２の出力する結果を認識システムの出力する結果とするよう）フラグが有効化されている。認識システムが「拍手」を出力した場合は、ロボットが走るようロボットシステム全体が設定されている。

「鈴」に対しては、（フラグ表において認識部２２の出力する結果は無視して認識システムは何も出力しないよう）フラグが無効化されている。但し、認識システムが「鈴」を出力した場合は、ロボットが踊るようロボットシステム全体が設定されている。

事後的に追加されるラベル範囲外の音響イベント「Unknown1」を認識システムが出力した場合は、ロボットが歌うようロボットシステム全体が設定されているとする。

次に、認識システムを含むロボットシステム全体が起動した後の動作について説明する。

「拍手をすると走る」
通常は認識モードのみになっている。ロボットシステム全体からは常に音響信号がストリーム入力される。このとき音響信号からは特徴量抽出部２１で特徴量が抽出される。

日常の音響信号が入力されているときは、認識部２２は出力を行わないため、認識システムとしても出力が行われない。

ロボットの周りでロボットのユーザが拍手をしたときは、その特徴量を受け取り、認識部２２、特にラベル内認識部３１が「拍手」という結果を出力する。それを受けたフラグ管理部２３が、フラグ表を参照し「拍手」のフラグが有効であることを確認し、認識システムとしてそのまま「拍手」を出力する。そして、ロボットは走る。

このとき鈴やラベル範囲外の音を鳴らしても、認識部２２は出力を行わないため、認識システムとしても出力を行わず、ロボットは反応しない。

「鈴を提示して覚えさせる、鈴を聞くと踊る」
ユーザが提示追加ボタンを押すなどして、取得モード（ユーザ提示）のみになる。

ユーザは指定された区間で鈴を鳴らす。取得部２４で、その区間の音響信号から抽出された特徴量を取得する。

自動で追加モードのみになる。

ラベル内認識部３１で、「鈴」という認識結果が出力される。フラグ管理部２３でフラグ表を参照すると、フラグが無効になっていたため、「鈴」のフラグを有効化する。

自動で認識モードのみになる。

ロボットの周りでユーザが鈴を鳴らしたときは、その特徴量を受け取り、認識部２２、特にラベル内認識部３１が「鈴」という結果を出力する。それを受けたフラグ管理部２３が、フラグ表を参照し「鈴」のフラグが有効であることを確認し、認識システムとしてそのまま「鈴」を出力する。そして、ロボットは踊る。

このときラベル範囲外の音を鳴らしても、認識部は出力を行わないため、認識システムとしても出力を行わず、ロボットは反応しない。

「汽笛を獲得して覚える、汽笛を聞くと歌う」
取得モード（システム獲得）は認識モードと並行していてもよい。

制御部２５で指定された参照区間、例えば一日の間、取得部２４では特徴量を特徴空間に逐次マッピングする。そのときに区間では日常雑音の他に汽笛が鳴っている。参照区間経過後に、マッピングされた特徴量群がクラスタリングされる。その際、日常雑音と汽笛のクラスタリングのクラスタができる。その中から、基準に従い、要素数がちょうどよい汽笛のクラスタが選択される。取得部２４で、そのクラスタに関する特徴量が取得される。

参照区間経過後、自動で追加モードのみになる。

ラベル内認識部３１では結果が出力されない。そのため、同異判定部３２で、汽笛の音響イベント「Unknown1」との同異を判定するように同異判定部３２が設定され、「Unknown1」を認識した際のフラグが有効化される。

自動で認識モードのみになる。

ロボットの周りで汽笛が鳴ったとき、その特徴量を認識部２２が受け取る。ラベル内認識部３１では結果が出力されない。同異判定部３２が「Unknown1」という結果を出力する。それを受けたフラグ管理部２３が、フラグ表を参照し「Unknown1」のフラグが有効であることを確認し、認識システムとしてそのまま「Unknown1」を出力する。そして、ロボットは歌う。

このとき汽笛以外の範囲外の音を鳴らしても、認識部２２は出力を行わないため、認識システムとしても出力を行わず、ロボットは反応しない。

その他、以上において説明した本技術は、以下のようにしてもよい。

すなわち、追加した認識対象を継続して認識するかどうかを音響イベント認識システム外部からフィードバックすることが考えられる。例えば、ユーザが自律型ロボットのボタンを押すなどして外部から停止命令が来た場合には、その認識対象のフラグは無効化するようにすることなどが考えられる。

また、例えば認識対象を追加する際に取得した特徴量や音響信号を外部に送り、補助情報として使用することが考えられる。例えば犬の声を獲得したら、その特徴量を外部に送り、出力の際に反映することなどが考えられる。

さらに、例えばシステムが自動獲得した特徴量や音響信号をアプリなどで確認できるようにすることが考えられる。また、ユーザがラベルやフラグを操作できるようにすることも考えられる。例えばスマートフォンのアプリ上で上述の「Unknown1」の特徴量や音響信号をユーザが確認し、「汽笛」というラベルをつけるようにすることなどが考えられる。

以上のように本技術によれば、例えば本技術を適用したシステムを自律型ロボットに搭載することで、ユーザが覚えさせたい音響イベントや環境特有の音響イベントを自律型ロボットに事後に覚えさせることができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
入力音響信号から特徴量を抽出する特徴量抽出部と、
前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、
前記ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、
前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、前記フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部と
を備える音響イベント認識装置。

１１音響イベント認識装置，２１特徴量抽出部，２２認識部，２３フラグ管理部，２４取得部，２５制御部，３１ラベル内認識部，３２同異判定部

Claims

入力音響信号から特徴量を抽出する特徴量抽出部と、
前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、
前記ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、
前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、前記フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部と
を備える音響イベント認識装置。