JP2022001967A - 音響イベント認識装置 - Google Patents

音響イベント認識装置 Download PDF

Info

Publication number
JP2022001967A
JP2022001967A JP2018169717A JP2018169717A JP2022001967A JP 2022001967 A JP2022001967 A JP 2022001967A JP 2018169717 A JP2018169717 A JP 2018169717A JP 2018169717 A JP2018169717 A JP 2018169717A JP 2022001967 A JP2022001967 A JP 2022001967A
Authority
JP
Japan
Prior art keywords
recognition
acoustic event
unit
label
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018169717A
Other languages
English (en)
Inventor
一希 島田
Kazuki Shimada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2018169717A priority Critical patent/JP2022001967A/ja
Priority to PCT/JP2019/033624 priority patent/WO2020054409A1/ja
Priority to CN201980057318.4A priority patent/CN112639969A/zh
Priority to US17/250,776 priority patent/US20210217439A1/en
Publication of JP2022001967A publication Critical patent/JP2022001967A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Manipulator (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】事後に認識対象を追加することができるようにする。
【解決手段】音響イベント認識装置は、入力音響信号から特徴量を抽出する特徴量抽出部と、特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、ラベル内認識部または同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部とを備える。本技術は音響イベント認識装置に適用することができる。
【選択図】図1

Description

本技術は、音響イベント認識装置に関し、特に、事後に認識対象を追加することができるようにした音響イベント認識装置に関する。
従来、音響信号に基づいて音響イベントを認識する音響イベント認識システムが知られている。
例えば音響イベントの認識に関連する技術として、事前に認識対象が用意される音響イベント認識システム(例えば、特許文献1参照)や、音声認識において対話から未知語を獲得するシステム(例えば、特許文献2参照)に関する技術が提案されている。
特開2015−49398号公報 特開2003−271180号公報
しかしながら、上述した技術では音響イベント認識システムにおいて認識対象は事前に固定されており、音響イベント認識システムが事後に認識対象を追加することは考慮されていない。つまり、予め定められた音響イベントのみが認識対象とされている。
そのため、このような音響イベント認識システムでは、ユーザが提示した音響イベントを事後に認識対象として追加できない。また、音響イベント認識システム自身が環境に応じて獲得した音響イベントを事後に認識対象として追加することもできない。
例えば特許文献1に記載の技術では、認識対象となる音響イベントが事前に用意されているため、認識対象を事後に追加することはできない。また、特許文献1ではモデルデータの生成に用いる一般音データの取得方法として事前にコーパスから取得する例が挙げられているが、認識対象の設計に関係する一般音データ取得部については殆ど言及されていない。
さらに特許文献2に記載の技術では、ユーザとの対話の中で未知語を取得して記憶部に保存することで、未知の音響的なカテゴリを登録することはできる。しかし、これはあくまで未知語、すなわち言語情報を有するものの登録と音声認識との連携を想定したものであって、言語情報を有さない音響イベントについては言及されておらず、事後に認識対象を追加することはできない。
本技術は、このような状況に鑑みてなされたものであり、事後に認識対象を追加することができるようにするものである。
本技術の一側面の音響イベント認識装置は、入力音響信号から特徴量を抽出する特徴量抽出部と、前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、前記ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、前記フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部とを備える。
本技術の一側面においては、入力音響信号から特徴量が抽出され、前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かがラベル内認識部により認識されて、その認識結果が出力され、前記ラベル内認識部により音響イベントを認識できなかった場合、同異判定部によってラベルによらず取得した音響イベントとの同異を判定することにより判定結果が出力され、前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかが判定され、前記フラグが有効になっている場合、当該音響イベントが認識結果として出力される。
音響イベント認識装置の構成例を示す図である。 システムの対応範囲について説明する図である。 特徴量取得処理を説明するフローチャートである。 特徴量取得処理を説明するフローチャートである。 マッピング、クラスタリング、およびクラスタの選択について説明する図である。 認識対象追加処理を説明するフローチャートである。 特徴量に対応する音響イベントとその追加処理について説明する図である。 認識処理を説明するフローチャートである。 音響イベント認識装置の構成例を示す図である。 音響イベント認識装置の構成例を示す図である。 音響イベント認識装置の構成例を示す図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈音響イベント認識装置の構成例〉
本技術は、認識対象を事後に追加することができる音響イベント認識システムに関するものである。
ここで、音響イベントとは、環境音や楽音など音響的な特徴が共通するイベントのことであり、例えば拍手、鈴、汽笛、足音、車のエンジン音、鳥の鳴き声などである。また、音響イベント認識とは、録音した音響信号から対象の音響イベントを認識することである。
本技術では、動作モードとして認識モード、取得モード、追加モードがある。
認識モードでは、入力される音響信号から音響イベントが認識される。
取得モードでは、入力される音響信号からある区間の特徴量(音響特徴量)が取得される。
追加モードでは、取得モードで取得された特徴量の対応する音響イベントが認識対象として事後に追加される。
以下、このような音響イベント認識システムを実現する音響イベント認識装置について説明する。
図1は、本技術を適用した音響イベント認識装置の一実施の形態の構成例を示す図である。
図1に示す音響イベント認識装置11は、特徴量抽出部21、認識部22、フラグ管理部23、取得部24、および制御部25を有している。
特徴量抽出部21は、システムの入力である音響信号から特徴量を抽出し、認識部22および取得部24に供給する。
認識部22は、供給された音響イベントモデルと、特徴量抽出部21から供給された特徴量とに基づいて音響イベント認識を行う。すなわち、認識部22は音響イベントモデルを参照して、特徴量から音響イベント認識結果を出力する。ここで、音響イベントモデルは特徴量と音響イベントの対応を示す情報である。
認識部22は、事前に付けたラベルの範囲内の音響イベントを認識するラベル内認識部31と、ラベルによらず取得した音響イベントとの同異を判定する同異判定部32とを有している。
フラグ管理部23は、フラグ表を管理する。フラグ表は、認識部22の出力する音響イベント認識結果とシステム(音響イベント認識装置11)の出力する音響イベント認識結果の対応を示している。
フラグ管理部23は、フラグ表を管理し、認識部22の出力する音響イベント認識結果からシステム(音響イベント認識装置11)としての音響イベント認識結果を出力する。
取得部24は、入力される音響信号からある区間の特徴量を取得して認識部22に供給する。制御部25は、認識部22、フラグ管理部23、および取得部24を制御する。
図2は、本出願人が提案するシステム(音響イベント認識装置11)の対応範囲を示している。
本システム(音響イベント認識装置11)は、認識モードの他に取得モード、追加モードがあり、事後的に認識対象を追加できる。
本システム、すなわち音響イベント認識装置11では、ラベル内認識部31およびフラグ管理部23の他に同異判定部32が設けられており、ラベル範囲外の音響イベントの追加および認識にも対応している。
〈特徴量取得処理の説明〉
次に、音響イベント認識装置11の動作について説明する。
まず、図3および図4を参照して、取得モードにおける動作について説明する。
図3は、取得モードにおいて、ユーザが提示する音響信号から抽出した特徴量を取得する特徴量取得処理を説明するためのフローチャートを示している。以下、図3のフローチャートを参照して、音響イベント認識装置11により行われる、ユーザが音響信号を提示する場合における特徴量取得処理について説明する。
ステップS11において制御部25は、取得部24に対して特徴量の取得区間を指定する。
ステップS12において取得部24は、特徴量抽出部21から供給された特徴量のうち、ステップS11の処理で制御部25により指定された取得区間(指定区間)の特徴量を取得し、認識部22に供給する。
このようにして特徴量が取得されると特徴量取得処理は終了する。なお、特徴量に加えて音響信号も補助情報として取得しておくようにしてもよい。
以上のようにして音響イベント認識装置11は、ユーザが提示した音響信号から特徴量を取得する。
次に、図4のフローチャートを参照して、取得モードで音響イベント認識装置11(システム)自身が環境に応じて特徴量を獲得する場合における特徴量取得処理について説明する。
ステップS41において制御部25は、取得部24に対して特徴量の参照区間を指定する。
ステップS42において取得部24は、特徴量抽出部21から供給された特徴量のうち、ステップS41の処理で制御部25により指定された参照区間の特徴量を特徴空間に逐次マッピングする。
ステップS43において取得部24は、マッピングされた特徴量群をクラスタリングする。
ステップS44において取得部24は、クラスタリングにより得られた所定のクラスタを選択する。
ステップS45において取得部24は、ステップS44で選択したクラスタに関する特徴量を取得し、認識部22に供給する。なお、特徴量に加えて音響信号も補助情報として取得しておくようにしてもよい。
ここで、図5にマッピング、クラスタリング、およびクラスタの選択に関する概念を示す。すなわち、図5は、マッピング、クラスタリング、およびクラスタの選択に関する概念図を示している。
特に、図5では矢印Q11に示す部分には特徴量の特徴空間へのマッピングを示しており、矢印Q12に示す部分にはクラスタリングの例を示しており、矢印Q13に示す部分にはクラスタの選択例を示している。
例えば特徴空間としてはMFCC(Mel-Frequency Cepstrum Coefficients)が考えられる。また、クラスタリングとしてk-means法が考えられ、クラスタの選択方法としては、クラスタを構成する要素数が閾値以上、閾値以下であるものを選択することが考えられる。
図4のフローチャートの説明に戻り、取得部24により特徴量が取得されると、特徴量取得処理は終了する。
以上のようにして音響イベント認識装置11は、取得モードにおいて、自身が環境に応じて特徴量を取得する。
〈認識対象追加処理の説明〉
続いて、追加モードにおける動作について説明する。
すなわち、以下、図6のフローチャートを参照して、音響イベント認識装置11により行われる認識対象追加処理について説明する。
この認識対象追加処理は、取得モード後の追加モードにおいて行われる処理であり、認識対象追加処理では、図3や図4を参照して説明した特徴量取得処理で取得された特徴量に対応する音響イベントが認識対象として追加される。
ステップS71において、ラベル内認識部31はラベル内の音響イベントか否かを判定する。すなわち、ラベル内認識部31は取得部24から供給された特徴量から音響イベント認識結果を出力する。
ラベル内認識部31で音響イベント認識結果の出力がない場合、ラベル内の音響イベントではないと判定され、処理はステップS72へと進む。
ステップS72において同異判定部32は、その音響イベントとの同異を判定するように同異判定部32を設定し、ステップS74においてフラグ管理部23は、その音響イベントを認識した際のフラグを有効化して認識対象追加処理は終了する。
一方、ステップS71においてラベル内の音響イベントであると判定された場合、すなわち音響イベント認識結果の出力がある場合、ラベル内認識部31は音響イベント認識結果をフラグ管理部23に供給し、その後、ステップS73へと進む。
ステップS73においてフラグ管理部23は、認識部22から供給された音響イベント認識結果に基づいて、音響イベントのフラグが有効か否かを判定する。
ステップS73において音響イベントのフラグが有効であると判定された場合、特に何も処理は行われず、認識対象追加処理は終了する。
これに対して、ステップS73において音響イベントのフラグが有効でないと判定された、つまり音響イベント認識結果から該当する音響イベントのフラグが無効となっている場合、処理はステップS74に進む。
ステップS74においてフラグ管理部23は、音響イベントを認識した際のフラグを有効化し、認識対象追加処理は終了する。
以上のようにして音響イベント認識装置11は、適宜、認識対象とする音響イベントを追加する。
ここで、図7に追加モードにおける、取得した特徴量に対応する音響イベントとその追加処理を分類した表を示す。
この例では、ラベル内の音響イベント認識結果として出力があり、該当する音響イベントのフラグが有効になっている場合は、特に何も行われない。
また、ラベル内の音響イベント認識結果として出力があり、フラグが無効になっている場合は、該当する音響イベントを認識した際のフラグが有効化され、以降は事前に用意された認識対象と同様に扱われる。
ラベル内の音響イベント認識結果の出力がない場合は、追加する音響イベントとの同異を判定するよう同異判定部32が設定され、追加する音響イベントと同じと判定した際の行動フラグが有効化され、以降は事前に用意された認識対象と同様に扱われる。
〈認識処理の説明〉
さらに、図8を参照して、認識モードにおける動作について説明する。すなわち、以下、図8のフローチャートを参照して、音響イベント認識装置11による認識処理について説明する。
ステップS101において特徴量抽出部21は、入力された音響信号(入力音響信号)から特徴量を抽出し、その抽出結果を認識部22に供給する。
ステップS102において認識部22のラベル内認識部31は、特徴量抽出部21から供給された特徴量に基づいて音響イベント認識結果を出力することで、ラベル内の音響イベントであるか否かを判定する。
ステップS102においてラベル内の音響イベントではないと判定された場合、ステップS103において同異判定部32は、特徴量に基づいて音響イベント認識結果を出力することで、ラベル外で追加された音響イベントであるか否かを判定する。
例えば同異判定部32で音響イベント認識結果の出力がない場合、ラベル外で追加された音響イベントではないと判定される。
ステップS103においてラベル外で追加された音響イベントではないと判定された場合、ステップS104においてフラグ管理部23は、システム(音響イベント認識装置11)として出力を行わず、認識処理は終了する。
これに対してステップS103においてラベル外で追加された音響イベントであると判定された場合、同異判定部32は音響イベント認識結果をフラグ管理部23に出力し、その後、処理はステップS105へと進む。
また、ステップS102においてラベル内の音響イベントであると判定された場合、その後、処理はステップS105へと進む。
ステップS102においてラベル内の音響イベントであると判定されたか、またはステップS103でラベル外で追加された音響イベントであると判定された場合、ステップS105の処理が行われる。
ステップS105においてフラグ管理部23は、認識部22から供給された音響イベント認識結果に基づいて、該当する音響イベントのフラグが有効であるか否かを判定する。
ステップS105において音響イベントのフラグが有効でないと判定された場合、ステップS104においてフラグ管理部23は、システム(音響イベント認識装置11)として出力を行わず、認識処理は終了する。
一方、ステップS105において音響イベントのフラグが有効であると判定された場合、その後、処理はステップS106へと進む。
ステップS106において、フラグ管理部23は、システム(音響イベント認識装置11)として該当する音響イベント、つまり認識部22の出力結果を出力し、認識処理は終了する。
以上のようにして音響イベント認識装置11は、ラベル内の音響イベントだけでなく、ラベル外で追加した音響イベントも認識する。このようにすることで、事後に認識対象とする音響イベントを追加することができる。
なお、特徴量抽出部21では、システムの入力である音響信号から特徴量が抽出されるが、例えば特徴量としてはMFCCやスペクトログラムが考えられる。
また、音響イベントモデルは、特徴量と音響イベントの対応を示しており、例えば音響イベントE1,…を対象とする音響イベントモデルを事前に学習して、ラベル内認識部31で参照する。また、任意の音響イベントとの同異を判定する音響イベントモデルを事前に学習して、同異判定部32で参照する。
さらに認識部22は、音響イベントモデルを参照し、特徴量から音響イベント認識結果を出力する。認識部22は、事前に付けたラベルの範囲内の音響イベントを認識するラベル内認識部31と、ラベルによらず取得した音響イベントとの同異を判定する同異判定部32を有している。例えば、ラベル内認識部31としてCNN(Convolutional Neural Network)が考えられる。また、例えば同異判定部32としてSiamese Networkが考えられる。
〈第1の実施の形態の変形例〉
〈音響イベント認識装置の構成例〉
また、音響イベント認識装置11は、図1に示した構成に限らず、例えば図9や図10、図11に示す構成とすることもできる。なお、図9乃至図11において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜諸略する。
図9に示す音響イベント認識装置11は、特徴量抽出部21、認識部22、フラグ管理部23、取得部24、および制御部25を有している。また、認識部22はラベル内認識部31を有している。
図9に示す音響イベント認識装置11の構成は、同異判定部32を有していない点で図1に示した音響イベント認識装置11の構成と異なり、その他の点では図1に示した音響イベント認識装置11と同じ構成となっている。
図9の音響イベント認識装置11では、同異判定部32が設けられていないため、ラベル範囲外の音響イベントについての追加および認識には対応していない。
また、図10に示す音響イベント認識装置11は、特徴量抽出部21、認識部22、フラグ管理部23、取得部24、および制御部25を有している。また、認識部22は同異判定部32を有している。
図10に示す音響イベント認識装置11の構成は、ラベル内認識部31を有していない点で図1に示した音響イベント認識装置11の構成と異なり、その他の点では図1に示した音響イベント認識装置11と同じ構成となっている。
図10の音響イベント認識装置11では、ラベル内認識部31が設けられていないため、事前に認識対象となる音響イベントを固定することができない。
さらに、図11に示す音響イベント認識装置11は、特徴量抽出部21、認識部22、取得部24、および制御部25を有している。また、認識部22はラベル内認識部31および同異判定部32を有している。
図11に示す音響イベント認識装置11の構成は、フラグ管理部23を有していない点で図1に示した音響イベント認識装置11の構成と異なり、その他の点では図1に示した音響イベント認識装置11と同じ構成となっている。
図11の音響イベント認識装置11では、フラグ管理部23が設けられていないため、各認識対象の音響イベントのフラグを管理することができない。
〈本技術の適用例〉
さらに、以下、本技術を適用した音響イベント認識システムを自律型ロボットに搭載した場合における例について説明する。
まず、事前の音響イベントモデルやフラグ表などの用意について説明する。
「拍手」および「鈴」という音響イベントをラベル範囲内とする音響イベントモデルが事前に学習されているとする。また、ラベル範囲外に対しても適用できる、指定された音響イベントとの同異を判定する音響イベントモデルが事前に学習されている。
「拍手」に対しては、(フラグ表において認識部22の出力する結果を認識システムの出力する結果とするよう)フラグが有効化されている。認識システムが「拍手」を出力した場合は、ロボットが走るようロボットシステム全体が設定されている。
「鈴」に対しては、(フラグ表において認識部22の出力する結果は無視して認識システムは何も出力しないよう)フラグが無効化されている。但し、認識システムが「鈴」を出力した場合は、ロボットが踊るようロボットシステム全体が設定されている。
事後的に追加されるラベル範囲外の音響イベント「Unknown1」を認識システムが出力した場合は、ロボットが歌うようロボットシステム全体が設定されているとする。
次に、認識システムを含むロボットシステム全体が起動した後の動作について説明する。
「拍手をすると走る」
通常は認識モードのみになっている。ロボットシステム全体からは常に音響信号がストリーム入力される。このとき音響信号からは特徴量抽出部21で特徴量が抽出される。
日常の音響信号が入力されているときは、認識部22は出力を行わないため、認識システムとしても出力が行われない。
ロボットの周りでロボットのユーザが拍手をしたときは、その特徴量を受け取り、認識部22、特にラベル内認識部31が「拍手」という結果を出力する。それを受けたフラグ管理部23が、フラグ表を参照し「拍手」のフラグが有効であることを確認し、認識システムとしてそのまま「拍手」を出力する。そして、ロボットは走る。
このとき鈴やラベル範囲外の音を鳴らしても、認識部22は出力を行わないため、認識システムとしても出力を行わず、ロボットは反応しない。
「鈴を提示して覚えさせる、鈴を聞くと踊る」
ユーザが提示追加ボタンを押すなどして、取得モード(ユーザ提示)のみになる。
ユーザは指定された区間で鈴を鳴らす。取得部24で、その区間の音響信号から抽出された特徴量を取得する。
自動で追加モードのみになる。
ラベル内認識部31で、「鈴」という認識結果が出力される。フラグ管理部23でフラグ表を参照すると、フラグが無効になっていたため、「鈴」のフラグを有効化する。
自動で認識モードのみになる。
ロボットの周りでユーザが鈴を鳴らしたときは、その特徴量を受け取り、認識部22、特にラベル内認識部31が「鈴」という結果を出力する。それを受けたフラグ管理部23が、フラグ表を参照し「鈴」のフラグが有効であることを確認し、認識システムとしてそのまま「鈴」を出力する。そして、ロボットは踊る。
このときラベル範囲外の音を鳴らしても、認識部は出力を行わないため、認識システムとしても出力を行わず、ロボットは反応しない。
「汽笛を獲得して覚える、汽笛を聞くと歌う」
取得モード(システム獲得)は認識モードと並行していてもよい。
制御部25で指定された参照区間、例えば一日の間、取得部24では特徴量を特徴空間に逐次マッピングする。そのときに区間では日常雑音の他に汽笛が鳴っている。参照区間経過後に、マッピングされた特徴量群がクラスタリングされる。その際、日常雑音と汽笛のクラスタリングのクラスタができる。その中から、基準に従い、要素数がちょうどよい汽笛のクラスタが選択される。取得部24で、そのクラスタに関する特徴量が取得される。
参照区間経過後、自動で追加モードのみになる。
ラベル内認識部31では結果が出力されない。そのため、同異判定部32で、汽笛の音響イベント「Unknown1」との同異を判定するように同異判定部32が設定され、「Unknown1」を認識した際のフラグが有効化される。
自動で認識モードのみになる。
ロボットの周りで汽笛が鳴ったとき、その特徴量を認識部22が受け取る。ラベル内認識部31では結果が出力されない。同異判定部32が「Unknown1」という結果を出力する。それを受けたフラグ管理部23が、フラグ表を参照し「Unknown1」のフラグが有効であることを確認し、認識システムとしてそのまま「Unknown1」を出力する。そして、ロボットは歌う。
このとき汽笛以外の範囲外の音を鳴らしても、認識部22は出力を行わないため、認識システムとしても出力を行わず、ロボットは反応しない。
その他、以上において説明した本技術は、以下のようにしてもよい。
すなわち、追加した認識対象を継続して認識するかどうかを音響イベント認識システム外部からフィードバックすることが考えられる。例えば、ユーザが自律型ロボットのボタンを押すなどして外部から停止命令が来た場合には、その認識対象のフラグは無効化するようにすることなどが考えられる。
また、例えば認識対象を追加する際に取得した特徴量や音響信号を外部に送り、補助情報として使用することが考えられる。例えば犬の声を獲得したら、その特徴量を外部に送り、出力の際に反映することなどが考えられる。
さらに、例えばシステムが自動獲得した特徴量や音響信号をアプリなどで確認できるようにすることが考えられる。また、ユーザがラベルやフラグを操作できるようにすることも考えられる。例えばスマートフォンのアプリ上で上述の「Unknown1」の特徴量や音響信号をユーザが確認し、「汽笛」というラベルをつけるようにすることなどが考えられる。
以上のように本技術によれば、例えば本技術を適用したシステムを自律型ロボットに搭載することで、ユーザが覚えさせたい音響イベントや環境特有の音響イベントを自律型ロボットに事後に覚えさせることができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
入力音響信号から特徴量を抽出する特徴量抽出部と、
前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、
前記ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、
前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、前記フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部と
を備える音響イベント認識装置。
11 音響イベント認識装置, 21 特徴量抽出部, 22 認識部, 23 フラグ管理部, 24 取得部, 25 制御部, 31 ラベル内認識部, 32 同異判定部

Claims (1)

  1. 入力音響信号から特徴量を抽出する特徴量抽出部と、
    前記特徴量の入力音響信号が、事前に付けたラベルの範囲内の音響イベントか否かを認識し、その認識結果を出力するラベル内認識部と、
    前記ラベル内認識部により音響イベントを認識できなかった場合、ラベルによらず取得した音響イベントとの同異を判定することにより判定結果を出力する同異判定部と、
    前記ラベル内認識部または前記同異判定部から出力された音響イベントに該当するフラグが有効になっているかを判定し、前記フラグが有効になっている場合、当該音響イベントを認識結果として出力するフラグ管理部と
    を備える音響イベント認識装置。
JP2018169717A 2018-09-11 2018-09-11 音響イベント認識装置 Pending JP2022001967A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018169717A JP2022001967A (ja) 2018-09-11 2018-09-11 音響イベント認識装置
PCT/JP2019/033624 WO2020054409A1 (ja) 2018-09-11 2019-08-28 音響イベント認識装置および方法、並びにプログラム
CN201980057318.4A CN112639969A (zh) 2018-09-11 2019-08-28 声学事件识别装置、方法和程序
US17/250,776 US20210217439A1 (en) 2018-09-11 2019-08-28 Acoustic event recognition device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018169717A JP2022001967A (ja) 2018-09-11 2018-09-11 音響イベント認識装置

Publications (1)

Publication Number Publication Date
JP2022001967A true JP2022001967A (ja) 2022-01-06

Family

ID=69777574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018169717A Pending JP2022001967A (ja) 2018-09-11 2018-09-11 音響イベント認識装置

Country Status (4)

Country Link
US (1) US20210217439A1 (ja)
JP (1) JP2022001967A (ja)
CN (1) CN112639969A (ja)
WO (1) WO2020054409A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113314113B (zh) * 2021-05-19 2023-11-28 广州大学 一种智能插座控制方法、装置、设备及存储介质
CN113593603A (zh) * 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1126438B1 (en) * 1998-09-09 2008-07-16 Asahi Kasei Kabushiki Kaisha Speech recognizer and speech recognition method
EP2031581A1 (de) * 2007-08-31 2009-03-04 Deutsche Thomson OHG Verfahren zum Erkennen eines akustischen Ereignisses in einem Audio-Signal
WO2009153681A1 (en) * 2008-06-17 2009-12-23 Koninklijke Philips Electronics, N.V. Acoustical patient monitoring using a sound classifier and a microphone
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
JP5917270B2 (ja) * 2011-05-27 2016-05-11 キヤノン株式会社 音検出装置及びその制御方法、プログラム
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US20180158288A1 (en) * 2014-04-10 2018-06-07 Twin Harbor Labs Llc Methods and apparatus for notifying a user of the operating condition of a household appliance
JP6323947B2 (ja) * 2014-05-01 2018-05-16 日本放送協会 音響イベント認識装置、及びプログラム
EP3477643B1 (en) * 2017-10-31 2019-10-16 Spotify AB Audio fingerprint extraction and audio recognition using said fingerprints
US11568731B2 (en) * 2019-07-15 2023-01-31 Apple Inc. Systems and methods for identifying an acoustic source based on observed sound

Also Published As

Publication number Publication date
US20210217439A1 (en) 2021-07-15
WO2020054409A1 (ja) 2020-03-19
CN112639969A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
US12051410B2 (en) Method and apparatus to provide comprehensive smart assistant services
US10643606B2 (en) Pre-wakeword speech processing
JP6671466B2 (ja) 応答を提供するための装置選択
US11138977B1 (en) Determining device groups
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
JP6463825B2 (ja) 多重話者音声認識修正システム
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
JP7395509B2 (ja) ホットワード抑制
JP6510117B2 (ja) 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体
CN110214351A (zh) 记录的媒体热词触发抑制
CN112037774B (zh) 用于关键短语识别的系统和方法
EP4004906A1 (en) Per-epoch data augmentation for training acoustic models
CN107622770A (zh) 语音唤醒方法及装置
CN108711429B (zh) 电子设备及设备控制方法
WO2019007249A1 (zh) 一种交互方法、电子设备及服务器
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
KR20200025226A (ko) 전자 장치 및 그 제어 방법
JP2022001967A (ja) 音響イベント認識装置
JP4877112B2 (ja) 音声処理装置およびプログラム
US20240203446A1 (en) Method of operating sound recognition device identifying speaker and electronic device having the same
JP6998289B2 (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
KR20230106335A (ko) 음성인식장치 및 이를 이용한 음성인식방법
JP2024018748A (ja) 情報処理装置、プログラム、情報処理方法、及び情報処理システム
CN116895277A (zh) 语音识别方法、装置、设备及存储介质