JP2021119401A - 音解析装置及びその処理方法、プログラム - Google Patents

音解析装置及びその処理方法、プログラム Download PDF

Info

Publication number
JP2021119401A
JP2021119401A JP2021073833A JP2021073833A JP2021119401A JP 2021119401 A JP2021119401 A JP 2021119401A JP 2021073833 A JP2021073833 A JP 2021073833A JP 2021073833 A JP2021073833 A JP 2021073833A JP 2021119401 A JP2021119401 A JP 2021119401A
Authority
JP
Japan
Prior art keywords
sound
frame
feature amount
tag
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021073833A
Other languages
English (en)
Other versions
JP6924975B2 (ja
Inventor
誠 大塚
Makoto Otsuka
誠 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lilz Co Ltd
Original Assignee
Lilz Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lilz Co Ltd filed Critical Lilz Co Ltd
Publication of JP2021119401A publication Critical patent/JP2021119401A/ja
Application granted granted Critical
Publication of JP6924975B2 publication Critical patent/JP6924975B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 蓄積した多量の音データの中から教師データを効率的に生成し、特定の音関連イベントを容易に検知および検索する機械学習を用いた音解析装置を提供する。【解決手段】 特徴量生成手段111が音データの音フレームについて特徴量を生成し、距離計算手段112がイベントの音フレームをクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、特徴量選択手段123が、当該距離に応じて複数の音フレームに対してタグ付けがされた音フレームの特徴量を全特徴量ベクトルから選択し、機械学習モデル114が、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)の発生確率又はタグ種別等を予測値として出力し、誤差計算手段118が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデル114に入力する。【選択図】 図2

Description

本発明は、機械学習を用いて音を解析する装置及びその処理方法に係り、特に、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知及び検索するための機械学習を用いた音解析装置及びその処理方法、プログラムに関する。
[従来の技術]
例えば、7200時間の音声データの中から、24時間に1回程度の割合でランダムに発生する音関連イベントを見つけ出すような音解析装置を作ろうとした場合に、例えば、イベント100回分の教師データを作成する場合には、2400時間の録音データを端から聞くしかないものであった。
[関連技術]
尚、関連する先行技術として、特開2008−123180号公報「情報処理装置および方法、並びに、プログラム」(特許文献1)がある。
特許文献1には、データの特徴を抽出するアルゴリズムを高速に構築することが示されている。
特開2008−123180号公報
上述したように、機械学習を用いた特定の音関連イベントを検知及び検索する音解析装置を作成するためには、長時間録音データを端から聞いて教師データを作成する地道な作業が必要であるという問題点があった。
特許文献1には、教師データの類似度に基づいて、新規アルゴリズムの構築に用いる遺伝子に利用する構築済アルゴリズムを選択し、それを利用して第1世代の遺伝子を生成することが記載されているが、長い時間の音データからイベントについての教師データを効率的に生成できることについては記載がない。
本発明は上記実情に鑑みて為されたもので、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知及び検索するための機械学習を用いた音解析装置及びその処理方法、プログラムを提供することを目的とする。
上記従来例の問題点を解決するための本発明は、音を解析する音解析コンピュータであって、音データの音フレームについて特徴量ベクトルを生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると、特徴量ベクトルに基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してイベントのタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段とを有するものである。
本発明は、音を解析する音解析コンピュータの処理方法であって、音データの音フレームについて特徴量を生成し、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、当該距離に応じて複数の音フレームに対してイベントのタグ付けがされた音フレームの特徴量を全特徴量から選択し、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として機械学習モデルが出力し、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力するものである。
本発明は、上記処理方法において、学習済み機械学習モデルが、生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するものである。
本発明は、上記処理方法において、教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算し、距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成し、機械学習モデルが、推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習するものである。
本発明は、音を解析する音解析コンピュータで使用されるコンピュータプログラムであって、音解析コンピュータを、音データの音フレームについて特徴量を生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してイベントのタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段として機能させるものである。
本発明によれば、特徴量生成手段が、音データの音フレームについて特徴量を生成し、距離計算手段が、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、特徴量選択手段が、当該距離に応じて複数の音フレームに対してイベントのタグ付けがされた音フレームの特徴量を全特徴量から選択し、機械学習モデルが、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又はタグ種別を予測値として出力し、誤差計算手段が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する音解析装置としているので、教師データを効率的に生成できる効果がある。
本装置の概略図である。 学習ステップの概略図である。 予測ステップの概略図である。 教師データ候補の高速検索・生成処理のフロー図である。 クエリポイントからの距離を示す図である。 各イベントの発生確率を示す図(グラフB)である。 イベントの発生時刻を示す図である。 タグとラベルの関係を示す図である。 本装置の学習プロセスをまとめた概略図である。 本装置における学習プロセスの応用例を示す概略図である。
本発明の実施の形態について図面を参照しながら説明する。
[実施の形態の概要]
本発明の実施の形態に係る音解析装置(本装置)は、音データの音フレームについて特徴量を生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)発生確率又はタグ種別等を予測値として出力する機械学習モデルと、各音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段とを有するものであり、長い時間の音データからイベントについての教師データを効率的に生成できるものである。
特に、本装置は、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するようにしているので、特定の音関連イベントを容易に検知及び検索できるものである。
[本装置:図1]
本装置について図1を参照しながら説明する。図1は、本装置の概略図である。
本装置(音解析装置)1は、図1に示すように、制御部11と、記憶部12と、インタフェース部13とを有している。
本装置1の制御部11は、記憶部12から処理プログラムを読み込み、学習ステップ、予測ステップ、解析ステップ等を実行する。これらステップの詳細については後述する。
記憶部12は、制御部11で動作する処理プログラムを記憶し、音データ、その他のデータを記憶する。
インタフェース部13には、表示部14、入力部15、音入力部16、ネットワーク2が接続している。
表示部14は、後述する図6〜図9の画面を表示する。
入力部15は、タグ付け、ラベル付けを行う場合に用いられる。
音入力部16は、外部からの音を入力するものであり、マイク等の入力装置又は録音した音を再生する再生装置が接続する入力装置である。
ネットワーク2は、インターネット又は社内ネットワークである。
本装置で実行される学習ステップ、予測ステップ、解析ステップについて具体的に説明する。尚、以下に説明する手段、モデルは、プログラム等のソフトウェアによって実現されるものである。
[学習ステップ:図2]
本装置における学習ステップについて図2を参照しながら説明する。図2は、学習ステップの概略図である。
学習ステップは、機械学習モデルが、タグ付けされた音フレームの特徴量を入力することで出力される予測値と正解タグを基に機械学習モデルのパラメータを最適化する。この学習ステップは、繰り返し為される場合ものである。
ここで、タグとは、特定の音が示すイベントの名称であり、ラベルは、任意の音に当該イベントの音が含まれているか否かを示すものである。
従って、タグ付けとは、イベントに対応付けられているということで、ラベル付けとは、その音に、任意のイベントの音が含まれているか否かを対応付けることである。尚、タグ付けとラベル付けの両方が行われる場合と片方のみが行われる場合がある。
尚、タグとラベルの具体的関係については、図8を用いて後述する。
学習ステップは、図2に示すように、特徴量生成手段111が、音データの音フレーム(イベントの基準として選択されたクエリフレームと全フレーム)について特徴量ベクトルを生成する。
距離計算手段112が、特徴量ベクトルからクエリフレームとその他の音フレーム(全フレーム)との距離を計算する。
そして、タグ付け手段121は、距離計算手段112からの計算結果から距離情報に基づいて任意のフレームにタグ付けを行う。当該距離情報を参考にしながら任意のフレームに対して、そのフレームの音を聞きながら、人手で選定されたタグのタグ付けを行うようにしてもよい。また、1つのフレームに対して複数のタグのタグ付けを行ってもよい。このフレーム毎のタグ付け情報を誤差計算手段118に出力する。
タグ選定手段122は、どのようなタグを付与するか選定するもので、人手によって選定してもよく、また複数タグの付与を選定してもよい。
特徴量選択手段123は、タグ付けされたフレームに対応する特徴量を選択する。この特徴量は、正解タグが付与された特徴量として機械学習モデル114に入力される。
そして、機械学習モデル114は、特徴量選択手段123から正解タグが付与された特徴量を入力し、予測値を出力する。
誤差計算手段118は、正解タグ(タグ付け情報)と予測値を元に誤差を計算し、機械学習モデル114に出力する。
機械学習モデル114は、特徴量選択手段123からから入力された正解タグが付与された特徴量と、誤差計算手段118から入力された誤差情報を基に、機械学習モデルのパラメータを最適化する。
予測値とは、例えば、各音フレームのイベント(タグ)の発生確率又はタグ種別等である。
機械学習モデル114は、予測値が二値判定であれば二値分類器となるが、予測値が多値の場合には多値分類器となる。
機械学習モデル114としては、例えば、線形回帰モデル、サポートベクターマシン、ランダムフォレスト、勾配ブースティングマシン、k最近傍法、Voting分類器等がある。
[予測ステップ:図3]
予測ステップは、学習済みの機械学習モデル114を使用して、入力される解析対象の音データの各音フレームごとのイベント(タグ)発生確率またはタグ種別等を予測する処理である。予測ステップを推論ステップと称することがある。
本装置における予測ステップについて図3を参照しながら説明する。図3は、予測ステップの概略図である。
本装置における予測ステップは、特徴量生成手段111が、入力される音データについて特徴量ベクトルを生成する。
そして、学習ステップで学習済みの機械学習モデル114が、入力される音フレームの特徴量を入力して、予測値を出力するようにしているので、特定の音関連イベントを容易に検知および検索できるものである。
[教師データ候補の高速検索と教師データの生成処理:図4]
次に、教師データ候補を高速に検索し、教師データを生成する処理について図4を参照しながら説明する。図4は、教師データ候補の高速検索と教師データの生成処理のフロー図である。
図4に示すように、音データについてフレーム単位で特徴量ベクトルを生成する(S1)。ここでは、基準となるクエリフレームとその他の全ての音フレームについて特徴量ベクトルが生成される。
次に、クエリフレームを選択し(S2)、特徴量を用いて、そのクエリフレームとその他の音フレームとの距離を計算する(S3)。
そして、距離が近い複数の音データ(教師データ候補)を再生し(S4)、イベントとのタグ、ラベル付け処理を行う(S5)。
[クエリポイントからの距離:図5]
次に、クエリポイントからの距離について図5を参照しなから説明する。図5は、クエリポイントからの距離を示す図である。
図5には、クエリフレームの特徴量をクエリポイントとして、その他の音フレームについて特徴量の距離を示している。
横軸が経過時間(秒)で、縦軸が距離の長短であり、下側が近く、上側が遠くなっている。
クエリポイントは、400秒から600秒の間で太い縦線で示されている。
図5に示す折れ線グラフで下側に突出してゼロに近い(クエリフレームの特徴量との距離が近い)、特定の数のポイントを教師データの候補として抽出し、それらのポイントの音データにタグ付けを行う。
[各イベントの発生確率:図6]
次に、各イベントの発生確率について図6を参照しながら説明する。図6は、各イベントの発生確率を示す図である。
図6では、横軸にイベント1,2,3を示し、縦軸に発生確率を示している。
[イベントの発生時刻:図7]
次に、イベントの発生時刻について図7を参照しながら説明する。図7は、イベントの発生時刻を示す図である。
図7では、イベント1について、発生時刻の「分」を20分単位で縦軸に表し、発生時刻の「秒」を60秒単位で横軸に表している。
図7により、イベント1が発生する時刻を「分」と「秒」との関係で直感的に把握することができる。
[タグとラベルの関係:図8]
次に、音データに対してタグとラベルの関係について図8を参照しながら説明する。図8は、タグとラベルの関係を示す図である。
図8の上側に示された音データに対して、動物の鳴き声として「牛」と「犬」をタグとした場合に、音データのフレームにそれらの音が含まれている場合は「〇」とし、対応する音が含まれていない場合は「×」とする。この「〇」「×」をつけることが、ラベル付けと呼ぶ。また、ラベル付けされていない場合は「−」を付している。
そして、各フレームに対して各タグのラベル付けをすることを「タグ付け」と呼んでいる。
尚、音データのフレームには、牛又は犬のいずれの鳴き声が含まれていない場合があり、また、両方の鳴き声が含まれている場合もある。
[本装置における学習プロセスのまとめ:図9]
本装置における学習プロセスのまとめについて図9を参照しながら説明する。図9は、本装置の学習プロセスをまとめた概略図である。
図9に示すように、本装置は、学習用音データから特徴量をaudio特徴量抽出手段111aが抽出し、各フレームの特徴量を算出して記憶する。
また、クエリ音データからaudio特徴量抽出手段111bが特徴量を抽出し、クエリ音の特徴量を算出して記憶する。尚、audio特徴量抽出手段111a,111bは、図2の特徴量生成手段111に相当している。
そして、距離計算手段112が、クエリ音の特徴量と各フレームの特徴量の距離情報を計算して記憶する。距離計算手段112は、図2の距離計算手段112に相当している。
更に、ユーザがタグ選定を行うとともに、学習用データと上記距離情報を用いて、各種タグ情報を基にタグ付け(タグ付与)を行い、各フレームのタグ付け情報を記憶する。タグ選定は、図2のタグ選定手段122で為され、タグ付けは、図2のタグ付け手段121で為される。
そして、各フレームの特徴量と各フレームのタグ付け情報を基に特徴量選択手段123でタグ付けされた特徴量のみを選択し、タグ付けされたフレームの特徴量を出力する。そのタグ付けされたフレームの特徴量を教師データの候補として入力し、モデル114は、音フレーム毎のイベント(タグ)発生確率またはタグ種別等を予測値として出力する。誤差計算手段118は、各音フレームの予測値と正解タグとの誤差を計算してモデル114に出力する。モデル114は、図2の機械学習モデル114が相当している。
図9では、タグ付与を距離計算手段112の後段で行うようにしており、プログラムで行ってもよいし、人手によって行ってもよい。
人手による場合は、準備した音に対して各音フレームの特徴量の距離情報を見ながらタグ付けを行う必要がある。次に説明する応用例では、音検索の準備を効率的に行うために、自分が探したいクエリタグに近い、第三者(他人)がタグ付けしたタグ付け情報群(タグとそれに紐づく音特徴量)を利用し、タグ付け作業を更に軽減できるものとしている。
ここで、ユーザとは、本装置を利用して音検索の処理を行う者であり、第三者(他人又は他のユーザ)とは、本装置を利用して既に音データにタグ付けを行った者である。
[応用例:音探索プラットフォームの提供:図10]
次に、本装置の応用例について図10を参照しながら説明する。図10は、本装置における学習プロセスの応用例を示す概略図である。
図10に示すように、他のユーザが独自にタグとそれに紐づく音特徴量のデータセット(教師データの候補となるデータセット:タグ名称でタグ付けされたaudio特徴量データセット/タグ名称)を、ネットワークを利用して記憶し、また、ユーザ本人がクエリタグの入力を行い、クエリタグ名称でタグ付けされた特徴量データセットも記憶する。
次に、タグ名称のtext(テキスト)特徴量を距離計算手段211で距離計算し、ソート手段212が距離の近いタグ名称順にソートし、推薦タグリストを生成する。距離計算手段211は、図2,図9の距離計算手段114と同様のものである。
そして、ユーザは、タグ名称を選定し、選定したタグ名称に対応する各フレームの音特徴量とタグ付け情報(教師データ)に基づいてモデル114で学習させ、予測値を出力する。
更に、ユーザは、学習させたモデル114について、ユーザが自分でタグ付けした独自データセット(クエリタグ名称でタグ付けされたaudio特徴量データセット/クエリタグ名称)を用いて、教師データについて答え合わせを行い、教師データの妥当性を確認するようにし、確認の結果、教師データの妥当性が低い場合には、その独自データセット(各フレームの音特徴量+タグ付け情報)の一部を教師データとして利用して学習させるようにしてもよい。
図10を具体的に説明すると、例えば、ユーザが「dogs」というタグで音検索器(本装置)を作りたい場合は、ユーザは過去に作ったユーザのタグ付け情報群のリストから自分が探したいクエリタグに近いタグ付け情報群を選び、自分の音検索器の学習データとして使うことができる。
タグ群の名称は、ユーザによって付け方がまちまちである。例えば、犬のタグでも、「dogs」「dog」「犬」などを付けるものである。そのため、タグ名を自然言語の特徴量として扱い、ユーザが作りたいクエリタグ「dogs」とタグ名の特徴量空間の距離が近いタグ名を上位からリストアップすることでタグ名を選びやすくものである。例えば、「dog」「犬」が推薦タグリストの上位に出てくるようになる。
図10に示す手法によって作成された音検索器のパフォーマンスは、ユーザが独自にタグ付けした独自データセットを使って答え合わせを行う。
もし、パフォーマンスが出ない場合には、自分がタグ付けした独自データセットの一部も教師データに含めるようにする。
本装置では、各フレームの音の特徴量空間の距離情報に基づき、タグ付けすべきフレームを探しやすくするものであるが、図10の応用例では、他人が作成したタグ付け情報群を学習データとして流用するために、自然言語であるタグ情報の特徴量空間を使って、タグ付けすべきフレームを探し訳すしたものである。
尚、図10の学習プロセスの応用例を、本装置の図9で説明した学習プロセスに追加して、両方の学習プロセスを選択して利用できるようにしてもよい。
[実施の形態の効果]
本装置によれば、特徴量生成手段111が音データの音フレームについて特徴量を生成し、距離計算手段112がイベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、特徴量選択手段123が、当該距離に応じて複数の音フレームに対してタグ付けがされた音フレームの特徴量を全特徴量から選択し、機械学習モデル114が、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)の発生確率又はタグ種別等を予測値として出力し、誤差計算手段118が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデル114に入力するようにしているので、蓄積した大量の音データの中から機械学習に必要となる教師データを効率的に生成できる効果がある。
また、本装置によれば、学習済み機械学習モデル114が、特徴量生成手段111で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力することで、特定の音関連イベントを容易に検知及び検索することができる効果がある。
また、本装置の応用例によれば、他のユーザが独自にタグ付けした各フレームのaudio特徴量とタグ付け情報(音特徴量のデータセット)について、タグ名称のtext特徴量を距離計算手段211で距離計算し、ソート手段212が距離の近いタグ名称順にソートし、推薦タグリストを生成し、当該推薦タグリストからタグ名称が選定された音特徴量のデータセットを教師データとして機械学習モデル114に学習させるようにしているので、他のユーザがタグ付けされた音特徴量のデータセットを有効に利用できる効果がある。
本発明は、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知および検索することができる機械学習を用いた音解析装置及びその処理方法、プログラムに好適である。
1…音解析装置(本装置)、 2…ネットワーク、 11…制御部、 12…記憶部、 13…インタフェース部、 14…表示部、 15…入力部、 16…音入力部、 111…特徴量生成手段、 112…距離演算手段 114…機械学習モデル、 115…主成分分析手段、 116…距離演算手段、 117…表示処理手段、 118…誤差計算手段、 121…タグ付け手段、 122…タグ選定手段、 123…特徴量選択手段

Claims (5)

  1. 音を解析する音解析コンピュータであって、
    音データの音フレームについて特徴量を生成する特徴量生成手段と、
    イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、
    当該距離に応じて複数の音フレームに対して前記イベントのタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
    当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
    前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段とを有する音解析コンピュータ。
  2. 音を解析する音解析コンピュータの処理方法であって、
    音データの音フレームについて特徴量を生成し、
    イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、
    当該距離に応じて複数の音フレームに対して前記イベントのタグ付けがされた音フレームの特徴量を全特徴量から選択し、
    当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として機械学習モデルが出力し、
    前記音フレーム予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する処理方法。
  3. 学習済の機械学習モデルが、生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項2記載の処理方法。
  4. 教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算し、
    前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成し、
    機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項2又は3記載の処理方法。
  5. 音を解析する音解析コンピュータで使用されるコンピュータプログラムであって、
    前記音解析コンピュータを、
    音データの音フレームについて特徴量を生成する特徴量生成手段と、
    イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の類似性の距離を計算する距離計算手段と、
    当該距離に応じて複数の音フレームに対して前記イベントのタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
    当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
    前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段として機能させるプログラム。
JP2021073833A 2018-09-13 2021-04-26 音解析装置及びその処理方法、プログラム Active JP6924975B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018171951 2018-09-13
JP2018171951 2018-09-13
JP2020546206A JP6882814B2 (ja) 2018-09-13 2019-09-12 音解析装置及びその処理方法、プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020546206A Division JP6882814B2 (ja) 2018-09-13 2019-09-12 音解析装置及びその処理方法、プログラム

Publications (2)

Publication Number Publication Date
JP2021119401A true JP2021119401A (ja) 2021-08-12
JP6924975B2 JP6924975B2 (ja) 2021-08-25

Family

ID=69778399

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020546206A Active JP6882814B2 (ja) 2018-09-13 2019-09-12 音解析装置及びその処理方法、プログラム
JP2021073833A Active JP6924975B2 (ja) 2018-09-13 2021-04-26 音解析装置及びその処理方法、プログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020546206A Active JP6882814B2 (ja) 2018-09-13 2019-09-12 音解析装置及びその処理方法、プログラム

Country Status (2)

Country Link
JP (2) JP6882814B2 (ja)
WO (1) WO2020054822A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114567811B (zh) * 2022-02-28 2024-02-09 广州欢聊网络科技有限公司 用于声音排序的多模态模型训练方法、系统及相关设备
WO2024077511A1 (zh) * 2022-10-12 2024-04-18 广州视源电子科技股份有限公司 互动统计方法、装置、设备、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508156A (ja) * 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2014164126A (ja) * 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析方法、装置、及びプログラム
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
US20180061439A1 (en) * 2016-08-31 2018-03-01 Gregory Frederick Diamos Automatic audio captioning
JP2019049601A (ja) * 2017-09-08 2019-03-28 Kddi株式会社 音波信号から音波種別を判定するプログラム、システム、装置及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508156A (ja) * 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2014164126A (ja) * 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析方法、装置、及びプログラム
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
US20180061439A1 (en) * 2016-08-31 2018-03-01 Gregory Frederick Diamos Automatic audio captioning
JP2019049601A (ja) * 2017-09-08 2019-03-28 Kddi株式会社 音波信号から音波種別を判定するプログラム、システム、装置及び方法

Also Published As

Publication number Publication date
JPWO2020054822A1 (ja) 2021-04-01
WO2020054822A1 (ja) 2020-03-19
JP6924975B2 (ja) 2021-08-25
JP6882814B2 (ja) 2021-06-02

Similar Documents

Publication Publication Date Title
US11394667B2 (en) Chatbot skills systems and methods
CN110175227B (zh) 一种基于组队学习和层级推理的对话辅助系统
CN108153800B (zh) 信息处理方法、信息处理装置以及记录介质
US20080228749A1 (en) Automatic tagging of content based on a corpus of previously tagged and untagged content
JP6924975B2 (ja) 音解析装置及びその処理方法、プログラム
TWI396105B (zh) 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統
CN111368048A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN112528010B (zh) 知识推荐方法、装置、计算机设备及可读存储介质
JP4737564B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR20190075277A (ko) 콘텐트 검색을 위한 방법 및 그 전자 장치
CN114218488A (zh) 基于多模态特征融合的信息推荐方法、装置及处理器
CN113259763A (zh) 教学视频处理方法、装置和电子设备
JP2012194691A (ja) 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
CN115238710B (zh) 一种文档智能生成与管理方法及装置
Prajwal et al. Universal semantic web assistant based on sequence to sequence model and natural language understanding
CN116089578A (zh) 智能问答数据自动标注方法、系统及存储介质
CN111522914B (zh) 标注数据采集方法、装置、电子设备及存储介质
WO2014092537A1 (en) A system and method for automated generation of learning object from online social content
CN114090777A (zh) 文本数据处理方法及装置
CN113468306A (zh) 语音对话方法、装置、电子设备及存储介质
CN115130453A (zh) 互动信息生成方法和装置
JP2019194759A (ja) 対話システム補強装置及びコンピュータプログラム
CN116737940B (zh) 一种智能决策方法、决策系统
CN116451787B (zh) 内容风险识别方法、装置、系统及设备
CN117834780B (zh) 一种智能外呼客户意图预测分析系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210426

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210719

R150 Certificate of patent or registration of utility model

Ref document number: 6924975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150