JP2021119401A - 音解析装置及びその処理方法、プログラム - Google Patents
音解析装置及びその処理方法、プログラム Download PDFInfo
- Publication number
- JP2021119401A JP2021119401A JP2021073833A JP2021073833A JP2021119401A JP 2021119401 A JP2021119401 A JP 2021119401A JP 2021073833 A JP2021073833 A JP 2021073833A JP 2021073833 A JP2021073833 A JP 2021073833A JP 2021119401 A JP2021119401 A JP 2021119401A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- frame
- feature amount
- tag
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000010801 machine learning Methods 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims 1
- 239000013598 vector Substances 0.000 abstract description 11
- 238000000034 method Methods 0.000 description 15
- 241000282472 Canis lupus familiaris Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000002372 labelling Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
例えば、7200時間の音声データの中から、24時間に1回程度の割合でランダムに発生する音関連イベントを見つけ出すような音解析装置を作ろうとした場合に、例えば、イベント100回分の教師データを作成する場合には、2400時間の録音データを端から聞くしかないものであった。
尚、関連する先行技術として、特開2008−123180号公報「情報処理装置および方法、並びに、プログラム」(特許文献1)がある。
特許文献1には、データの特徴を抽出するアルゴリズムを高速に構築することが示されている。
[実施の形態の概要]
本発明の実施の形態に係る音解析装置(本装置)は、音データの音フレームについて特徴量を生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)発生確率又はタグ種別等を予測値として出力する機械学習モデルと、各音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段とを有するものであり、長い時間の音データからイベントについての教師データを効率的に生成できるものである。
本装置について図1を参照しながら説明する。図1は、本装置の概略図である。
本装置(音解析装置)1は、図1に示すように、制御部11と、記憶部12と、インタフェース部13とを有している。
記憶部12は、制御部11で動作する処理プログラムを記憶し、音データ、その他のデータを記憶する。
インタフェース部13には、表示部14、入力部15、音入力部16、ネットワーク2が接続している。
入力部15は、タグ付け、ラベル付けを行う場合に用いられる。
音入力部16は、外部からの音を入力するものであり、マイク等の入力装置又は録音した音を再生する再生装置が接続する入力装置である。
ネットワーク2は、インターネット又は社内ネットワークである。
本装置における学習ステップについて図2を参照しながら説明する。図2は、学習ステップの概略図である。
学習ステップは、機械学習モデルが、タグ付けされた音フレームの特徴量を入力することで出力される予測値と正解タグを基に機械学習モデルのパラメータを最適化する。この学習ステップは、繰り返し為される場合ものである。
従って、タグ付けとは、イベントに対応付けられているということで、ラベル付けとは、その音に、任意のイベントの音が含まれているか否かを対応付けることである。尚、タグ付けとラベル付けの両方が行われる場合と片方のみが行われる場合がある。
尚、タグとラベルの具体的関係については、図8を用いて後述する。
距離計算手段112が、特徴量ベクトルからクエリフレームとその他の音フレーム(全フレーム)との距離を計算する。
タグ選定手段122は、どのようなタグを付与するか選定するもので、人手によって選定してもよく、また複数タグの付与を選定してもよい。
そして、機械学習モデル114は、特徴量選択手段123から正解タグが付与された特徴量を入力し、予測値を出力する。
誤差計算手段118は、正解タグ(タグ付け情報)と予測値を元に誤差を計算し、機械学習モデル114に出力する。
予測値とは、例えば、各音フレームのイベント(タグ)の発生確率又はタグ種別等である。
機械学習モデル114としては、例えば、線形回帰モデル、サポートベクターマシン、ランダムフォレスト、勾配ブースティングマシン、k最近傍法、Voting分類器等がある。
予測ステップは、学習済みの機械学習モデル114を使用して、入力される解析対象の音データの各音フレームごとのイベント(タグ)発生確率またはタグ種別等を予測する処理である。予測ステップを推論ステップと称することがある。
本装置における予測ステップについて図3を参照しながら説明する。図3は、予測ステップの概略図である。
本装置における予測ステップは、特徴量生成手段111が、入力される音データについて特徴量ベクトルを生成する。
次に、教師データ候補を高速に検索し、教師データを生成する処理について図4を参照しながら説明する。図4は、教師データ候補の高速検索と教師データの生成処理のフロー図である。
図4に示すように、音データについてフレーム単位で特徴量ベクトルを生成する(S1)。ここでは、基準となるクエリフレームとその他の全ての音フレームについて特徴量ベクトルが生成される。
次に、クエリフレームを選択し(S2)、特徴量を用いて、そのクエリフレームとその他の音フレームとの距離を計算する(S3)。
次に、クエリポイントからの距離について図5を参照しなから説明する。図5は、クエリポイントからの距離を示す図である。
図5には、クエリフレームの特徴量をクエリポイントとして、その他の音フレームについて特徴量の距離を示している。
横軸が経過時間(秒)で、縦軸が距離の長短であり、下側が近く、上側が遠くなっている。
図5に示す折れ線グラフで下側に突出してゼロに近い(クエリフレームの特徴量との距離が近い)、特定の数のポイントを教師データの候補として抽出し、それらのポイントの音データにタグ付けを行う。
次に、各イベントの発生確率について図6を参照しながら説明する。図6は、各イベントの発生確率を示す図である。
図6では、横軸にイベント1,2,3を示し、縦軸に発生確率を示している。
次に、イベントの発生時刻について図7を参照しながら説明する。図7は、イベントの発生時刻を示す図である。
図7では、イベント1について、発生時刻の「分」を20分単位で縦軸に表し、発生時刻の「秒」を60秒単位で横軸に表している。
図7により、イベント1が発生する時刻を「分」と「秒」との関係で直感的に把握することができる。
次に、音データに対してタグとラベルの関係について図8を参照しながら説明する。図8は、タグとラベルの関係を示す図である。
図8の上側に示された音データに対して、動物の鳴き声として「牛」と「犬」をタグとした場合に、音データのフレームにそれらの音が含まれている場合は「〇」とし、対応する音が含まれていない場合は「×」とする。この「〇」「×」をつけることが、ラベル付けと呼ぶ。また、ラベル付けされていない場合は「−」を付している。
そして、各フレームに対して各タグのラベル付けをすることを「タグ付け」と呼んでいる。
尚、音データのフレームには、牛又は犬のいずれの鳴き声が含まれていない場合があり、また、両方の鳴き声が含まれている場合もある。
本装置における学習プロセスのまとめについて図9を参照しながら説明する。図9は、本装置の学習プロセスをまとめた概略図である。
図9に示すように、本装置は、学習用音データから特徴量をaudio特徴量抽出手段111aが抽出し、各フレームの特徴量を算出して記憶する。
そして、距離計算手段112が、クエリ音の特徴量と各フレームの特徴量の距離情報を計算して記憶する。距離計算手段112は、図2の距離計算手段112に相当している。
人手による場合は、準備した音に対して各音フレームの特徴量の距離情報を見ながらタグ付けを行う必要がある。次に説明する応用例では、音検索の準備を効率的に行うために、自分が探したいクエリタグに近い、第三者(他人)がタグ付けしたタグ付け情報群(タグとそれに紐づく音特徴量)を利用し、タグ付け作業を更に軽減できるものとしている。
ここで、ユーザとは、本装置を利用して音検索の処理を行う者であり、第三者(他人又は他のユーザ)とは、本装置を利用して既に音データにタグ付けを行った者である。
次に、本装置の応用例について図10を参照しながら説明する。図10は、本装置における学習プロセスの応用例を示す概略図である。
図10に示すように、他のユーザが独自にタグとそれに紐づく音特徴量のデータセット(教師データの候補となるデータセット:タグ名称でタグ付けされたaudio特徴量データセット/タグ名称)を、ネットワークを利用して記憶し、また、ユーザ本人がクエリタグの入力を行い、クエリタグ名称でタグ付けされた特徴量データセットも記憶する。
そして、ユーザは、タグ名称を選定し、選定したタグ名称に対応する各フレームの音特徴量とタグ付け情報(教師データ)に基づいてモデル114で学習させ、予測値を出力する。
もし、パフォーマンスが出ない場合には、自分がタグ付けした独自データセットの一部も教師データに含めるようにする。
本装置によれば、特徴量生成手段111が音データの音フレームについて特徴量を生成し、距離計算手段112がイベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、特徴量選択手段123が、当該距離に応じて複数の音フレームに対してタグ付けがされた音フレームの特徴量を全特徴量から選択し、機械学習モデル114が、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)の発生確率又はタグ種別等を予測値として出力し、誤差計算手段118が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデル114に入力するようにしているので、蓄積した大量の音データの中から機械学習に必要となる教師データを効率的に生成できる効果がある。
Claims (5)
- 音を解析する音解析コンピュータであって、
音データの音フレームについて特徴量を生成する特徴量生成手段と、
イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、
当該距離に応じて複数の音フレームに対して前記イベントのタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段とを有する音解析コンピュータ。 - 音を解析する音解析コンピュータの処理方法であって、
音データの音フレームについて特徴量を生成し、
イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、
当該距離に応じて複数の音フレームに対して前記イベントのタグ付けがされた音フレームの特徴量を全特徴量から選択し、
当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として機械学習モデルが出力し、
前記音フレーム予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する処理方法。 - 学習済の機械学習モデルが、生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項2記載の処理方法。
- 教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算し、
前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成し、
機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項2又は3記載の処理方法。 - 音を解析する音解析コンピュータで使用されるコンピュータプログラムであって、
前記音解析コンピュータを、
音データの音フレームについて特徴量を生成する特徴量生成手段と、
イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の類似性の距離を計算する距離計算手段と、
当該距離に応じて複数の音フレームに対して前記イベントのタグ付けがされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段として機能させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018171951 | 2018-09-13 | ||
JP2018171951 | 2018-09-13 | ||
JP2020546206A JP6882814B2 (ja) | 2018-09-13 | 2019-09-12 | 音解析装置及びその処理方法、プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020546206A Division JP6882814B2 (ja) | 2018-09-13 | 2019-09-12 | 音解析装置及びその処理方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021119401A true JP2021119401A (ja) | 2021-08-12 |
JP6924975B2 JP6924975B2 (ja) | 2021-08-25 |
Family
ID=69778399
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020546206A Active JP6882814B2 (ja) | 2018-09-13 | 2019-09-12 | 音解析装置及びその処理方法、プログラム |
JP2021073833A Active JP6924975B2 (ja) | 2018-09-13 | 2021-04-26 | 音解析装置及びその処理方法、プログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020546206A Active JP6882814B2 (ja) | 2018-09-13 | 2019-09-12 | 音解析装置及びその処理方法、プログラム |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP6882814B2 (ja) |
WO (1) | WO2020054822A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114567811B (zh) * | 2022-02-28 | 2024-02-09 | 广州欢聊网络科技有限公司 | 用于声音排序的多模态模型训练方法、系统及相关设备 |
WO2024077511A1 (zh) * | 2022-10-12 | 2024-04-18 | 广州视源电子科技股份有限公司 | 互动统计方法、装置、设备、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009508156A (ja) * | 2005-09-08 | 2009-02-26 | ユニバーシティー オブ イースト アングリア | 音楽分析 |
JP2014164126A (ja) * | 2013-02-25 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号分析方法、装置、及びプログラム |
JP2015049398A (ja) * | 2013-09-02 | 2015-03-16 | 本田技研工業株式会社 | 音響認識装置、音響認識方法、及び音響認識プログラム |
JP2015212731A (ja) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音響イベント認識装置、及びプログラム |
US20180061439A1 (en) * | 2016-08-31 | 2018-03-01 | Gregory Frederick Diamos | Automatic audio captioning |
JP2019049601A (ja) * | 2017-09-08 | 2019-03-28 | Kddi株式会社 | 音波信号から音波種別を判定するプログラム、システム、装置及び方法 |
-
2019
- 2019-09-12 WO PCT/JP2019/035975 patent/WO2020054822A1/ja active Application Filing
- 2019-09-12 JP JP2020546206A patent/JP6882814B2/ja active Active
-
2021
- 2021-04-26 JP JP2021073833A patent/JP6924975B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009508156A (ja) * | 2005-09-08 | 2009-02-26 | ユニバーシティー オブ イースト アングリア | 音楽分析 |
JP2014164126A (ja) * | 2013-02-25 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号分析方法、装置、及びプログラム |
JP2015049398A (ja) * | 2013-09-02 | 2015-03-16 | 本田技研工業株式会社 | 音響認識装置、音響認識方法、及び音響認識プログラム |
JP2015212731A (ja) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音響イベント認識装置、及びプログラム |
US20180061439A1 (en) * | 2016-08-31 | 2018-03-01 | Gregory Frederick Diamos | Automatic audio captioning |
JP2019049601A (ja) * | 2017-09-08 | 2019-03-28 | Kddi株式会社 | 音波信号から音波種別を判定するプログラム、システム、装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020054822A1 (ja) | 2021-04-01 |
WO2020054822A1 (ja) | 2020-03-19 |
JP6924975B2 (ja) | 2021-08-25 |
JP6882814B2 (ja) | 2021-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11394667B2 (en) | Chatbot skills systems and methods | |
CN110175227B (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN108153800B (zh) | 信息处理方法、信息处理装置以及记录介质 | |
US20080228749A1 (en) | Automatic tagging of content based on a corpus of previously tagged and untagged content | |
JP6924975B2 (ja) | 音解析装置及びその処理方法、プログラム | |
TWI396105B (zh) | 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統 | |
CN111368048A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN112528010B (zh) | 知识推荐方法、装置、计算机设备及可读存储介质 | |
JP4737564B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20190075277A (ko) | 콘텐트 검색을 위한 방법 및 그 전자 장치 | |
CN114218488A (zh) | 基于多模态特征融合的信息推荐方法、装置及处理器 | |
CN113259763A (zh) | 教学视频处理方法、装置和电子设备 | |
JP2012194691A (ja) | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 | |
CN115238710B (zh) | 一种文档智能生成与管理方法及装置 | |
Prajwal et al. | Universal semantic web assistant based on sequence to sequence model and natural language understanding | |
CN116089578A (zh) | 智能问答数据自动标注方法、系统及存储介质 | |
CN111522914B (zh) | 标注数据采集方法、装置、电子设备及存储介质 | |
WO2014092537A1 (en) | A system and method for automated generation of learning object from online social content | |
CN114090777A (zh) | 文本数据处理方法及装置 | |
CN113468306A (zh) | 语音对话方法、装置、电子设备及存储介质 | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
JP2019194759A (ja) | 対話システム補強装置及びコンピュータプログラム | |
CN116737940B (zh) | 一种智能决策方法、决策系统 | |
CN116451787B (zh) | 内容风险识别方法、装置、系统及设备 | |
CN117834780B (zh) | 一种智能外呼客户意图预测分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210426 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6924975 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |