JP2023531850A - オーディオデータ識別装置 - Google Patents

オーディオデータ識別装置 Download PDF

Info

Publication number
JP2023531850A
JP2023531850A JP2022554581A JP2022554581A JP2023531850A JP 2023531850 A JP2023531850 A JP 2023531850A JP 2022554581 A JP2022554581 A JP 2022554581A JP 2022554581 A JP2022554581 A JP 2022554581A JP 2023531850 A JP2023531850 A JP 2023531850A
Authority
JP
Japan
Prior art keywords
audio data
audio
identification information
unit
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022554581A
Other languages
English (en)
Other versions
JP7470336B2 (ja
Inventor
ジョン、イルヨン
イム、ヒョンギ
ハン、ユンチャン
イ、スビン
パク、ジョンス
イ、ドンムン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cochl Inc
Original Assignee
Cochl Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cochl Inc filed Critical Cochl Inc
Publication of JP2023531850A publication Critical patent/JP2023531850A/ja
Application granted granted Critical
Publication of JP7470336B2 publication Critical patent/JP7470336B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明は、任意のオーディオデータを収集し、収集されたオーディオデータのうち、いずれか1つの区間を抽出したオーディオリソースを識別するオーディオデータ識別装置に関するものであって、任意のオーディオデータを収集して伝達する通信部と、収集された前記オーディオデータを識別する制御部と、を含み、制御部は、収集されたオーディオデータを所定の単位でパージングするパージング部と、オーディオデータのパージングされた複数の区間のうち、いずれか1つの区間をオーディオリソースとして選択する抽出部と、予め搭載された人工知能アルゴリズムによってオーディオリソースの識別情報をマッチングするマッチング部と、オーディオリソースにマッチングされた識別情報を検証する検証部と、を含むことを特徴とする。【図面】

Description

本発明は、任意のオーディオデータを収集し、収集されたオーディオデータのうち、いずれか1つの区間を抽出したオーディオリソースを識別するオーディオデータ識別装置に関する。
最近、オーディオを処理するために、ディープラーニングなどの人工知能技術が適用されている。オーディオに関連する処理技術の1つであるオーディオ識別技術は、オーディオ入力がどの主体から発生したのか、その主体のどの状況で発生するのかを検出するための目的で開発される。
このように、人工知能を用いたオーディオ識別技術を具現するために、多数のオーディオ入力と、それに対応して既に識別されたオーディオ情報またはオーディオ分析は、必須の要素である。
従来、オーディオ入力に対応するオーディオ情報を取得するために、正解紙収集方式が活用されている。正解紙収集方式によるオーディオ情報の収集は、少数の雇用者によって行われるため、雇用された人の個人的特性によって収集されたオーディオ情報の特性が変化し、収集されたオーディオ情報が制限的であるという問題があった。
すなわち、正解紙収集方式でオーディオ情報を収集する場合、収集されたオーディオ情報の信頼性および客観性を確保することが困難であり、広範なオーディオ情報を確保することが困難である。また、オーディオ情報の信頼性および範囲が低下すると、自然にオーディオ識別技術の性能が低下するという問題が発生する。
正解紙収集方式のもう1つの問題は、雇用された数人によって受動的に行われる必要があるため、大量のオーディオ入力と対応するオーディオ情報を収集する過程で相当な時間がかかるというものである。
また他の従来の方法としては、音声認識システムを構築するために音声発話データを確保する方式がある。すなわち、雇用された人力が直接発話状況で出る音を発話し、これを録音および収集する方式が存在した。しかし、この方法は、根本的に雇用された少数の人力によって収集されたオーディオ情報の特性が変化する可能性があるため、地域的な限界から抜け出しにくいという短所があった。
したがって、本発明においては、オンライン上でソーシャルネットワーク、YouTubeなどを通じて上がってくるオーディオおよび映像データを任意に収集して分析することによって、オーディオリソースの識別を進め、識別された情報を検証する過程を経ることによって、人工知能アルゴリズムを学習させ、信頼性および広範なデータの識別性能を向上させることができるオーディオデータ識別装置を提供しようとする。
本発明は、ネットワークを介して任意のオーディオデータを収集するオーディオデータ識別装置を提供しようとする。
また、本発明は、任意に収集されたデータを所定の単位でパージングして抽出されたオーディオリソースの識別情報をマッチングするオーディオデータ識別装置を提供しようとする。
また、本発明は、人工知能アルゴリズムを通じてオーディオリソースの識別情報をマッチングするが、検証を通じて人工知能アルゴリズムを学習して識別性能を向上させるオーディオデータ識別装置を提供しようとする。
また、本発明において、識別情報が分類されていないオーディオリソースは、フィードバックを通じて人工知能アルゴリズムが学習できるオーディオデータ識別装置を提供しようとする。
また、外部端末を介して不特定多数からマッチングされた識別情報を検証して信頼性を向上させるオーディオデータ識別装置を提供しようとする。
前述した本発明の技術的課題を解決するために、本発明に係るオーディオデータ識別装置は、任意のオーディオデータを収集して伝達する通信部と、収集された前記オーディオデータを識別する制御部と、を含み、制御部は、収集されたオーディオデータを所定の単位でパージングするパージング部と、オーディオデータのパージングされた複数の区間のうち、いずれか1つの区間をオーディオリソースとして選択する抽出部と、予め搭載された人工知能アルゴリズムによってオーディオリソースの識別情報をマッチングするマッチング部と、オーディオリソースにマッチングされた識別情報を検証する検証部と、を含むことを特徴とする。
一実施形態において、人工知能アルゴリズムは、検証部から判別された識別情報の判別結果の入力を受けて学習することを特徴とし、検証部は、外部端末によるユーザーの入力に基づいて識別情報を判別することを特徴とする。
また、一実施形態において、検証部は、外部端末による不特定多数の入力に基づいて識別情報を判別するが、不特定多数の判別結果の誤差範囲が大きい場合、当該オーディオリソースは廃棄することを特徴とする。
一実施形態において、外部端末は、マッチングされた識別情報の真または偽の入力を受けて検証部に送信することを特徴とする。
他の実施形態において、外部端末は、予め提供された複数の識別子のうち、いずれか1つを選択して入力を受け、選択された識別子とオーディオリソースにマッチングされた識別情報が同一か否かを判別して検証部に送信することを特徴とする。
一実施形態において、マッチング部は、予め指定された所定の範疇内で識別情報をマッチングし、所定の範疇内で認識されない場合、当該オーディオリソースは、未分類データとして処理し、未分類データとして処理されたオーディオリソースは、外部端末で主観式で当該識別情報の入力を受けて検証部に送信することを特徴とする。
一実施形態において、任意のオーディオデータが予め指定されたキーワードによって収集されることを特徴とする。
本発明によると、広範なオーディオリソースについての識別性能を向上させることができる効果がある。
また、人力が浪費されず、オーディオリソースの正確度を向上させることができる効果がある。
最後に、本発明で提案するオーディオデータ識別装置によると、テキストに比べて複雑に構成されるオーディオについて、人工知能アルゴリズムを通じて容易に識別情報をマッチングさせ、検証過程を通じて人工知能アルゴリズムを学習させることによって、オーディオリソースを識別できるオーディオデータ識別装置を提供するデータベースを具現できる。
本発明の一実施形態によるオーディオデータ識別装置を概略的に示す図である。 本発明の一実施形態によるオーディオデータ識別装置を示すブロック図である。 本発明の一実施形態によるパージング部および抽出部を説明する図である。 本発明の一実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。 本発明の一実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。 本発明の他の実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。 本発明の他の実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。
発明の実施のための最良の形態
任意のオーディオデータを収集して伝達する通信部と、収集されたオーディオデータを識別する制御部と、を含み、制御部は、収集されたオーディオデータを所定の単位でパージングするパージング部と、オーディオデータのパージングされた複数の区間のうち、いずれか1つの区間をオーディオリソースとして選択する抽出部と、予め搭載された人工知能アルゴリズムによってオーディオリソースの識別情報をマッチングするマッチング部と、オーディオリソースにマッチングされた識別情報を検証する検証部と、を含むことを特徴とするオーディオデータ識別装置。
以下、添付の図面を参照して、本発明の実施形態について、本発明が属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は、様々な異なる形態で具現でき、以下に開示される図面および実施形態に限定されるものではない。また、図面において本発明を明確に説明するために、本発明と関係のない部分は省略し、図面で同一または類似の符号は、同一または類似の構成要素を示す。
本発明の目的および効果は、以下の説明によって自然に理解されるか、またはより明らかになることができ、本発明の要旨を不必要にぼかすことができると判断される場合には、その詳細な説明を省略するため、以下の記載のみで本発明の目的および効果が制限されるものではない。
以下、図面を参照して本発明の実施形態について詳細に説明する。図1は、本発明の一実施形態によるオーディオデータ識別装置を概略的に示す図である。
まず、図1を参照して本発明の一実施形態を概略的に説明すると、YouTube、ソーシャルネットワークおよび各種オンライン上のオーディオデータを予め指定されたキーワードによって検索およびダウンロードを通じて収集し、収集されたオーディオデータに基づいて有効なオーディオリソースを抽出する。その後、抽出されたオーディオリソースを人工知能アルゴリズムを通じて、当該オーディオリソースがどのような状況またはどの種類の音であるかを判別して識別情報をマッチングし、マッチングされた結果をフィードバックを通じて検証して人工知能アルゴリズムが学習することによって、信頼性および識別範囲が向上するオーディオデータ識別装置に関する。すなわち、オーディオデータ識別装置は、人工知能アルゴリズムが自ら学習することによって、任意のオーディオについて当該オーディオを区分する能力を向上させることができる。このようなオーディオデータ識別装置は、別の装置として提供されることもあるが、従来の各種端末に搭載されて提供されることもある。具体的に、デスクトップ、ノートパソコンなどに搭載され、インターネットネットワーク網を介してオーディオデータ識別装置が自ら検索して学習する過程を繰り返すことができる。また、ユーザーの個人スマート端末であるスマートフォンやタブレットPCなどに搭載され、ユーザーが映像またはオーディオを使用するにつれて当該映像またはオーディオのデータが収集され、オーディオデータ識別装置が学習することもできる。より具体的に、一実施形態によると、ユーザーのスマートフォンに内蔵またはアプリ形式でオーディオデータ識別装置が提供され得、ユーザーがリアルタイムで視聴する映像またはオーディオに基づいてオーディオデータが収集され、当該オーディオデータを所定の単位でパージングした後、パージングされた複数の区間のうち、いずれか1つの区間をオーディオリソースとして抽出し、人工知能アルゴリズムを通じて識別情報マッチングおよびフィードバックを繰り返すことができる。一実施形態のように、ユーザーのスマートフォン上でユーザーの使用によるオーディオデータが収集および分析される場合、各ユーザー基盤で人工知能アルゴリズムが学習されることができるという長所がある。すなわち、個々人オーダーメード型オーディオデータ識別装置を提供し得る。
一方、別のオーディオデータ識別装置が備えられる場合、インターネットネットワークに基づいてオーディオデータ識別装置で自らがキーワード検索を行うことによって、分析するオーディオデータを収集することができる。このように収集されたオーディオデータは、オーディオリソースとして一部区間が分けられて抽出され、オーディオデータ識別装置に搭載された人工知能アルゴリズムを通じて識別情報がマッチングされることができる。マッチングされた識別情報は、不特定多数を通じてフィードバックできるが、このとき不特定多数は、スマート端末のユーザーとして、携帯電話、タブレットPC、デスクトップ、ノートパソコンなどを通じて提供されるアプリやオンラインネットワーク上で所定の代価とともにイベントを受信し得る。一実施形態によると、所定のポイントを獲得する代価として不特定多数のスマートフォンにアプリを介した検証イベントを送信することができる。したがって、当該イベントを受信した不特定多数は、当該オーディオリソースを聞き、人工知能アルゴリズムを通じてマッチングされた識別情報を検証して入力することによって、人工知能アルゴリズムは、フィードバックを受けて学習されることができる。
前述の内容は、本発明のオーディオデータ識別装置の概略的な実施形態を列挙したものであり、以下、図2を参照してオーディオデータ識別装置の具体的な構成を説明し、図3~図7を参照して各実施形態についてより詳細に説明する。
図2は、本発明の一実施形態によるオーディオデータ識別装置を示すブロック図である。図2を参照すると、本発明のオーディオデータ識別装置は、通信部100および制御部200で構成され得る。また、後述する検証部240で入力される入力端末をさらに含み得る。
まず、通信部100は、任意のオーディオデータを収集して制御部200に送信する構成であって、収集部110および送信部120を含み得る。具体的に、通信部100は、本発明のオーディオデータ識別装置にともに備えられる端末であり得るが、別の端末の形で具現され得る。すなわち、デスクトップコンピュータ、デジタルTVなどの端末であり得、移動可能な携帯電話、ノートパソコン、PDA、タブレットPC、ノートパソコン、ウェアラブルデバイスなどの移動端末の形で具現され得る。
収集部110は、任意のオーディオデータを収集する構成であって、前述したような通信部100内で検索を通じて収集されたオーディオデータを任意に収集することができる。具体的に、予め指定された範囲内のキーワードによって検索されることによって、オーディオデータが収集されることができ、ソーシャルネットワーク、YouTube、ブログなどのオーディオデータ収集が可能なネットワークを介して予め指定されたキーワードがランダムに検索され、オーディオデータを収集することができる。具体的に、オーディオデータは、ユーザーの入力によって収集されることもあるが、本発明のオーディオデータ識別装置の性能を向上させるためには、ユーザーの介入なしに別の人工知能神経網を介してランダムに収集されることが好ましい。
送信部120は、収集部110で収集されたオーディオデータを制御部200に送信する構成である。具体的に、送信部120は有線を介した送信であることもあるが、通信部100が前述したように別の端末で構成される場合、無線通信を用いた送信を行うことが好ましい。より具体的に、送信部120は、放送送信モジュール、移動通信モジュール、無線インターネットモジュール、近距離通信モジュールのうち、少なくとも1つを含んで構成されることによって、収集されたオーディオデータを制御部200に送信することができる。
制御部200は、通信部100から収集されたオーディオデータの伝達を受けて、当該オーディオデータを分析して識別する構成であって、パージング部210、抽出部220、マッチング部230および検証部240を含み得る。
以下、制御部200の各構成は、図3~図7を参照して詳細に説明する。まず、図3は、本発明の一実施形態によるパージング部および抽出部を説明する図である。
図3を参照すると、パージング部210は、収集されたオーディオデータを所定の単位でパージングする構成である。具体的に、収集されたオーディオデータは、複数の区間に区分されてパージングされることができ、このときパージングされる複数の区間は、所定の同一単位でパージングされることが好ましい。収集されたオーディオデータは、様々な識別情報を含む音が混ざっているデータがほとんどであるため、各音ごとに正確な識別情報をマッチングして識別力を向上させるために収集されたオーディオデータをパージングした後、パージングされた区間別に抽出して識別情報をマッチングすることが好ましい。具体的に、一実施形態によると、パージング部210でオーディオデータをパージングする単位は、0.5秒~2秒からなることが好ましく、1秒程度が最も好ましい。パージングされる所定の単位が短すぎると、抽出されたオーディオリソースの波形や波長などの把握が難しく、一部の区間の波形、波長、および周波数が類似しているオーディオの場合、識別情報のマッチングが困難になることがある。また、所定の単位が長すぎると、オーディオデータに含まれたノイズや多数の識別情報が同時に含まれて区別が難しいことがある。したがって、適切な所定の単位でパージングして区間を区分することが好ましい。
抽出部220は、パージング部210でオーディオデータのパージングされた複数の区間のうち、いずれか1つの区間をオーディオリソースとして選択する構成である。ここで、オーディオリソースは、後述するマッチング部230で識別情報がマッチングされるオーディオデータのうちの一部区間であって、前述した所定の単位でパージングされたオーディオデータの複数の区間のうちの1つとして所定の単位長さのオーディオリソースであることが好ましい。具体的に、オーディオリソースは、各オーディオデータ別に1つだけ抽出されることもあるが、1つのオーディオデータから複数に分けて抽出されることによって、同じオーディオデータの区間別に識別情報のマッチングおよび検証を通じて本発明のオーディオデータ識別装置の信頼性を向上させることができる。
以下、図4~図7を参照して、本発明のマッチング部230および検証部240について詳細に説明する。図4および図5は、本発明の一実施形態によるマッチング部および検証部のフィードバック過程を説明する図であり、図6および図7は、本発明の他の実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。
マッチング部230は、予め搭載された人工知能アルゴリズムによって抽出部220から抽出されたオーディオリソースの識別情報をマッチングする構成である。具体的に、図4のように、マッチング部230に含まれた人工知能アルゴリズムによって識別情報がマッチングされることができる。具体的に、マッチング部230においては、予め学習された人工知能アルゴリズムによって当該オーディオリソースの識別情報がマッチングされることが好ましい。図4を参照して一実施形態によると、予め学習されて搭載された人工知能アルゴリズムが抽出されたオーディオリソースの波長、波形および周波数などを基準に、当該オーディオリソースに「ガンショット」という識別情報をマッチングすることができる。このように識別情報は、当該オーディオリソースの音の種類、音の状況のうち、いずれか1つであり得る。具体的に、マッチング部230から伝達されたオーディオリソースは、すべて識別情報がマッチングされることが好ましいが、人工知能アルゴリズムが学習されていない範疇のオーディオリソースは、識別情報のマッチングが困難であり得る。すなわち、マッチング部230の人工知能アルゴリズムは、予め指定された所定の範疇内でオーディオリソースに識別情報をマッチングし、ここで所定の範疇は、人工知能アルゴリズムが学習された範疇をいう。具体的に、図6を参照して他の実施形態によると、人工知能アルゴリズムが学習されていない領域に属して所定の範疇内で認識されない場合、当該オーディオリソースは、マッチング部230で未分類データとして処理できる。
マッチング部230で人工知能アルゴリズムによって識別情報とマッチングされたオーディオリソースは、検証部240で検証を通じてフィードバックできる。具体的に、図5および図7のように、検証部240においては、オーディオリソースにマッチングされた識別情報を検証した後、検証結果をマッチング部230に送信することができる。具体的に、検証部240は、本発明のオーディオデータ識別装置自体に内蔵された機器を介して検証結果を入力することができるが、外部端末を介して検証情報を入力することがより好ましい。すなわち、外部端末によるユーザーの入力に基づいて識別情報を判別できる。具体的に、ユーザー個人のスマートフォンまたはタブレットPCなどを介してユーザーが検証対象のオーディオリソースを聞いて検証結果を入力することができる。また、ユーザー個人の結果だけでは、信頼度が低下することがあるため、検証結果の信頼性をより向上させるために外部端末による不特定多数の入力に基づいて識別情報を判別できる。すなわち、不特定多数のスマート端末にイベントを送信してオーディオリソースを聞いて検証結果を入力するように要求することができ、不特定多数の入力に基づいて検証結果を判断できる。このとき、同じオーディオリソースについて入力された不特定多数の判決結果の誤差範囲が大きい場合、当該オーディオリソースは、判断が難しいオーディオリソースとして廃棄することが好ましい。具体的に、10人の不特定多数が同じオーディオリソースを聞いた後、判断した結果がすべて異なる場合、当該オーディオリソースは、適合しないと判断されて廃棄できる。
検証部240は、前述したように、ユーザーまたは不特定多数によって検証された結果の入力を受けてマッチング部230に送信することができ、このとき、検証部240に検証結果は、外部端末を介して入力できる。外部端末は、マッチング部230を介してマッチングされたオーディオリソースについての識別情報の真または偽の入力を受けて検証部240に送信することができる。具体的に、真に入力された検証結果については、マッチング部230に送信して当該オーディオリソースについての人工知能アルゴリズムの正解加重値を高めることができ、偽で入力された検証結果については、マッチング部230に送信して当該オーディオリソースおよび当該識別情報を区分する結果についてのフィードバックを通じて人工知能アルゴリズムを学習させることができる。単に真偽のみをフィードバックすることもできるが、図5のように、外部端末を介して検証部240は、予め提供された複数の識別子のうち、いずれか1つを選択して入力を受け、選択された識別子とオーディオリソースにマッチングされた識別情報が同一か否かを判別して検証部240に送信することができる。
図4および図5を参照して一実施形態を説明すると、検証部240は、外部端末を介して予め提供された複数の識別子のうち、いずれか1つを選択して入力を受け、選択された識別子とオーディオリソースにマッチングされた識別情報が同一か否かを判断して検証結果の送信を受けることができる。具体的に、図4に示すように、マッチング部230でオーディオリソースをガンショットで識別情報をマッチングした後、検証部240で提供された複数の識別子のうち、オーディオリソースを聞いて同一にガンショットで選択した場合、検証部240で選択された識別子とオーディオリソースにマッチングされた識別情報を同じであると判断し、検証部240は、マッチング部230の人工知能アルゴリズムのガンショット判別についての信頼性を向上させることができる。しかし、図4のように検証部240で提供された複数の識別子のうち、オーディオリソースを聞き、ユーザーまたは不特定多数が端末を介して選択した識別子がマッチングされた識別情報と異なるKnockで選択した場合、検証部240は、選択された識別子をマッチング部230の人工知能アルゴリズムに送信して人工知能アルゴリズムを学習させることができる。したがって、図5に示すように、人工知能アルゴリズムは、検証部240で選択された識別子とオーディオリソースをマッチングして学習することができ、互いに異なるオーディオリソースを通じて前記のような過程の繰り返しによってマッチング部230の識別情報マッチングの正確度が向上することができる。
図6および図7を参照して他の実施形態を説明すると、マッチング部230は、予め指定された所定の範疇内で識別情報をマッチングし、所定の範疇内で認識されない場合、当該オーディオリソースは、未分類データとして処理できる。具体的に、前述したようにマッチング部230においては、予め搭載された人工知能アルゴリズムが学習された範疇内で識別情報をマッチングでき、人工知能アルゴリズムが学習されていないオーディオリソースについては、未分類データとして処理されることが好ましい。したがって、図6のように、未分類データとして処理されたオーディオリソースは、ユーザーまたは不特定多数を通じて外部端末から主観式で当該識別情報の入力を受け、入力された当該識別情報を検証部240に送信することができる。その後、図7のように、検証部240に送信された識別情報は、マッチング部230の人工知能アルゴリズムに送信されて人工知能アルゴリズムが学習でき、このような学習過程の繰り返しによってマッチング部230で識別情報をマッチングできる所定の範疇が次第に増加できる。ただし、一人のユーザーまたは不特定多数により主観式で入力された識別情報がマッチング部230の人工知能アルゴリズムに直接伝達される場合、当該識別情報を提供した個人の主観的な判断によって誤った識別情報が伝達される問題点がある。したがって、1つのオーディオリソースについて多数の入力に基づく識別情報を複数個伝達を受けることが好ましく、複数個入力された識別情報を判別して当該識別情報が統一されず、誤差範囲が大きい場合に当該オーディオリソースは廃棄することが好ましい。ただし、多数の入力が同じであるが、1人の入力のみが異なる場合には、1人の入力にミスがあったと判断して多数の入力に基づいて人工知能アルゴリズムを学習させることができる。このとき、多様な経験と背景を有する不特定多数が多いほど信頼性を向上させることができる。
特に、本発明の一実施形態による人工知能アルゴリズムは、オーディオリソースの識別情報を判断する方法において、オーディオリソースの波形、波長および周波数などを分析して識別情報を判断するとき、いずれか1つの識別情報を判断する基準となる波形、波長、周波数などの範囲を平均範囲より広く指定して判断するほど未分類に分類または廃棄されるオーディオリソースの量を減らすことができ、これらの結果物について検証部240のフィードバックを受けることによって、より広範囲かつ信頼性の高いオーディオデータ識別装置を提供できる効果がある。また、本発明のオーディオデータ識別装置によると、個人作業者によって単純フィードバックを業務として提供することによって、人力が浪費されることを防止し、不特定多数に所定の代価を通じてフィードバックを要求することによって、人力を削減すると同時により多様な範囲を有するオーディオデータ識別装置を提供し得る。
本発明によって提供されるオーディオデータ識別装置により、ユーザーオーダーメード型オーディオ認識およびオーディオ情報を提供し得、逆にユーザー要求によるオーディオを提供し得る。具体的に、ユーザー基盤で学習された人工知能アルゴリズムによるオーディオデータ識別装置は、ユーザーが必要とするオーディオ識別情報を提供すれば、当該オーディオデータを提供する結果も引き出すことができる。また、聴覚が完全でない聴覚障害者の場合、危険状況だけでなく、実生活でオーディオを聞くことができないために発生する問題および不便さを甘受している。本発明のオーディオデータ識別装置が聴覚障害者のユーザーデバイスまたは別のデバイスに提供される場合、視覚または触覚などの他の感覚を通じてオーディオ情報をリアルタイムで提供し得る効果も引き出すことができる。具体的に、聴覚障害者が道を歩く途中で見えない後ろで発生する自動車クラクションまたは各種案内などを個人スマートデバイスを通じて振動および視覚的情報提供をして危険信号を案内することができる。また、実生活で赤ちゃんの泣き声、水が沸く音などを視覚的または触覚的に情報を提供し、日常生活で不便さを克服できるようにする。このとき、個人のスマートデバイスは、スマートフォン、スマートウォッチなどの携帯用端末またはウェアラブル機器などとして提供されることがより効率的であり得る 。
前述した本発明は、一実施形態に関するものであって、これは単に実施形態に過ぎず、本技術分野における通常の知識を有する者は、これから様々な変形および均等な他の実施形態も可能であろう。したがって、本発明の権利の範囲は、前述の実施形態および添付の図面によって限定されるものではない。
産業上利用可能性
本発明によると、広範なオーディオリソースについての識別性能を向上させることができる効果がある。
また、人力が浪費されず、オーディオリソースの正確度を向上させることができる効果がある。
最後に、本発明で提案するオーディオデータ識別装置によると、テキストに比べて複雑に構成されるオーディオについて、人工知能アルゴリズムを通じて容易に識別情報をマッチングさせ、検証過程を通じて人工知能アルゴリズムを学習させることによって、オーディオリソースを識別できるオーディオデータ識別装置を提供するデータベースを具現できる。

Claims (8)

  1. 任意のオーディオデータを収集して伝達する通信部(100)と、
    収集されたオーディオデータを識別する制御部(200)と、を含み、
    前記制御部(200)は、
    収集された前記オーディオデータを所定の単位でパージングするパージング部(210)と、
    前記オーディオデータのパージングされた複数の区間のうち、いずれか1つの区間をオーディオリソースとして選択する抽出部(220)と、
    予め搭載された人工知能アルゴリズムによって前記オーディオリソースの識別情報をマッチングするマッチング部(230)と、
    前記オーディオリソースにマッチングされた識別情報を検証する検証部(240)と、を含むことを特徴とするオーディオデータ識別装置。
  2. 前記人工知能アルゴリズムは、
    前記検証部(240)で判別された識別情報の判別結果の入力を受けて学習することを特徴とする請求項1に記載のオーディオデータ識別装置。
  3. 前記検証部(240)は、
    外部端末によるユーザーの入力に基づいて前記識別情報を判別することを特徴とする請求項2に記載のオーディオデータ識別装置。
  4. 前記検証部(240)は、
    外部端末による不特定多数の入力に基づいて前記識別情報を判別するが、前記不特定多数の判別結果の誤差範囲が大きい場合、当該オーディオリソースは廃棄することを特徴とする請求項2に記載のオーディオデータ識別装置
  5. 前記外部端末は、
    マッチングされた識別情報の真または偽の入力を受けて前記検証部(240)に送信することを特徴とする請求項3または請求項4に記載のオーディオデータ識別装置。
  6. 前記外部端末は、
    予め提供された複数の識別子のうち、いずれか1つを選択して入力を受け、選択された識別子と前記オーディオリソースにマッチングされた識別情報が同一か否かを判別して前記検証部(240)に送信することを特徴とする請求項3または請求項4に記載のオーディオデータ識別装置。
  7. 前記マッチング部(230)は、
    予め指定された所定の範疇内で識別情報をマッチングし、前記所定の範疇内に認識されない場合、当該オーディオリソースは、未分類データとして処理し、
    前記未分類データとして処理されたオーディオリソースは、
    前記外部端末から主観式で当該識別情報の入力を受け、前記検証部(240)に送信することを特徴とする請求項3または請求項4に記載のオーディオデータ識別装置。
  8. 前記任意のオーディオデータは、
    予め指定されたキーワードによって収集されることを特徴とする請求項1に記載のオーディオデータ識別装置。
JP2022554581A 2020-03-13 2021-02-26 オーディオデータ識別装置 Active JP7470336B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020200031064A KR102400903B1 (ko) 2020-03-13 2020-03-13 오디오 데이터 식별장치
KR10-2020-0031064 2020-03-13
PCT/KR2021/002496 WO2021182782A1 (ko) 2020-03-13 2021-02-26 오디오 데이터 식별장치

Publications (2)

Publication Number Publication Date
JP2023531850A true JP2023531850A (ja) 2023-07-26
JP7470336B2 JP7470336B2 (ja) 2024-04-18

Family

ID=77670727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022554581A Active JP7470336B2 (ja) 2020-03-13 2021-02-26 オーディオデータ識別装置

Country Status (6)

Country Link
US (1) US20230178096A1 (ja)
EP (1) EP4120098A4 (ja)
JP (1) JP7470336B2 (ja)
KR (1) KR102400903B1 (ja)
CN (1) CN115298661A (ja)
WO (1) WO2021182782A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102501623B1 (ko) * 2021-11-24 2023-02-21 주식회사 원아이디랩 음악을 검증하여 저작권료의 공정하고 투명한 정산 및 분배를 위한 저작권료 분배 방법 및 시스템

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类系统及方法
JP6767322B2 (ja) 2017-08-18 2020-10-14 ヤフー株式会社 出力制御装置、出力制御方法及び出力制御プログラム
KR101986905B1 (ko) * 2017-10-31 2019-06-07 전자부품연구원 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템
KR102635811B1 (ko) * 2018-03-19 2024-02-13 삼성전자 주식회사 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
US10832672B2 (en) * 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker system with cognitive sound analysis and response
KR20200016111A (ko) * 2018-08-06 2020-02-14 주식회사 코클리어닷에이아이 오디오 정보 수집장치 및 그의 제어방법
US11069334B2 (en) 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
US11367438B2 (en) * 2019-05-16 2022-06-21 Lg Electronics Inc. Artificial intelligence apparatus for recognizing speech of user and method for the same
KR20190106902A (ko) * 2019-08-29 2019-09-18 엘지전자 주식회사 사운드 분석 방법 및 장치

Also Published As

Publication number Publication date
EP4120098A1 (en) 2023-01-18
CN115298661A (zh) 2022-11-04
WO2021182782A1 (ko) 2021-09-16
US20230178096A1 (en) 2023-06-08
EP4120098A4 (en) 2024-03-20
JP7470336B2 (ja) 2024-04-18
KR20210115379A (ko) 2021-09-27
KR102400903B1 (ko) 2022-05-24

Similar Documents

Publication Publication Date Title
KR102100976B1 (ko) 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱
CN108335695B (zh) 语音控制方法、装置、计算机设备和存储介质
US11194893B2 (en) Authentication of audio-based input signals
WO2020119448A1 (zh) 语音信息验证
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
PH12020551830A1 (en) Computerized systems and methods for determining authenticity using micro expressions
CN107147618A (zh) 一种用户注册方法、装置及电子设备
CN109271533A (zh) 一种多媒体文件检索方法
CN110047481A (zh) 用于语音识别的方法和装置
US11757870B1 (en) Bi-directional voice authentication
CN111368098B (zh) 一种基于情景化的法律咨询评估系统
CN107678287A (zh) 设备控制方法、装置及计算机可读存储介质
CN109729067A (zh) 语音打卡方法、装置、设备和计算机存储介质
CN109949798A (zh) 基于音频的广告检测方法以及装置
CN107666536A (zh) 一种寻找终端的方法和装置、一种用于寻找终端的装置
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN107451185B (zh) 录音方法、朗读系统、计算机可读存储介质和计算机装置
CN112509586A (zh) 电话信道声纹识别方法及装置
JP7470336B2 (ja) オーディオデータ識別装置
TWI823055B (zh) 電子資源推送方法及系統
CN106782498A (zh) 语音信息播放方法、装置及终端
CN111161759B (zh) 音频质量评价方法、装置、电子设备及计算机存储介质
KR20200070783A (ko) 사용자 단말의 알람 제어 방법 및 서버의 알람 해제 미션 결정 방법
CN113571063A (zh) 语音信号的识别方法、装置、电子设备及存储介质
CN107610697B (zh) 一种音频处理方法及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20231120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240328

R150 Certificate of patent or registration of utility model

Ref document number: 7470336

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150