JP2023531850A

JP2023531850A - オーディオデータ識別装置

Info

Publication number: JP2023531850A
Application number: JP2022554581A
Authority: JP
Inventors: ジョン、イルヨン; イム、ヒョンギ; ハン、ユンチャン; イ、スビン; パク、ジョンス; イ、ドンムン
Original assignee: Cochl Inc
Current assignee: Cochl Inc
Priority date: 2020-03-13
Filing date: 2021-02-26
Publication date: 2023-07-26
Anticipated expiration: 2041-02-26
Also published as: EP4120098A1; CN115298661A; WO2021182782A1; US20230178096A1; EP4120098A4; JP7470336B2; KR20210115379A; KR102400903B1

Abstract

本発明は、任意のオーディオデータを収集し、収集されたオーディオデータのうち、いずれか１つの区間を抽出したオーディオリソースを識別するオーディオデータ識別装置に関するものであって、任意のオーディオデータを収集して伝達する通信部と、収集された前記オーディオデータを識別する制御部と、を含み、制御部は、収集されたオーディオデータを所定の単位でパージングするパージング部と、オーディオデータのパージングされた複数の区間のうち、いずれか１つの区間をオーディオリソースとして選択する抽出部と、予め搭載された人工知能アルゴリズムによってオーディオリソースの識別情報をマッチングするマッチング部と、オーディオリソースにマッチングされた識別情報を検証する検証部と、を含むことを特徴とする。【図面】

Description

本発明は、任意のオーディオデータを収集し、収集されたオーディオデータのうち、いずれか１つの区間を抽出したオーディオリソースを識別するオーディオデータ識別装置に関する。

最近、オーディオを処理するために、ディープラーニングなどの人工知能技術が適用されている。オーディオに関連する処理技術の１つであるオーディオ識別技術は、オーディオ入力がどの主体から発生したのか、その主体のどの状況で発生するのかを検出するための目的で開発される。

このように、人工知能を用いたオーディオ識別技術を具現するために、多数のオーディオ入力と、それに対応して既に識別されたオーディオ情報またはオーディオ分析は、必須の要素である。

従来、オーディオ入力に対応するオーディオ情報を取得するために、正解紙収集方式が活用されている。正解紙収集方式によるオーディオ情報の収集は、少数の雇用者によって行われるため、雇用された人の個人的特性によって収集されたオーディオ情報の特性が変化し、収集されたオーディオ情報が制限的であるという問題があった。

すなわち、正解紙収集方式でオーディオ情報を収集する場合、収集されたオーディオ情報の信頼性および客観性を確保することが困難であり、広範なオーディオ情報を確保することが困難である。また、オーディオ情報の信頼性および範囲が低下すると、自然にオーディオ識別技術の性能が低下するという問題が発生する。

正解紙収集方式のもう１つの問題は、雇用された数人によって受動的に行われる必要があるため、大量のオーディオ入力と対応するオーディオ情報を収集する過程で相当な時間がかかるというものである。

また他の従来の方法としては、音声認識システムを構築するために音声発話データを確保する方式がある。すなわち、雇用された人力が直接発話状況で出る音を発話し、これを録音および収集する方式が存在した。しかし、この方法は、根本的に雇用された少数の人力によって収集されたオーディオ情報の特性が変化する可能性があるため、地域的な限界から抜け出しにくいという短所があった。

したがって、本発明においては、オンライン上でソーシャルネットワーク、ＹｏｕＴｕｂｅなどを通じて上がってくるオーディオおよび映像データを任意に収集して分析することによって、オーディオリソースの識別を進め、識別された情報を検証する過程を経ることによって、人工知能アルゴリズムを学習させ、信頼性および広範なデータの識別性能を向上させることができるオーディオデータ識別装置を提供しようとする。

本発明は、ネットワークを介して任意のオーディオデータを収集するオーディオデータ識別装置を提供しようとする。

また、本発明は、任意に収集されたデータを所定の単位でパージングして抽出されたオーディオリソースの識別情報をマッチングするオーディオデータ識別装置を提供しようとする。

また、本発明は、人工知能アルゴリズムを通じてオーディオリソースの識別情報をマッチングするが、検証を通じて人工知能アルゴリズムを学習して識別性能を向上させるオーディオデータ識別装置を提供しようとする。

また、本発明において、識別情報が分類されていないオーディオリソースは、フィードバックを通じて人工知能アルゴリズムが学習できるオーディオデータ識別装置を提供しようとする。

また、外部端末を介して不特定多数からマッチングされた識別情報を検証して信頼性を向上させるオーディオデータ識別装置を提供しようとする。

前述した本発明の技術的課題を解決するために、本発明に係るオーディオデータ識別装置は、任意のオーディオデータを収集して伝達する通信部と、収集された前記オーディオデータを識別する制御部と、を含み、制御部は、収集されたオーディオデータを所定の単位でパージングするパージング部と、オーディオデータのパージングされた複数の区間のうち、いずれか１つの区間をオーディオリソースとして選択する抽出部と、予め搭載された人工知能アルゴリズムによってオーディオリソースの識別情報をマッチングするマッチング部と、オーディオリソースにマッチングされた識別情報を検証する検証部と、を含むことを特徴とする。

一実施形態において、人工知能アルゴリズムは、検証部から判別された識別情報の判別結果の入力を受けて学習することを特徴とし、検証部は、外部端末によるユーザーの入力に基づいて識別情報を判別することを特徴とする。

また、一実施形態において、検証部は、外部端末による不特定多数の入力に基づいて識別情報を判別するが、不特定多数の判別結果の誤差範囲が大きい場合、当該オーディオリソースは廃棄することを特徴とする。

一実施形態において、外部端末は、マッチングされた識別情報の真または偽の入力を受けて検証部に送信することを特徴とする。

他の実施形態において、外部端末は、予め提供された複数の識別子のうち、いずれか１つを選択して入力を受け、選択された識別子とオーディオリソースにマッチングされた識別情報が同一か否かを判別して検証部に送信することを特徴とする。

一実施形態において、マッチング部は、予め指定された所定の範疇内で識別情報をマッチングし、所定の範疇内で認識されない場合、当該オーディオリソースは、未分類データとして処理し、未分類データとして処理されたオーディオリソースは、外部端末で主観式で当該識別情報の入力を受けて検証部に送信することを特徴とする。

一実施形態において、任意のオーディオデータが予め指定されたキーワードによって収集されることを特徴とする。

本発明によると、広範なオーディオリソースについての識別性能を向上させることができる効果がある。

また、人力が浪費されず、オーディオリソースの正確度を向上させることができる効果がある。

最後に、本発明で提案するオーディオデータ識別装置によると、テキストに比べて複雑に構成されるオーディオについて、人工知能アルゴリズムを通じて容易に識別情報をマッチングさせ、検証過程を通じて人工知能アルゴリズムを学習させることによって、オーディオリソースを識別できるオーディオデータ識別装置を提供するデータベースを具現できる。

本発明の一実施形態によるオーディオデータ識別装置を概略的に示す図である。本発明の一実施形態によるオーディオデータ識別装置を示すブロック図である。本発明の一実施形態によるパージング部および抽出部を説明する図である。本発明の一実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。本発明の一実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。本発明の他の実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。本発明の他の実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。

発明の実施のための最良の形態

任意のオーディオデータを収集して伝達する通信部と、収集されたオーディオデータを識別する制御部と、を含み、制御部は、収集されたオーディオデータを所定の単位でパージングするパージング部と、オーディオデータのパージングされた複数の区間のうち、いずれか１つの区間をオーディオリソースとして選択する抽出部と、予め搭載された人工知能アルゴリズムによってオーディオリソースの識別情報をマッチングするマッチング部と、オーディオリソースにマッチングされた識別情報を検証する検証部と、を含むことを特徴とするオーディオデータ識別装置。

以下、添付の図面を参照して、本発明の実施形態について、本発明が属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は、様々な異なる形態で具現でき、以下に開示される図面および実施形態に限定されるものではない。また、図面において本発明を明確に説明するために、本発明と関係のない部分は省略し、図面で同一または類似の符号は、同一または類似の構成要素を示す。

本発明の目的および効果は、以下の説明によって自然に理解されるか、またはより明らかになることができ、本発明の要旨を不必要にぼかすことができると判断される場合には、その詳細な説明を省略するため、以下の記載のみで本発明の目的および効果が制限されるものではない。

以下、図面を参照して本発明の実施形態について詳細に説明する。図１は、本発明の一実施形態によるオーディオデータ識別装置を概略的に示す図である。

まず、図１を参照して本発明の一実施形態を概略的に説明すると、ＹｏｕＴｕｂｅ、ソーシャルネットワークおよび各種オンライン上のオーディオデータを予め指定されたキーワードによって検索およびダウンロードを通じて収集し、収集されたオーディオデータに基づいて有効なオーディオリソースを抽出する。その後、抽出されたオーディオリソースを人工知能アルゴリズムを通じて、当該オーディオリソースがどのような状況またはどの種類の音であるかを判別して識別情報をマッチングし、マッチングされた結果をフィードバックを通じて検証して人工知能アルゴリズムが学習することによって、信頼性および識別範囲が向上するオーディオデータ識別装置に関する。すなわち、オーディオデータ識別装置は、人工知能アルゴリズムが自ら学習することによって、任意のオーディオについて当該オーディオを区分する能力を向上させることができる。このようなオーディオデータ識別装置は、別の装置として提供されることもあるが、従来の各種端末に搭載されて提供されることもある。具体的に、デスクトップ、ノートパソコンなどに搭載され、インターネットネットワーク網を介してオーディオデータ識別装置が自ら検索して学習する過程を繰り返すことができる。また、ユーザーの個人スマート端末であるスマートフォンやタブレットＰＣなどに搭載され、ユーザーが映像またはオーディオを使用するにつれて当該映像またはオーディオのデータが収集され、オーディオデータ識別装置が学習することもできる。より具体的に、一実施形態によると、ユーザーのスマートフォンに内蔵またはアプリ形式でオーディオデータ識別装置が提供され得、ユーザーがリアルタイムで視聴する映像またはオーディオに基づいてオーディオデータが収集され、当該オーディオデータを所定の単位でパージングした後、パージングされた複数の区間のうち、いずれか１つの区間をオーディオリソースとして抽出し、人工知能アルゴリズムを通じて識別情報マッチングおよびフィードバックを繰り返すことができる。一実施形態のように、ユーザーのスマートフォン上でユーザーの使用によるオーディオデータが収集および分析される場合、各ユーザー基盤で人工知能アルゴリズムが学習されることができるという長所がある。すなわち、個々人オーダーメード型オーディオデータ識別装置を提供し得る。

一方、別のオーディオデータ識別装置が備えられる場合、インターネットネットワークに基づいてオーディオデータ識別装置で自らがキーワード検索を行うことによって、分析するオーディオデータを収集することができる。このように収集されたオーディオデータは、オーディオリソースとして一部区間が分けられて抽出され、オーディオデータ識別装置に搭載された人工知能アルゴリズムを通じて識別情報がマッチングされることができる。マッチングされた識別情報は、不特定多数を通じてフィードバックできるが、このとき不特定多数は、スマート端末のユーザーとして、携帯電話、タブレットＰＣ、デスクトップ、ノートパソコンなどを通じて提供されるアプリやオンラインネットワーク上で所定の代価とともにイベントを受信し得る。一実施形態によると、所定のポイントを獲得する代価として不特定多数のスマートフォンにアプリを介した検証イベントを送信することができる。したがって、当該イベントを受信した不特定多数は、当該オーディオリソースを聞き、人工知能アルゴリズムを通じてマッチングされた識別情報を検証して入力することによって、人工知能アルゴリズムは、フィードバックを受けて学習されることができる。

前述の内容は、本発明のオーディオデータ識別装置の概略的な実施形態を列挙したものであり、以下、図２を参照してオーディオデータ識別装置の具体的な構成を説明し、図３～図７を参照して各実施形態についてより詳細に説明する。

図２は、本発明の一実施形態によるオーディオデータ識別装置を示すブロック図である。図２を参照すると、本発明のオーディオデータ識別装置は、通信部１００および制御部２００で構成され得る。また、後述する検証部２４０で入力される入力端末をさらに含み得る。

まず、通信部１００は、任意のオーディオデータを収集して制御部２００に送信する構成であって、収集部１１０および送信部１２０を含み得る。具体的に、通信部１００は、本発明のオーディオデータ識別装置にともに備えられる端末であり得るが、別の端末の形で具現され得る。すなわち、デスクトップコンピュータ、デジタルＴＶなどの端末であり得、移動可能な携帯電話、ノートパソコン、ＰＤＡ、タブレットＰＣ、ノートパソコン、ウェアラブルデバイスなどの移動端末の形で具現され得る。

収集部１１０は、任意のオーディオデータを収集する構成であって、前述したような通信部１００内で検索を通じて収集されたオーディオデータを任意に収集することができる。具体的に、予め指定された範囲内のキーワードによって検索されることによって、オーディオデータが収集されることができ、ソーシャルネットワーク、ＹｏｕＴｕｂｅ、ブログなどのオーディオデータ収集が可能なネットワークを介して予め指定されたキーワードがランダムに検索され、オーディオデータを収集することができる。具体的に、オーディオデータは、ユーザーの入力によって収集されることもあるが、本発明のオーディオデータ識別装置の性能を向上させるためには、ユーザーの介入なしに別の人工知能神経網を介してランダムに収集されることが好ましい。

送信部１２０は、収集部１１０で収集されたオーディオデータを制御部２００に送信する構成である。具体的に、送信部１２０は有線を介した送信であることもあるが、通信部１００が前述したように別の端末で構成される場合、無線通信を用いた送信を行うことが好ましい。より具体的に、送信部１２０は、放送送信モジュール、移動通信モジュール、無線インターネットモジュール、近距離通信モジュールのうち、少なくとも１つを含んで構成されることによって、収集されたオーディオデータを制御部２００に送信することができる。

制御部２００は、通信部１００から収集されたオーディオデータの伝達を受けて、当該オーディオデータを分析して識別する構成であって、パージング部２１０、抽出部２２０、マッチング部２３０および検証部２４０を含み得る。

以下、制御部２００の各構成は、図３～図７を参照して詳細に説明する。まず、図３は、本発明の一実施形態によるパージング部および抽出部を説明する図である。

図３を参照すると、パージング部２１０は、収集されたオーディオデータを所定の単位でパージングする構成である。具体的に、収集されたオーディオデータは、複数の区間に区分されてパージングされることができ、このときパージングされる複数の区間は、所定の同一単位でパージングされることが好ましい。収集されたオーディオデータは、様々な識別情報を含む音が混ざっているデータがほとんどであるため、各音ごとに正確な識別情報をマッチングして識別力を向上させるために収集されたオーディオデータをパージングした後、パージングされた区間別に抽出して識別情報をマッチングすることが好ましい。具体的に、一実施形態によると、パージング部２１０でオーディオデータをパージングする単位は、０．５秒～２秒からなることが好ましく、１秒程度が最も好ましい。パージングされる所定の単位が短すぎると、抽出されたオーディオリソースの波形や波長などの把握が難しく、一部の区間の波形、波長、および周波数が類似しているオーディオの場合、識別情報のマッチングが困難になることがある。また、所定の単位が長すぎると、オーディオデータに含まれたノイズや多数の識別情報が同時に含まれて区別が難しいことがある。したがって、適切な所定の単位でパージングして区間を区分することが好ましい。

抽出部２２０は、パージング部２１０でオーディオデータのパージングされた複数の区間のうち、いずれか１つの区間をオーディオリソースとして選択する構成である。ここで、オーディオリソースは、後述するマッチング部２３０で識別情報がマッチングされるオーディオデータのうちの一部区間であって、前述した所定の単位でパージングされたオーディオデータの複数の区間のうちの１つとして所定の単位長さのオーディオリソースであることが好ましい。具体的に、オーディオリソースは、各オーディオデータ別に１つだけ抽出されることもあるが、１つのオーディオデータから複数に分けて抽出されることによって、同じオーディオデータの区間別に識別情報のマッチングおよび検証を通じて本発明のオーディオデータ識別装置の信頼性を向上させることができる。

以下、図４～図７を参照して、本発明のマッチング部２３０および検証部２４０について詳細に説明する。図４および図５は、本発明の一実施形態によるマッチング部および検証部のフィードバック過程を説明する図であり、図６および図７は、本発明の他の実施形態によるマッチング部および検証部のフィードバック過程を説明する図である。

マッチング部２３０は、予め搭載された人工知能アルゴリズムによって抽出部２２０から抽出されたオーディオリソースの識別情報をマッチングする構成である。具体的に、図４のように、マッチング部２３０に含まれた人工知能アルゴリズムによって識別情報がマッチングされることができる。具体的に、マッチング部２３０においては、予め学習された人工知能アルゴリズムによって当該オーディオリソースの識別情報がマッチングされることが好ましい。図４を参照して一実施形態によると、予め学習されて搭載された人工知能アルゴリズムが抽出されたオーディオリソースの波長、波形および周波数などを基準に、当該オーディオリソースに「ガンショット」という識別情報をマッチングすることができる。このように識別情報は、当該オーディオリソースの音の種類、音の状況のうち、いずれか１つであり得る。具体的に、マッチング部２３０から伝達されたオーディオリソースは、すべて識別情報がマッチングされることが好ましいが、人工知能アルゴリズムが学習されていない範疇のオーディオリソースは、識別情報のマッチングが困難であり得る。すなわち、マッチング部２３０の人工知能アルゴリズムは、予め指定された所定の範疇内でオーディオリソースに識別情報をマッチングし、ここで所定の範疇は、人工知能アルゴリズムが学習された範疇をいう。具体的に、図６を参照して他の実施形態によると、人工知能アルゴリズムが学習されていない領域に属して所定の範疇内で認識されない場合、当該オーディオリソースは、マッチング部２３０で未分類データとして処理できる。

マッチング部２３０で人工知能アルゴリズムによって識別情報とマッチングされたオーディオリソースは、検証部２４０で検証を通じてフィードバックできる。具体的に、図５および図７のように、検証部２４０においては、オーディオリソースにマッチングされた識別情報を検証した後、検証結果をマッチング部２３０に送信することができる。具体的に、検証部２４０は、本発明のオーディオデータ識別装置自体に内蔵された機器を介して検証結果を入力することができるが、外部端末を介して検証情報を入力することがより好ましい。すなわち、外部端末によるユーザーの入力に基づいて識別情報を判別できる。具体的に、ユーザー個人のスマートフォンまたはタブレットＰＣなどを介してユーザーが検証対象のオーディオリソースを聞いて検証結果を入力することができる。また、ユーザー個人の結果だけでは、信頼度が低下することがあるため、検証結果の信頼性をより向上させるために外部端末による不特定多数の入力に基づいて識別情報を判別できる。すなわち、不特定多数のスマート端末にイベントを送信してオーディオリソースを聞いて検証結果を入力するように要求することができ、不特定多数の入力に基づいて検証結果を判断できる。このとき、同じオーディオリソースについて入力された不特定多数の判決結果の誤差範囲が大きい場合、当該オーディオリソースは、判断が難しいオーディオリソースとして廃棄することが好ましい。具体的に、１０人の不特定多数が同じオーディオリソースを聞いた後、判断した結果がすべて異なる場合、当該オーディオリソースは、適合しないと判断されて廃棄できる。

検証部２４０は、前述したように、ユーザーまたは不特定多数によって検証された結果の入力を受けてマッチング部２３０に送信することができ、このとき、検証部２４０に検証結果は、外部端末を介して入力できる。外部端末は、マッチング部２３０を介してマッチングされたオーディオリソースについての識別情報の真または偽の入力を受けて検証部２４０に送信することができる。具体的に、真に入力された検証結果については、マッチング部２３０に送信して当該オーディオリソースについての人工知能アルゴリズムの正解加重値を高めることができ、偽で入力された検証結果については、マッチング部２３０に送信して当該オーディオリソースおよび当該識別情報を区分する結果についてのフィードバックを通じて人工知能アルゴリズムを学習させることができる。単に真偽のみをフィードバックすることもできるが、図５のように、外部端末を介して検証部２４０は、予め提供された複数の識別子のうち、いずれか１つを選択して入力を受け、選択された識別子とオーディオリソースにマッチングされた識別情報が同一か否かを判別して検証部２４０に送信することができる。

図４および図５を参照して一実施形態を説明すると、検証部２４０は、外部端末を介して予め提供された複数の識別子のうち、いずれか１つを選択して入力を受け、選択された識別子とオーディオリソースにマッチングされた識別情報が同一か否かを判断して検証結果の送信を受けることができる。具体的に、図４に示すように、マッチング部２３０でオーディオリソースをガンショットで識別情報をマッチングした後、検証部２４０で提供された複数の識別子のうち、オーディオリソースを聞いて同一にガンショットで選択した場合、検証部２４０で選択された識別子とオーディオリソースにマッチングされた識別情報を同じであると判断し、検証部２４０は、マッチング部２３０の人工知能アルゴリズムのガンショット判別についての信頼性を向上させることができる。しかし、図４のように検証部２４０で提供された複数の識別子のうち、オーディオリソースを聞き、ユーザーまたは不特定多数が端末を介して選択した識別子がマッチングされた識別情報と異なるＫｎｏｃｋで選択した場合、検証部２４０は、選択された識別子をマッチング部２３０の人工知能アルゴリズムに送信して人工知能アルゴリズムを学習させることができる。したがって、図５に示すように、人工知能アルゴリズムは、検証部２４０で選択された識別子とオーディオリソースをマッチングして学習することができ、互いに異なるオーディオリソースを通じて前記のような過程の繰り返しによってマッチング部２３０の識別情報マッチングの正確度が向上することができる。

図６および図７を参照して他の実施形態を説明すると、マッチング部２３０は、予め指定された所定の範疇内で識別情報をマッチングし、所定の範疇内で認識されない場合、当該オーディオリソースは、未分類データとして処理できる。具体的に、前述したようにマッチング部２３０においては、予め搭載された人工知能アルゴリズムが学習された範疇内で識別情報をマッチングでき、人工知能アルゴリズムが学習されていないオーディオリソースについては、未分類データとして処理されることが好ましい。したがって、図６のように、未分類データとして処理されたオーディオリソースは、ユーザーまたは不特定多数を通じて外部端末から主観式で当該識別情報の入力を受け、入力された当該識別情報を検証部２４０に送信することができる。その後、図７のように、検証部２４０に送信された識別情報は、マッチング部２３０の人工知能アルゴリズムに送信されて人工知能アルゴリズムが学習でき、このような学習過程の繰り返しによってマッチング部２３０で識別情報をマッチングできる所定の範疇が次第に増加できる。ただし、一人のユーザーまたは不特定多数により主観式で入力された識別情報がマッチング部２３０の人工知能アルゴリズムに直接伝達される場合、当該識別情報を提供した個人の主観的な判断によって誤った識別情報が伝達される問題点がある。したがって、１つのオーディオリソースについて多数の入力に基づく識別情報を複数個伝達を受けることが好ましく、複数個入力された識別情報を判別して当該識別情報が統一されず、誤差範囲が大きい場合に当該オーディオリソースは廃棄することが好ましい。ただし、多数の入力が同じであるが、１人の入力のみが異なる場合には、１人の入力にミスがあったと判断して多数の入力に基づいて人工知能アルゴリズムを学習させることができる。このとき、多様な経験と背景を有する不特定多数が多いほど信頼性を向上させることができる。

特に、本発明の一実施形態による人工知能アルゴリズムは、オーディオリソースの識別情報を判断する方法において、オーディオリソースの波形、波長および周波数などを分析して識別情報を判断するとき、いずれか１つの識別情報を判断する基準となる波形、波長、周波数などの範囲を平均範囲より広く指定して判断するほど未分類に分類または廃棄されるオーディオリソースの量を減らすことができ、これらの結果物について検証部２４０のフィードバックを受けることによって、より広範囲かつ信頼性の高いオーディオデータ識別装置を提供できる効果がある。また、本発明のオーディオデータ識別装置によると、個人作業者によって単純フィードバックを業務として提供することによって、人力が浪費されることを防止し、不特定多数に所定の代価を通じてフィードバックを要求することによって、人力を削減すると同時により多様な範囲を有するオーディオデータ識別装置を提供し得る。

本発明によって提供されるオーディオデータ識別装置により、ユーザーオーダーメード型オーディオ認識およびオーディオ情報を提供し得、逆にユーザー要求によるオーディオを提供し得る。具体的に、ユーザー基盤で学習された人工知能アルゴリズムによるオーディオデータ識別装置は、ユーザーが必要とするオーディオ識別情報を提供すれば、当該オーディオデータを提供する結果も引き出すことができる。また、聴覚が完全でない聴覚障害者の場合、危険状況だけでなく、実生活でオーディオを聞くことができないために発生する問題および不便さを甘受している。本発明のオーディオデータ識別装置が聴覚障害者のユーザーデバイスまたは別のデバイスに提供される場合、視覚または触覚などの他の感覚を通じてオーディオ情報をリアルタイムで提供し得る効果も引き出すことができる。具体的に、聴覚障害者が道を歩く途中で見えない後ろで発生する自動車クラクションまたは各種案内などを個人スマートデバイスを通じて振動および視覚的情報提供をして危険信号を案内することができる。また、実生活で赤ちゃんの泣き声、水が沸く音などを視覚的または触覚的に情報を提供し、日常生活で不便さを克服できるようにする。このとき、個人のスマートデバイスは、スマートフォン、スマートウォッチなどの携帯用端末またはウェアラブル機器などとして提供されることがより効率的であり得る。

前述した本発明は、一実施形態に関するものであって、これは単に実施形態に過ぎず、本技術分野における通常の知識を有する者は、これから様々な変形および均等な他の実施形態も可能であろう。したがって、本発明の権利の範囲は、前述の実施形態および添付の図面によって限定されるものではない。

産業上利用可能性

Claims

任意のオーディオデータを収集して伝達する通信部（１００）と、
収集されたオーディオデータを識別する制御部（２００）と、を含み、
前記制御部（２００）は、
収集された前記オーディオデータを所定の単位でパージングするパージング部（２１０）と、
前記オーディオデータのパージングされた複数の区間のうち、いずれか１つの区間をオーディオリソースとして選択する抽出部（２２０）と、
予め搭載された人工知能アルゴリズムによって前記オーディオリソースの識別情報をマッチングするマッチング部（２３０）と、
前記オーディオリソースにマッチングされた識別情報を検証する検証部（２４０）と、を含むことを特徴とするオーディオデータ識別装置。
前記人工知能アルゴリズムは、
前記検証部（２４０）で判別された識別情報の判別結果の入力を受けて学習することを特徴とする請求項１に記載のオーディオデータ識別装置。
前記検証部（２４０）は、
外部端末によるユーザーの入力に基づいて前記識別情報を判別することを特徴とする請求項２に記載のオーディオデータ識別装置。
前記検証部（２４０）は、
外部端末による不特定多数の入力に基づいて前記識別情報を判別するが、前記不特定多数の判別結果の誤差範囲が大きい場合、当該オーディオリソースは廃棄することを特徴とする請求項２に記載のオーディオデータ識別装置
前記外部端末は、
マッチングされた識別情報の真または偽の入力を受けて前記検証部（２４０）に送信することを特徴とする請求項３または請求項４に記載のオーディオデータ識別装置。
前記外部端末は、
予め提供された複数の識別子のうち、いずれか１つを選択して入力を受け、選択された識別子と前記オーディオリソースにマッチングされた識別情報が同一か否かを判別して前記検証部（２４０）に送信することを特徴とする請求項３または請求項４に記載のオーディオデータ識別装置。
前記マッチング部（２３０）は、
予め指定された所定の範疇内で識別情報をマッチングし、前記所定の範疇内に認識されない場合、当該オーディオリソースは、未分類データとして処理し、
前記未分類データとして処理されたオーディオリソースは、
前記外部端末から主観式で当該識別情報の入力を受け、前記検証部（２４０）に送信することを特徴とする請求項３または請求項４に記載のオーディオデータ識別装置。
前記任意のオーディオデータは、
予め指定されたキーワードによって収集されることを特徴とする請求項１に記載のオーディオデータ識別装置。