JP6843450B1 - 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 - Google Patents

教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 Download PDF

Info

Publication number
JP6843450B1
JP6843450B1 JP2019202889A JP2019202889A JP6843450B1 JP 6843450 B1 JP6843450 B1 JP 6843450B1 JP 2019202889 A JP2019202889 A JP 2019202889A JP 2019202889 A JP2019202889 A JP 2019202889A JP 6843450 B1 JP6843450 B1 JP 6843450B1
Authority
JP
Japan
Prior art keywords
content
normal
inspection target
abnormality
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019202889A
Other languages
English (en)
Other versions
JP2021077058A (ja
Inventor
王暁冬
Original Assignee
リーダー電子株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by リーダー電子株式会社 filed Critical リーダー電子株式会社
Priority to JP2019202889A priority Critical patent/JP6843450B1/ja
Priority to PCT/JP2020/035212 priority patent/WO2021090587A1/ja
Priority to EP20884205.4A priority patent/EP4057191A4/en
Priority to US17/755,778 priority patent/US20220394200A1/en
Application granted granted Critical
Publication of JP6843450B1 publication Critical patent/JP6843450B1/ja
Publication of JP2021077058A publication Critical patent/JP2021077058A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

【課題】検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する方法、装置、記録媒体、プログラム及び情報処理装置を提供する。【解決手段】方法は、検査対象に関する正常なコンテンツと、正常なコンテンツから生成した異常なコンテンツを受け、正常なコンテンツと、1以上の異常なコンテンツの組に基づいて教師データを生成する。また、正常なコンテンツと、1以上の異常なコンテンツの組と、コンテンツの正常又は異常を示す情報とを教師データとして使用して学習済みモデルを生成する。【選択図】図4

Description

本開示は、教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置に関する。
コンテンツの提供業者等にとっては、高品質のコンテンツを需要者に届ける義務がある。コンテンツの提供者、例えば放送局では、動画コンテンツを提供する前に、動画コンテンツの品質に異常があるかどうか検査する必要がある。そこで、従来は、モニタ装置にコンテンツ画像を映し出し、検査を行う専門の担当者がこの映し出されたコンテンツ画像を注意深く監視して、画像の品質異常の有無を検査する必要があった。
しかしながら、前述のコンテンツ画像の異常の検査の仕方では、担当者にかかる精神的、肉体的負担が大きく、また画像の異常の検出に個人差が出るという問題があった。一方で、人を使わずに、機械的に品質異常を検出する方法が存在する。しかしながら、異常の検出には検出ソフトウェアを使用して、検出に用いる複数のパラメータのそれぞれに閾値を設定する必要があり、これら閾値の設定の仕方で異常の検出に差が出るという問題があった。
近年では、画像の異常検出を行うために機械学習のアルゴリズムが利用されている。特許文献1に記載のシステムでは、正常データを判別する第1の学習部と、ユーザにより選択された異常候補を正解データ、選択されなかった異常候補を非正解データとして、正解データと非正解データを識別する第2の学習部とを備える機械学習法を用いる。
特開2018−120300号公報
しかしながら、前述の機械学習法では、ユーザが異常候補の選択を行う必要があり、この選択に多大な時間とコストを要するという問題があった。
そこで、本開示の一態様は、検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法である。
また、本開示の他の一態様は、コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させることによって生成される、学習済みモデルの生成方法である。
また、本開示の他の一態様は、コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサとを備え、前記プロセッサは、前記命令を実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、学習済みモデルの生成装置である。
また、本開示の他の一態様は、プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、非一時的な記録媒体である。
また、本開示の他の一態様は、プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、プログラムである。
また、本開示の他の一態様は、検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、方法である。
また、本開示の他の一態様は、検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサと、を備え、前記プロセッサは、前記命令を実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、情報処理装置である。
また、本開示の他の一態様は、プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、非一時的な記録媒体である。
また、本開示の他の一態様は、プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、プログラムである。
以下に述べる種々の側面および実施形態は、装置、回路、方法に関して記述し説明するが、これらは、単なる一例であって説明のためのものであり、したがって範囲限定を意味するものではない。種々の実施形態においては、上記の問題の1つまたはそれ以上が軽減または除去されるが、他の改良のために向けた他の実施形態もある。
[本開示の実施形態の説明]
最初に、本開示の実施形態の内容を列記して説明する。本開示の一実施形態は、以下のような構成を備える。
(項目1) 検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法。
(項目2) 項目1記載の教師データ生成方法で生成された前記教師データを使用して学習済みモデルを生成する方法。
(項目3) コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させることによって生成される、学習済みモデルの生成方法。
(項目4) 項目1から3のいずれか1項に記載の方法であって、前記異常なコンテンツは、任意のアプリケーションを使用して、あるいは人が手動で、あるいは任意のアプリケーションを使用すると共に人が手動で、前記正常なコンテンツに異常を付加したコンテンツである、方法。
(項目5) 項目4に記載の方法であって、前記コンテンツは、動画あるいは静止画のコンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えられた、ブロックノイズ、ずれ、ラインノイズ、残像ノイズ、画像乱れ、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
(項目6) 項目4項に記載の方法であって、前記コンテンツは音声コンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えられた、クリッピングノイズ、インパルスノイズ、連続正弦波、ミュート、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
(項目7) コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサとを備え、前記プロセッサは、前記命令を実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、学習済みモデルの生成装置。
(項目8) プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、非一時的な記録媒体。
(項目9) プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、プログラム。
(項目10) 検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、方法。
(項目11)項目10に記載の方法であって、前記検査対象コンテンツの正常/異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、前記検査対象コンテンツの異常の確率を含む、方法。
(項目12)項目11に記載の方法であって、さらに、前記検査対象コンテンツの異常の確率が、閾値以上の場合に、前記検査対象は異常を含むと判定し、前記閾値は、検査対象コンテンツに異常が含まれているのに、誤って異常なしと判定しないように調整される方法。
(項目13) 検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサと、を備え、前記プロセッサは、前記命令を実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、情報処理装置。
(項目14) 項目13に記載の情報処理装置であって、前記検査対象コンテンツの入力を受ける入力部と、前記検査対象コンテンツの正常/異常を示す情報を表示するディスプレイをさらに備えた、情報処理装置。
(項目15) 項目13に記載の情報処理装置であって、ユーザ端末に対して情報の送受信を行う通信部をさらに備え、前記プロセッサは、前記メモリに記憶された指示を実行することにより、前記通信部を介して、前記ユーザ端末から送信された前記検査対象コンテンツを受け、前記学習済みモデルから取得した前記検査対象コンテンツの正常/異常を示す情報を前記通信部により、前記ユーザ端末に送信する、情報処理装置。
(項目16) プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから前記検査対象コンテンツの正常/異常を示す情報を取得する、非一時的な記録媒体。
(項目17) プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、プログラム。
上記の例示的な実施形態および側面に加え、別の実施形態および側面も、図面を参照しまた以下の説明を検討することにより当業者には明らかとなる。
図1は、本開示の一実施形態に係る、コンテンツに異常があるか否かを判別するためのコンテンツ異常検査方法の概要を示す図である。 図1のコンテンツ異常検査方法における学習フェーズを実施するための、本開示の一実施形態に係る学習済みモデル生成装置のハードウェア構成の例を示すブロック図である。 図2に示す学習済みモデル生成装置の機能的な構成を示すブロック図である。 図2に示した学習済みモデル生成装置の動作を示すフローチャートである。 図1のコンテンツ異常検査方法における推論フェーズを実施するための、本開示の一実施形態に係る推論システムの構成を示すブロック図である。 図5に示した推論システムに含まれるサーバの機能的な構成を示すブロック図である。 図6に示したサーバの動作を示すフローチャートである。 図5に示した推論システムに含まれるユーザ端末のディスプレイに表示される表示画面の例を示す。 第1の所定期間ごとに取得した動画コンテンツをM個のフレームに分割した様子を示す。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと異常コンテンツとのペアのいくつかの例を示す図である。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。 図11A及び図11Bは、第1の所定期間の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトルと、第1の所定期間の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトルを示す。 図11A及び図11Bは、第1の所定期間の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトルと、第1の所定期間の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトルを示す。
以下、本開示の実施形態について図面を参照して説明する。図面において、同一または類似の要素には同一または類似の参照符号が付され、各実施形態の説明において同一または類似の要素に関する重複する説明は省略することがある。また、各実施形態で示される特徴は、互いに矛盾しない限り他の実施形態にも適用可能である。しかし、本開示の実施形態は、必ずしもこのような態様に限定されない。本開示の実施形態が、特許請求の範囲において規定される範囲に含まれる様々な態様を取り得ることは、当業者にとって明らかであろう。
以下、本開示の一実施形態として、学習済みモデル生成装置や、検査対象に異常があるか否かを判別するための異常検査方法等について図面を参照しながら説明する。本開示においては、異常とは、正常でないあらゆるものを含むものとしても良い。また、この異常は、正常な状態のものに人為的に変更を付加したもの、例えば正常な状態のものにノイズを付加したものや、人が正常とは知覚できないものを含んでも良い。さらに、検査対象は、経時変化するものだけでなく、経時変化しないものも対象とすることができる。また、検査対象として、例えば、動画コンテンツや音声コンテンツがあるが、これらには限られない。検査対象として、任意の機器(例えば、駆動装置、加工機械)、あるいはこれら機器から発生する信号等を対象にしてもよい。その場合、検査に使用するコンテンツとしては、それら検査対象の機器から出力される信号等のコンテンツ、検査対象の機器に取り付けたセンサから出力される信号(例えば加速度センサから出力される加速度信号、角速度センサから出力される角速度信号)としてもよい。
なお、以下に説明する実施形態では、検査対象が、放送局から放送される動画コンテンツ、音声コンテンツである場合の例を説明する。
図1は機械学習を用いて検査対象であるコンテンツに異常があるか否かを判別するためのコンテンツ異常検査方法の概要を示す。機械学習は、ディープラーニング、SVM(サポートベクトルマシン)畳み込みニューラルネットワーク(CNN)などを含む。図1(a)は正常なコンテンツと、正常なコンテンツから生成された異常なコンテンツを教師データとして学習する、コンテンツ異常検査方法における学習フェーズを例示する。
(1)まず、正常なコンテンツを取得し、取得した正常なコンテンツと、正常なコンテンツに対応する異常なコンテンツを大量に用意する。異常なコンテンツは、正常なコンテンツに異常を加えたコンテンツであり、正常なコンテンツに基づいて作為的に生成することができる。正常なコンテンツには、正常であることを示すラベル、例えば「0」、異常なコンテンツには、異常であることを示すラベル、例えば「1」を付与する。
(2)ラベル付けされた正常なコンテンツと異常なコンテンツのペアを大量に学習させ、学習データを入力したときの出力が正答に近い値になるよう、モデルを自動で最適化し、学習済みモデルを生成する。本実施形態では、正常なコンテンツを入力したときに「0」、異常なコンテンツを入力したときに「1」を出力するようモデルに学習させる。例えば畳み込みニューラルネットワークを採用する場合、ラベル付きの正常なコンテンツと、ラベル付きの異常なコンテンツのペアを大量に学習し、特徴量を自動的に抽出し、ニューラルネットワークのノード間の関係の重み付け等を調整する。この調整を繰り返し行って次第に出力値が正解の値となるようにする。
図1(b)は、生成された学習済みモデル236を用いて検査対象に含まれる異常の有無を推論する、コンテンツ異常検査方法における推論フェーズを例示する。
(3)検査対象からラベルなしの検査対象コンテンツ106を用意する。その際、検査対象が学習済みモデル236に入力できる形態にない場合には、その入力できる形態への変換処理を行って検査対象コンテンツ106を用意してもよい。
(4)検査対象コンテンツ106を、学習済みモデル236に入力する。学習済みモデル236は、検査対象コンテンツ106に異常が含まれているか否かを示す情報を出力する。例えば、0が出力された場合、検査対象コンテンツ106には異常がなく、1が出力された場合、異常があると予測できる。
このように本開示によると、正常コンテンツと、正常コンテンツに基づいて生成された異常コンテンツとを用いて、検査対象に含まれる異常の有無を判別することができる。以下、図2及び図3を参照して、学習フェーズについて詳細に説明する。
図2は、図1に示す学習フェーズ(a)を実行する情報処理装置としての学習済みモデル生成装置200のハードウェア構成の一例を示す。学習済みモデル生成装置200は、機械学習を行うために使用する端末であり、例えばパーソナルコンピュータ、ワークステーション、またはその他の任意の情報処理装置で構成される。図示するように、学習済みモデル生成装置200は主たるハードウェア要素として、プロセッサ202と、メモリ204と、ユーザ入力インターフェイス(IF)206と、ディスプレイ208とを備える。これら各要素は、バス(不図示)を介して相互に通信可能に接続されている。
メモリ204には、少なくともオペレーティングシステムと学習モデル生成プログラムとが格納されている。オペレーティングシステムは、学習済みモデル生成装置200の全体的な動作を制御するためのコンピュータプログラムである。学習済みモデル生成プログラムは、学習済みモデル生成装置200が後述する学習済みモデル生成処理に含まれる各処理を実現するためのコンピュータプログラムである。メモリ204はまた、学習済みモデル生成装置200の動作によって生成されるデータを一時的又は永続的に記憶することもできる。メモリ204の具体例は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク、フラッシュメモリ、光ディスク、その他の任意の記憶装置である。
プロセッサ202は、メモリ204に格納されているプログラムを読み出して、それに従った処理を実行するように構成される。プロセッサ202がメモリ204に格納された学習済みモデル生成プログラムを実行することによって、後述する学習済みモデル生成処理の各処理が実現される。プロセッサ202は、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)を含む。
ユーザ入力インターフェイス206は、ユーザから学習済みモデル生成装置200を操作するための入力を受け取るように構成される。ユーザ入力インターフェイス206の具体例は、キーボード、マウス、タッチパッド等である。
ディスプレイ208は、学習済みモデル生成装置200のユーザに対して視覚的な情報を提供するように構成される。例えば、ディスプレイ208は、メモリ204に格納された学習済みモデル生成装置200のオペレーティングシステムのホーム画面やデスクトップ画面に、様々なアプリケーションを起動するための複数のアイコンを表示する。一例として、液晶ディスプレイや有機ELディスプレイをディスプレイ208に用いることが可能である。
図3は、図2に示した学習済みモデル生成装置200の機能的な構成を示すブロック図である。学習済みモデル生成装置200は、処理部210及び記憶部230を有する。処理部210はさらに、正常コンテンツ取得部212と、異常コンテンツ生成部214と、教師データ生成部216と、学習部218とを含む。記憶部230は、図2に示したメモリ204に対応する。処理部210及び処理部210に含まれる各部212から216は、図2に示したプロセッサ202がメモリ204内の学習済みモデル生成プログラムを読み出して実行することによって実現される、本開示に係る学習済みモデル生成処理が実現する機能を表している。
記憶部230は、異常を含まない元のコンテンツ232と、教師データ234を記憶する。教師データは、正常なコンテンツと、異常なコンテンツに基づいて生成される。元のコンテンツは、インターネット上から、あるいは公開されているデータベース等から取得したデータ、またはユーザが記録した異常を含まないデータでもよく、また大量のデータで構成されるものでもよい。元のコンテンツは、検査対象が動画の場合は動画コンテンツ、音声の場合は音声コンテンツである。
以下、図4を参照して、元のコンテンツが動画コンテンツあるいは音声コンテンツである場合の、図2に示した学習済みモデル生成装置200の動作フロー400を説明する。
ステップ402において、正常コンテンツ取得部212は、異常を含まない元のコンテンツから、正常コンテンツを取得する。学習モデルに入力データを渡す際には、コンテンツを学習モデルの入力に適した形に変換してもよい。
一例として、元のコンテンツが、動画コンテンツの場合、これを第1の所定期間S秒(例えば4秒)毎に抽出し、抽出した動画コンテンツをさらに1フレームずつに分割し、静止画像を得て、これを正常コンテンツとする。また、元のコンテンツが静止画像の場合は、このような変換処理をせずに、そのまま正常コンテンツとすることができる。
他の例として、元のコンテンツが、音声コンテンツの場合、これを第1の所定期間S秒(例えば4秒)毎に抽出したものを正常コンテンツとする。
次に、ステップ404において、異常コンテンツ生成部214は、ステップ402で得られた正常なコンテンツに異常を加えて異常コンテンツを生成する。正常コンテンツから異常コンテンツを生成する際に、任意のアプリケーションを使用して、正常なコンテンツに自動的に異常を付加してもよいし、あるいは人が手動で異常を付加してもよいし、またこの両方、すなわちアプリケーションと手動の両方で異常を付加してもよい。異常コンテンツの生成方法は、元のコンテンツが動画コンテンツである場合と、音声コンテンツである場合とで異なる。以下、元のコンテンツが動画の場合と、音声の場合の異常コンテンツの生成方法をそれぞれ説明する。
まず、元のコンテンツが動画コンテンツの場合、正常なコンテンツ(ここでは、正常な静止画像)に異常を加えて異常コンテンツを生成する。すなわち、正常な静止画像に作為的に異常を加えて異常コンテンツとする。正常な静止画像とは、人間が見て自然と認識する画像である。異常な静止画像とは、人間が見て不自然と認識する画像であり、画像の一部/全体が乱れたもの、画像の一部が壊れたものや、画像の一部がずれたもの、画像の一部に傷があるものなどを含む。異常な静止画像は、例えば、正常な画像にデジタル的なノイズをランダムに加えて、あるいは既定のノイズを加えて生成することができる。デジタル的なノイズは、任意のアプリケーションを使用して加えられた各種ノイズ(例えば、ブロックノイズ、ラインノイズ、残像ノイズ、画像乱れ)、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである。また、1つの異常コンテンツに加える異常は一種類に限らず、複数種類の異常を加えてもよい。
図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとを例示する。図10Aから図10Dの上側の画像は正常コンテンツ、下側の画像は異常コンテンツである。図10Aは正常コンテンツ(上側)と、正常コンテンツにブロックノイズが加えられた異常コンテンツ(下側)、図10Bは正常コンテンツ(上側)と、該正常コンテンツにずれ(Glitch)が加えられた異常コンテンツ(下側)、図10Cは正常コンテンツ(上側)と、該正常コンテンツにラインノイズが加えられた異常コンテンツ(下側)、図10Dは正常コンテンツ(上側)と、該正常コンテンツに画像乱れが加えられた異常コンテンツ(下側)を示す。図示したように異常画像は人間が見て不自然と認識するものである。当業者であれば、コンテンツには様々な異常を付加することができ、異常は残像ノイズ、画像乱れなども含み、図10Aから図10Dに例示したものに限られないことは理解されよう。
一方、元のコンテンツが音声コンテンツの場合、正常なコンテンツ(ここでは、元のコンテンツを第1の所定期間S秒毎に抽出したもの)に異常を加えて異常コンテンツを生成する。具体的には、正常なコンテンツに対し、本来存在するべきではない周波数成分(例えば高いあるいは低い周波数成分)、またはレベル等の少なくとも1つを付加する。正常な音声とは、人間が聞いて自然な音声である。異常な音声とは、人間が聴いて不自然と認識する音声であり、例えば、正常な音声にデジタル的なノイズをランダムに加えて、あるいは既定のノイズを加えて生成することができる。デジタル的なノイズは、任意のアプリケーションを使用して加えられた各種ノイズ(例えば、クリッピングノイズや、インパルスノイズや、連続正弦波(ピュアトーン)や、ミュート(無音))、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである。
図4に戻り、ステップ406において、教師データ生成部216は、正常コンテンツに正常であることを示すラベル(この例では「0」)、異常コンテンツに異常であることを示すラベル(この例では「1」)を付す。ラベル付けされた1つの正常コンテンツと、ラベル付けられた1以上の異常コンテンツの組に基づいて教師データ234を生成し、記憶部230(図3)に保存する。なお、未知のデータに対する精度が下がってしまう、いわゆる過学習を避けるため、1の正常コンテンツに対し1の異常コンテンツをペアとすることが好ましい。すなわち、1の正常コンテンツから複数の異常コンテンツを生成した場合、1の正常コンテンツと、複数の異常コンテンツのうち1つの異常コンテンツをペアとして、教師データ234を生成することが好ましい。
教師データ234の生成方法は、元のコンテンツが動画コンテンツである場合と、音声コンテンツである場合とで異なる。
元のコンテンツが動画コンテンツの場合は、ステップ402において取得した正常コンテンツと、ステップ404において取得した異常コンテンツのペアにラベルを付してそのまま教師データ234とすることができる。
一方、元のコンテンツが音声コンテンツの場合は、ステップ402及びステップ404で取得した正常コンテンツ、異常コンテンツをそのまま教師データ234とすることができない。取得した正常コンテンツ(異常コンテンツ)をフーリエ変換等して、周波数スペクトルを得て、この周波数スペクトルにラベルを付したものを正常コンテンツ(異常コンテンツ)に対応する教師データ234とする。図11A及び図11Bは、それぞれ、第1の所定期間(ここでは1秒)の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトル(図左(a))と、第1の所定期間(ここでは1秒)の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトル(図右(b))とを例示する。図11Aの右側図(b)は異常としてクリックノイズを加えた時の周波数スペクトル、図11Bの右側図(b)は、異常として連続正弦波を加えたときの周波数スペクトルを例示する。なお、音声コンテンツの特徴を抽出しやすくするためにフーリエ変換(例えば、高速フーリエ変換、短時間フーリエ変換)前に、例えば抽出した音声コンテンツを低周波遮断、または他の何らかの適切な種類のフィルタを用いてフィルタリング処理してもよい。また、例えば、公知のMFCC(メル周波数ケプストラム)分析等を行って音声コンテンツの特徴を求めてもよい。これらの処理の結果得られたものにラベルを付したものを正常コンテンツ(異常コンテンツ)に対応する教師データ234としてもよい。
次に、ステップ408において、学習部218は、記憶部230に保存された教師データ234を使用して学習を行う。期待されるラベルと、学習モデルが計算した出力結果を比較し、出力結果がラベルに近くなるよう学習モデルを修正する。すなわち、学習モデルは、例えば正常な静止画像を入力すると、正常であることを示すラベル1を、異常な静止画像を入力すると、異常であることを示すラベル0を出力するよう修正される。修正を繰り返した後に、出力値が、正解の値になってくると、学習済みモデル236が完成する。最終的な学習済みモデル236が完成すると、これを記憶部230に保存する。
一般的に、機械学習を行うには大量のラベル付きデータが必要であるが、人によるラベル付け作業は繁雑である。本開示によると、異常を含まない元のコンテンツに基づいて、作為的に不自然な値を加えた異常なコンテンツを生成し、この生成した異常コンテンツに対し自動的にラベル付けを行うことができ、その結果、ラベル付け作業を、短時間化または低コスト化またはその両方を実現することができる。また、一般的には、ラベル数は少ない方が、学習済みモデルの精度が高くなることが知られている。本開示によると、ラベルは正常、異常を示す2つであり、高い精度で正常・異常の判定結果を得ることができる。
さらに、本開示によると、異常を含まない元のデータに基づいて異常コンテンツを生成するため、1の正常コンテンツに対し、多数の異常コンテンツを容易に用意することができる。本開示では、物としての正常品に対して、物としての異常品を用意し、これらを撮像した画像を取得する必要はない。本開示によると、物としての異常品を用意することなく、多数の異常データを用意することができ、その結果、正常なコンテンツと、これに対応する異常コンテンツの組み合わせを多数用意することができる。このため、単一の組み合わせを用いて学習する場合よりも教師データの数が増大する。これにより、学習の高精度化、効率化を図ることができる。また、ペアの数が多ければ学習を高精度に行えるので、異常を含まない元のコンテンツの数を大幅に減らすことが可能である。
図5は、図1のコンテンツ異常検査方法における推論フェーズ(b)を実施するための推論システム50の構成を示す。推論システム50は、それぞれ任意の情報処理装置で実施できるユーザ端末500とサーバ600とを備える。ユーザ端末500は、ユーザが、検査対象をサーバ600にアップロードしたり、サーバ600から受け取った推論結果に基づく表示を行うアプリケーション画面で検査対象に異常があるかを確認したりする端末である。サーバ600は、検査対象に異常があるか否かを推論するコンピュータである。ユーザ端末500とサーバ600は、通信ネットワーク(NW)51を介して相互に通信可能に接続されている。通信ネットワーク51は、例えばインターネットやLAN(Local Area Network)などの任意のタイプのネットワークであってよい。図5には1台のユーザ端末500のみが示されているが、推論システム50は、それぞれが別個のユーザによって使用される任意の数のユーザ端末を含んでもよい。また、図5には1台のサーバ600が示されているが、サーバ600は、複数台で構成されてもよいし、クラウドで構成されてもよい。
図示するように、ユーザ端末500は、主たるハードウェア要素として、プロセッサ502、メモリ504、ディスプレイ506、ユーザ入力インターフェイス(ユーザ入力IF)508、及び通信インターフェイス(通信IF)510を備える。これら各要素は、バス(不図示)を介して相互に通信可能に接続されている。ユーザ端末500は、例えば、スマートフォン、タブレット端末、又はパーソナルコンピュータ等で実現することが可能である。以下、既に説明した要素と同様の要素についての詳細な説明は省略することがある。
メモリ504には、少なくともオペレーティングシステムと推論プログラムを実行するための端末側プログラムとが格納されている。端末側プログラムは、ユーザからの入力を受け取り、サーバ600へ検査対象コンテンツ106をアップロードする処理や、検査対象に対する推論結果を受信等する処理の機能を実現するためのコンピュータプログラムである。メモリ504はまた、検査対象コンテンツ106を記憶してもよい。
メモリ504は、その一部がユーザ端末500本体の外部に別体として備えられてもよい。この場合、別体の外部メモリ(不図示)に検査対象コンテンツ106を格納する。ユーザ端末500は外部メモリにアクセスして、ユーザ端末500からの指示に従って該外部メモリから通信ネットワーク51を介してサーバ600へ検査対象コンテンツ106をアップロードすることができる。このため、ユーザ端末500内のメモリに検査対象コンテンツ106を格納しなくてもよい。
ディスプレイ506は、ユーザ端末500のユーザに対して視覚的な情報を提供するように構成される。例えば、ディスプレイ506は、メモリ504に格納されたユーザ端末500のオペレーティングシステムのホーム画面やデスクトップ画面に、様々なアプリケーションを起動するための複数のアイコンを表示する。ディスプレイ506はさらに、クライアントプログラムの実行画面に、推論処理の結果として生成された結果画像を表示する。
ユーザ入力インターフェイス508は、ユーザからユーザ端末500を操作するための入力を受け取るように構成される。ユーザ入力インターフェイス508の具体例は、タッチパッド、マウス、キーボード等である。
なお、ユーザ端末500がスマートフォン又はタブレット端末として実現される場合には、ディスプレイ506とユーザ入力インターフェイス508をタッチパネルとして一体的に構成することとしてもよい。また、ユーザ端末500がパーソナルコンピュータとして実現される場合には、ディスプレイ506とユーザ入力インターフェイス508がユーザ端末500本体の外部に別体として備えられるのであってもよい。
通信インターフェイス510は、通信ネットワーク51を介してサーバ600と通信するためのネットワークインターフェイスである。通信インターフェイス510は、例えばTCP/IP(Transmission Control Protocol / Internet Protocol)を含む所定の通信プロトコルに従ってデータをサーバ600との間で送受信するように構成してもよい。
図5にはさらに、サーバ600のハードウェア構成図が示されている。サーバ600は、主たるハードウェア要素として、プロセッサ602、メモリ604、及び通信インターフェイス(IF)606を備える。これら各要素は、バス(不図示)を介して相互に通信可能に接続されている。以下、既に説明した要素と同様の要素についての詳細な説明は省略する。
メモリ604には、サーバ600の全体的な動作を制御するオペレーティングシステムに加えて、サーバプログラムが格納されている。サーバプログラムは、推論処理の実行に関連するサーバ側の各処理をサーバ600に実行させるためのコンピュータプログラムである。プロセッサ602がメモリ604に格納された推論プログラムを実行することによって、後述するサーバ側の各機能が実現される。
通信インターフェイス606は、通信ネットワーク51を介して(1又は複数の)ユーザ端末500と通信するためのネットワークインターフェイスである。
図6は、図5の推論システムの一部を構成するサーバ600の機能的な構成を示すブロック図である。サーバ600は、処理部610と、記憶部630を備える。処理部610は、検査対象取得部612と、推論部614と、判定部616と、プレビューコンテンツ生成部618と、出力部620とを備える。記憶部630は、図5に示すメモリ604に対応する。記憶部630は、検査対象コンテンツ106と、学習済みモデル236と、学習済みモデル236による推論結果632と、異常と推論された箇所を含むプレビューコンテンツ634と、プレビューコンテンツ634のサムネイル636とを備える。処理部610及び処理部610に含まれる各部612から620は、図5に示すプロセッサ602がメモリ604内のプログラムを読み出して実行することによって実現される、本開示に係る推論処理の機能を表す。
以下、図7を参照して、検査対象が動画コンテンツ、あるいは音声コンテンツである場合の、図6のサーバ600の動作フロー700を説明する。図7に示す動作フロー700の処理の実行に先立ち、記憶部630には、学習済みモデル236が予め格納されている。
ステップ702において、検査対象取得部612は、ユーザ端末500によってサーバ600にアップロードされたラベルのない検査対象コンテンツ106を取得する。
次に、ステップ704において、検査対象取得部612は、取得した検査対象コンテンツ106を学習済みモデル236への入力に適した形に変換する。動画コンテンツの場合、検査対象コンテンツ106から第1の所定期間S秒(例えば4秒)のコンテンツを抽出し、抽出したコンテンツを1フレームずつに分割し、複数の静止画像コンテンツとする。音声コンテンツの場合、第1の所定期間S秒のコンテンツを抽出し、該抽出した音声コンテンツをフーリエ変換等して、音声コンテンツの周波数スペクトルを表すコンテンツを得る。
次に、ステップ708において、推論部614は、ステップ704にて変換されたコンテンツを学習済みモデル236へ入力し、推論結果632(ここでは、0から1の値)を得て、これをそれぞれ記憶部630に格納する。
次にステップ710において、判定部616は記憶部630から推論結果632を取得し、これを時系列に整列し、推論結果632が所定の閾値未満、例えば0.99であるか否かを判定する。判定部616は出力結果が所定の閾値未満の場合、正常であると判定する。一方、所定の閾値未満ではない場合、検査対象コンテンツ106には異常があると判定する。
次にステップ712において、プレビューコンテンツ生成部618は、整列された推論結果632から、プレビューコンテンツの動作中心点を探す。プレビューコンテンツ生成部618は、検査対象コンテンツ106の全体を確認しなくとも、検査対象コンテンツ106に異常があるか否かの確認できるように、異常があると推論されたコンテンツの一部をプレビューコンテンツ634として抽出する。なお、1つの検査対象コンテンツ106に、異常有りとの推論結果が断続的に複数存在する場合、プレビューコンテンツ生成部618は、異常箇所それぞれに対し、プレビューコンテンツ634を生成する。
プレビューコンテンツ生成部618がプレビューコンテンツの動作中心点を探す手順の例は、以下のとおりである。プレビューコンテンツ生成部618は、まず、整列された第1の所定期間S秒の推論結果を取得する。次に、取得した推論結果について、以下の1から5の処理を行う。
1. まず、第1の所定期間S秒の推論結果のうち、閾値以上であり、かつ、最も1に近い値あるいは1を探す。
2. 推論結果に1がない場合、最も1に近い値が対応付けられたフレームを動作中心点とする。
3. 推論結果に1がある場合、1が対応付けられたフレームを動作中心点にする。
4. 異常を示す推論結果、すなわち所定の閾値以上の推論結果が連続して出現した場合、対応する連続するフレームのうち、中央のフレームを動作中心点にする。
5. 第1の所定期間S秒内の推論結果に複数の中心がある場合、最前方の中心を動作中心点とする。
プレビューコンテンツ生成部618は、上記1から5の手順により探した動作中心点と、動作中心点前後の第2の所定期間T秒(例えば3秒)に亘るコンテンツを検査対象コンテンツ106から抽出し、プレビューコンテンツ634として、記憶部630に格納する。プレビューコンテンツ634を再生すると、ユーザは、まず異常がないと推論されたコンテンツが第2の所定期間T秒に亘り視認した後に、異常があると推論されたコンテンツを視認し、その後、第2の所定期間T秒に亘り異常がないと推論されたコンテンツを視認してもよい。こうすることにより、ユーザは、プレビューコンテンツ634を確認する際に、異常な部分と、正常な部分とを比較しやすくなる。なお、異常有りとの推論結果が連続して出現した場合、この連続する期間の前後の第2の所定期間T秒に亘って、コンテンツを検査対象コンテンツ106から抽出してもよい。
検査対象コンテンツ106全体について、コンテンツの変換処理(ステップ704)、推論処理(ステップ706、ステップ708)、判定処理(ステップ710)、プレビューコンテンツ生成処理(ステップ712)を繰り返し行う。検査対象コンテンツ106全体の処理が終わると、ステップ714に進む。
ステップ714において、出力部620は、異常箇所の発生時刻と、プレビューコンテンツ634と、プレビューコンテンツ634に対応付けられた推論結果とを通信インターフェイス606を介してユーザ端末500に送信する。
図8を参照して、ユーザ端末500のディスプレイ506に表示される画面800の例について説明する。ユーザ端末500は、受信したプレビューコンテンツ634等をディスプレイ506に表示する。
802は、1つの検査対象コンテンツ106から抽出された複数の異常有りと推論された箇所に割り当てられた番号である。本実施例では、3つの箇所(異常箇所1、異常箇所2、異常箇所3)に異常があると判定されている。表示画面800は、複数の検査対象コンテンツ106に関する異常箇所を一度に表示するよう構成してもよい。
804は、異常があると判定された箇所の発生時刻を示す。例えば、異常箇所1は、検査対象コンテンツ106の再生開始から1分36秒後に発生すると推論されている。
806は、プレビューコンテンツ634のサムネイル636を表す。ユーザ端末500は、ユーザによる、サムネイル636のクリックないしタップを受け付けると、ディスプレイ506に画面(不図示)をポップアップさせる。ユーザはポップアップされた画面で、異常箇所を含むプレビューコンテンツ634を再生することができる。プレビューコンテンツ634が再生されると、第2の所定期間T秒(例えば3秒)に亘り正常な箇所が再生された後に異常であると推論された箇所が再生され、さらに第2の所定期間T秒に亘り正常な箇所が再生される。
808は、異常であると推論された箇所が、実際に異常である確率であり、これを信頼度(Confidence)と称する。信頼度は、ステップ706において推論部614が取得した学習済みモデル236からの推論結果(正確には推論結果に100をかけたもの)である。推論結果632は、検査対象となるコンテンツが異常を含む確率を示す。例えば、推論結果が1の場合、この推論結果に対応するフレームは100%異常であり、0.1の場合、この推論結果に対応するフレームが異常である確率は10%である。上述した動作中心点に指定されたフレームに対応付けられる推論結果を信頼度とする。なお、本実施形態では、異常箇所1が異常を含む確率、すなわち信頼度は99.31%である。本開示では、信頼度が99%(閾値0.99に100をかけた値)以上を異常と判定する。
次に、図9を参照して、検査対象コンテンツ106が動画コンテンツである場合の、推論結果aと、各フレームと、閾値との関係を説明する。
図9は、第1の所定期間S秒(4秒)ごとに取得したS秒間の動画コンテンツをM個のフレームに分割した様子を示す。例えば、第1の所定期間Sが4秒であり、フレームレートが30fpsの場合、120(=M)のフレームが生成される。
図9はまた、120フレーム全てを学習済みモデル236へ入力し、各フレームに対して得られた推論結果を示す。図9において、推論結果aは、フレーム1では、0.2、フレーム2では0.21、フレームN−1では0.99、フレームNでは1.0、フレームN+1では0.998である。ここで、閾値が0.99とすると、判定部616は、フレームN−1、フレームN、フレームN+1は閾値未満ではないので、これらのフレームは異常有りと判定する。
プレビューコンテンツ生成部618は、異常有りと判定されたフレームNを中心として、フレームNの時刻の前後第2の所定期間T(3秒)に亘るコンテンツをプレビューコンテンツ634として抽出し、このプレビューコンテンツ634と、異常ありと判定した時刻と、推論結果とを記憶部630に格納する。また、プレビューコンテンツ生成部618は、抽出したプレビューコンテンツ634からサムネイル636を生成し、記憶部630に格納する。
本開示によると、異常が含まれる検査対象コンテンツを検出できる確率を高く、すなわち100%にすることが好ましい。したがって、異常がないと推論したコンテンツについて、本当は異常が含まれているのに誤って異常なしと推論することを回避するよう閾値を調整(本開示では閾値は0.99に設定)する。これにより正常なコンテンツも異常が含まれていると判断する確率は高くなるが、異常が含まれているコンテンツを確実に検出することができる。すなわち、本開示によると、異常が含まれているコンテンツの見落としになる誤検出をしないように閾値を調整する。
以上、本開示の実施形態について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。上記した実施形態では、検査対象が、放送局からの放送信号としての動画コンテンツおよび音声コンテンツである場合の例を説明したが、放送信号だけでなく、インターネットなどのネットワークを介して配信される任意のコンテンツも検査対象にすることができる。また、前述したように、検査対象として、任意の機器あるいはこれら機器に関連する信号等を対象とすることができるため、それら機器に関する動画、静止画などの画像コンテンツ、機器から発生する音などの音声コンテンツを検査対象に使用することもできる。その場合、検査対象は、機器に取り付けたセンサ等から得られる信号でもよい。
一例として、異常を含まない元のコンテンツは、例えば、正常運転している各種機器の状態を監視する各種センサ(加速度センサ、角速度センサ、温度センサ、気圧センサ、流量センサ、輝度センサ等)から得られる信号である。この元のコンテンツから、正常コンテンツ、異常コンテンツを生成する。センサ等から得られる信号の学習フェーズにおける処理、推論フェーズにおける処理は、音声コンテンツの場合の処理と同様である。
本開示によると、運転している機械が故障したときに、記録した機械音から過去に生じた機械の異常を検出することもできる。正常運転時の機械の運転音を記録し、これから正常コンテンツを生成する。この正常コンテンツと、正常なコンテンツに異常を付加した異常コンテンツとに基づいて教師データを生成する。生成された教師データから学習済みモデルを生成する。この学習済みモデルを用いて過去に生じた機械の異常を検出する。
あるいは、他の例として、運転している機械が故障したときに、記録した各種センサからのデータから、過去に生じた機械の異常を検出することもできる。正常運転時の各種センサからのデータを記録し、これから正常コンテンツを生成する。この正常コンテンツと、正常なコンテンツに異常を付加した異常コンテンツとに基づいて教師データを生成する。生成された教師データから学習済みモデルを生成する。この学習済みモデルを用いて過去に生じた機械の異常を検出する。
以上、種々の例示的な側面および実施形態について詳述したが、当業者には、種々の変更、置換、追加、サブコンビネーションが認識される。したがって、添付の請求の範囲に記載した請求項および将来請求の範囲に含めることのある請求項の解釈は、真の範囲内にあるものとしてのあらゆるそのような変更、置換、追加、サブコンビネーション等もそれら請求項が包含するもの、としてなされるよう意図している。
50…推論システム
51…通信ネットワーク
106…検査対象コンテンツ
200…情報処理装置
210…処理部
212…正常コンテンツ取得部
214…異常コンテンツ生成部
216…教師データ生成部
218…学習部
230…記憶部
232…元のコンテンツ
234…教師データ
236…学習済みモデル
500…ユーザ端末
510…通信インターフェイス
600…サーバ
612…検査対象取得部
614…推論部
616…判定部
618…プレビューコンテンツ生成部
620…出力部
630…記憶部
632…推論結果
634…プレビューコンテンツ
636…サムネイル

Claims (9)

  1. 検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、
    前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
    前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得
    前記検査対象コンテンツの正常/異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、および前記検査対象コンテンツの異常の確率を含む、方法。
  2. 請求項1に記載の方法であって、さらに、前記検査対象コンテンツの異常の確率が、閾値以上の場合に、前記検査対象は異常を含むと判定し、
    前記閾値は、検査対象コンテンツに異常が含まれているのに、誤って異常なしと判定しないように調整される方法。
  3. 請求項1または2に記載の方法であって、さらに
    時系列に整列した第1の所定期間の前記検査対象コンテンツの異常の確率を取得し、
    取得した前記検査対象コンテンツの異常の確率が閾値以上であり、かつ取得した前記異常の確率が、前記検査対象コンテンツが異常であることを示す値に最も近い値となる期間を探す、方法。
  4. 請求項3に記載の方法であって、さらに
    前記検査対象コンテンツが異常であることを示す値に最も近い値となる期間の中心となる動作中心点の前後の第2の所定期間に亘るコンテンツをプレビューコンテンツとして抽出する、方法。
  5. 検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、
    命令を記録するメモリと、
    メモリに記録された前記命令を実行するプロセッサと、
    ユーザ端末に対して情報の送受信を行う通信部と、
    を備え、前記プロセッサは、前記命令を実行することにより、
    前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記通信部を介して、前記ユーザ端末から送信された前記検査対象コンテンツを入力データとして与え、
    前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得
    前記学習済みモデルから取得した前記検査対象コンテンツの正常/異常を示す情報を前記通信部により、前記ユーザ端末に送信する、情報処理装置。
  6. 請求項に記載の情報処理装置であって、
    前記検査対象コンテンツの入力を受ける入力部と、
    前記検査対象コンテンツの正常/異常を示す情報を表示するディスプレイと、
    をさらに備えた、情報処理装置。
  7. 請求項5または6に記載の情報処理装置であって、前記検査対象コンテンツの正常/異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、および前記検査対象コンテンツの異常の確率を含む、情報処理装置。
  8. プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、
    査対象コンテンツが正常であるか異常であるかを判別するために、検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデル
    に、前記検査対象コンテンツを入力データとして与え、
    前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得
    前記検査対象コンテンツの正常/異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、および前記検査対象コンテンツの異常の確率を含む、
    非一時的な記録媒体。
  9. プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、
    査対象コンテンツが正常であるか異常であるかを判別するために、検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
    前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得
    前記検査対象コンテンツの正常/異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、および前記検査対象コンテンツの異常の確率を含む、
    プログラム。
JP2019202889A 2019-11-08 2019-11-08 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 Active JP6843450B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019202889A JP6843450B1 (ja) 2019-11-08 2019-11-08 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置
PCT/JP2020/035212 WO2021090587A1 (ja) 2019-11-08 2020-09-17 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置
EP20884205.4A EP4057191A4 (en) 2019-11-08 2020-09-17 TEACHER DATA GENERATION METHOD, METHOD FOR GENERATING A TRAINED MODEL, APPARATUS, RECORDING MEDIUM, PROGRAM AND INFORMATION PROCESSING APPARATUS
US17/755,778 US20220394200A1 (en) 2019-11-08 2020-09-17 Training data generation method, method and device for generating learned model, recording medium, program, and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019202889A JP6843450B1 (ja) 2019-11-08 2019-11-08 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置

Publications (2)

Publication Number Publication Date
JP6843450B1 true JP6843450B1 (ja) 2021-03-17
JP2021077058A JP2021077058A (ja) 2021-05-20

Family

ID=74860807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019202889A Active JP6843450B1 (ja) 2019-11-08 2019-11-08 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置

Country Status (4)

Country Link
US (1) US20220394200A1 (ja)
EP (1) EP4057191A4 (ja)
JP (1) JP6843450B1 (ja)
WO (1) WO2021090587A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022163251A (ja) * 2021-04-14 2022-10-26 Heroz株式会社 プログラム、方法、情報処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320251A (ja) * 1995-05-25 1996-12-03 Fuji Facom Corp 設備における音響および振動の診断方法
JP6809250B2 (ja) 2017-01-23 2021-01-06 株式会社リコー 情報処理装置、情報処理方法およびプログラム
JP6661559B2 (ja) * 2017-02-03 2020-03-11 株式会社東芝 異常検出装置、異常検出方法およびプログラム
JP6778655B2 (ja) * 2017-06-08 2020-11-04 日本電信電話株式会社 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP6879431B2 (ja) * 2018-03-29 2021-06-02 日本電気株式会社 画像処理装置、画像処理方法および画像処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022163251A (ja) * 2021-04-14 2022-10-26 Heroz株式会社 プログラム、方法、情報処理装置
JP7282122B2 (ja) 2021-04-14 2023-05-26 Heroz株式会社 プログラム、方法、情報処理装置

Also Published As

Publication number Publication date
WO2021090587A1 (ja) 2021-05-14
JP2021077058A (ja) 2021-05-20
EP4057191A4 (en) 2023-10-25
US20220394200A1 (en) 2022-12-08
EP4057191A1 (en) 2022-09-14

Similar Documents

Publication Publication Date Title
US11456005B2 (en) Audio-visual speech separation
JP7101315B2 (ja) 画像データを自然言語の説明に変換するためのシステム及び方法
US11094311B2 (en) Speech synthesizing devices and methods for mimicking voices of public figures
EP4195102A1 (en) Image recognition method and apparatus, computing device and computer-readable storage medium
CN110473525B (zh) 获取语音训练样本的方法和装置
WO2019242222A1 (zh) 用于生成信息的方法和装置
US11670015B2 (en) Method and apparatus for generating video
WO2019237657A1 (zh) 用于生成模型的方法和装置
US10560508B2 (en) Personalized video playback
US11514925B2 (en) Using a predictive model to automatically enhance audio having various audio quality issues
JP6843450B1 (ja) 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置
CN112423019B (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
JPWO2020026829A1 (ja) 音データ処理方法、音データ処理装置及びプログラム
Sexton et al. Automatic CNN-based enhancement of 360° video experience with multisensorial effects
JP6367748B2 (ja) 認識装置、映像コンテンツ提示システム
CN110322525B (zh) 一种动图处理方法及终端
CN107995538B (zh) 视频批注方法及系统
US20210056957A1 (en) Ability Classification
US10748554B2 (en) Audio source identification
CN113591515B (zh) 专注度处理方法、装置及存储介质
CN114155852A (zh) 语音处理方法、装置、电子设备及存储介质
JP6619072B2 (ja) 音合成装置、音合成方法、及びそのプログラム
CN115811590A (zh) 行动影音装置及影音播放控制方法
US20200388270A1 (en) Speech synthesizing devices and methods for mimicking voices of children for cartoons and other content
JP6890867B1 (ja) 評価プログラム、及び評価システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 6843450

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150