JP7052395B2 - 学習プログラム、学習方法および学習装置 - Google Patents

学習プログラム、学習方法および学習装置 Download PDF

Info

Publication number
JP7052395B2
JP7052395B2 JP2018022708A JP2018022708A JP7052395B2 JP 7052395 B2 JP7052395 B2 JP 7052395B2 JP 2018022708 A JP2018022708 A JP 2018022708A JP 2018022708 A JP2018022708 A JP 2018022708A JP 7052395 B2 JP7052395 B2 JP 7052395B2
Authority
JP
Japan
Prior art keywords
documents
learning
items
cause
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018022708A
Other languages
English (en)
Other versions
JP2019139534A (ja
Inventor
浩子 鈴木
勇 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018022708A priority Critical patent/JP7052395B2/ja
Priority to US16/268,958 priority patent/US20190251100A1/en
Publication of JP2019139534A publication Critical patent/JP2019139534A/ja
Application granted granted Critical
Publication of JP7052395B2 publication Critical patent/JP7052395B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、学習プログラム、学習方法および学習装置に関する。
各種の製品を市場に出荷するメーカーでは、製品出荷後の市場品質マネジメントが重要な経営課題となっている。市場品質マネジメントでは、市場に出た製品の障害レポートであるフィールド障害レポートの各々について、発生事象・発生原因・対策方法が判明している既知の不具合事例のどの事例に該当するかを判別する。そして、判別した事例を参照することで、レポートの障害対応を行う。
図8は、市場品質マネジメントの業務の流れを例示する説明図である。図8に示すように、市場品質マネジメントでは、市場に出荷された製品について、1件の障害が発生して対策を実施するまでの流れ(S201)の中でその障害に関する1件のフィールド障害レポート201が作成される。このフィールド障害レポート201には、事象、原因、対策などの順に障害に関する情報が記述される。
このように作成された複数のフィールド障害レポート201について、製品を出荷するメーカーでは、障害の傾向分析を行う(S202)。そして、障害対応が行き届いているかの対応状況の確認(S203)と、互いに共通する事例の中で重点対応の要否検討(S204)とを行う。
複数のフィールド障害レポート201において共通する事例の中で、重点対応が必要である事例については、不具合事例202として不具合事例DB203に登録する。市場品質マネジメントにおいては、このように頻発する障害をナレッジ化しておくことで、障害事象を調査する際に活用する。
障害事象を調査する際におけるフィールド障害レポートの判別では、既知の不具合事例を正解データとして機械学習により判別モデルを構築し、構築した判別モデルを用いている。これにより、フィールド障害レポートの各々がどの不具合事例に該当するかを高精度かつ効率的に特定し、迅速な障害対応を実現している。
機械学習に正解データとして用いる既知の不具合事例は件数が少なく、精度の高い判別モデルを構築するためにフィールド障害レポートに対し人手による正例・負例のラベル付けを行う手法があるが、人手による負荷が増えることとなる。
人手に頼らずにラベル付けをして学習する学習方法については、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出されるスコアが大きい場合に正例と分類されるようにする学習方法が知られている。
特開2015-1968号公報 特開2013-131073号公報 特開2006-31213号公報 特開2006-99565号公報
しかしながら、上記の従来技術では、例えば、スコアが小さいものはラベル付けが行われず、機械学習に用いられないこととなり、モデルの判別精度が不十分となる場合がある。
1つの側面では、モデルの判別精度を向上させることを可能とする学習プログラム、学習方法および学習装置を提供することを目的とする。
第1の案では、学習プログラムは、特定の対象に関する事象についての、現象と原因と、対象に関する複数の項目とを含む文書の判別を行うモデルの学習をさせるプログラムであって、抽出する処理と、順序づける処理と、付与する処理と、学習を行う処理とをコンピュータに実行させる。抽出する処理は、学習対象となる特定の対象の複数の文書について、現象および原因が共通である複数の文書それぞれに対し、当該文書間で共通する項目を抽出する。順序づける処理は、抽出された複数の文書に含まれる項目の出現頻度に基づき、複数の文書を順序づける。付与する処理は、順序づけ結果に応じて、複数の文書それぞれに対し、正例、または、負例のラベルを付与する。学習を行う処理は、複数の文書および付与されたラベルを用いて、モデルの学習を行う。
本発明の1実施態様によれば、モデルの判別精度を向上させることができる。
図1は、フィールド障害レポートの判別を説明する説明図である。 図2は、不具合事例を例示する説明図である。 図3は、フィールド障害レポートを例示する説明図である。 図4は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。 図5は、学習フェーズの動作例を示すフローチャートである。 図6は、適用フェーズの動作例を示すフローチャートである。 図7は、プログラムを実行するコンピュータの一例を示す説明図である。 図8は、市場品質マネジメントの業務の流れを例示する説明図である。
以下、図面を参照して、実施形態にかかる学習プログラム、学習方法および学習装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習プログラム、学習方法および学習装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、フィールド障害レポートの判別を説明する説明図である。図1に示すように、学習フェーズ(S1)では、不具合事例DB10のおける既知の不具合事例11を正解データとして、判別対象のフィールド障害レポート13が不具合事例11に該当するか否かの判別を一般的な二値分類の機械学習手法を用いて行う判定モデル20について学習する。
ここで、学習フェーズ(S1)では、正解データとする不具合事例11を用いて複数のフィールド障害レポート12について正例・負例のラベルを付与する。そして、ラベルを付与したフィールド障害レポート12を判定モデル20の学習にかかる教師データ(訓練データ)として追加する。このように、正例・負例のラベルを付与したフィールド障害レポート12を判定モデル20の学習時における教師データに追加して教師データのサンプル数を多くすることで、判定モデル20の判別精度を高めることができる。
適用フェーズ(S2)では、学習した判定モデル20を判別対象のフィールド障害レポート13に適用することで、個々のフィールド障害レポート13が不具合事例11に該当するか否かを判別する。S3では、適用フェーズの判別結果をディスプレイなどに出力する。
図2は、不具合事例11を例示する説明図である。図2に示すように、不具合事例11は、障害の傾向分析を行った後の既知の事例であり、現象と原因、および、対象に関する複数の項目を含む文書である。具体的には、不具合事例11は、事例を識別する「事例ID」ごとに、「事例名」、「緊急度」、「告知対象範囲」、「対象機種」、「概要情報」、「現象詳細情報」、「原因詳細情報」、「処置詳細情報」などの情報を含む。
「事例名」は、事例についての名称を示す。「緊急度」は、事例における対策の緊急度合いを示す。「告知対象範囲」は、事例を告知する範囲(社内、社外など)を示す。「対象機種」は、事例の対象となる製品の機種を示す。「概要情報」は、事例の概要を示す。「現象詳細情報」は、事例の現象を詳細に示す。「原因詳細情報」は、事例の原因を詳細に示す。「処置詳細情報」は、事例に対する処置を詳細に示す。
図3は、フィールド障害レポート12、13を例示する説明図である。図3に示すように、1件の障害が発生して対策を実施するまでの内容を記載した文書であり、不具合事例11と同様に現象と原因、および、対象に関する複数の項目を含む文書である。具体的には、フィールド障害レポート12、13は、障害の案件を識別する「案件ID」ごとに、「顧客ID」、「顧客名」、「発生年月日」、「装置名」、「発生した現象の詳細情報」、「原因の詳細情報」、「対応・処置の詳細情報」、「現象名」、「原因と思われる箇所」などの情報を含む。
「顧客ID」は、顧客を識別するIDを示す。「顧客名」は、顧客についての名称を示す。「発生年月日」は、障害が発生した年月日を示す。「装置名」は、障害にかかる装置名を示す。「発生した現象の詳細情報」は、障害の現象を詳細に示す。「原因の詳細情報」は、障害の原因を詳細に示す。「対応・処置の詳細情報」は、障害に対する対応・処置を詳細に示す。「現象名」は、障害の現象についての名称を示す。「原因と思われる箇所」は、障害の原因とされる箇所を示す。
図4は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。実施形態にかかる情報処理装置1は、例えば、PC(パーソナルコンピュータ)などのコンピュータであり、図1に例示した学習フェーズ(S1)および適用フェーズ(S2)を実行する。すなわち、情報処理装置1は、学習装置の一例である。
図4に示すように、情報処理装置1は、抽出処理部21、素性生成部22、ランキング部23、ラベル付与部24、学習部25、判別部26および出力部27を有する。
抽出処理部21は、不具合事例DB10に格納された既知の不具合事例11の中から現象および原因が共通である複数の不具合事例11に対し、文書間で共通する項目を抽出する。学習フェーズで正解データとする既知の不具合事例11では、現象および原因が共通である同じ案件について、例えばOSなどが異なるなどの理由で幾つかのバリエーションが生じる。
抽出処理部21は、不具合事例DB10に格納された不具合事例11の中から現象および原因が共通である同じ案件の不具合事例11をグループ化する。そして、抽出処理部21は、グループごとに、文書間で共通する項目を抽出する。
具体的には、抽出処理部21は、項目の一例として不具合事例11に含まれる単語を抽出する(S10)。なお、本実施形態では、単語を抽出する場合を例示するが、抽出する項目は単語に限定しない。例えば、抽出する項目は、不具合事例11に含まれる文、文節の他、不具合事例11に含まれる詳細情報等の中で項目分けされた小項目などであってもよい。
次いで、抽出処理部21は、抽出した単語の単語リストを作成し(S11)、単語リストに含まれる単語の中からグループにおいて共通する単語以外を削除するフィルタリング処理を行う(S12)。このフィルタリング処理により、抽出処理部21は、グループにおいて共通する単語(検索キーワード)を得る(S13)。次いで、抽出処理部21は、検索キーワードを用いてフィールド障害レポート12のキーワード検索を行う(S14)。
素性生成部22は、学習フェーズにおいて教師データとする不具合事例11やフィールド障害レポート12の特徴を示す素性を生成する。また、素性生成部22は、適用フェーズにおいて判定モデル20に適用するフィールド障害レポート13の特徴を示す素性を生成する。例えば、素性生成部22は、不具合事例11、フィールド障害レポート12、13より抽出した単語をもとに、不具合事例11、フィールド障害レポート12、13における出現単語ベクトルを素性として生成する。
出現単語ベクトルは、出現単語ベクトルの算出対象となる単語の前後で共起する共起単語に基づき、算出されるものであり、共起単語に対応する複数のベクトル成分から構成される。例えば、ある不具合事例11においては、単語「動作」の共起単語は、「読み取り時」、「頻繁」等となる可能性が高い。このような不具合事例11では、単語「動作」の単語ベクトルに含まれる複数のベクトル成分のうち、「読み取り時」、「頻繁」の成分に対応する値が、大きくなる傾向がある。また、別の不具合事例11では、単語「動作」の共起単語は、「一部」、「遅くなる」等となる可能性が高い。このような不具合事例11では、単語「動作」の単語ベクトルに含まれる複数のベクトル成分のうち、「一部」、「遅くなる」の成分に対応する値が、大きくなる傾向がある。このように、素性生成部22は、不具合事例11、フィールド障害レポート12、13の特徴を示す素性(出現単語ベクトル)を生成する。
なお、素性生成部22が生成する素性は、出現単語ベクトルに限定するものではなく、例えば、文書の特徴を示す特徴ベクトル等の情報であってもよく、特に限定しない。
ランキング部23は、抽出された項目(検索キーワード)のフィールド障害レポート12における出現頻度に基づき、複数のフィールド障害レポート12を順序づける。具体的には、ランキング部23は、キーワード検索(S14)の結果をもとに、検索キーワードの出現頻度の高い順にフィールド障害レポート12を順序づけたランキング結果を得る(S15)。
ラベル付与部24は、ランキング部23のランキング結果(S14)に応じて、複数のフィールド障害レポート12それぞれに対し、正例、または、負例のラベルを付与する。具体的には、ラベル付与部24は、ランキング結果が所定の順位以上である上位のフィールド障害レポート12を選択し、正例のラベルを付与する(S16)。また、ランキング結果が所定の順位以下である下位、または、ランク外のフィールド障害レポート12を選択し、負例のラベルを付与する(S17、S18)。
学習部25は、正解データとする不具合事例11の他、フィールド障害レポート12および付与されたラベルを用いて、不具合事例11に該当するか否かの判別を一般的な二値分類の機械学習手法を用いて行う判定モデル20の学習を行う。具体的には、学習部25は、正解データとする不具合事例11を教師データとし、不具合事例11より生成された素性をもとに判定モデル20の学習を行う。また、学習部25は、正例・負例のラベルを付与したフィールド障害レポート12を判定モデル20の学習時における教師データとし、判定モデル20の学習を行う。
ここで、学習フェーズ(S1)において、抽出処理部21、素性生成部22、ランキング部23、ラベル付与部24および学習部25等で行われる処理の詳細を説明する。図5は、学習フェーズの動作例を示すフローチャートである。
図5に示すように、学習フェーズが開始されると、抽出処理部21は、不具合事例DB10に含まれる不具合事例11を現象および原因が共通である同じ案件ごとにグループ化する(S20)。具体的には、抽出処理部21は、互いの不具合事例11における「現象詳細情報」、「原因詳細情報」が同じ(類似度合いが高い場合を含む)ものを同じ案件としてグループ化する。
次いで、抽出処理部21は、グループ化した不具合事例11群から出現する単語を抽出する(S21)。これにより、抽出処理部21は、抽出した単語の単語リストを生成する。次いで、抽出処理部21は、抽出した単語の重み(TFIDF:Term Frequency/Inverse Document Frequency)を計算し、重みの高いものを単語リストから選択する(S22)。これにより、抽出処理部21は、選択されない単語を単語リストから削除する。
次いで、抽出処理部21は、品詞・ストップワードリストをチェックし、リストに該当する品詞・ストップワードを単語リストから削除する(S23)。品詞・ストップワードリストに含まれる品詞・ストップワードは、例えばどの文書にも一般的に含まれるものがある。例えば、品詞では、助詞、助動詞などが該当する。ストップワードでは、「する」、「こと」、「とき」、「発生」、「障害」などが該当する。
次いで、抽出処理部21は、単語リストに含まれる単語について、グループ内またはグループ間の重複をチェックする(S24)。これにより、抽出処理部21は、共通する単語を検索キーワードとして取得する。
次いで、抽出処理部21は、検索キーワードを用いてグループごとにフィールド障害レポート12のキーワード検索を行う。これにより、フィールド障害レポート12について、検索キーワードの出現頻度が求められる。次いで、ランキング部23は、検索キーワードの出現頻度の高い順にフィールド障害レポート12を順序づけるランキング検索を行う(S25)。
次いで、ラベル付与部24は、ランキング検索をもとに、ランキングが所定の順位以上であるランキング上位のフィールド障害レポート12に正例のラベルを付与する。また、ラベル付与部24は、ランキングが所定の順位以下であるランキング下位・ランク外のフィールド障害レポート12に負例のラベルを付与する(S26)。
次いで、素性生成部22は、各フィールド障害レポート12から出現する単語を抽出する(S27)。次いで、素性生成部22は、抽出した単語について、素性を生成する上で不要となる単語を削除するためのフィルタリング処理を行う(S28)。このフィルタリング処理後の単語を用いて、素性生成部22では、素性(例えば出現単語ベクトル)を生成する。
フィルタリング処理において、素性生成部22は、例えば、抽出した単語について所定の条件による重み付けを行い、重み付け値の低い単語を削除するなどを処理を行ってもよい。また、素性生成部22は、予め設定されている品詞・ストップワードのリストをもとに、抽出した単語がリストにある品詞・ストップワードであるか否かをチェックする。次いで、素性生成部22は、リストに該当する単語(品詞・ストップワード)を削除してもよい。
次いで、学習部25は、各フィールド障害レポート12が持つ(付与された)ラベル情報(正例/負例)、生成された素性(出現単語ベクトル)を用いて二値分類の機械学習を適用し、判定モデル20を作成する(S29)。
図4に戻り、判別部26は、判別対象のフィールド障害レポート13について素性生成部22により生成された素性(例えば出現単語ベクトル)を判定モデル20に適用し、既知の不具合事例11に該当するか否かを判別する。出力部27は、判別部26の判別結果を出力する。
ここで、適用フェーズ(S2)において、素性生成部22、判別部26、出力部27等で行われる処理の詳細を説明する。図6は、適用フェーズの動作例を示すフローチャートである。
図6に示すように、適用フェーズが開始されると、素性生成部22は、不具合判定を行うフィールド障害レポート13から出現する単語を抽出する(S30)。次いで、素性生成部22は、抽出した単語についてフィルタリング処理を行う(S31)。このフィルタリング処理は、S28と同様のものであってもよい。
次いで、素性生成部22は、フィルタリング処理後の単語を用いて素性(例えば出現単語ベクトル)を生成する。次いで、判別部26は、生成されたフィールド障害レポート13の素性を用いて学習フェーズで得られた判定モデル20を適用し、フィールド障害レポート13が既知の不具合事例11に該当するか否かの判別を実施する(S32)。次いで、出力部27は、判別対象のフィールド障害レポート13が既知の不具合事例11に該当するか否かの結果を出力する(S33)。これにより、ユーザは、フィールド障害レポート13が既知の不具合事例11に該当するか否かを確認できる。
以上のように、情報処理装置1は、フィールド障害レポート13の判別を行う判定モデル20の学習対象となる特定の対象の複数の不具合事例11について、現象および原因が共通である複数の不具合事例11それぞれに対し、当該不具合事例11間で共通する項目を抽出する。また、情報処理装置1は、抽出された項目のフィールド障害レポート12における出現頻度に基づき、複数のフィールド障害レポート12を順序づける。また、情報処理装置1は、順序づけ結果に応じて、複数のフィールド障害レポート12それぞれに対し、正例、または、負例のラベルを付与する。また、情報処理装置1は、正解データとする不具合事例11の他、フィールド障害レポート12および付与されたラベルを用いて、判定モデル20の学習を行う。
障害分野の文書(既知の不具合事例11やフィールド障害レポート12、13など)は、現象と原因、および、対象についての複数の項目を有する構造である。また、正解データとする既知の不具合事例11では、現象および原因が共通である同じ案件について、例えばOSなどが異なるなどの理由で幾つかのバリエーションが生じる。
これらの性質に着目し、情報処理装置1では、現象および原因が共通である複数の不具合事例11それぞれに対し、不具合事例11間で共通する項目を抽出する。このように、情報処理装置1では、現象および原因が共通である複数の不具合事例11について、互いの関連性を利用したフィルタリングを行うことで、OSなどが異なるなどの理由による一般的な項目を排除する。そして、情報処理装置1は、抽出された項目のフィールド障害レポート12における出現頻度により各フィールド障害レポート12を順序づけ、順序づけに応じて正例、または、負例のラベルを付与することで、複数のフィールド障害レポート12を判定モデル20の学習に用いるようにする。このように、情報処理装置1では、正例・負例とみなすのに適切なフィールド障害レポート12を効率よく教師データ(訓練データ)に追加して判定モデル20における教師付き学習を行うことで、判定モデル20の判別精度を向上させることができる。
ここで、情報処理装置1における判定モデル20の判別精度の向上を第1~第3のケースにおける実験例で示す。
第1のケースは、正例・負例を十分に用意した場合(比較検証のため、人手によりフィールド障害レポート12に正解ラベル(正例・負例)を付与して学習・適用したもの)の実験例である。第1のケースでは、人手による負荷を考慮せず、多くのフィールド障害レポート12に正解ラベル(正例・負例)を付与して学習しているので、高い判別精度を有している。
第1のケース:
訓練データのサンプル数:正例=186件、負例=39,000件
精度:Precision=98.8%、Recall=86.0%
第2のケースは、One Class SVMを使用する場合の実験例である。
第2のケース:
訓練データのサンプル数:正例=3件、負例=0件
精度:Precision=0.6%、Recall=67.2%
第3のケースは、本実施形態にかかる情報処理装置1を使用する場合の実験例である。
第3のケース:
訓練データのサンプル数:正例=3件、負例=0件
上記に追加した正解:正例=5件、負例=10,000件
精度:Precision=54.8%、Recall=12.1%
第2のケースと、第3のケースとを比較しても明らかなように、第3のケースでは、正例・負例とみなすのに適切なフィールド障害レポート12を訓練データに追加していることから、第2のケースよりも判別精度の向上が見られる。
また、情報処理装置1は、不具合事例11に含まれる項目ごとの、出現頻度に応じた重みづけをもとに、絞り込みを行った項目の中から共通する項目を抽出する。正例・負例を付与するために出現頻度を求める項目は、不具合事例11の特徴をよく表している項目が望ましい。かつ、どの文書にも存在するような一般的な項目については含まれないことが望ましい。情報処理装置1では、出現頻度に応じた重みづけをもとに、項目の絞り込みを行うことで、多くの不具合事例11に出現する一般的な項目を予め排除し、より不具合事例11において特徴的な項目を活用できる。
また、情報処理装置1は、順序づけによる順位が所定の順位以下であるフィールド障害レポート12に負例のラベルを付与する。これにより、情報処理装置1は、不具合事例11とは関連性のないフィールド障害レポート12に対し、適切に負例のラベルを付与できる。
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
情報処理装置1で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、マッチング装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウエア)の一例を説明する。図7は、プログラムを実行するコンピュータの一例を示す説明図である。
図7に示すように、コンピュータ2は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、コンピュータ2は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、コンピュータ2は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、コンピュータ2内の各部(101~109)は、バス110に接続される。
ハードディスク装置109には、上記の実施形態で説明した抽出処理部21、素性生成部22、ランキング部23、ラベル付与部24、学習部25、判別部26および出力部27等の機能部における各種処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する各種データ112が記憶される。入力装置102は、例えば、コンピュータ2の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、抽出処理部21、素性生成部22、ランキング部23、ラベル付与部24、学習部25、判別部26および出力部27等にかかる各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、コンピュータ2が読み取り可能な記憶媒体に記憶されたプログラム111を、コンピュータ2が読み出して実行するようにしてもよい。コンピュータ2が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム111を記憶させておき、コンピュータ2がこれらからプログラム111を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータに、特定の対象に関する事象についての、現象と原因と、前記対象に関する複数の項目とを含む文書の判別を行うモデルの学習をさせる学習プログラムであって、
学習対象となる前記特定の対象の複数の文書について、現象および原因が共通である複数の文書それぞれに対し、当該文書間で共通する項目を抽出し、
前記抽出された複数の文書に含まれる項目の出現頻度に基づき、前記複数の文書を順序づけ、
前記順序づけ結果に応じて、前記複数の文書それぞれに対し、正例、または、負例のラベルを付与し、
前記複数の文書および前記付与されたラベルを用いて、前記モデルの学習を行う、
処理をコンピュータに実行させることを特徴とする学習プログラム。
(付記2)前記抽出する処理は、前記特定の対象の複数の文書に含まれる項目ごとの、出現頻度に応じた重みづけをもとに、絞り込みを行った項目の中から前記共通する項目を抽出する、
ことを特徴とする付記1に記載の学習プログラム。
(付記3)前記付与する処理は、前記順序づけによる順位が所定の順位以下である文書に負例のラベルを付与する、
ことを特徴とする付記1または2に記載の学習プログラム。
(付記4)コンピュータが、特定の対象に関する事象についての、現象と原因と、前記対象に関する複数の項目とを含む文書の判別を行うモデルの学習をする学習方法であって、
学習対象となる前記特定の対象の複数の文書について、現象および原因が共通である複数の文書それぞれに対し、当該文書間で共通する項目を抽出し、
前記抽出された複数の文書に含まれる項目の出現頻度に基づき、前記複数の文書を順序づけ、
前記順序づけ結果に応じて、前記複数の文書それぞれに対し、正例、または、負例のラベルを付与し、
前記複数の文書および前記付与されたラベルを用いて、前記モデルの学習を行う、
処理をコンピュータが実行することを特徴とする学習方法。
(付記5)前記抽出する処理は、前記特定の対象の複数の文書に含まれる項目ごとの、出現頻度に応じた重みづけをもとに、絞り込みを行った項目の中から前記共通する項目を抽出する、
ことを特徴とする付記4に記載の学習方法。
(付記6)前記付与する処理は、前記順序づけによる順位が所定の順位以下である文書に負例のラベルを付与する、
ことを特徴とする付記4または5に記載の学習方法。
(付記7)特定の対象に関する事象についての、現象と原因と、前記対象に関する複数の項目とを含む文書の判別を行うモデルの学習をする学習装置であって、
学習対象となる前記特定の対象の複数の文書について、現象および原因が共通である複数の文書それぞれに対し、当該文書間で共通する項目を抽出する抽出処理部と、
前記抽出された複数の文書に含まれる項目の出現頻度に基づき、前記複数の文書を順序づけるランキング部と、
前記順序づけ結果に応じて、前記複数の文書それぞれに対し、正例、または、負例のラベルを付与するラベル付与部と、
前記複数の文書および前記付与されたラベルを用いて、前記モデルの学習を行う学習部と、
を有することを特徴とする学習装置。
(付記8)前記抽出処理部は、前記特定の対象の複数の文書に含まれる項目ごとの、出現頻度に応じた重みづけをもとに、絞り込みを行った項目の中から前記共通する項目を抽出する、
ことを特徴とする付記7に記載の学習装置。
(付記9)前記ラベル付与部は、前記順序づけによる順位が所定の順位以下である文書に負例のラベルを付与する、
ことを特徴とする付記7または8に記載の学習装置。
1…情報処理装置
2…コンピュータ
10…不具合事例DB
11…不具合事例
12、13…フィールド障害レポート
20…判定モデル
21…抽出処理部
22…素性生成部
23…ランキング部
24…ラベル付与部
25…学習部
26…判別部
27…出力部
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ

Claims (5)

  1. コンピュータに、特定の対象に関する事象についての、現象と原因と、前記対象に関する複数の項目とを含む文書の判別を行うモデルの学習をさせる学習プログラムであって、
    学習対象となる前記特定の対象の複数の第1の文書について、現象および原因が共通である複数の前記第1の文書それぞれに対し、当該第1の文書間で共通する項目を抽出し、
    抽出された複数の前記第1の文書に含まれる項目の、学習対象となる特定の対象の複数の第2の文書の出現頻度に基づき、前記複数の第2の文書を順序づけ、
    前記順序づけ結果に応じて、前記複数の第2の文書それぞれに対し、正例、または、負例のラベルを付与し、
    前記複数の第2の文書および前記付与されたラベルを用いて、前記モデルの学習を行う、
    処理をコンピュータに実行させることを特徴とする学習プログラム。
  2. 前記抽出する処理は、前記特定の対象の複数の第1の文書に含まれる項目ごとの、出現頻度に応じた重みづけをもとに、絞り込みを行った項目の中から前記共通する項目を抽出する、
    ことを特徴とする請求項1に記載の学習プログラム。
  3. 前記付与する処理は、前記順序づけによる順位が所定の順位以下である第2の文書に負例のラベルを付与する、
    ことを特徴とする請求項1または2に記載の学習プログラム。
  4. コンピュータが、特定の対象に関する事象についての、現象と原因と、前記対象に関する複数の項目とを含む文書の判別を行うモデルの学習をする学習方法であって、
    学習対象となる前記特定の対象の複数の第1の文書について、現象および原因が共通である複数の前記第1の文書それぞれに対し、当該第1の文書間で共通する項目を抽出し、
    抽出された複数の前記第1の文書に含まれる項目の、学習対象となる特定の対象の複数の第2の文書の出現頻度に基づき、前記複数の第2の文書を順序づけ、
    前記順序づけ結果に応じて、前記複数の第2の文書それぞれに対し、正例、または、負例のラベルを付与し、
    前記複数の第2の文書および前記付与されたラベルを用いて、前記モデルの学習を行う、
    処理をコンピュータが実行することを特徴とする学習方法。
  5. 特定の対象に関する事象についての、現象と原因と、前記対象に関する複数の項目とを含む文書の判別を行うモデルの学習をする学習装置であって、
    学習対象となる前記特定の対象の複数の第1の文書について、現象および原因が共通である複数の前記第1の文書それぞれに対し、当該第1の文書間で共通する項目を抽出する抽出処理部と、
    抽出された複数の前記第1の文書に含まれる項目の、学習対象となる特定の対象の複数の第2の文書の出現頻度に基づき、前記複数の第2の文書を順序づけるランキング部と、
    前記順序づけ結果に応じて、前記複数の第2の文書それぞれに対し、正例、または、負例のラベルを付与するラベル付与部と、
    前記複数の第2の文書および前記付与されたラベルを用いて、前記モデルの学習を行う学習部と、
    を有することを特徴とする学習装置。
JP2018022708A 2018-02-13 2018-02-13 学習プログラム、学習方法および学習装置 Active JP7052395B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018022708A JP7052395B2 (ja) 2018-02-13 2018-02-13 学習プログラム、学習方法および学習装置
US16/268,958 US20190251100A1 (en) 2018-02-13 2019-02-06 Learning method and learning apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018022708A JP7052395B2 (ja) 2018-02-13 2018-02-13 学習プログラム、学習方法および学習装置

Publications (2)

Publication Number Publication Date
JP2019139534A JP2019139534A (ja) 2019-08-22
JP7052395B2 true JP7052395B2 (ja) 2022-04-12

Family

ID=67542313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018022708A Active JP7052395B2 (ja) 2018-02-13 2018-02-13 学習プログラム、学習方法および学習装置

Country Status (2)

Country Link
US (1) US20190251100A1 (ja)
JP (1) JP7052395B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024157419A1 (ja) * 2023-01-26 2024-08-02 富士通株式会社 情報処理プログラム,情報処理装置及び情報処理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049681A (ja) 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049681A (ja) 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Also Published As

Publication number Publication date
US20190251100A1 (en) 2019-08-15
JP2019139534A (ja) 2019-08-22

Similar Documents

Publication Publication Date Title
US11928567B2 (en) System and method for improving machine learning models by detecting and removing inaccurate training data
AU2019261735B2 (en) System and method for recommending automation solutions for technology infrastructure issues
US10417350B1 (en) Artificial intelligence system for automated adaptation of text-based classification models for multiple languages
Elmurngi et al. An empirical study on detecting fake reviews using machine learning techniques
US20190318407A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN110866799B (zh) 使用人工智能监视在线零售平台的系统和方法
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
Soni et al. Sentiment analysis of customer reviews based on hidden markov model
US20160189057A1 (en) Computer implemented system and method for categorizing data
US11550707B2 (en) Systems and methods for generating and executing a test case plan for a software product
JP7409484B2 (ja) リスク評価装置、リスク評価方法およびプログラム
JP7261095B2 (ja) ビジネスマッチング支援装置、及びビジネスマッチング支援方法
JP5331023B2 (ja) 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP7052395B2 (ja) 学習プログラム、学習方法および学習装置
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
JP4054046B2 (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Ghaffari et al. Generative-AI in E-Commerce: Use-Cases and Implementations
US20210233007A1 (en) Adaptive grouping of work items
US20230046851A1 (en) Multi-model approach to natural language processing and recommendation generation
JP2018067215A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Harfoushi et al. Amazon Machine Learning vs. Microsoft Azure Machine Learning as Platforms for Sentiment Analysis
JP2017188025A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Geojini et al. Feature Adaptive Developmental Mechanisms for Mobile Apps Recommendations System using the Nearest Centroid Classification Algorithm
JP7354721B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
CN111126033A (zh) 文章的回应预测装置及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220314

R150 Certificate of patent or registration of utility model

Ref document number: 7052395

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150