JP7118037B2 - テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム - Google Patents

テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム Download PDF

Info

Publication number
JP7118037B2
JP7118037B2 JP2019139483A JP2019139483A JP7118037B2 JP 7118037 B2 JP7118037 B2 JP 7118037B2 JP 2019139483 A JP2019139483 A JP 2019139483A JP 2019139483 A JP2019139483 A JP 2019139483A JP 7118037 B2 JP7118037 B2 JP 7118037B2
Authority
JP
Japan
Prior art keywords
text data
extracted
item
cause
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019139483A
Other languages
English (en)
Other versions
JP2021022264A (ja
Inventor
絵里 滝川
愛子 細包
賢佑 追立
程 張
太郎 石川
敬之 若山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019139483A priority Critical patent/JP7118037B2/ja
Publication of JP2021022264A publication Critical patent/JP2021022264A/ja
Application granted granted Critical
Publication of JP7118037B2 publication Critical patent/JP7118037B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、テキストデータを解析する技術に関する。
社会活動においては、文章によって報告や説明がされた書類が作成されている。現代において、多くの書類はテキストデータとして記憶装置に蓄積されている。蓄積されたテキストデータを分析すれば、多くの知見を得ることが期待される。
テキストの文字列を対象としたデータマイニングは、テキストマイニングとも呼ばれる。テキストマイニングは、通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。近年は人工知能を用いて分析することも行われている。
例えば、特許文献1には、パターンを定義することなくテキスト情報を分析するシステムについて開示されている。
特開2018-18254号公報
テキストデータ化されている文書の中で代表的なものは報告書である。報告書は、業務の経緯や結果について述べた文書であり、多くの企業や官公庁において日常的に使用されている。
報告書には様々な種類があるが、例えば「保守報告書」や「故障報告書」等と呼ばれるものでは、これらのテキストデータを解析することにより、効率的な問題解決に寄与する情報を、保守や故障を行う作業員に与えることで、作業員の経験の度合いによらず、故障等の問題が生じた場合の作業員の作業の効率性や精度を向上させることが期待されている。
しかしながら、報告書のテキストデータは、あくまで「報告」という目的のために作成されているため、他の目的に転用し難いという課題があった。
例えば、「保守報告書」や「故障報告書」は、作業員の故障現場で臨場の様子を正確に報告する必要があるため、作業内容が時系列に記載されている場合が多い。そのため、この作業が時系列に記載されているテキストデータ上から、「効率的な問題解決に寄与する情報」を判別、抽出することは困難、ひいては、故障等の問題が生じた場合の作業員の作業の効率性や精度を向上させることが困難であるという課題があった。
本発明の好ましい一側面は、複数の文書のテキストデータを処理する、テキストデータ解析システムである。このシステムでは、複数の文書のテキストデータから、文書中の特定の意味を持つテキストデータとして予め定義された「通知」と「確認」の項目を抽出する項目抽出部と、同一の項目として抽出された複数のテキストデータを、複数のカテゴリに分類する項目分類部と、抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付ける報告書分析情報作成部と、を備える。
本発明の好ましい他の一側面は、複数の文書のテキストデータを処理する、テキストデータ解析方法である。この方法では、複数の文書のテキストデータから、文書中の特定の意味を持つテキストデータとして予め定義された項目を抽出し、同一の項目として抽出された複数のテキストデータを、複数のカテゴリに分類し、抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付ける。
本発明の好ましい他の一側面は、故障に関する内容を含む複数の文書のテキストデータを処理し、故障への対応を提案する故障対応リコメンドシステムであって、複数の文書のテキストデータから、文書中の特定の意味を持つテキストデータとして予め定義された「受動情報」と「能動情報」の項目を抽出する項目抽出部と、同一の項目として抽出された複数のテキストデータを、複数のカテゴリに分類する項目分類部と、抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付ける報告書分析情報作成部と、を備え、報告書分析情報作成部の分析結果に基づいた故障対応リコメンドを出力する、故障対応リコメンドシステムである。
効率的な問題解決に寄与する情報をユーザに与え、経験の有無にかかわらず、問題解決の効率を向上させることができる。
実施例のテキストデータ解析システムの構成ブロック図。 実施例のシステムの全体フロー図。 原因の抽出と分類の処理S2の詳細なフロー図。 原因カテゴリ付報告書DB112のデータ構造例を示す表図。 他の項目の抽出の処理S3の詳細なフロー図。 項目タグ付報告書DB113のデータ構造例を示す表図。 他の各項目のグルーピング処理S4の詳細なフロー図。 項目タグ分類付報告書DB115のデータ構造例を示す表図。 原因推定モデル作成処理S5の詳細なフロー図。 報告書分析情報DB116のデータ構造例を示す表図。 原因推定モデルの運用処理S6の詳細なフロー図。 決定木で構成された原因推定モデル134の例を示す概念図。 図1のシステムを用いた他の全体フローの例を示すフロー図。 報告書分析情報DB116のデータを一覧形式にした例を示す表図。 図1のシステムを用いた他の全体フローの例を示すフロー図。
実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
<1.システム構成>
図1に、実施例のテキストデータ解析システムの構成ブロックを示す。本実施例のシステムは、基本的に入力部、出力部、制御部、記憶部からなる情報処理装置で構成される。情報処理装置の例はタブレット等の端末やサーバである。
本実施例のテキストデータ解析システム100は、それぞれが、情報処理装置で構成されるデータ蓄積サーバ110、分析サーバ120、分析モデル格納サーバ130、ユーザ端末140からなる。これらは、互いに有線あるいは無線のネットワークで接続されており、互いに情報処理のためのソフトウエア資源を利用することができる。
データ蓄積サーバ110は、主にデータを管理するサーバである。この例では、報告書データベース(DB)111、原因カテゴリ付報告書DB112、項目タグ付き報告書DB113、項目分類リストDB114、項目タグ分類付報告書DB115、報告書分析情報DB116が格納される。報告書データベース(DB)111には、前述した報告書のテキストデータが格納される。
分析サーバ120は、主にデータを解析するサーバであり、また、分析モデルの学習を管理する。この例では、モデル生成部121、原因カテゴリ抽出部122、項目抽出部123、項目テキスト分類部124、報告書分析情報作成部125、解析部126が機能ブロックとして存在する。
本実施例では、計算や制御等の機能は、各情報処理装置の記憶装置に格納されたプログラムが処理装置によって実行されることで、定められた処理を他のハードウエアと協働して実現される。計算機などが実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。図1では、サーバなどの情報処理装置の機能を機能ブロックとして示しており、周知構成である入力部、出力部、制御部、記憶部は省略している。
分析モデル格納サーバ130は、分析サーバ120が利用する各種分析モデルを格納する。この例では、原因抽出モデル131、項目抽出モデル132、項目グループ化部133、原因推定モデル134である。
ユーザ端末140は、ユーザが直接操作するパーソナルコンピュータや携帯端末である。ユーザ端末の機能である制御部141は、ネットワークを介して、データ蓄積サーバ110、分析サーバ120、分析モデル格納サーバ130に指示を送り、これらのハードウエア、ソフトウエア、およびデータを利用可能である。
以上で列挙された構成要素の詳細は、この後の実施例で詳細に説明される。
本実施例で処理されるテキストデータは、ユーザがキーボードから入力したものでもよいし、音声認識によりテキスト化されたものでもよいし、チャットボットなどが自動的に収集したものでもよい。すなわち収集方法を問わない
本実施例で説明される各種のDBのデータは、基本的に文書番号によりクロスリファレンスが可能である。よって、複数のDBであってもこれらを合成することが可能であり、逆に単一のDBを複数に分割することも可能である。
以上の構成は、図1で示した構成に限らず、単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。これらのサーバは物理サーバのみならず、クラウドコンピューティングの形態でもよい。
本実施例中、ソフトウエアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウエアでも実現できる。そのような態様も本願発明の範囲に含まれる。
<2.全体フロー>
図2は本システムの全体フローを示している。ここでは概略だけを述べ、詳細は後の項目で説明する。
処理S1では、ユーザはユーザ端末140により、報告書データベース(DB)111をアクセスし、対象とする報告書データ(の集合)を選定する(報告書のテキストデータのことを、以下単に「報告書」ということがある)。また、報告書から抽出する抽出項目を定義する。制御部141は例えばブラウザ機能を有しており、ユーザはデータ蓄積サーバ110のデータを閲覧しデータのダウンロードも可能である。
対象とする報告書は例えば、「設備Aの保守報告書」のように特定の目的や用途に対応する報告書を選定することが望ましい。抽出項目は、例えば「設備Aの保守報告書」の中に現れる項目を、ユーザが自由に定義することができる。
本実施例では、故障等が起こった際に作業員に対して通知された情報、言い換えれば、作業員が受領した故障等に関する情報を「通知」、通知された事象の原因や対策を検討するために必要な情報を収集する確認を行い、確認の結果得られた事象の内容に関する情報を「確認(内容)」、当該確認の結果に基づいて作業員により導き出された原因に関する情報を「原因」、当該原因に基づいて立案・実行された対策に関する情報を「対策」と定義する。
保守報告書や故障報告書においては、上述のように作業内容が時系列やフリーテキストの形式で記載されているものがあるため、上記「通知」、「確認」、「対策」、「原因」それぞれの項目は散発的に記載されていたり、同じ項目複数回登場したり、複数の項目にまたがる内容がテキストになっていたりする場合があり、抽出が困難である。
しかしながら、上記4つの項目は、上記保守報告書等においては概ね全てに記載されている内容であり、且つ、これらを解析することにより、作業員の作業の効率性を飛躍的に高めることができることを初めて見出し、本実施例はこれを実現するものである。
なお、「通知」と「確認」はともに事象に関して得られた情報であるが、「通知」は報告書を作成した主体からみて受動的に得られた情報、「確認」は能動的に得られた情報である。例えば、「通知」はお客様からの故障連絡すなわち課題の内容であり、時系列的には最初の事象であることが多い。また、「確認」は課題を解決するために認識した事象の内容であり、受動的な情報である。認識のために現場の作業員などが行う行動を「指示(内容)」ということがあるが、これは能動的な情報である。また、「対策」は通知された課題を解決するために現場の作業員などが行う行動であり、これは能動的な情報である。「原因」は、それがなければ課題が生じなかった事象であり、これは受動的な情報である。
このように、各情報は受動的な情報(受動情報)または能動的な情報(能動情報)の2つに大別することができ、この受動情報と能動情報の2つを含んでいることが、「故障という事象(受動的事象)が起きた場合の、対策(能動的事象)をリコメンドする」という故障対応リコメンデーションの概念と整合する。このため、報告書に含まれる受動情報と能動情報の関係を分類整理することで、故障等が起こった際の的確なリコメンデーションが可能となる。
本実施例では、上記で説明した「通知」、「確認」、「対策」、「原因」を項目とした例で説明するが、これに限る必要はないし、さらに項目を増やしてもよい。たとえば、「報告」「作業内容」「指示」「その他」など、項目は対象とする報告書の用途や性格にあわせて定義してよい。
処理S2では、対象とする報告書から「原因」の項目を抽出して「原因」を分類する。分類はユーザが定義する。「原因」の項目は報告書の結論として記載されることも多く、また、ユーザが最も知りたい項目でもある。「原因」の項目の抽出と分類は、例えばDNN(Deep Neural Network)を用いて行うことができる。分類した「原因」のカテゴリは報告書のテキストデータにタグ(原因ラベル)として付加する。
処理S3では、対象とする報告書から「原因」以外の他の項目を抽出する。本実施例では、「通知」、「確認」、「対策」の項目が該当する。項目の抽出は、例えばDNNを用いて行うことができる。処理S3の結果、項目毎に、報告書から抽出したテキストデータの集合が形成される。
処理S4では、処理S3で抽出した各項目のテキストデータを、類似したもの同士でグルーピングする。そして、各報告書にそれに含まれる項目のグループを特定するID(グループ名)をタグとして付加する。
処理S5では、グループ名を説明変数、原因ラベルを目的変数として、原因推定モデルを作成する。
処理S6では、原因推定モデルを運用する。
なお、上記の処理S1~S6は一連の処理であるが、独立の処理として実行することもできる。その場合、処理S1~S6は、それぞれ別のシステムで実行することもできる。
<3.原因の抽出と分類(処理S2)>
処理S1に続く処理を以下説明する。なお、以降の説明では、処理S1で選定した対象とする報告書データにのみについて説明する。報告書DB111には、選定していないデータも格納される場合もあるが、説明上それらについては言及しない。
図3は、原因の抽出と分類の処理S2の詳細なフロー図である。説明上、ユーザがユーザ端末140と分析サーバ120を操作して行う処理、分析モデル格納サーバ130の分析モデルが行う処理、およびデータ蓄積サーバ110が格納するテキストデータを区分して説明している(以下同様)。
処理S201では、ユーザは処理S1で選定した対象とする報告書を検討し、推定される原因のカテゴリを決定する。このため、例えば制御部141により、該当する報告書を報告書DB111から呼び出して、ユーザ端末140に表示して内容を検討する。原因のカテゴリの定義、内容や種類は任意であり、対象とする報告書に応じてユーザが任意に定めることができる。
原因カテゴリの定義は経験のあるユーザが決定することが望ましい。例えば「電気系統の故障」「機械系統の故障」「人為的ミス」等である。もちろんさらに原因を細分化してもよい。決定した原因カテゴリは、分析サーバ120の原因カテゴリ抽出部122に格納される。
処理S202では、ユーザは教師データとする報告書を抜粋する。これはS1で選定した対象とする報告書の集合から、その一部を任意に選定してよい。ランダムに選定してもよい。
処理S203では、ユーザはユーザ端末140で、教師データとする報告書を閲覧し、それぞれの報告書に処理S201で定めた定義に従い原因カテゴリを付与する。原因カテゴリが付された報告書は、データ蓄積サーバ110の原因カテゴリ付報告書DB112に格納される。
図4は、原因カテゴリ付報告書DB112のデータ構造例である。報告書の文書番号401にテキストデータ402と原因カテゴリ403が対応している。なお、報告書DB111のデータ構造は、図4の構成から原因カテゴリ403を除いたものである。
図3に戻り、処理S204では、モデル生成部121は、テキストデータ402と原因カテゴリ403のペアを教師データ404として、原因抽出モデル131に入力する。
処理S205では、モデル生成部121の制御により、分析モデル格納サーバ130の学習前の原因抽出モデル131が教師データを取り込む。原因推定モデルは、特に限定しないが、例えばベイジアンDNNである。
処理S206では、モデル生成部121の制御により、原因抽出モデル131が教師有り学習を行う。学習方法は公知の手法を用いてよい。
処理S207では、原因カテゴリ抽出部122の制御により、学習済みの原因抽出モデル131に対して、教師データ以外の報告書のテキストデータを入力する。教師データ以外の報告書には原因カテゴリ403が付されていないが、処理S206で適切に学習された原因抽出モデル131は、報告書のテキストデータ402の入力に対して、原因カテゴリ403を出力する。
処理S208では、原因カテゴリ抽出部122は、分類結果の出力をユーザ端末140に送信する。処理S209では、ユーザは必要により内容をチェックして、教師データ以外の報告書の原因カテゴリを決定する。
以上の処理により、ユーザが処理S1で選定した対象データの報告書には、ユーザあるいは原因カテゴリ抽出部122によって、全て原因カテゴリが付与されたことになる。このデータ形式は図4に示したものと同様である。ユーザは制御部141の制御により、原因カテゴリが付与された報告書を、データ蓄積サーバの原因カテゴリ付報告書DB112に格納する。
<3.他の項目の抽出(処理S3)>
図5は、他の項目の抽出の処理S3の詳細なフロー図である。
処理S301では、ユーザは報告書データベース111から、教師データとする報告書を抜粋する。これはS1で選定した対象とするデータの集合から、任意に選定してよい。処理S202で選定した報告書とは異なっていてもよい。
データ蓄積サーバ110に格納されている、教師とする報告書3010のテキストデータから、時系列的に記載された作業内容3011がユーザ端末に送られる。
処理S302では、ユーザはユーザ端末140を操作して、時系列的に記載された作業内容3011の一行ごとに項目をタグ付けする。タグ付けする項目は、処理S1で行った定義に従う。この例では、「通知」、「確認」、「対策」である。なお、タグ付けする単位は、所定のルールに従って報告書のテキストを区切るものであれば、一行ごとでなくてもよい。タイムスタンプ毎でもよいし、一段落毎でもよいし、枠で区切られた文章毎でもよい。句読点から句読点まででもよい。タグ付けをした報告書は項目タグ付き報告書DB113として、データ蓄積サーバ110に格納してもよい。
処理S303では、モデル生成部121の制御により、項目がタグ付けされた報告書を、教師データとして分析モデル格納サーバ130の項目抽出モデル132に入力する。
図6は、処理S302でタグ付けされた報告書の例であり、項目タグ付報告書DB113のデータ構造例である。この例では行番号601の一行ごとに、「通知」「確認」「対策」がタグ付けされている。一行ごとのテキストデータ602と項目タグ603のペアが教師データ604として項目抽出モデル132に入力される。
処理S304では、モデル生成部121の制御により、項目抽出モデル132が教師データを取り込む。このとき、蓄積済みの分類データ3012があれば、教師データとして同様に取り込むことができる。
処理S305では、モデル生成部121の制御により、項目抽出モデルが教師有り学習あるいは再学習される。項目抽出モデル132は、必要に応じて学習を繰り返すことにより性能向上を図ることができる。分析モデルの学習については、処理S206と同様である。
処理S306では、項目抽出部123が、学習済みの項目抽出モデル132に対して、教師データ以外の報告書のテキストデータ602を例えば、1行ずつ入力する。処理S305で適切に学習された項目抽出モデル132は、報告書の各行に対して、項目タグ603を出力する。
処理S307では、出力された項目タグが付された報告書の各行を、ユーザ端末140に送付する。
処理S308では、ユーザ端末140の制御部141は、項目タグが付された報告書の各行を、項目別にリスト化する。この例では、報告書の各行のテキストが、「通知」「確認」「対策」の3つに分類されてリストアップされる。
以上の処理で、過去の報告書データのテキストデータの各行が、所定の項目と紐づけられた項目分類リスト3013が作成された。項目分類リストは、項目分類リストDB114としてデータ蓄積サーバ110に格納しておいてもよい。
<4.他の各項目のグルーピング(処理S4)>
図7は、他の各項目のグルーピング処理S4の詳細なフロー図である。処理S401では、分析モデル格納サーバ130の項目グループ化部133は、処理S3により作成された項目分類リストDB114の同一項目に紐づけられたテキストを分類し、類似する文章同士でグルーピングする。
テキスト分類の手法は公知の技術を適用可能である。例えば、テキストをベクトルに変換し、クラスター分析の手法によりデータを外的基準なし(教師なし)で自動的にグルーピングする。
処理S402では、項目グループ化部133は、グルーピングされたデータにグループ名(ID)を付与する。グループ名は自動的に付与してもよいし、ユーザが、制御部141を操作し、ユーザ端末140でテキストの内容を見て適切な名前を付与してもよい。そして処理S403では、報告書に各項目のグループ名をタグ付けして、項目紐付済の報告書を項目タグ分類付報告書DB115としてデータ蓄積サーバ110に格納する。
以上の処理により、各報告書で自由な表現で記入されていた各項目の内容が、類似なもの同士でカテゴライズされ、記述の揺らぎが吸収される。
例えば、ドアの故障を表現する「通知」の記述が「ドアが開かない」「扉が故障している」「開閉異常」など異なる表記で行われていた場合でも、これらを同じカテゴリの通知であるとして扱うことができる。
図8は、項目タグ分類付報告書DB115のデータ構造の一例を示す表図である。報告書の文書番号401に対して、行番号601、当該行のテキストデータ602、当該行の項目タグ603、および項目の項目分類801が対応付けられる。
<5.原因推定モデル作成(処理S5)>
図9は、原因推定モデル作成処理S5の詳細なフロー図である。
処理S501では、報告書分析情報作成部125は、項目タグ分類付報告書DB115のデータと原因カテゴリ付き報告書DB112のデータを合体して、報告書分析情報データを生成する。すなわち図8の項目タグ分類付報告書DB115のデータの文書番号毎に、図4の原因カテゴリ付き報告書DB112の原因カテゴリ403を付加し、これをデータ蓄積サーバ110に格納して、報告書分析情報DB116とする。報告書分析情報DBのデータは、原因推定モデル教師データとして利用できるが、後述のように他にも利用価値がある。
図10は、処理S501の結果生成されたデータ構造(報告書分析情報DB116のデータ構造)を示す図である。先に述べたように、項目タグ分類付報告書DB115のデータに原因カテゴリ403が追加されている。ここで、項目分類801と原因カテゴリ403のペアを原因推定モデル教師データ1001として利用することができる。
処理S502では、ユーザ端末の制御部141は、モデル生成部121に対して、原因推定モデル教師データ1001を原因推定モデル134に入力するように指示を出す。
処理S503では、原因推定モデル134は、原因推定モデル教師データ1001の項目分類801を説明変数、原因カテゴリ403を目的変数として取り込む。
処理S504では、原因推定モデル134は、モデル生成部121の制御で学習を行う。
処理S505では、教師データで一応学習が済んだ原因推定モデル134に対して、項目タグ分類付報告書DB115の原因カテゴリ403が付されていない報告書を学習データ(トレーニングデータ)として用い、原因の推定を行う。すなわち、項目分類801を入力として、原因推定モデル134が正しい原因カテゴリ403を出力するように学習させる。
処理S506では、出力された原因カテゴリ403を確認して推定結果を評価し、原因推定モデル134の精度を確認する。精度が不十分であれば、原因推定モデル134を再学習する。精度が十分であれば、原因推定モデル134は完成し、実運用となる。
用いる原因推定モデル134は、決定木、ランダムフォレスト、サポートベクトルマシン(SVM)など、公知の教師有り学習モデルから選択してよい。学習方法も公知手法を用いてよい。
<6.原因推定モデルの運用(処理S6)>
図11は、原因推定モデルの運用処理S6の詳細なフロー図である。
処理S601で何らかの障害が発生したとする。障害の内容は、「通知」内容として処理S602でトリガとして入力される。通知は、原因推定モデル134に入力される。
処理S603で、原因推定モデル134が決定木で構成されている場合、「通知」を入力された原因推定モデル134は、分岐となる「確認」項目に対応する指示を出力する。
出力された確認項目の指示に対して、処理S604で現場の作業員などは、状況を確認し回答を行う。処理S605で、回答は「確認」内容として原因推定モデル134に入力される。
処理S606で、原因推定モデル134は推定される原因を出力する。
図12は、決定木で構成された原因推定モデル134の例である。この決定木は、「通知」「確認」「原因」「対策」を入力としているが、「確認」を行うために必要な動作は「指示」として定義することができる。いま、「モータが動作しない」という通知カテゴリ1の事象が入力された場合、原因推定モデル134の警告灯の点灯有無という分岐に対応する指示「警告灯をチェック」が現場に対して行われる(処理S603)。図12の例にも見られるように、「通知」と「確認」の項目は、決定木の(特に初期の)分岐に対応する事象であることが多いため、重要である。
指示に対応して「警告灯が点灯している(確認カテゴリ1)」あるいは「警告灯が点灯していない(確認カテゴリ2)」が原因推定モデル134に入力され(処理S604)、原因推定モデルの実行で推定が進められる(処理S605)。
最終的に原因が推定されたら、推定原因を出力し(処理S606~S607)、出力結果に基づく事実確認を現場に指示し(処理S608)、対策を行う(処理S609)。例えば、ヒューズ切れという原因が推定されたら(図12、原因カテゴリ1)、ヒューズを交換という対策を行う(図12、対策カテゴリ1)。
図13は、実施例2の説明のため、図1のシステムを用いた他の全体フローの例を示している。
実施例1の図1では、処理S1~S4で得られたデータを用いて、システムは原因推定モデルの作成と運用(処理S5およびS6)を行っている。しかし、処理S1~S4で得られたデータを、報告書分析情報作成処理S100で加工して、直接ユーザに示してもよい。
図14は、報告書分析情報作成部125により報告書分析情報作成処理S100を行い、図10に示した報告書分析情報DB116のデータを一覧1400の形に変形したものである。報告書に出現する各項目のカテゴリの組み合わせが示されており、ユーザは各通知のカテゴリに対して、どの確認や原因のカテゴリが関係するかを知ることができる。
ユーザは、制御部141により、報告書分析情報DB116のデータから作成した一覧1400を、ユーザ端末140に表示することができる。
図15は、実施例3の説明のため、図1のシステムを用いた他の全体フローの例を示している。
実施例1の図1では、原因項目のカテゴリの抽出のために、他の項目のカテゴリの抽出処理S3とは別個の処理S2を行っている。しかし、原因項目のカテゴリ抽出も、他の項目と同様に行ってもよい。
実施例3の項目の抽出処理S3-2では、「通知」「確認」「対策」と同様に「原因」の項目抽出およびカテゴリ分けを行う。実施例1よりも処理が簡略化されるメリットがあるが、「原因」特有の抽出方式を使用できないというデメリットがある。
以上説明したように、本実施例では、様式や表現の定まっていない報告書であっても、項目を抽出してカテゴライズすることにより、報告書の内容を定式化して整理し、ユーザが内容を理解しやすくすることができる。また、人工知能の機械学習のための教師データとして使いやすくすることができる。
テキストデータ解析システム100、データ蓄積サーバ110、分析サーバ120、分析モデル格納サーバ130、ユーザ端末140、報告書データベースDB111、原因カテゴリ付報告書DB112、項目タグ付き報告書DB113、項目分類リストDB114、項目タグ分類付報告書DB115、報告書分析情報DB116、モデル生成部121、原因カテゴリ抽出部122、項目抽出部123、項目テキスト分類部124、報告書分析情報作成部125、解析部126

Claims (6)

  1. 複数の文書のテキストデータを処理する、テキストデータ解析システムであって、
    前記複数の文書のテキストデータから、文書中の特定の意味を持つテキストデータとして予め定義された「通知」と「確認」の項目を抽出する項目抽出部と、
    同一の項目として抽出された複数のテキストデータを、複数のカテゴリに分類する項目分類部と、
    抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付ける報告書分析情報作成部と、
    を備え
    前記項目抽出部は、
    前記項目として、受動的に得られた情報を記述した「通知」と、能動的に得られた情報を記述した「確認」を抽出し、
    前記項目抽出部は、
    前記項目として、「通知」の内容となる事象の「原因」を抽出し、前記「通知」と「確認」を第1のアルゴリズムで抽出し、「原因」を第2のアルゴリズムで抽出し、
    前記報告書分析情報作成部は、
    「通知」、「確認」の項目として抽出されたテキストデータが分類されたカテゴリを説明変数、「原因」の項目として抽出されたテキストデータが分類されたカテゴリを目的変数とし、分析モデルを学習するための教師データを生成する、
    テキストデータ解析システム。
  2. 前記項目分類部は、
    同一の項目として抽出された複数のテキストデータを、類似するものをグループ化することにより、複数のカテゴリに分類する、
    請求項1記載のテキストデータ解析システム。
  3. 前記項目抽出部は、
    前記項目として、「通知」の内容となる事象を解消するための「対策」を抽出する、
    請求項記載のテキストデータ解析システム。
  4. 前記報告書分析情報作成部は、
    「通知」、「確認」をおよび「原因」の項目として抽出されたテキストデータが分類されたカテゴリが、当該テキストデータが抽出された文書に対応付けられていることを示す情報を生成する、
    請求項記載のテキストデータ解析システム。
  5. 複数の文書のテキストデータを処理する、テキストデータ解析方法であって、
    前記複数の文書のテキストデータから、文書中の特定の意味を持つテキストデータとして予め定義された項目を抽出し、
    同一の項目として抽出された複数のテキストデータを、複数のカテゴリに分類し、
    抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付け
    同一の項目として抽出された複数のテキストデータを、類似するものをグループ化することにより、複数のカテゴリに分類し、
    前記項目として、受動的に得られた情報を記述した「通知」と、能動的に得られた情報を記述した「確認」を抽出し、
    「通知」、「確認」の項目として抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付け、
    前記複数の文書のテキストデータから、文書中の「通知」の内容となる事象の「原因」の意味を持つテキストデータを、予め定義された分類に従って抽出し、
    前記「原因」の項目として抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付け、
    項目として抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付けた情報を、教師データとして分析モデルを学習し、
    前記教師データでは、「通知」、「確認」の項目として抽出されたテキストデータが分類されたカテゴリを説明変数、「原因」の項目として抽出されたテキストデータが分類されたカテゴリを目的変数とする、
    学習した分析モデルにより新たなテキストデータの分析を行う、
    テキストデータ解析方法。
  6. 項目として抽出されたテキストデータが分類されたカテゴリを、当該テキストデータが抽出された文書に対応付けたことを示す情報を、ユーザに表示する、
    請求項記載のテキストデータ解析方法。
JP2019139483A 2019-07-30 2019-07-30 テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム Active JP7118037B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019139483A JP7118037B2 (ja) 2019-07-30 2019-07-30 テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019139483A JP7118037B2 (ja) 2019-07-30 2019-07-30 テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム

Publications (2)

Publication Number Publication Date
JP2021022264A JP2021022264A (ja) 2021-02-18
JP7118037B2 true JP7118037B2 (ja) 2022-08-15

Family

ID=74574392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019139483A Active JP7118037B2 (ja) 2019-07-30 2019-07-30 テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム

Country Status (1)

Country Link
JP (1) JP7118037B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7424556B1 (ja) 2022-07-01 2024-01-30 三菱電機ビルソリューションズ株式会社 故障対応支援装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216222A (ja) 2002-01-22 2003-07-31 Mitsubishi Electric Corp 組立・調整・検査工程の情報管理装置および情報管理方法
JP2011186706A (ja) 2010-03-08 2011-09-22 Seiko Epson Corp 情報処理装置、情報処理方法およびプログラム
WO2016147219A1 (ja) 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
JP2019061522A (ja) 2017-09-27 2019-04-18 日本電気株式会社 文書推薦システム、文書推薦方法および文書推薦プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216222A (ja) 2002-01-22 2003-07-31 Mitsubishi Electric Corp 組立・調整・検査工程の情報管理装置および情報管理方法
JP2011186706A (ja) 2010-03-08 2011-09-22 Seiko Epson Corp 情報処理装置、情報処理方法およびプログラム
WO2016147219A1 (ja) 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
JP2019061522A (ja) 2017-09-27 2019-04-18 日本電気株式会社 文書推薦システム、文書推薦方法および文書推薦プログラム

Also Published As

Publication number Publication date
JP2021022264A (ja) 2021-02-18

Similar Documents

Publication Publication Date Title
Yadav et al. Twitter sentiment analysis using machine learning for product evaluation
Dsouza et al. Sentimental analysis of student feedback using machine learning techniques
CN110866799A (zh) 使用人工智能监视在线零售平台的系统和方法
Jahanbin et al. Application of Twitter and web news mining in infectious disease surveillance systems and prospects for public health
US11481734B2 (en) Machine learning model for predicting litigation risk on construction and engineering projects
Bhattacharya Some Salient Aspects of Machine Learning Research: A Bibliometric Analysis.
US11615361B2 (en) Machine learning model for predicting litigation risk in correspondence and identifying severity levels
Jain et al. A particle swarm optimized learning model of fault classification in Web-Apps
CN110232128A (zh) 题目文本分类方法及装置
CN107111609A (zh) 用于神经语言行为识别系统的词法分析器
Nasr et al. Building sentiment analysis model using Graphlab
Hirata et al. Uncovering the impact of COVID-19 on shipping and logistics
JP7118037B2 (ja) テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム
Chopra et al. A framework for online hate speech detection on code-mixed Hindi-English text and Hindi text in Devanagari
CN113868419A (zh) 基于人工智能的文本分类方法、装置、设备及介质
US11803797B2 (en) Machine learning model to identify and predict health and safety risks in electronic communications
Fahad et al. Building a fortress against fake news: Harnessing the power of subfields in artificial intelligence
Wlodarczak et al. What the future holds for Social Media data analysis
Vivaldi et al. Smart alarm and event processing
Hossain et al. Identifying geopolitical event precursors using attention-based LSTMs
Gaspar et al. Explainable AI for Intrusion Detection Systems: LIME and SHAP Applicability on Multi-Layer Perceptron
Khan et al. FakeWatch ElectionShield: A Benchmarking Framework to Detect Fake News for Credible US Elections
Noel RedAI: A machine learning approach to cyber threat intelligence
Patel Forecasting health of complex IT systems using system log data
Kamalakkannan et al. Discovering the behavior of the students using data mining techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220802

R150 Certificate of patent or registration of utility model

Ref document number: 7118037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150