JP6660333B2 - 情報抽出装置、情報抽出方法及び情報抽出プログラム - Google Patents

情報抽出装置、情報抽出方法及び情報抽出プログラム Download PDF

Info

Publication number
JP6660333B2
JP6660333B2 JP2017047196A JP2017047196A JP6660333B2 JP 6660333 B2 JP6660333 B2 JP 6660333B2 JP 2017047196 A JP2017047196 A JP 2017047196A JP 2017047196 A JP2017047196 A JP 2017047196A JP 6660333 B2 JP6660333 B2 JP 6660333B2
Authority
JP
Japan
Prior art keywords
work
similarity
document
content
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017047196A
Other languages
English (en)
Other versions
JP2018151823A (ja
Inventor
英 渡邊
英 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017047196A priority Critical patent/JP6660333B2/ja
Publication of JP2018151823A publication Critical patent/JP2018151823A/ja
Application granted granted Critical
Publication of JP6660333B2 publication Critical patent/JP6660333B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、蓄積された過去の作業情報から有用な情報を抽出するための装置、方法及びプログラムに関する。
従来、ある文書を検索キーにして、この文書と類似した文書を複数の検索対象文書から抽出する手法が提案されている(例えば、特許文献1参照)。
これらの手法では、一般に、検索キーである文書に含まれる単語と、検索対象文書に含まれる単語とを比較し、一致度又は類似性に基づいて、ベクトル空間法等を用いて、検索キー文書に対する検索対象文書の類似度が算出される。そして、この類似度が高い文書が類似文書として複数の検索対象文書から抽出される。
特開2000−331027号公報
ところで、ある作業を実施する上で有用となる情報は、必ずしも類似した作業事例のみではなく、一見して作業内容自体は類似性が低いものの、ここから得られた知見教訓情報が有用であることも多い。さらに、このような知見教訓情報は、作業内容の特徴を反映した記述ではなく、より一般化された情報として記述される場合が多い。
従来の類似文書の抽出方式では、検索キーとなる作業に関する文書データに対して、この作業に類似した作業事例と、作業事例に紐付けて管理される知見教訓情報とを取得することはできても、これらは、いずれも作業内容が類似したものである。したがって、作業内容の類似性は低いが有用である知見教訓情報が抽出され難いという課題があった。
また、過去の全ての知見教訓情報をまとめて取得する方式では、提示される情報量は極めて膨大となり、情報の優先度も不明確なため、有用な情報を選択することが難しい。
本発明は、検索キーとなる作業に関する文書データに対して、知見教訓情報の有用度が高い作業事例及び知見教訓情報を取得できる情報抽出装置、情報抽出方法及び情報抽出プログラムを提供することを目的とする。
本発明に係る情報抽出装置は、過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部と、前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出部と、検索キーとなるキー文書の入力を受け付ける入力部と、前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出部と、前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出部と、前記有用度の降順に前記作業文書を抽出する抽出部と、を備える。
前記有用度算出部は、前記有用度として、前記第1類似度と前記含有度との積を前記作業文書毎に合計した値を算出してもよい。
前記情報抽出装置は、前記キー文書の内容情報と前記作業文書の内容情報との第2類似度を算出する第2類似度算出部を備え、前記有用度算出部は、前記第2類似度に重み付けして前記有用度に加算してもよい。
本発明に係る情報抽出方法は、過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成ステップと、前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出ステップと、検索キーとなるキー文書の入力を受け付ける入力ステップと、前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出ステップと、前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出ステップと、前記有用度の降順に前記作業文書を抽出する抽出ステップと、をコンピュータが実行する。
本発明に係る情報抽出プログラムは、過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成ステップと、前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出ステップと、検索キーとなるキー文書の入力を受け付ける入力ステップと、前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出ステップと、前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出ステップと、前記有用度の降順に前記作業文書を抽出する抽出ステップと、をコンピュータに実行させるためのものである。
本発明によれば、検索キーとなる作業に関する文書データに対して、知見教訓情報の有用度が高い作業事例及び知見教訓情報を取得できる。
実施形態に係る情報抽出装置の機能構成を示す図である。 実施形態に係る文書データベースに記憶される類型グループの情報を例示する図である。 実施形態に係る文書データベースに記憶される含有度の情報を例示する図である。 実施形態に係る有用度の算出方法を例示する図である。 実施形態に係る類型グループ化された作業文書とキー文書との関連性を示す概念図である。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る情報抽出装置1の機能構成を示す図である。
情報抽出装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス又は通信デバイス等を備える。
制御部10は、情報抽出装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各種機能を実現している。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を情報抽出装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるプログラム(情報抽出プログラム)を記憶する。
制御部10は、グループ生成部11と、含有度算出部12と、入力部13と、第1類似度算出部14と、第2類似度算出部15と、有用度算出部16と、抽出部17とを備える。また、記憶部20は、文書データベース21を備える。
文書データベース21には、検索対象となる作業文書群が蓄積されている。作業文書は、過去の作業事例それぞれに関する作業内容が記載された内容情報、及び知見教訓情報が紐付けられたデータである。
知見教訓情報には、例えば、作業前に準備すべき事項及びプロセス、作業に伴って発生した事例への対処法、作業から得られた教訓等が含まれ、今後実施される作業に対する有用な情報となり得る。
グループ生成部11は、複数の作業文書について、知見教訓情報の類似性に基づいて重複可能な類型グループを生成する。グループ化には、トピックモデル又はクラスタリング等の既知の手法を用いることができる。
さらに、グループ生成部11は、生成した類型グループ毎に、類型グループに含まれる全ての作業文書の内容情報、例えば作業計画書、作業手順書、作業報告書、事故報告書等から特徴量を算出して文書データベース21に記憶する。
図2は、本実施形態に係る文書データベース21に記憶される類型グループの情報を例示する図である。
類型グループKG−1には、作業文書S−1,S−2,S−4,S−5,S−19,S−20,・・・が含まれており、この類型グループKG−1の特徴量はF1である。
また、例えば作業文書S−2は、類型グループKG−1及びKG−2の両方に含まれている。このように、類型グループ間で作業文書が重複してもよい。
含有度算出部12は、作業文書毎に、類型グループそれぞれに属する度合いを示す含有度を算出して文書データベース21に記憶する。
含有度は、類型グループの中心からの距離で定義されてよい。
図3は、本実施形態に係る文書データベース21に記憶される含有度の情報を例示する図である。
作業文書S−1は、複数の類型グループKG−1,KG−5,・・・に属し、それぞれに対する含有度は、0.4,0.2,・・・である。また、作業文書S−2は、複数の類型グループKG−1,KG−2,・・・に属し、それぞれに対する含有度は、0.6,0.5,・・・である。
この例では、作業文書S−1は、類型グループKG−1に最も近い。また、類型グループKG−1内では、作業文書S−1よりも、作業文書S−2の方が類型グループKG−1の中心に近く、特徴をより表している。
入力部13は、作業文書の検索キーとなるキー文書の入力を受け付ける。キー文書は、例えば、今後計画されている作業内容を記述した文書であり、知見教訓情報は含まれない。
第1類似度算出部14は、キー文書に含まれる内容情報から特徴量を算出し、類型グループそれぞれの特徴量との類似度(第1類似度)を算出する。
第2類似度算出部15は、キー文書の内容情報と作業文書それぞれの内容情報との類似度(第2類似度)を算出する。
有用度算出部16は、作業文書が属する類型グループとの第1類似度、及びこの作業文書の類型グループに対する含有度に基づいて、キー文書に対する作業文書毎の有用度を算出する。具体的には、有用度算出部16は、有用度として、第1類似度と含有度との積を作業文書毎に合計した値を算出する。
さらに、有用度算出部16は、第2類似度に重み付けして有用度に加算することにより、作業内容の類似性との重複評価を行う。
抽出部17は、算出された有用度の降順に作業文書を抽出し、内容情報及び知見教訓情報を出力する。
図4は、本実施形態に係る有用度の算出方法を例示する図である。
第1類似度算出部14は、キー文書S−100に対して、特徴量Fxを算出すると、文書データベース21に記憶されている各類型グループの特徴量F1,F2,・・・との類似度を算出する。この例では、キー文書S−100と、類型グループKG−1の特徴量F1との類似度は0.65、類型グループKG−2の特徴量F2との類似度は0.55となっている。
次に、有用度算出部16は、類型グループ及び作業文書の組み合わせ毎に、第1類似度(p)と含有度(q)とを掛け合わせ、有用度(p×q)を算出する。
続いて、有用度算出部16は、作業文書毎に有用度の総和を求める。例えば、作業文書S−2は、類型グループKG−1との組み合わせでは有用度が0.39と算出され、類型グループKG−2との組み合わせでは有用度が0.275と算出されるが、これらを合計して、作業文書S−2の有用度は0.665と求められる。
さらに、第2類似度算出部15は、キー文書S−100と各作業文書との内容情報の類似度を算出する。この例では、キー文書S−100と作業文書S−1との類似度は0.7、キー文書S−100と作業文書S−2との類似度は0.3と算出されている。
有用度算出部16は、この類似度を加味した重み付けにより、有用度を調整する。例えば係数a及びbを用いて、作業文書S−2の有用度は、0.665×a+0.3×bと算出される。
図5は、本実施形態に係る類型グループ化された作業文書とキー文書との関連性を示す概念図である。
内容情報及び知見教訓情報が紐付けられた複数の作業文書S−1,S−2,・・・は、知見教訓情報のみの類似性により類型グループ化される。複数の類型グループは、それぞれ類似した知見教訓情報を含む作業文書からなる。また、1つの作業文書が複数の類型グループに属し、類型グループの重なりが存在してもよい。
含有度は、類型グループに含まれる各作業文書について、類型グループの中心からの距離として定義され、中心に近い作業文書がより類型グループの特徴を表している。したがって、例えば、作業文書S−2は、類型グループKG1及びKG−2に属しているが、より含有度が高い類型グループKG−1の特徴をよく表している。また、作業文書S−2は、類型グループKG−1の中で、他の作業文書よりも含有度が高いため、同一グループ内での有用性が他の作業文書に比べて高い。
第1類似度は、キー文書と類型グループとの特徴量の類似性を示し、いずれの類型グループの知見教訓情報がキー文書の作業にとって、より有用であるかの指標となる。さらに、類型グループ内での各作業文書の有用性が含有度によって評価される。
第2類似度は、キー文書と作業文書との内容情報の類似性を示し、いずれの作業文書が事例としてキー文書に、より近いかの指標となるため、これにより、同様の過去事例としての有用性が評価される。
本実施形態によれば、情報抽出装置1は、知見教訓情報により類型グループ化した過去の作業事例の各グループの特徴量に対する、キー文書の特徴量の類似度(第1類似度)によって、有用な知見教訓情報を含む類型グループを判別できる。さらに、情報抽出装置1は、類型グループ内で、各作業文書の類型グループへの含有度を算出することで、有用な知見教訓情報を効率的に得られる作業文書を判別できる。
情報抽出装置1は、第1類似度及び含有度に基づく有用度の降順に作業文書を抽出するので、ユーザは、検索キーとなる作業文書に対して、作業内容に関する類似度は必ずしも高くないが、同時に紐付けて管理される知見教訓情報の有用度が高い作業事例及び知見教訓情報を取得できる。
この結果、例えば、これから実施される予定の作業文書には、実施前であるため知見教訓情報は含まれていないが、ユーザは、この内容情報を検索キーとして、蓄積された過去の作業に関する知見教訓情報を有用度の降順で取得し、作業実施以前に内容を確認し、必要な事前対策等を講ずることができる。
情報抽出装置1は、有用度として、第1類似度と含有度との積を作業文書毎に合計した値を算出することで、定量的に容易に有用性の指標を求めることができ、大量の過去事例の中から効率的に有用な作業文書を抽出できる。
また、情報抽出装置1は、内容情報の類似度(第2類似度)を重み付けして評価するので、知見教訓情報の有用性に加えて、作業内容自体の類似性も複合的に評価でき、過去の事例としてより有用性の高い作業文書を抽出できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
本実施形態では、情報抽出装置1の記憶部20が文書データベース21を備える構成を説明したが、これらのデータベースは、外部に設けられてもよい。
また、本実施形態における検索対象の文書は、作業文書群には限られず、種々の分野の文書であってよい。情報抽出装置1は、知見教訓情報が紐付けて管理される文書を検索対象として、知見教訓情報のないキー文書に対しても、参考となる知見教訓情報を抽出できる。
情報抽出装置1による情報抽出方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 情報抽出装置
10 制御部
11 グループ生成部
12 含有度算出部
13 入力部
14 第1類似度算出部
15 第2類似度算出部
16 有用度算出部
17 抽出部
20 記憶部
21 文書データベース

Claims (5)

  1. 過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部と、
    前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出部と、
    検索キーとなるキー文書の入力を受け付ける入力部と、
    前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出部と、
    前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出部と、
    前記有用度の降順に前記作業文書を抽出する抽出部と、を備える情報抽出装置。
  2. 前記有用度算出部は、前記有用度として、前記第1類似度と前記含有度との積を前記作業文書毎に合計した値を算出する請求項1に記載の情報抽出装置。
  3. 前記キー文書の内容情報と前記作業文書の内容情報との第2類似度を算出する第2類似度算出部を備え、
    前記有用度算出部は、前記第2類似度に重み付けして前記有用度に加算する請求項1又は請求項2に記載の情報抽出装置。
  4. 過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成ステップと、
    前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出ステップと、
    検索キーとなるキー文書の入力を受け付ける入力ステップと、
    前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出ステップと、
    前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出ステップと、
    前記有用度の降順に前記作業文書を抽出する抽出ステップと、をコンピュータが実行する情報抽出方法。
  5. 過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成ステップと、
    前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出ステップと、
    検索キーとなるキー文書の入力を受け付ける入力ステップと、
    前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出ステップと、
    前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出ステップと、
    前記有用度の降順に前記作業文書を抽出する抽出ステップと、をコンピュータに実行させるための情報抽出プログラム。
JP2017047196A 2017-03-13 2017-03-13 情報抽出装置、情報抽出方法及び情報抽出プログラム Active JP6660333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017047196A JP6660333B2 (ja) 2017-03-13 2017-03-13 情報抽出装置、情報抽出方法及び情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017047196A JP6660333B2 (ja) 2017-03-13 2017-03-13 情報抽出装置、情報抽出方法及び情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2018151823A JP2018151823A (ja) 2018-09-27
JP6660333B2 true JP6660333B2 (ja) 2020-03-11

Family

ID=63680430

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017047196A Active JP6660333B2 (ja) 2017-03-13 2017-03-13 情報抽出装置、情報抽出方法及び情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP6660333B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7372055B2 (ja) * 2019-05-30 2023-10-31 Kddi株式会社 情報処理システム及び学習方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148770A (ja) * 1998-11-06 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
JP4703415B2 (ja) * 2006-01-26 2011-06-15 中国電力株式会社 類似文書検索方法、類似文書検索装置、及びプログラム
JP6174469B2 (ja) * 2013-11-26 2017-08-02 株式会社日立製作所 事故分析活用支援装置および方法
WO2016132716A1 (ja) * 2015-02-17 2016-08-25 日本電気株式会社 文書処理装置及び文書処理方法

Also Published As

Publication number Publication date
JP2018151823A (ja) 2018-09-27

Similar Documents

Publication Publication Date Title
US20210365803A1 (en) Machine-learning system and method for identifying same person in genealogical databases
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN105302810A (zh) 一种信息搜索方法和装置
JP6308708B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
CN104067273A (zh) 将搜索结果分组为简档页面
US20230029278A1 (en) Efficient explorer for recorded meetings
Vasiliev et al. TraceSim: a method for calculating stack trace similarity
Rodriguez et al. Comparison of information retrieval techniques for traceability link recovery
JP6660333B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
Hübner et al. Using interaction data for continuous creation of trace links between source code and requirements in issue tracking systems
JP6722565B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP2012173794A (ja) ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム
Sivakumar et al. A hybrid text classification approach using KNN and SVM
Denninger Recommending relevant code artifacts for change requests using multiple predictors
CN110019665A (zh) 文本检索方法及装置
CN113836378A (zh) 一种数据处理方法及装置
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
US20130185401A1 (en) Configuration management device, configuration management method, and configuration management program
JP6879983B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
CN113434193B (zh) 根因变更的定位方法和装置
KR20150077669A (ko) 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템
CN118394334B (zh) 相似接口推荐方法、装置、设备、存储介质及程序产品
Michailoudis et al. Towards Readability-Aware Recommendations of Source Code Snippets.
CN113010517B (zh) 数据表管理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200207

R150 Certificate of patent or registration of utility model

Ref document number: 6660333

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150