JP6660333B2 - 情報抽出装置、情報抽出方法及び情報抽出プログラム - Google Patents
情報抽出装置、情報抽出方法及び情報抽出プログラム Download PDFInfo
- Publication number
- JP6660333B2 JP6660333B2 JP2017047196A JP2017047196A JP6660333B2 JP 6660333 B2 JP6660333 B2 JP 6660333B2 JP 2017047196 A JP2017047196 A JP 2017047196A JP 2017047196 A JP2017047196 A JP 2017047196A JP 6660333 B2 JP6660333 B2 JP 6660333B2
- Authority
- JP
- Japan
- Prior art keywords
- work
- similarity
- document
- content
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
これらの手法では、一般に、検索キーである文書に含まれる単語と、検索対象文書に含まれる単語とを比較し、一致度又は類似性に基づいて、ベクトル空間法等を用いて、検索キー文書に対する検索対象文書の類似度が算出される。そして、この類似度が高い文書が類似文書として複数の検索対象文書から抽出される。
また、過去の全ての知見教訓情報をまとめて取得する方式では、提示される情報量は極めて膨大となり、情報の優先度も不明確なため、有用な情報を選択することが難しい。
図1は、本実施形態に係る情報抽出装置1の機能構成を示す図である。
情報抽出装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス又は通信デバイス等を備える。
知見教訓情報には、例えば、作業前に準備すべき事項及びプロセス、作業に伴って発生した事例への対処法、作業から得られた教訓等が含まれ、今後実施される作業に対する有用な情報となり得る。
さらに、グループ生成部11は、生成した類型グループ毎に、類型グループに含まれる全ての作業文書の内容情報、例えば作業計画書、作業手順書、作業報告書、事故報告書等から特徴量を算出して文書データベース21に記憶する。
類型グループKG−1には、作業文書S−1,S−2,S−4,S−5,S−19,S−20,・・・が含まれており、この類型グループKG−1の特徴量はF1である。
また、例えば作業文書S−2は、類型グループKG−1及びKG−2の両方に含まれている。このように、類型グループ間で作業文書が重複してもよい。
含有度は、類型グループの中心からの距離で定義されてよい。
作業文書S−1は、複数の類型グループKG−1,KG−5,・・・に属し、それぞれに対する含有度は、0.4,0.2,・・・である。また、作業文書S−2は、複数の類型グループKG−1,KG−2,・・・に属し、それぞれに対する含有度は、0.6,0.5,・・・である。
さらに、有用度算出部16は、第2類似度に重み付けして有用度に加算することにより、作業内容の類似性との重複評価を行う。
第1類似度算出部14は、キー文書S−100に対して、特徴量Fxを算出すると、文書データベース21に記憶されている各類型グループの特徴量F1,F2,・・・との類似度を算出する。この例では、キー文書S−100と、類型グループKG−1の特徴量F1との類似度は0.65、類型グループKG−2の特徴量F2との類似度は0.55となっている。
続いて、有用度算出部16は、作業文書毎に有用度の総和を求める。例えば、作業文書S−2は、類型グループKG−1との組み合わせでは有用度が0.39と算出され、類型グループKG−2との組み合わせでは有用度が0.275と算出されるが、これらを合計して、作業文書S−2の有用度は0.665と求められる。
有用度算出部16は、この類似度を加味した重み付けにより、有用度を調整する。例えば係数a及びbを用いて、作業文書S−2の有用度は、0.665×a+0.3×bと算出される。
内容情報及び知見教訓情報が紐付けられた複数の作業文書S−1,S−2,・・・は、知見教訓情報のみの類似性により類型グループ化される。複数の類型グループは、それぞれ類似した知見教訓情報を含む作業文書からなる。また、1つの作業文書が複数の類型グループに属し、類型グループの重なりが存在してもよい。
第2類似度は、キー文書と作業文書との内容情報の類似性を示し、いずれの作業文書が事例としてキー文書に、より近いかの指標となるため、これにより、同様の過去事例としての有用性が評価される。
情報抽出装置1は、第1類似度及び含有度に基づく有用度の降順に作業文書を抽出するので、ユーザは、検索キーとなる作業文書に対して、作業内容に関する類似度は必ずしも高くないが、同時に紐付けて管理される知見教訓情報の有用度が高い作業事例及び知見教訓情報を取得できる。
この結果、例えば、これから実施される予定の作業文書には、実施前であるため知見教訓情報は含まれていないが、ユーザは、この内容情報を検索キーとして、蓄積された過去の作業に関する知見教訓情報を有用度の降順で取得し、作業実施以前に内容を確認し、必要な事前対策等を講ずることができる。
また、本実施形態における検索対象の文書は、作業文書群には限られず、種々の分野の文書であってよい。情報抽出装置1は、知見教訓情報が紐付けて管理される文書を検索対象として、知見教訓情報のないキー文書に対しても、参考となる知見教訓情報を抽出できる。
10 制御部
11 グループ生成部
12 含有度算出部
13 入力部
14 第1類似度算出部
15 第2類似度算出部
16 有用度算出部
17 抽出部
20 記憶部
21 文書データベース
Claims (5)
- 過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部と、
前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出部と、
検索キーとなるキー文書の入力を受け付ける入力部と、
前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出部と、
前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出部と、
前記有用度の降順に前記作業文書を抽出する抽出部と、を備える情報抽出装置。 - 前記有用度算出部は、前記有用度として、前記第1類似度と前記含有度との積を前記作業文書毎に合計した値を算出する請求項1に記載の情報抽出装置。
- 前記キー文書の内容情報と前記作業文書の内容情報との第2類似度を算出する第2類似度算出部を備え、
前記有用度算出部は、前記第2類似度に重み付けして前記有用度に加算する請求項1又は請求項2に記載の情報抽出装置。 - 過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成ステップと、
前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出ステップと、
検索キーとなるキー文書の入力を受け付ける入力ステップと、
前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出ステップと、
前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出ステップと、
前記有用度の降順に前記作業文書を抽出する抽出ステップと、をコンピュータが実行する情報抽出方法。 - 過去の作業それぞれに関する内容情報及び知見教訓情報が紐付けられた複数の作業文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成ステップと、
前記作業文書毎に、前記グループそれぞれへの含有度を算出する含有度算出ステップと、
検索キーとなるキー文書の入力を受け付ける入力ステップと、
前記キー文書の特徴量を算出し、前記グループの特徴量との第1類似度を算出する第1類似度算出ステップと、
前記第1類似度及び前記含有度に基づいて、前記キー文書に対する前記作業文書毎の有用度を算出する有用度算出ステップと、
前記有用度の降順に前記作業文書を抽出する抽出ステップと、をコンピュータに実行させるための情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017047196A JP6660333B2 (ja) | 2017-03-13 | 2017-03-13 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017047196A JP6660333B2 (ja) | 2017-03-13 | 2017-03-13 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018151823A JP2018151823A (ja) | 2018-09-27 |
JP6660333B2 true JP6660333B2 (ja) | 2020-03-11 |
Family
ID=63680430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017047196A Active JP6660333B2 (ja) | 2017-03-13 | 2017-03-13 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6660333B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7372055B2 (ja) * | 2019-05-30 | 2023-10-31 | Kddi株式会社 | 情報処理システム及び学習方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148770A (ja) * | 1998-11-06 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 |
JP2003030224A (ja) * | 2001-07-17 | 2003-01-31 | Fujitsu Ltd | 文書クラスタ作成装置、文書検索システムおよびfaq作成システム |
JP4703415B2 (ja) * | 2006-01-26 | 2011-06-15 | 中国電力株式会社 | 類似文書検索方法、類似文書検索装置、及びプログラム |
JP6174469B2 (ja) * | 2013-11-26 | 2017-08-02 | 株式会社日立製作所 | 事故分析活用支援装置および方法 |
WO2016132716A1 (ja) * | 2015-02-17 | 2016-08-25 | 日本電気株式会社 | 文書処理装置及び文書処理方法 |
-
2017
- 2017-03-13 JP JP2017047196A patent/JP6660333B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018151823A (ja) | 2018-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210365803A1 (en) | Machine-learning system and method for identifying same person in genealogical databases | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
CN105302810A (zh) | 一种信息搜索方法和装置 | |
JP6308708B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
CN104067273A (zh) | 将搜索结果分组为简档页面 | |
US20230029278A1 (en) | Efficient explorer for recorded meetings | |
Vasiliev et al. | TraceSim: a method for calculating stack trace similarity | |
Rodriguez et al. | Comparison of information retrieval techniques for traceability link recovery | |
JP6660333B2 (ja) | 情報抽出装置、情報抽出方法及び情報抽出プログラム | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
Hübner et al. | Using interaction data for continuous creation of trace links between source code and requirements in issue tracking systems | |
JP6722565B2 (ja) | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム | |
JP2012173794A (ja) | ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム | |
Sivakumar et al. | A hybrid text classification approach using KNN and SVM | |
Denninger | Recommending relevant code artifacts for change requests using multiple predictors | |
CN110019665A (zh) | 文本检索方法及装置 | |
CN113836378A (zh) | 一种数据处理方法及装置 | |
CN109299260B (zh) | 数据分类方法、装置以及计算机可读存储介质 | |
US20130185401A1 (en) | Configuration management device, configuration management method, and configuration management program | |
JP6879983B2 (ja) | 情報抽出装置、情報抽出方法及び情報抽出プログラム | |
CN113434193B (zh) | 根因变更的定位方法和装置 | |
KR20150077669A (ko) | 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템 | |
CN118394334B (zh) | 相似接口推荐方法、装置、设备、存储介质及程序产品 | |
Michailoudis et al. | Towards Readability-Aware Recommendations of Source Code Snippets. | |
CN113010517B (zh) | 数据表管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6660333 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |