JP6879983B2 - 情報抽出装置、情報抽出方法及び情報抽出プログラム - Google Patents
情報抽出装置、情報抽出方法及び情報抽出プログラム Download PDFInfo
- Publication number
- JP6879983B2 JP6879983B2 JP2018169685A JP2018169685A JP6879983B2 JP 6879983 B2 JP6879983 B2 JP 6879983B2 JP 2018169685 A JP2018169685 A JP 2018169685A JP 2018169685 A JP2018169685 A JP 2018169685A JP 6879983 B2 JP6879983 B2 JP 6879983B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- similarity
- document
- information
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
これらの手法では、一般に、検索キーである文書に含まれる単語と、検索対象文書に含まれる単語とを比較し、一致度又は類似度に基づいて、ベクトル空間法等を用いて、検索キー文書に対する検索対象文書の類似度が算出される。そして、この類似度が高い文書が類似文書として複数の検索対象文書から抽出される。
これらの抽出結果は、いずれも検索キーとなる作業文書の記載内容に大きく依存する。ところが、作業内容が多種多様であるため、作業内容の記載方法として自然言語を用いることは避けられない。この結果、記載内容の詳細さ及び形式等を統一することは、一般的に困難である。したがって、記載内容のゆらぎ又は誤差のため、検索キーである文書に対して、より類似した文書を選択して有用な知見教訓情報を精度良く抽出することが難しかった。
図1は、本実施形態に係る情報抽出装置1により実現される情報抽出の仕組みを示す概要図である。
・実施した作業の結果及び経緯を整理し、失敗した場合は、その原因を分析する。
・分析による深掘りの結果、本質的でより抽象化した原因と対策を導く。この段階の分析結果は、作業それぞれの事情及び情報が取り除かれた、より抽象化された知見教訓情報となる。
・第三者が異なる種別の作業を計画する際に、抽象化された知見教訓情報を把握する。
・把握した知見教訓情報を、計画した作業に合わせた対策等に具体化する。
なお、この場合の類似性とは、ある抽象化された知見教訓情報を抽出する上での作業内容の類似性である。
また、情報抽出装置1は、作業特徴量化エンジン101及び知見教訓情報抽出エンジン102を用いた判定フェーズにおいて、検索キーとして、実施予定の作業情報(例えば、作業名、作業手順、実施日時、場所等)が入力されると、この作業に関連性の高い、すなわち事前にチェックすべき知見教訓情報と共に、この知見教訓情報を得る基となった過去の失敗事例又は作業前レビューでの指摘事例等を抽出する。
・作業特徴量化エンジン101は、過去の作業情報(作業内容)に含まれる単語等と、ユーザによる評価データに基づくバイアス値とから、作業毎の特徴量を算出する。
・知見教訓情報抽出エンジン102は、過去の事前レビュー情報及び過去の失敗情報等から、例えば、教訓を分類したラベルを付与する手法により、知見教訓情報を作成する。ラベルを付与する手法としては、例えば、文書に含まれる単語による分類、又はトピックモデル等の既存のアルゴリズムが用いられてよい。これにより、知見教訓情報抽出エンジン102は、事前レビュー情報及び失敗情報等を特徴量化した後、所定のルールにより分類し特徴量に応じたラベルを付与する。
・知見教訓情報抽出エンジン102は、作業特徴量化エンジン101により作成された特徴量と知見教訓情報との相関データを計算し、作業情報から知見教訓情報を検索するための情報として相関DB23に保存する。例えば、類似する知見教訓情報のグループに対して、グループ全体での作業内容の特徴量が記憶される。
・作業特徴量化エンジン101は、検索キーとなる新規に計画された作業情報(作業内容)から特徴量を計算する。
・知見教訓情報抽出エンジン102は、相関DB23に基づいて、作成された特徴量と相関の高い知見教訓情報、及び知見教訓情報に紐づく過去の失敗事例、過去の事前レビュー事例等を抽出する。
・知見教訓情報抽出エンジン102は、抽出された過去事例を、検索キーとのバイアス値による調整後の類似度に基づいて選択又は並べ替え、抽出結果として出力する。
・ユーザにより、抽出結果である過去事例に対する評価が入力され、ユーザ評価DB22に保存される。
情報抽出装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス又は通信デバイス等を備える。
記憶部20には、前述の作業履歴DB21、ユーザ評価DB22、相関DB23等の各種データベースが格納される。
このとき、第1特徴量算出部12は、ユーザから入力された評価値(例えば、1〜5の5段階評価)に基づいて、キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含める。
バイアス値は、例えば、評価の平均値であってもよい。
例えば、属性情報が同一の検索対象文書全体の特徴量の類似性(第2類似度)により、部署の違いの度合いが定義されてよい。
この場合、第1特徴量算出部12は、第2類似度に応じて評価値を調整して、バイアス値を算出する。なお、第2類似度は、例えば、コサイン類似度等の既存のものであってよい。
バイアス値=1+Σ((x−1)×log(1/r))/n
と計算される。
なお、バイアス値の計算式は一例であり、評価値が大きいほど、第2類似度が小さいほど、バイアス値が大きく算出されるように、適宜変更が可能である。
すなわち、類似性が低い文書に対して入力された評価は、重み付けが大きく設定される。
第1類似度算出部13は、バイアス値に基づいて単語間の距離を調整し、この結果、文書間の第1類似度を調整して算出する。
ここで、検索対象文書は、作業履歴DB21の全体でなくてよい。すなわち、第1類似度算出部13は、キー文書に対応して、相関DB23に基づいて抽出された知見教訓情報に紐づく作業の内容情報を、検索対象として選別してよい。
このとき、出力部14は、第1類似度の上位から所定数の文書を出力してよい。このとき、複数の文書が第1類似度の降順にソートされて出力されることが好ましい。
なお、出力の態様はこれに限られず、適宜設計されてよい。
評価部15は、評価値を、キー文書の作成者及び検索結果の文書の作成者それぞれの部署等の属性情報と共に記憶してよく、これにより属性情報の相違に基づく評価値及びバイアス値の調整が可能となる。
また、評価部15は、評価値を、キー文書と検索結果の文書との間の第1類似度と共に記憶してもよく、これにより、現在の文書間の類似度に基づく評価値及びバイアス値の調整が可能となる。
これにより、第1類似度算出部13は、キー文書の特徴量と類似する特徴量を有するグループを検索対象として選別してもよい。
ステップS1において、入力部11は、過去事例の知見教訓情報を検索するためのキー文書の入力を受け付ける。
これにより、類似しているとユーザから評価された文書の類似度が高く調整され、ユーザが判断した場合に近い情報を自動的に抽出できる。
例えば、ある作業の実施計画を立てる際に、異なる分野又は異なる部署における過去の作業に対する知見教訓情報及び内容情報を抽出する際に、内容情報の記載が過去の事例と同一の形式及び詳細度でなくとも、情報抽出装置1は、有用な知見教訓情報を抽出することが可能となる。したがって、ユーザは、作業を実施する前に過去事例の知見教訓情報を確認し、必要な事前対策を講ずることができる。
属性情報の相違の度合いは、同一属性情報の文書全体の特徴量を比較することで実現され、情報抽出装置1は、この属性情報間における特徴量の類似度に基づき、バイアス値を適切に算出できる。
評価値又はバイアス値は、例えば、所定の周期、又はユーザから評価が入力されたとき等、所定のタイミングで予め算出され、保存されてもよい。
また、バイアス値は、文書毎の特徴量とは別に、共通のデータベースで管理されてもよい。
10 制御部
11 入力部
12 第1特徴量算出部
13 第1類似度算出部
14 出力部
15 評価部
16 グループ生成部
17 第2特徴量算出部
18 第2類似度算出部
20 記憶部
21 作業履歴
22 ユーザ評価DB
23 相関DB
101 作業特徴量化エンジン
102 知見教訓情報抽出エンジン
Claims (7)
- 検索キーとなるキー文書の入力を受け付ける入力部と、
文書に含まれる単語に基づく特徴量を算出する第1特徴量算出部と、
前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出部と、
前記第1類似度に基づく検索結果を出力する出力部と、
前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価部と、を備え、
前記第1特徴量算出部は、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
前記第1類似度算出部は、前記バイアス値に基づいて前記第1類似度を調整する情報抽出装置。 - 前記検索対象文書は、作業に関する内容情報及び知見教訓情報を含み、
前記検索対象文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部を備え、
前記第1類似度算出部は、前記キー文書の特徴量と類似する特徴量を有する前記グループを検索対象として選別する請求項1に記載の情報抽出装置。 - 前記評価部は、前記評価値を、前記キー文書の作成者及び前記検索結果の文書の作成者それぞれの属性情報と共に記憶し、
前記第1特徴量算出部は、前記属性情報の違いに応じて前記評価値を調整して、前記バイアス値を算出する請求項1又は請求項2に記載の情報抽出装置。 - 前記属性情報が同一である前記検索対象文書全体の特徴量を前記属性情報毎に算出する第2特徴量算出部と、
前記属性情報の間で前記検索対象文書全体の特徴量の第2類似度を算出する第2類似度算出部と、備え、
前記第1特徴量算出部は、前記第2類似度に応じて前記評価値を調整して、前記バイアス値を算出する請求項3に記載の情報抽出装置。 - 前記評価部は、前記評価値を、前記キー文書と前記検索結果の文書との間の前記第1類似度と共に記憶し、
前記第1特徴量算出部は、前記第1類似度に応じて前記評価値を調整して、前記バイアス値を算出する請求項1又は請求項2に記載の情報抽出装置。 - 検索キーとなるキー文書の入力を受け付ける入力ステップと、
文書に含まれる単語に基づく特徴量を算出する第1特徴量算出ステップと、
前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出ステップと、
前記第1類似度に基づく検索結果を出力する出力ステップと、
前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータが実行し、
前記第1特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
前記第1類似度算出ステップにおいて、前記バイアス値に基づいて前記第1類似度を調整する情報抽出方法。 - 検索キーとなるキー文書の入力を受け付ける入力ステップと、
文書に含まれる単語に基づく特徴量を算出する第1特徴量算出ステップと、
前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出ステップと、
前記第1類似度に基づく検索結果を出力する出力ステップと、
前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータに実行させ、
前記第1特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
前記第1類似度算出ステップにおいて、前記バイアス値に基づいて前記第1類似度を調整する情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018169685A JP6879983B2 (ja) | 2018-09-11 | 2018-09-11 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018169685A JP6879983B2 (ja) | 2018-09-11 | 2018-09-11 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042560A JP2020042560A (ja) | 2020-03-19 |
JP6879983B2 true JP6879983B2 (ja) | 2021-06-02 |
Family
ID=69798326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018169685A Active JP6879983B2 (ja) | 2018-09-11 | 2018-09-11 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6879983B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3861529B2 (ja) * | 1999-10-20 | 2006-12-20 | 株式会社日立製作所 | 文書検索方法 |
KR101532715B1 (ko) * | 2005-03-18 | 2015-07-02 | 써치 엔진 테크놀로지스, 엘엘씨 | 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진 |
JP2009053743A (ja) * | 2007-08-23 | 2009-03-12 | Kyushu Institute Of Technology | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム |
JP6722565B2 (ja) * | 2016-11-04 | 2020-07-15 | Kddi株式会社 | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
JP2019164409A (ja) * | 2018-03-19 | 2019-09-26 | 株式会社日立ソリューションズ | 文書検索装置、文書検索方法、及び文書検索プログラム |
-
2018
- 2018-09-11 JP JP2018169685A patent/JP6879983B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020042560A (ja) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7480667B2 (en) | System and method for using anchor text as training data for classifier-based search systems | |
CN111105209B (zh) | 适用于人岗匹配推荐系统的职位简历匹配方法及装置 | |
US20060184460A1 (en) | Automated learning system | |
US20080097937A1 (en) | Distributed method for integrating data mining and text categorization techniques | |
US9928239B2 (en) | Comparing projects | |
US20090281975A1 (en) | Recommending similar content identified with a neural network | |
CN113256383B (zh) | 保险产品的推荐方法、装置、电子设备及存储介质 | |
MX2012011923A (es) | Asignacion de atributis aplicables para datos que describen la identidad personal. | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN116401464B (zh) | 一种职业用户画像的构建方法、装置、设备及存储介质 | |
US20220253725A1 (en) | Machine learning model for entity resolution | |
CN113515600B (zh) | 一种基于元数据的空间分析自动计算方法 | |
US11954137B2 (en) | Data generation device and data generation method | |
US20170154294A1 (en) | Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device | |
CN114138977A (zh) | 日志处理方法、装置、计算机设备和存储介质 | |
CN101105799B (zh) | 评价文件重要性程度的方法 | |
JP2010128779A (ja) | 重回帰式の抽出方法 | |
WO2014057965A1 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
JP5780036B2 (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
CN118227106A (zh) | 代码补全方法、装置、电子设备和介质 | |
CN113157757A (zh) | 一种数据推荐方法、装置、电子设备及存储介质 | |
US8001122B2 (en) | Relating similar terms for information retrieval | |
JP6722565B2 (ja) | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム | |
JP6879983B2 (ja) | 情報抽出装置、情報抽出方法及び情報抽出プログラム | |
JP6660333B2 (ja) | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200619 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210430 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6879983 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |