JP6879983B2 - 情報抽出装置、情報抽出方法及び情報抽出プログラム - Google Patents

情報抽出装置、情報抽出方法及び情報抽出プログラム Download PDF

Info

Publication number
JP6879983B2
JP6879983B2 JP2018169685A JP2018169685A JP6879983B2 JP 6879983 B2 JP6879983 B2 JP 6879983B2 JP 2018169685 A JP2018169685 A JP 2018169685A JP 2018169685 A JP2018169685 A JP 2018169685A JP 6879983 B2 JP6879983 B2 JP 6879983B2
Authority
JP
Japan
Prior art keywords
feature amount
similarity
document
information
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018169685A
Other languages
English (en)
Other versions
JP2020042560A (ja
Inventor
英 渡邊
英 渡邊
岡田 圭司
圭司 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018169685A priority Critical patent/JP6879983B2/ja
Publication of JP2020042560A publication Critical patent/JP2020042560A/ja
Application granted granted Critical
Publication of JP6879983B2 publication Critical patent/JP6879983B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、蓄積された過去の情報から類似した情報を抽出するための装置、方法及びプログラムに関する。
従来、ある文書を検索キーにして、この文書と類似した文書を複数の検索対象文書から抽出する手法が提案されている(例えば、特許文献1参照)。
これらの手法では、一般に、検索キーである文書に含まれる単語と、検索対象文書に含まれる単語とを比較し、一致度又は類似度に基づいて、ベクトル空間法等を用いて、検索キー文書に対する検索対象文書の類似度が算出される。そして、この類似度が高い文書が類似文書として複数の検索対象文書から抽出される。
また、本出願人は、「特願2017−047196」において、検索対象が過去の作業事例、及びこの事例から得られた知見教訓情報を含む文書の場合に、検索キーとなる文書に対して知見教訓情報の有用度が高い文書を抽出する手法を提案し、「特願2016−216402」において、記載レベルが混在する文書群を抽出する手法を提案している。
特開2000−331027号公報
従来の手法では、検索キーとなる作業に関する文書に対して、この作業に類似した作業事例に紐づけられた知見教訓情報、あるいは、この作業内容から有用と判定される知見教訓情報が取得される。
これらの抽出結果は、いずれも検索キーとなる作業文書の記載内容に大きく依存する。ところが、作業内容が多種多様であるため、作業内容の記載方法として自然言語を用いることは避けられない。この結果、記載内容の詳細さ及び形式等を統一することは、一般的に困難である。したがって、記載内容のゆらぎ又は誤差のため、検索キーである文書に対して、より類似した文書を選択して有用な知見教訓情報を精度良く抽出することが難しかった。
本発明は、類似した内容の文書を精度良く抽出できる情報抽出装置、情報抽出方法及び情報抽出プログラムを提供することを目的とする。
本発明に係る情報抽出装置は、検索キーとなるキー文書の入力を受け付ける入力部と、文書に含まれる単語に基づく特徴量を算出する第1特徴量算出部と、前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出部と、前記第1類似度に基づく検索結果を出力する出力部と、前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価部と、を備え、前記第1特徴量算出部は、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、前記第1類似度算出部は、前記バイアス値に基づいて前記第1類似度を調整する。
前記検索対象文書は、作業に関する内容情報及び知見教訓情報を含み、前記検索対象文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部を備え、前記第1類似度算出部は、前記キー文書の特徴量と類似する特徴量を有する前記グループを検索対象として選別してもよい。
前記評価部は、前記評価値を、前記キー文書の作成者及び前記検索結果の文書の作成者それぞれの属性情報と共に記憶し、前記第1特徴量算出部は、前記属性情報の違いに応じて前記評価値を調整して、前記バイアス値を算出してもよい。
前記情報抽出装置は、前記属性情報が同一である前記検索対象文書全体の特徴量を前記属性情報毎に算出する第2特徴量算出部と、前記属性情報の間で前記検索対象文書全体の特徴量の第2類似度を算出する第2類似度算出部と、備え、前記第1特徴量算出部は、前記第2類似度に応じて前記評価値を調整して、前記バイアス値を算出してもよい。
前記評価部は、前記評価値を、前記キー文書と前記検索結果の文書との間の前記第1類似度と共に記憶し、前記第1特徴量算出部は、前記第1類似度に応じて前記評価値を調整して、前記バイアス値を算出してもよい。
本発明に係る情報抽出方法は、検索キーとなるキー文書の入力を受け付ける入力ステップと、文書に含まれる単語に基づく特徴量を算出する第1特徴量算出ステップと、前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出ステップと、前記第1類似度に基づく検索結果を出力する出力ステップと、前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータが実行し、前記第1特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、前記第1類似度算出ステップにおいて、前記バイアス値に基づいて前記第1類似度を調整する。
本発明に係る情報抽出プログラムは、検索キーとなるキー文書の入力を受け付ける入力ステップと、文書に含まれる単語に基づく特徴量を算出する第1特徴量算出ステップと、前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出ステップと、前記第1類似度に基づく検索結果を出力する出力ステップと、前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータに実行させ、前記第1特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、前記第1類似度算出ステップにおいて、前記バイアス値に基づいて前記第1類似度を調整するためのものである。
本発明によれば、類似した内容の文書が精度良く抽出される。
実施形態に係る情報抽出装置により実現される情報抽出の仕組みを示す概要図である。 実施形態に係る情報抽出装置の機能構成を示す図である。 実施形態に係る情報抽出方法の流れを例示するフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る情報抽出装置1により実現される情報抽出の仕組みを示す概要図である。
情報抽出装置1は、計画的に実施される作業に関する有用な知見教訓情報を過去事例から取得することを目的として、過去事例である各作業に関する作業情報(例えば、作業計画書、作業手順書、作業報告書、事故報告書等)を抽出する。さらに、情報抽出装置1は、抽出された過去事例に対するユーザからの評価データを受け付けることにより、文書間の類似度を調整するためのバイアス値を算出し、このバイアス値を検索キーとなる文書の特徴量の一部とする。
過去の作業に関する知見教訓情報を、第三者と共有し活用するためには、通常、以下のステップが採用される。
・実施した作業の結果及び経緯を整理し、失敗した場合は、その原因を分析する。
・分析による深掘りの結果、本質的でより抽象化した原因と対策を導く。この段階の分析結果は、作業それぞれの事情及び情報が取り除かれた、より抽象化された知見教訓情報となる。
・第三者が異なる種別の作業を計画する際に、抽象化された知見教訓情報を把握する。
・把握した知見教訓情報を、計画した作業に合わせた対策等に具体化する。
過去の作業の知見教訓情報に基づいて、計画した作業に対する対策等を講じる場合、この作業にとって、より有用度の高い知見教訓情報を抽出できることと共に、より類似する種別の作業に関する事例であることが望まれる。なぜなら、類似性の高い作業事例であるほど、知見教訓情報の抽象化及び対策への具体化の程度を浅くでき、結果的に知見教訓情報の共有に係るコストを削減することが可能だからである。
なお、この場合の類似性とは、ある抽象化された知見教訓情報を抽出する上での作業内容の類似性である。
本実施形態の情報抽出装置1は、ユーザからの評価データを用いて作業間の類似度を調整することで、作業内容の記載方法が明確に統一できなくとも、検索キーとなる作業に関する文書に対して、有用度の高い知見教訓情報、及びこの知見教訓情報に紐づく作業事例を抽出する。
情報抽出装置1は、作業特徴量化エンジン101及び知見教訓情報抽出エンジン102を用いた学習フェーズにおいて、作業履歴DB(データベース)21に蓄積された過去事例の文書に関して、文書を構成する内容情報の特徴量と知見教訓情報との相関を求め、データベース化する。
また、情報抽出装置1は、作業特徴量化エンジン101及び知見教訓情報抽出エンジン102を用いた判定フェーズにおいて、検索キーとして、実施予定の作業情報(例えば、作業名、作業手順、実施日時、場所等)が入力されると、この作業に関連性の高い、すなわち事前にチェックすべき知見教訓情報と共に、この知見教訓情報を得る基となった過去の失敗事例又は作業前レビューでの指摘事例等を抽出する。
具体的には、学習フェーズにおいては、例えば、以下のステップが実行される。
・作業特徴量化エンジン101は、過去の作業情報(作業内容)に含まれる単語等と、ユーザによる評価データに基づくバイアス値とから、作業毎の特徴量を算出する。
・知見教訓情報抽出エンジン102は、過去の事前レビュー情報及び過去の失敗情報等から、例えば、教訓を分類したラベルを付与する手法により、知見教訓情報を作成する。ラベルを付与する手法としては、例えば、文書に含まれる単語による分類、又はトピックモデル等の既存のアルゴリズムが用いられてよい。これにより、知見教訓情報抽出エンジン102は、事前レビュー情報及び失敗情報等を特徴量化した後、所定のルールにより分類し特徴量に応じたラベルを付与する。
・知見教訓情報抽出エンジン102は、作業特徴量化エンジン101により作成された特徴量と知見教訓情報との相関データを計算し、作業情報から知見教訓情報を検索するための情報として相関DB23に保存する。例えば、類似する知見教訓情報のグループに対して、グループ全体での作業内容の特徴量が記憶される。
また、判定フェーズにおいては、例えば、以下のステップが実行される。
・作業特徴量化エンジン101は、検索キーとなる新規に計画された作業情報(作業内容)から特徴量を計算する。
・知見教訓情報抽出エンジン102は、相関DB23に基づいて、作成された特徴量と相関の高い知見教訓情報、及び知見教訓情報に紐づく過去の失敗事例、過去の事前レビュー事例等を抽出する。
・知見教訓情報抽出エンジン102は、抽出された過去事例を、検索キーとのバイアス値による調整後の類似度に基づいて選択又は並べ替え、抽出結果として出力する。
・ユーザにより、抽出結果である過去事例に対する評価が入力され、ユーザ評価DB22に保存される。
図2は、本実施形態に係る情報抽出装置1の機能構成を示す図である。
情報抽出装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス又は通信デバイス等を備える。
記憶部20には、前述の作業履歴DB21、ユーザ評価DB22、相関DB23等の各種データベースが格納される。
制御部10は、情報抽出装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各種機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を情報抽出装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるプログラム(情報抽出プログラム)を記憶する。
制御部10は、入力部11と、第1特徴量算出部12と、第1類似度算出部13と、出力部14と、評価部15と、グループ生成部16と、第2特徴量算出部17と、第2類似度算出部18とを備える。
入力部11は、検索キーとなる作業内容が記述されたキー文書(例えば、作業計画書、作業手順書等)の入力を受け付ける。
第1特徴量算出部12は、キー文書、及び過去事例として作業履歴DB21に蓄積された作業の内容情報及び知見教訓情報を含む検索対象文書それぞれについて、内容情報に含まれる単語に基づく特徴量を算出する。
このとき、第1特徴量算出部12は、ユーザから入力された評価値(例えば、1〜5の5段階評価)に基づいて、キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含める。
例えば、第1特徴量算出部12は、複数の単語が同時に出現する共起状況、及び同一単語による係り受け状況等から単語間の類似性計算を実施した上で、含まれる単語に加え、ユーザ評価データに基づくバイアス値を、作業に関する文書の特徴量とする。
バイアス値は、例えば、評価の平均値であってもよい。
バイアス値は、キー文書の作成者及び検索結果の文書の作成者それぞれの属性情報の違いに応じて調整されてもよい。属性情報は、例えば作成者の所属する部署であり、異なる部署で作成された文書に対する評価については、大きな重み付けがされる。
例えば、属性情報が同一の検索対象文書全体の特徴量の類似性(第2類似度)により、部署の違いの度合いが定義されてよい。
この場合、第1特徴量算出部12は、第2類似度に応じて評価値を調整して、バイアス値を算出する。なお、第2類似度は、例えば、コサイン類似度等の既存のものであってよい。
例えば、xをx≧1の評価値とし、rを0<r≦1に正規化された部署間の第2類似度とし、nを入力された評価のうち同一の単語間に関するレコード数とすると、
バイアス値=1+Σ((x−1)×log(1/r))/n
と計算される。
なお、バイアス値の計算式は一例であり、評価値が大きいほど、第2類似度が小さいほど、バイアス値が大きく算出されるように、適宜変更が可能である。
また、例えば、第1特徴量算出部12は、キー文書と検索結果の文書との間の現在の第1類似度に応じて、入力された評価値を調整して、バイアス値を算出してもよい。
すなわち、類似性が低い文書に対して入力された評価は、重み付けが大きく設定される。
第1類似度算出部13は、キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する。
第1類似度算出部13は、バイアス値に基づいて単語間の距離を調整し、この結果、文書間の第1類似度を調整して算出する。
ここで、検索対象文書は、作業履歴DB21の全体でなくてよい。すなわち、第1類似度算出部13は、キー文書に対応して、相関DB23に基づいて抽出された知見教訓情報に紐づく作業の内容情報を、検索対象として選別してよい。
出力部14は、第1類似度に基づく検索結果を出力する。
このとき、出力部14は、第1類似度の上位から所定数の文書を出力してよい。このとき、複数の文書が第1類似度の降順にソートされて出力されることが好ましい。
なお、出力の態様はこれに限られず、適宜設計されてよい。
評価部15は、検索結果のいずれかに対する評価値をユーザから受け付け、キー文書に含まれる単群及び検索結果に含まれる単語群の組み合わせに対応付けてユーザ評価DB22に記憶する。
評価部15は、評価値を、キー文書の作成者及び検索結果の文書の作成者それぞれの部署等の属性情報と共に記憶してよく、これにより属性情報の相違に基づく評価値及びバイアス値の調整が可能となる。
また、評価部15は、評価値を、キー文書と検索結果の文書との間の第1類似度と共に記憶してもよく、これにより、現在の文書間の類似度に基づく評価値及びバイアス値の調整が可能となる。
グループ生成部16は、検索対象文書について、知見教訓情報の類似性に基づいてグループを生成し、グループ毎に内容情報の特徴量を算出して相関DB23に記憶する。
これにより、第1類似度算出部13は、キー文書の特徴量と類似する特徴量を有するグループを検索対象として選別してもよい。
第2特徴量算出部17は、前述の部署等の属性情報が同一である検索対象文書全体の特徴量を属性情報毎に算出し、第2類似度算出部18に提供する。
第2類似度算出部18は、属性情報の相違に応じて評価値を調整するために、属性情報の間で検索対象文書全体の特徴量の第2類似度を算出する。
図3は、本実施形態に係る情報抽出方法の流れを例示するフローチャートである。
ステップS1において、入力部11は、過去事例の知見教訓情報を検索するためのキー文書の入力を受け付ける。
ステップS2において、第1特徴量算出部12は、これまでにユーザから入力された評価データに基づいて、キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出する。
ステップS3において、第1特徴量算出部12は、キー文書の特徴量を、キー文書に含まれる単語、及びバイアス値に基づいて算出する。
ステップS4において、第1類似度算出部13は、ステップS3で算出された特徴量との相関により、知見教訓情報を抽出する。
ステップS5において、第1類似度算出部13は、ステップS4で抽出された知見教訓情報に紐づく作業の内容情報毎に、キー文書に対するバイアス値で調整した類似度を算出する。
ステップS6において、出力部14は、ステップS5で算出された類似度に応じて選別又はソートされた検索結果を出力する。
本実施形態によれば、情報抽出装置1は、ある作業内容に関する文書を検索キーとして、有用な知見教訓情報を含み、かつ、検索キーである作業内容に類似した過去事例を検索するために、作業の内容情報を特徴量化して類似した内容の過去事例を抽出する。このとき、情報抽出装置1は、過去の抽出結果に対するユーザからの評価データ用い、単語間の距離を調整するためのバイアス値をキー文書の特徴量として算出する。
これにより、類似しているとユーザから評価された文書の類似度が高く調整され、ユーザが判断した場合に近い情報を自動的に抽出できる。
したがって、キー文書に含まれる作業の内容情報から相関の高い知見教訓情報を抽出する場合に、記載方法、記載の詳細度、使用される用語等が統一されていないキー文書に含まれる内容情報、及び検索対象となる過去の内容情報においても、不統一による影響が削減されるので、結果として、情報抽出装置1は、類似した内容の文書を精度良く抽出できる。
例えば、ある作業の実施計画を立てる際に、異なる分野又は異なる部署における過去の作業に対する知見教訓情報及び内容情報を抽出する際に、内容情報の記載が過去の事例と同一の形式及び詳細度でなくとも、情報抽出装置1は、有用な知見教訓情報を抽出することが可能となる。したがって、ユーザは、作業を実施する前に過去事例の知見教訓情報を確認し、必要な事前対策を講ずることができる。
なお、バイアス値は、単語間の距離を調整するためのものであるため、評価を受け付けた対象の文書に限定されるものではない。したがって、バイアス値は、同一の単語を含む他の文書にも再利用できる。
また、情報抽出装置1は、知見教訓情報をグループ化して、グループ単位の特徴量とキー文書の特徴量との類似度を算出することで、知見教訓情報が類似したグループに検索対象を絞った上で、内容情報が類似した過去事例を抽出できる。
情報抽出装置1は、文書の作成者の部署等、属性情報が相違する場合の評価データを貴重な意見と判断して重み付けすることで、文書の特徴量を適切に更新でき、この結果、有用な知見教訓情報を抽出できる。
属性情報の相違の度合いは、同一属性情報の文書全体の特徴量を比較することで実現され、情報抽出装置1は、この属性情報間における特徴量の類似度に基づき、バイアス値を適切に算出できる。
情報抽出装置1は、ユーザの評価を受け付けた文書間で、現在の特徴量の類似度に応じてバイアス値を調整することもできる。類似度が低い文書間に対して受けた高い評価は貴重なため、類似度が低いほど評価に重み付けすることで、情報抽出装置1は、適切なバイアス値を算出できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
前述の実施形態では、情報抽出装置1は、キー文書が入力される度に評価値及びバイアス値を算出することとしたが、これには限られない。
評価値又はバイアス値は、例えば、所定の周期、又はユーザから評価が入力されたとき等、所定のタイミングで予め算出され、保存されてもよい。
また、バイアス値は、文書毎の特徴量とは別に、共通のデータベースで管理されてもよい。
情報抽出装置1による情報抽出方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 情報抽出装置
10 制御部
11 入力部
12 第1特徴量算出部
13 第1類似度算出部
14 出力部
15 評価部
16 グループ生成部
17 第2特徴量算出部
18 第2類似度算出部
20 記憶部
21 作業履歴
22 ユーザ評価DB
23 相関DB
101 作業特徴量化エンジン
102 知見教訓情報抽出エンジン

Claims (7)

  1. 検索キーとなるキー文書の入力を受け付ける入力部と、
    文書に含まれる単語に基づく特徴量を算出する第1特徴量算出部と、
    前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出部と、
    前記第1類似度に基づく検索結果を出力する出力部と、
    前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価部と、を備え、
    前記第1特徴量算出部は、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
    前記第1類似度算出部は、前記バイアス値に基づいて前記第1類似度を調整する情報抽出装置。
  2. 前記検索対象文書は、作業に関する内容情報及び知見教訓情報を含み、
    前記検索対象文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部を備え、
    前記第1類似度算出部は、前記キー文書の特徴量と類似する特徴量を有する前記グループを検索対象として選別する請求項1に記載の情報抽出装置。
  3. 前記評価部は、前記評価値を、前記キー文書の作成者及び前記検索結果の文書の作成者それぞれの属性情報と共に記憶し、
    前記第1特徴量算出部は、前記属性情報の違いに応じて前記評価値を調整して、前記バイアス値を算出する請求項1又は請求項2に記載の情報抽出装置。
  4. 前記属性情報が同一である前記検索対象文書全体の特徴量を前記属性情報毎に算出する第2特徴量算出部と、
    前記属性情報の間で前記検索対象文書全体の特徴量の第2類似度を算出する第2類似度算出部と、備え、
    前記第1特徴量算出部は、前記第2類似度に応じて前記評価値を調整して、前記バイアス値を算出する請求項3に記載の情報抽出装置。
  5. 前記評価部は、前記評価値を、前記キー文書と前記検索結果の文書との間の前記第1類似度と共に記憶し、
    前記第1特徴量算出部は、前記第1類似度に応じて前記評価値を調整して、前記バイアス値を算出する請求項1又は請求項2に記載の情報抽出装置。
  6. 検索キーとなるキー文書の入力を受け付ける入力ステップと、
    文書に含まれる単語に基づく特徴量を算出する第1特徴量算出ステップと、
    前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出ステップと、
    前記第1類似度に基づく検索結果を出力する出力ステップと、
    前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータが実行し、
    前記第1特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
    前記第1類似度算出ステップにおいて、前記バイアス値に基づいて前記第1類似度を調整する情報抽出方法。
  7. 検索キーとなるキー文書の入力を受け付ける入力ステップと、
    文書に含まれる単語に基づく特徴量を算出する第1特徴量算出ステップと、
    前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第1類似度を算出する第1類似度算出ステップと、
    前記第1類似度に基づく検索結果を出力する出力ステップと、
    前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータに実行させ、
    前記第1特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
    前記第1類似度算出ステップにおいて、前記バイアス値に基づいて前記第1類似度を調整する情報抽出プログラム。
JP2018169685A 2018-09-11 2018-09-11 情報抽出装置、情報抽出方法及び情報抽出プログラム Active JP6879983B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018169685A JP6879983B2 (ja) 2018-09-11 2018-09-11 情報抽出装置、情報抽出方法及び情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018169685A JP6879983B2 (ja) 2018-09-11 2018-09-11 情報抽出装置、情報抽出方法及び情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2020042560A JP2020042560A (ja) 2020-03-19
JP6879983B2 true JP6879983B2 (ja) 2021-06-02

Family

ID=69798326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018169685A Active JP6879983B2 (ja) 2018-09-11 2018-09-11 情報抽出装置、情報抽出方法及び情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP6879983B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3861529B2 (ja) * 1999-10-20 2006-12-20 株式会社日立製作所 文書検索方法
KR101532715B1 (ko) * 2005-03-18 2015-07-02 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
JP2009053743A (ja) * 2007-08-23 2009-03-12 Kyushu Institute Of Technology 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム
JP6722565B2 (ja) * 2016-11-04 2020-07-15 Kddi株式会社 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP2019164409A (ja) * 2018-03-19 2019-09-26 株式会社日立ソリューションズ 文書検索装置、文書検索方法、及び文書検索プログラム

Also Published As

Publication number Publication date
JP2020042560A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
US7480667B2 (en) System and method for using anchor text as training data for classifier-based search systems
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
US20060184460A1 (en) Automated learning system
US20080097937A1 (en) Distributed method for integrating data mining and text categorization techniques
US9928239B2 (en) Comparing projects
US20090281975A1 (en) Recommending similar content identified with a neural network
CN113256383B (zh) 保险产品的推荐方法、装置、电子设备及存储介质
MX2012011923A (es) Asignacion de atributis aplicables para datos que describen la identidad personal.
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN116401464B (zh) 一种职业用户画像的构建方法、装置、设备及存储介质
US20220253725A1 (en) Machine learning model for entity resolution
CN113515600B (zh) 一种基于元数据的空间分析自动计算方法
US11954137B2 (en) Data generation device and data generation method
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
CN114138977A (zh) 日志处理方法、装置、计算机设备和存储介质
CN101105799B (zh) 评价文件重要性程度的方法
JP2010128779A (ja) 重回帰式の抽出方法
WO2014057965A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5780036B2 (ja) 抽出プログラム、抽出方法及び抽出装置
CN118227106A (zh) 代码补全方法、装置、电子设备和介质
CN113157757A (zh) 一种数据推荐方法、装置、电子设备及存储介质
US8001122B2 (en) Relating similar terms for information retrieval
JP6722565B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP6879983B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP6660333B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210430

R150 Certificate of patent or registration of utility model

Ref document number: 6879983

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150