JP6879983B2

JP6879983B2 - 情報抽出装置、情報抽出方法及び情報抽出プログラム

Info

Publication number: JP6879983B2
Application number: JP2018169685A
Authority: JP
Inventors: 英渡邊; 岡田　圭司; 圭司岡田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2021-06-02
Anticipated expiration: 2038-09-11
Also published as: JP2020042560A

Description

本発明は、蓄積された過去の情報から類似した情報を抽出するための装置、方法及びプログラムに関する。

従来、ある文書を検索キーにして、この文書と類似した文書を複数の検索対象文書から抽出する手法が提案されている（例えば、特許文献１参照）。
これらの手法では、一般に、検索キーである文書に含まれる単語と、検索対象文書に含まれる単語とを比較し、一致度又は類似度に基づいて、ベクトル空間法等を用いて、検索キー文書に対する検索対象文書の類似度が算出される。そして、この類似度が高い文書が類似文書として複数の検索対象文書から抽出される。

また、本出願人は、「特願２０１７−０４７１９６」において、検索対象が過去の作業事例、及びこの事例から得られた知見教訓情報を含む文書の場合に、検索キーとなる文書に対して知見教訓情報の有用度が高い文書を抽出する手法を提案し、「特願２０１６−２１６４０２」において、記載レベルが混在する文書群を抽出する手法を提案している。

特開２０００−３３１０２７号公報

従来の手法では、検索キーとなる作業に関する文書に対して、この作業に類似した作業事例に紐づけられた知見教訓情報、あるいは、この作業内容から有用と判定される知見教訓情報が取得される。
これらの抽出結果は、いずれも検索キーとなる作業文書の記載内容に大きく依存する。ところが、作業内容が多種多様であるため、作業内容の記載方法として自然言語を用いることは避けられない。この結果、記載内容の詳細さ及び形式等を統一することは、一般的に困難である。したがって、記載内容のゆらぎ又は誤差のため、検索キーである文書に対して、より類似した文書を選択して有用な知見教訓情報を精度良く抽出することが難しかった。

本発明は、類似した内容の文書を精度良く抽出できる情報抽出装置、情報抽出方法及び情報抽出プログラムを提供することを目的とする。

本発明に係る情報抽出装置は、検索キーとなるキー文書の入力を受け付ける入力部と、文書に含まれる単語に基づく特徴量を算出する第１特徴量算出部と、前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第１類似度を算出する第１類似度算出部と、前記第１類似度に基づく検索結果を出力する出力部と、前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価部と、を備え、前記第１特徴量算出部は、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、前記第１類似度算出部は、前記バイアス値に基づいて前記第１類似度を調整する。

前記検索対象文書は、作業に関する内容情報及び知見教訓情報を含み、前記検索対象文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部を備え、前記第１類似度算出部は、前記キー文書の特徴量と類似する特徴量を有する前記グループを検索対象として選別してもよい。

前記評価部は、前記評価値を、前記キー文書の作成者及び前記検索結果の文書の作成者それぞれの属性情報と共に記憶し、前記第１特徴量算出部は、前記属性情報の違いに応じて前記評価値を調整して、前記バイアス値を算出してもよい。

前記情報抽出装置は、前記属性情報が同一である前記検索対象文書全体の特徴量を前記属性情報毎に算出する第２特徴量算出部と、前記属性情報の間で前記検索対象文書全体の特徴量の第２類似度を算出する第２類似度算出部と、備え、前記第１特徴量算出部は、前記第２類似度に応じて前記評価値を調整して、前記バイアス値を算出してもよい。

前記評価部は、前記評価値を、前記キー文書と前記検索結果の文書との間の前記第１類似度と共に記憶し、前記第１特徴量算出部は、前記第１類似度に応じて前記評価値を調整して、前記バイアス値を算出してもよい。

本発明に係る情報抽出方法は、検索キーとなるキー文書の入力を受け付ける入力ステップと、文書に含まれる単語に基づく特徴量を算出する第１特徴量算出ステップと、前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第１類似度を算出する第１類似度算出ステップと、前記第１類似度に基づく検索結果を出力する出力ステップと、前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータが実行し、前記第１特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、前記第１類似度算出ステップにおいて、前記バイアス値に基づいて前記第１類似度を調整する。

本発明に係る情報抽出プログラムは、検索キーとなるキー文書の入力を受け付ける入力ステップと、文書に含まれる単語に基づく特徴量を算出する第１特徴量算出ステップと、前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第１類似度を算出する第１類似度算出ステップと、前記第１類似度に基づく検索結果を出力する出力ステップと、前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータに実行させ、前記第１特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、前記第１類似度算出ステップにおいて、前記バイアス値に基づいて前記第１類似度を調整するためのものである。

本発明によれば、類似した内容の文書が精度良く抽出される。

実施形態に係る情報抽出装置により実現される情報抽出の仕組みを示す概要図である。実施形態に係る情報抽出装置の機能構成を示す図である。実施形態に係る情報抽出方法の流れを例示するフローチャートである。

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態に係る情報抽出装置１により実現される情報抽出の仕組みを示す概要図である。

情報抽出装置１は、計画的に実施される作業に関する有用な知見教訓情報を過去事例から取得することを目的として、過去事例である各作業に関する作業情報（例えば、作業計画書、作業手順書、作業報告書、事故報告書等）を抽出する。さらに、情報抽出装置１は、抽出された過去事例に対するユーザからの評価データを受け付けることにより、文書間の類似度を調整するためのバイアス値を算出し、このバイアス値を検索キーとなる文書の特徴量の一部とする。

過去の作業に関する知見教訓情報を、第三者と共有し活用するためには、通常、以下のステップが採用される。
・実施した作業の結果及び経緯を整理し、失敗した場合は、その原因を分析する。
・分析による深掘りの結果、本質的でより抽象化した原因と対策を導く。この段階の分析結果は、作業それぞれの事情及び情報が取り除かれた、より抽象化された知見教訓情報となる。
・第三者が異なる種別の作業を計画する際に、抽象化された知見教訓情報を把握する。
・把握した知見教訓情報を、計画した作業に合わせた対策等に具体化する。

過去の作業の知見教訓情報に基づいて、計画した作業に対する対策等を講じる場合、この作業にとって、より有用度の高い知見教訓情報を抽出できることと共に、より類似する種別の作業に関する事例であることが望まれる。なぜなら、類似性の高い作業事例であるほど、知見教訓情報の抽象化及び対策への具体化の程度を浅くでき、結果的に知見教訓情報の共有に係るコストを削減することが可能だからである。
なお、この場合の類似性とは、ある抽象化された知見教訓情報を抽出する上での作業内容の類似性である。

本実施形態の情報抽出装置１は、ユーザからの評価データを用いて作業間の類似度を調整することで、作業内容の記載方法が明確に統一できなくとも、検索キーとなる作業に関する文書に対して、有用度の高い知見教訓情報、及びこの知見教訓情報に紐づく作業事例を抽出する。

情報抽出装置１は、作業特徴量化エンジン１０１及び知見教訓情報抽出エンジン１０２を用いた学習フェーズにおいて、作業履歴ＤＢ（データベース）２１に蓄積された過去事例の文書に関して、文書を構成する内容情報の特徴量と知見教訓情報との相関を求め、データベース化する。
また、情報抽出装置１は、作業特徴量化エンジン１０１及び知見教訓情報抽出エンジン１０２を用いた判定フェーズにおいて、検索キーとして、実施予定の作業情報（例えば、作業名、作業手順、実施日時、場所等）が入力されると、この作業に関連性の高い、すなわち事前にチェックすべき知見教訓情報と共に、この知見教訓情報を得る基となった過去の失敗事例又は作業前レビューでの指摘事例等を抽出する。

具体的には、学習フェーズにおいては、例えば、以下のステップが実行される。
・作業特徴量化エンジン１０１は、過去の作業情報（作業内容）に含まれる単語等と、ユーザによる評価データに基づくバイアス値とから、作業毎の特徴量を算出する。
・知見教訓情報抽出エンジン１０２は、過去の事前レビュー情報及び過去の失敗情報等から、例えば、教訓を分類したラベルを付与する手法により、知見教訓情報を作成する。ラベルを付与する手法としては、例えば、文書に含まれる単語による分類、又はトピックモデル等の既存のアルゴリズムが用いられてよい。これにより、知見教訓情報抽出エンジン１０２は、事前レビュー情報及び失敗情報等を特徴量化した後、所定のルールにより分類し特徴量に応じたラベルを付与する。
・知見教訓情報抽出エンジン１０２は、作業特徴量化エンジン１０１により作成された特徴量と知見教訓情報との相関データを計算し、作業情報から知見教訓情報を検索するための情報として相関ＤＢ２３に保存する。例えば、類似する知見教訓情報のグループに対して、グループ全体での作業内容の特徴量が記憶される。

また、判定フェーズにおいては、例えば、以下のステップが実行される。
・作業特徴量化エンジン１０１は、検索キーとなる新規に計画された作業情報（作業内容）から特徴量を計算する。
・知見教訓情報抽出エンジン１０２は、相関ＤＢ２３に基づいて、作成された特徴量と相関の高い知見教訓情報、及び知見教訓情報に紐づく過去の失敗事例、過去の事前レビュー事例等を抽出する。
・知見教訓情報抽出エンジン１０２は、抽出された過去事例を、検索キーとのバイアス値による調整後の類似度に基づいて選択又は並べ替え、抽出結果として出力する。
・ユーザにより、抽出結果である過去事例に対する評価が入力され、ユーザ評価ＤＢ２２に保存される。

図２は、本実施形態に係る情報抽出装置１の機能構成を示す図である。
情報抽出装置１は、サーバ装置又はパーソナルコンピュータ等の情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス又は通信デバイス等を備える。
記憶部２０には、前述の作業履歴ＤＢ２１、ユーザ評価ＤＢ２２、相関ＤＢ２３等の各種データベースが格納される。

制御部１０は、情報抽出装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各種機能を実現する。制御部１０は、ＣＰＵであってよい。

記憶部２０は、ハードウェア群を情報抽出装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスク（ＨＤＤ）等であってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるプログラム（情報抽出プログラム）を記憶する。

制御部１０は、入力部１１と、第１特徴量算出部１２と、第１類似度算出部１３と、出力部１４と、評価部１５と、グループ生成部１６と、第２特徴量算出部１７と、第２類似度算出部１８とを備える。

入力部１１は、検索キーとなる作業内容が記述されたキー文書（例えば、作業計画書、作業手順書等）の入力を受け付ける。

第１特徴量算出部１２は、キー文書、及び過去事例として作業履歴ＤＢ２１に蓄積された作業の内容情報及び知見教訓情報を含む検索対象文書それぞれについて、内容情報に含まれる単語に基づく特徴量を算出する。
このとき、第１特徴量算出部１２は、ユーザから入力された評価値（例えば、１〜５の５段階評価）に基づいて、キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含める。

例えば、第１特徴量算出部１２は、複数の単語が同時に出現する共起状況、及び同一単語による係り受け状況等から単語間の類似性計算を実施した上で、含まれる単語に加え、ユーザ評価データに基づくバイアス値を、作業に関する文書の特徴量とする。
バイアス値は、例えば、評価の平均値であってもよい。

バイアス値は、キー文書の作成者及び検索結果の文書の作成者それぞれの属性情報の違いに応じて調整されてもよい。属性情報は、例えば作成者の所属する部署であり、異なる部署で作成された文書に対する評価については、大きな重み付けがされる。
例えば、属性情報が同一の検索対象文書全体の特徴量の類似性（第２類似度）により、部署の違いの度合いが定義されてよい。
この場合、第１特徴量算出部１２は、第２類似度に応じて評価値を調整して、バイアス値を算出する。なお、第２類似度は、例えば、コサイン類似度等の既存のものであってよい。

例えば、ｘをｘ≧１の評価値とし、ｒを０＜ｒ≦１に正規化された部署間の第２類似度とし、ｎを入力された評価のうち同一の単語間に関するレコード数とすると、
バイアス値＝１＋Σ（（ｘ−１）×ｌｏｇ（１／ｒ））／ｎ
と計算される。
なお、バイアス値の計算式は一例であり、評価値が大きいほど、第２類似度が小さいほど、バイアス値が大きく算出されるように、適宜変更が可能である。

また、例えば、第１特徴量算出部１２は、キー文書と検索結果の文書との間の現在の第１類似度に応じて、入力された評価値を調整して、バイアス値を算出してもよい。
すなわち、類似性が低い文書に対して入力された評価は、重み付けが大きく設定される。

第１類似度算出部１３は、キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第１類似度を算出する。
第１類似度算出部１３は、バイアス値に基づいて単語間の距離を調整し、この結果、文書間の第１類似度を調整して算出する。
ここで、検索対象文書は、作業履歴ＤＢ２１の全体でなくてよい。すなわち、第１類似度算出部１３は、キー文書に対応して、相関ＤＢ２３に基づいて抽出された知見教訓情報に紐づく作業の内容情報を、検索対象として選別してよい。

出力部１４は、第１類似度に基づく検索結果を出力する。
このとき、出力部１４は、第１類似度の上位から所定数の文書を出力してよい。このとき、複数の文書が第１類似度の降順にソートされて出力されることが好ましい。
なお、出力の態様はこれに限られず、適宜設計されてよい。

評価部１５は、検索結果のいずれかに対する評価値をユーザから受け付け、キー文書に含まれる単群及び検索結果に含まれる単語群の組み合わせに対応付けてユーザ評価ＤＢ２２に記憶する。
評価部１５は、評価値を、キー文書の作成者及び検索結果の文書の作成者それぞれの部署等の属性情報と共に記憶してよく、これにより属性情報の相違に基づく評価値及びバイアス値の調整が可能となる。
また、評価部１５は、評価値を、キー文書と検索結果の文書との間の第１類似度と共に記憶してもよく、これにより、現在の文書間の類似度に基づく評価値及びバイアス値の調整が可能となる。

グループ生成部１６は、検索対象文書について、知見教訓情報の類似性に基づいてグループを生成し、グループ毎に内容情報の特徴量を算出して相関ＤＢ２３に記憶する。
これにより、第１類似度算出部１３は、キー文書の特徴量と類似する特徴量を有するグループを検索対象として選別してもよい。

第２特徴量算出部１７は、前述の部署等の属性情報が同一である検索対象文書全体の特徴量を属性情報毎に算出し、第２類似度算出部１８に提供する。

第２類似度算出部１８は、属性情報の相違に応じて評価値を調整するために、属性情報の間で検索対象文書全体の特徴量の第２類似度を算出する。

図３は、本実施形態に係る情報抽出方法の流れを例示するフローチャートである。
ステップＳ１において、入力部１１は、過去事例の知見教訓情報を検索するためのキー文書の入力を受け付ける。

ステップＳ２において、第１特徴量算出部１２は、これまでにユーザから入力された評価データに基づいて、キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出する。

ステップＳ３において、第１特徴量算出部１２は、キー文書の特徴量を、キー文書に含まれる単語、及びバイアス値に基づいて算出する。

ステップＳ４において、第１類似度算出部１３は、ステップＳ３で算出された特徴量との相関により、知見教訓情報を抽出する。

ステップＳ５において、第１類似度算出部１３は、ステップＳ４で抽出された知見教訓情報に紐づく作業の内容情報毎に、キー文書に対するバイアス値で調整した類似度を算出する。

ステップＳ６において、出力部１４は、ステップＳ５で算出された類似度に応じて選別又はソートされた検索結果を出力する。

本実施形態によれば、情報抽出装置１は、ある作業内容に関する文書を検索キーとして、有用な知見教訓情報を含み、かつ、検索キーである作業内容に類似した過去事例を検索するために、作業の内容情報を特徴量化して類似した内容の過去事例を抽出する。このとき、情報抽出装置１は、過去の抽出結果に対するユーザからの評価データ用い、単語間の距離を調整するためのバイアス値をキー文書の特徴量として算出する。
これにより、類似しているとユーザから評価された文書の類似度が高く調整され、ユーザが判断した場合に近い情報を自動的に抽出できる。

したがって、キー文書に含まれる作業の内容情報から相関の高い知見教訓情報を抽出する場合に、記載方法、記載の詳細度、使用される用語等が統一されていないキー文書に含まれる内容情報、及び検索対象となる過去の内容情報においても、不統一による影響が削減されるので、結果として、情報抽出装置１は、類似した内容の文書を精度良く抽出できる。
例えば、ある作業の実施計画を立てる際に、異なる分野又は異なる部署における過去の作業に対する知見教訓情報及び内容情報を抽出する際に、内容情報の記載が過去の事例と同一の形式及び詳細度でなくとも、情報抽出装置１は、有用な知見教訓情報を抽出することが可能となる。したがって、ユーザは、作業を実施する前に過去事例の知見教訓情報を確認し、必要な事前対策を講ずることができる。

なお、バイアス値は、単語間の距離を調整するためのものであるため、評価を受け付けた対象の文書に限定されるものではない。したがって、バイアス値は、同一の単語を含む他の文書にも再利用できる。

また、情報抽出装置１は、知見教訓情報をグループ化して、グループ単位の特徴量とキー文書の特徴量との類似度を算出することで、知見教訓情報が類似したグループに検索対象を絞った上で、内容情報が類似した過去事例を抽出できる。

情報抽出装置１は、文書の作成者の部署等、属性情報が相違する場合の評価データを貴重な意見と判断して重み付けすることで、文書の特徴量を適切に更新でき、この結果、有用な知見教訓情報を抽出できる。
属性情報の相違の度合いは、同一属性情報の文書全体の特徴量を比較することで実現され、情報抽出装置１は、この属性情報間における特徴量の類似度に基づき、バイアス値を適切に算出できる。

情報抽出装置１は、ユーザの評価を受け付けた文書間で、現在の特徴量の類似度に応じてバイアス値を調整することもできる。類似度が低い文書間に対して受けた高い評価は貴重なため、類似度が低いほど評価に重み付けすることで、情報抽出装置１は、適切なバイアス値を算出できる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

前述の実施形態では、情報抽出装置１は、キー文書が入力される度に評価値及びバイアス値を算出することとしたが、これには限られない。
評価値又はバイアス値は、例えば、所定の周期、又はユーザから評価が入力されたとき等、所定のタイミングで予め算出され、保存されてもよい。
また、バイアス値は、文書毎の特徴量とは別に、共通のデータベースで管理されてもよい。

情報抽出装置１による情報抽出方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ−ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

１情報抽出装置
１０制御部
１１入力部
１２第１特徴量算出部
１３第１類似度算出部
１４出力部
１５評価部
１６グループ生成部
１７第２特徴量算出部
１８第２類似度算出部
２０記憶部
２１作業履歴
２２ユーザ評価ＤＢ
２３相関ＤＢ
１０１作業特徴量化エンジン
１０２知見教訓情報抽出エンジン

Claims

検索キーとなるキー文書の入力を受け付ける入力部と、
文書に含まれる単語に基づく特徴量を算出する第１特徴量算出部と、
前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第１類似度を算出する第１類似度算出部と、
前記第１類似度に基づく検索結果を出力する出力部と、
前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価部と、を備え、
前記第１特徴量算出部は、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
前記第１類似度算出部は、前記バイアス値に基づいて前記第１類似度を調整する情報抽出装置。
前記検索対象文書は、作業に関する内容情報及び知見教訓情報を含み、
前記検索対象文書について、前記知見教訓情報の類似性に基づいてグループを生成し、グループ毎に前記内容情報の特徴量を算出するグループ生成部を備え、
前記第１類似度算出部は、前記キー文書の特徴量と類似する特徴量を有する前記グループを検索対象として選別する請求項１に記載の情報抽出装置。
前記評価部は、前記評価値を、前記キー文書の作成者及び前記検索結果の文書の作成者それぞれの属性情報と共に記憶し、
前記第１特徴量算出部は、前記属性情報の違いに応じて前記評価値を調整して、前記バイアス値を算出する請求項１又は請求項２に記載の情報抽出装置。
前記属性情報が同一である前記検索対象文書全体の特徴量を前記属性情報毎に算出する第２特徴量算出部と、
前記属性情報の間で前記検索対象文書全体の特徴量の第２類似度を算出する第２類似度算出部と、備え、
前記第１特徴量算出部は、前記第２類似度に応じて前記評価値を調整して、前記バイアス値を算出する請求項３に記載の情報抽出装置。
前記評価部は、前記評価値を、前記キー文書と前記検索結果の文書との間の前記第１類似度と共に記憶し、
前記第１特徴量算出部は、前記第１類似度に応じて前記評価値を調整して、前記バイアス値を算出する請求項１又は請求項２に記載の情報抽出装置。
検索キーとなるキー文書の入力を受け付ける入力ステップと、
文書に含まれる単語に基づく特徴量を算出する第１特徴量算出ステップと、
前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第１類似度を算出する第１類似度算出ステップと、
前記第１類似度に基づく検索結果を出力する出力ステップと、
前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータが実行し、
前記第１特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
前記第１類似度算出ステップにおいて、前記バイアス値に基づいて前記第１類似度を調整する情報抽出方法。
検索キーとなるキー文書の入力を受け付ける入力ステップと、
文書に含まれる単語に基づく特徴量を算出する第１特徴量算出ステップと、
前記キー文書の特徴量に対して、過去に蓄積された複数の検索対象文書それぞれの特徴量との第１類似度を算出する第１類似度算出ステップと、
前記第１類似度に基づく検索結果を出力する出力ステップと、
前記検索結果に対する評価値を受け付け、前記キー文書に含まれる単語群及び前記検索結果に含まれる単語群の組み合わせに対応付けて記憶する評価ステップと、をコンピュータに実行させ、
前記第１特徴量算出ステップにおいて、前記評価値に基づいて、前記キー文書に含まれる単語と他の単語との間の距離に関するバイアス値を算出して前記特徴量に含め、
前記第１類似度算出ステップにおいて、前記バイアス値に基づいて前記第１類似度を調整する情報抽出プログラム。