JP7053219B2 - 文書検索装置および方法 - Google Patents

文書検索装置および方法 Download PDF

Info

Publication number
JP7053219B2
JP7053219B2 JP2017213502A JP2017213502A JP7053219B2 JP 7053219 B2 JP7053219 B2 JP 7053219B2 JP 2017213502 A JP2017213502 A JP 2017213502A JP 2017213502 A JP2017213502 A JP 2017213502A JP 7053219 B2 JP7053219 B2 JP 7053219B2
Authority
JP
Japan
Prior art keywords
classification
document
documents
unit
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017213502A
Other languages
English (en)
Other versions
JP2019086934A (ja
Inventor
直之 青田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Azbil Corp
Original Assignee
Azbil Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Azbil Corp filed Critical Azbil Corp
Priority to JP2017213502A priority Critical patent/JP7053219B2/ja
Priority to PCT/JP2018/034358 priority patent/WO2019087593A1/ja
Publication of JP2019086934A publication Critical patent/JP2019086934A/ja
Application granted granted Critical
Publication of JP7053219B2 publication Critical patent/JP7053219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、文書検索装置および方法に関し、特に全文検索手法を用いた文書検索技術に関する。
従来より、コールセンターの問い合わせ記録や、製造現場での不具合への対応の記録など、様々な場面で発生した出来事や現象、およびその原因や対処に関するテキストデータの蓄積が行われている。また、このようなテキストデータを活用するために、全文検索手法が用いられ、現在発生している現象と類似の過去の事例を検索して参照することが行われている。特に、コールセンターや製造現場においては、問題や不具合に緊急に対応することが必要な場合がある。
例えば、特許文献1は、原文の文書データを格納した原文データベースから、「意見」、「提言」などのように、文の内容を識別するための複数種類の文の型を設定し、これらの文の型に分類された文単位の抜粋文データを作成し、抜粋文データを、例えば、接続詞を除去したような形式に形成し、指定された文の型に対応する抜粋文データを抽出して一覧表示する技術を開示している。また、特許文献1は、文の型に属する特定の文のパターン間で優先順位を予め設定し、この優先順位に基づいて、表示する抜粋文データを調整する技術を開示している。
特開平8-255172号公報
しかし、特許文献1に記載された技術では、文の型に属する特定の文のパターン間において予め個別に設定された優先順位に基づいて検索結果の抜粋文データが表示される。
そのため、製造現場などで不具合が発生し、発生している現象に類似する過去に発生した現象の情報を含む既存の文書を検索する場合に、ユーザが必要とする情報が優先的に表示されないことがあった。このような場合においては、ユーザによる検索結果の確認に時間がかかり、不具合への緊急対応が困難なことがあった。
本発明は、上述した課題を解決するためになされたものであり、発生している現象と類似する過去に発生した現象の情報を含む既存の文書を優先的に表示することができる文書検索装置を提供することを目的とする。
上述した課題を解決するために、本発明に係る文書検索装置は、複数の文書が記憶されている文書データベースと、前記複数の文書のそれぞれを識別する第1の情報と、前記複数の文書のそれぞれに含まれる文を識別する第2の情報と、前記文の属性を表す分類クラスを示す第3の情報とが互いに関連付けて記憶されている分類結果データベースと、ある現象に関する文書を検索するための検索条件が入力される検索条件入力部と、前記検索条件に基づいて前記文書データベースに記憶された前記複数の文書に対して全文検索を実行して前記検索条件に一致する文書を抽出する抽出部と、前記抽出部により抽出された文書が複数あるときに、前記複数の抽出された文書を出力表示する順序を決定する表示順決定部と、を備え、前記分類クラスは、少なくとも前記現象を表す第1の分類クラスを含み、前記表示順決定部は、前記分類結果データベースを参照して、前記複数の抽出された文書のうち、前記第1の分類クラスに関連付けられた文を含む文書を優先的に出力表示する決定を行うことを特徴とする。
また、本発明に係る文書検索装置において、さらに前記複数の文書のそれぞれに含まれる文をそれぞれ文の属性を表す複数の分類クラスのいずれかに分類して、前記分類結果データベースに記憶する分類実行部を備えていてもよい。
また、本発明に係る文書検索装置において、さらに分類器を学習させて前記分類クラスを定義する分類モデルを構築する学習部を備え、前記分類実行部は、前記学習部により構築された前記分類モデルを用いて文書を分類してもよい。
また、本発明に係る文書検索装置において、前記学習部は、文とその文が属すべき分類クラスとを含む教師データに基づいて前記分類器を学習させて前記分類モデルを構築してもよい。
また、本発明に係る文書検索装置において、前記分類クラスは、さらに前記現象が発生した原因を表す第2の分類クラスと、前記現象への対処を表す第3の分類クラスとを含んでいてもよい。
また、本発明に係る文書検索装置において、さらに前記分類クラスに属する文を強調して前記複数の抽出された文書を表示する表示部を備えていてもよい。
また、本発明に係る文書検索装置において、前記表示部は、強調して表示された前記文について、その文が属する前記分類クラスが互いに識別可能となるように表示してもよい。
また、本発明に係る文書検索装置において、前記表示順決定部は、前記複数の文書のそれぞれと前記現象との関係の度合いを表す指標値に基づいて前記複数の抽出された文書のうち前記第1の分類クラスに属する文を含む文書を出力表示する前記順序を決定してもよい。
また、本発明に係る文書検索方法は、ある現象に関する文書を検索するための検索条件が入力される検索条件入力ステップと、前記検索条件に基づいて文書データベースに記憶されている複数の文書に対して全文検索を実行して前記検索条件に一致する文書を抽出する抽出ステップと、前記抽出ステップで抽出された文書が複数あるときに、前記複数の抽出された文書を出力表示する順序を決定する表示順決定ステップと、を備え、前記表示順決定ステップは、前記複数の文書のそれぞれを識別する第1の情報と、前記複数の文書のそれぞれに含まれる文を識別する第2の情報と、前記文の属性を表す分類クラスを示す第3の情報とが互いに関連付けて記憶されている分類結果データベースを参照して、前記複数の抽出された文書のうち、前記現象を表す第1の分類クラスに関連付けられた文を含む文書を優先的に出力表示する決定を行い、前記分類クラスは、少なくとも前記第1の分類クラスを含むことを特徴とする。
本発明によれば、全文検索によって抽出された文書のうち、現象を表す分類クラスに関連付けられた文を含む文書を優先的に出力表示するので、発生している現象と類似する過去に発生した現象の情報を含む文書を優先的に表示することができる。
図1は、本発明の第1の実施の形態に係る文書検索装置の機能ブロック図である。 図2は、本発明の第1の実施の形態に係る文書検索装置を実現するハードウェアの構成例を示すブロック図である。 図3は、本発明の第1の実施の形態に係る検索処理を説明するフローチャートである。 図4は、本発明の第1の実施の形態に係る表示部の一例を示す図である。 図5は、本発明の第2の実施の形態に係る文書検索装置の機能ブロック図である。 図6は、本発明の第2の実施の形態に係る分類処理を説明するフローチャートである。 図7は、本発明の第3の実施の形態に係る文書検索装置の機能ブロック図である。 図8は、本発明の第3の実施の形態に係る分類モデル構築処理を説明するフローチャートである。
以下、本発明の好適な実施の形態について、図1から図8を参照して詳細に説明する。各図について共通する構成要素には、同一の符号が付されている。なお、以下において「文書」および「文」は、テキストデータを意味する。また、「文」とは、句点あるいはピリオドによって区切られた文字列のテキストデータをいい、「文書」は、複数の「文」で構成される文章を含むテキストデータのファイルをいう。
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る文書検索装置1の機能ブロック図である。本実施の形態に係る文書検索装置1は、例えば、製造現場で発生した不具合など、発生した「現象」に関する既存の文書を検索する。検索結果として優先的に出力表示される、現在発生している現象に類似する過去に発生した現象の情報を含む文書は、ユーザに参照されて不具合への緊急対応に活用される。
文書検索装置1は、複数の原文の文書が記憶されている文書DB41、および検索対象の原文の文書を識別する情報(第1の情報)と、原文の文書に含まれる文を識別する情報(第2の情報)と、その文の属性を表す分類クラスを示す情報(第3の情報)とが互いに関連付けられている分類結果DB42を有する。文書検索装置1は、ユーザによって入力された検索条件に基づいて、文書DB41に記憶されている複数の原文の文書に対する全文検索を行い、検索条件に一致する複数の文書を抽出する。分類クラスは、少なくとも発生した現象を表す分類クラス(第1の分類クラス)を含む。文書検索装置1は、全文検索により抽出された複数の文書(複数の抽出された文書)のうち、分類結果DB44に記憶されている、現象を表す分類クラスに関連付けられた文を含む文書を、検索結果として優先的に出力表示する決定を行う。
[文書検索装置の機能ブロック]
図1に示すように、第1の実施の形態に係る文書検索装置1は、入出力部2と、検索部3と、記憶部4とを備える。
入出力部2は、検索条件入力部21と、表示部22とを備え、文書検索装置1を利用するユーザからの入力を受け付け、検索結果を出力して表示する。入出力部2は、例えば、Webブラウザの形態が用いられるが、専用のアプリケーションを用いてもよい。また、入出力部2が、文書検索装置1に含まれる他の機能部とネットワーク的に離れていても、同一コンピュータ上にあってもよい。
検索条件入力部21は、製造現場での不具合など、発生した現象に関する既存の文書を検索するための検索条件の入力をユーザから受け付ける。検索条件入力部21には、例えば、現在発生している現象を表す単語列や問い合わせ文が入力される。
表示部22は、後述する検索部3による検索結果を表示する。具体的には、表示部22は、発生した現象を表す文などの分類クラスに属する文を強調して後述する抽出部31によって抽出された複数の文書を検索結果として表示する。
また、表示部22は、強調して表示する文について、その文が属する分類クラスが互いに識別可能となるように表示する。例えば、複数の分類クラスが採用されている場合において、検索結果の文書に、異なる分類クラスに属する複数の文が含まれているとする。このような場合に、表示部22は、同一の文書に含まれる異なる分類クラスに属する文を、例えば、原文の文書において互いに異なる色でハイライト表示する。なお、分類クラスについての詳細は後述する。
検索部3は、抽出部31と、表示順決定部32とを備える。検索条件入力部21に入力されたユーザからの問い合わせなどの検索条件は検索部3に入力される。検索部3は後述する文書DB41に登録されている原文の文書に対して検索条件に一致する文書の検索を行い、検索結果の文書を出力表示する順序を決定する。
抽出部31は、検索条件入力部21を介して入力された検索条件に基づいて、文書DB41に登録された複数の原文の文書に対する全文検索を実行して、検索条件に一致する文書を抽出する。より詳細には、抽出部31は、文書DB41に含まれる、複数の原文の文書のインデックスが登録されているインデックスDB411を参照して全文検索を行い、検索条件に一致する文書を抽出する。
表示順決定部32は、抽出部31により抽出された文書が複数あるときに、その複数の文書を出力表示する順序を決定する。より詳細には、表示順決定部32は、後述する分類結果DB42を参照して、抽出部31によって抽出された複数の文書のうち、発生した現象を表す分類クラス「現象」に関連付けられた文を含む文書を優先的に出力表示する決定を行う。
記憶部4は、文書DB41と、分類結果DB42とを備える。文書DB41は、原文DB410と、インデックスDB411とを有する。
文書DB41には、検索対象である複数の原文の文書(複数の文書)に関する情報が記憶されている。
原文DB410には、予め用意されている複数の原文の文書、または原文の文書へのリンク情報が登録されている。原文DB410に登録されている複数の原文の文書は、表示部22が検索結果を表示する際に用いられる。より詳細には、表示部22は、検索部3による検索結果の文書の情報に基づいて、原文DB410から検索結果の文書に対応する原文の文書を読み出して、表示内容の加工および強調表示を行う。
インデックスDB411は、原文DB410に登録されている複数の原文の文書に対応するインデックスが登録されている。インデックスDB411は、抽出部31が全文検索を実行する際の検索処理の高速化を図るために設けられる。
より詳細には、インデックスDB411には、原文の文書から生成された転置インデックスなどのインデックスが登録されている。転置インデックスは、例えば、文字列の情報と、文書における文字列の位置情報と、文書の識別情報などが互いに関連付けて登録されたテーブルの行列を転置させたデータ構造を有する。
なお、インデックスの生成は、検索部3による検索処理に先立って行われ、原文の文書が原文DB410に登録される際に併せて行われる。また、インデックス生成時の文字列の抽出方法としては、例えば形態素解析が用いられる。なお、インデックスは、文書検索装置1の外部に設置された装置によって生成されてもよく、文書検索装置1内部の、例えば、制御部102が生成してもよい。
例えば、日本語のように分かち書きされていない言語による原文の文書が原文DB410に含まれる場合には、形態素解析によって、原文の文書の文を分割する。また、形態素解析を行う前または後に、正規化と呼ばれる、全角と半角とが混在する文字列、および大文字と小文字とが混在する文字列の表記の統一、ならびに特殊な記号の削除などが行われることが望ましい。
分類結果DB42は、原文DB410に登録されている複数の原文の文書のそれぞれを識別する情報と、複数の原文の文書のそれぞれに含まれる文を識別する情報と、その文の属性を表す分類クラスを示す情報とが互いに関連付けて記憶されているデータベースである。より詳細には、分類クラスと1文(原文の文書に含まれる文)とが関連付けられた情報や、分類クラスと原文の文書の中での位置(例えば、開始位置と文字数)とが関連付けられた情報であってもよい。
本実施の形態では、分類クラスとは、文の表す意味や内容など、文の属性によって定義される文の集合である。なお、本実施の形態では、分類クラス「現象」の他に、発生した現象の原因を表す分類クラス「原因」(第2の分類クラス)、および発生した現象に対する対処を表す分類クラス「対処」(第3の分類クラス)の3種類の分類クラスが採用される。例えば、分類クラス「現象」に属する文としては、「~エラーの発生。」が挙げられる。分類クラス「原因」に属する文としては、例えば、「~要因と考えられる。」、分類クラス「対処」に属する文としては、例えば、「~行い復旧させた。」などが挙げられる。
[文書検索装置のハードウェア構成]
図2は、本実施の形態に係る文書検索装置1を実現するハードウェア構成の一例を示すブロック図である。文書検索装置100は、バス101を介して接続される制御部102、通信制御装置103、記憶装置104、入力装置105、および表示装置106を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。
制御部102は、CPU102aと主記憶部102bとを備えている。主記憶部102bには、CPU102aが各種制御や演算を行うためのプログラムが予め格納されている。制御部102によって、図1で示した抽出部31、および表示順決定部32などの文書検索装置1の機能が実現される。
通信制御装置103は、文書検索装置1と各種機器を接続するための入出力インターフェースである。通信制御装置103は、文書検索装置100と各種外部電子機器との間をネットワーク接続する制御装置としての機能を備えていてもよい。例えば、外部に設置された装置によって実行された検索対象の文書の分類の結果を、通信制御装置103を介して受信して、分類結果DB42に格納してもよい。
記憶装置104は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。記憶装置104には、記憶媒体としてフラッシュメモリなどの半導体メモリやハードディスクを使用することができる。記憶装置104は、文書DB41、分類結果DB42、プログラム格納部104a、図示しないその他の格納装置で、例えば、この記憶装置104内に格納されているプログラムやデータなどをバックアップするための格納装置などを有することができる。
プログラム格納部104aには、本実施の形態における検索処理などの文書検索に必要な処理を実行するための各種プログラムが格納されている。
入力装置105は、キーボード、マウス、タッチパネルなどで実現され、ユーザからの入力や操作を受け付ける。入力装置105は、ユーザからの検索条件の入力を受け付ける。入力装置105は、図1で説明した、検索条件入力部21として機能する。
表示装置106は、液晶ディスプレイなどが使用される。表示装置106には、入力装置105による入力結果が表示されたり、検索結果の文書に関する情報が表示されたりするようになっている。表示装置106は、図1で説明した、表示部22として機能する。
[文書検索装置の動作]
上述した構成を有する文書検索装置1の動作の説明を、図3および図4を参照して説明する。図3は、検索処理を説明するフローチャートである。また図4は、表示部22の表示例を示す図である。以下においては、例えば、製造現場において不具合(例えば、「△△装置のエラー」)が発生し、ユーザによる検索条件の入力に基づき、文書検索装置1が、現在発生している現象である「△△装置のエラー」に類似する過去に発生した「△△装置のエラー」に関する既存の文書を検索する場合について説明する。
まず、検索条件入力部21は、ユーザによる検索条件の入力を受け付ける(ステップS1)。検索条件入力部21によって受け付けられたユーザの入力は、図4の表示例に示すように、表示部22の領域220に表示される。本実施の形態では、検索条件として、例えば、「△△装置」、「エラー」、および「発生」の文字列が受け付けられる。
その後、図4に示すように、ユーザの操作によって、表示部22に表示された「検索」ボタンが押されると、検索部3に信号が入力される。抽出部31は、まず全文検索を実行し、文書DB41から検索条件に一致する文書を抽出する(ステップS2)。
より詳細には、抽出部31は、インデックスDB411を参照して全文検索を実行する。抽出部31は、インデックスDB411に登録されている転置インデックスにおいて、検索条件である「△△装置」、「エラー」、および「発生」を含む複数の文書を抽出する。
また、抽出部31は、抽出した複数の文書それぞれの、検索条件との類似度を算出する。類似度の算出においては、全文検索で一般に用いられる公知の手法を用いればよい。抽出部31により抽出された文書は、類似度と関連付けて一時的に記憶される。なお、抽出部31により抽出された文書は、検索条件と一致した文書であっても、ユーザが意図する内容とは異なる内容の文書も含まれている場合がある。
次に、表示順決定部32は、抽出部31により抽出された複数の文書を出力表示する順序を決定する(ステップS3)。具体的には、表示順決定部32は、分類結果DB42を参照して、抽出部31により抽出された複数の文書のうち、検索条件と一致し、かつ、これらの抽出された文書に含まれる分類クラス「現象」に分類されている文を含む文書を優先的に出力表示する決定を行う。
より詳細には、表示順決定部32は、抽出部31が抽出した文書ごとに算出された類似度に、所定の係数を乗じた表示順序指標値を計算する。所定の係数は、分類クラス「現象」に分類された検索結果が、他の分類クラスに分類された検索結果の表示順指標値の値よりもより高い表示順指標値が算出されるように設定する。抽出部31により抽出された文書i(i=1,2,・・・,n)の表示順序指標値は、次の式(1)により算出される。
Figure 0007053219000001
上式(1)において、例えば、係数の値が0の場合は、分類クラス「現象」に分類された文と検索条件とが一致した場合のみ入出力部2に返却される。
次に、表示部22は、表示順決定部32によって出力表示する順序が決定された検索結果の文書において、表示内容の加工を行う(ステップS4)。例えば、表示部22は、検索結果として表示する複数の文書のそれぞれに含まれる、分類クラス「現象」、「原因」、および「対処」に属する文を強調して検索結果として表示する。
より具体的には、表示部22は、図4に示すように、検索結果の文書に対応する原文の文書の一部に、HTMLのタグなど、表示上区別することが可能な加工を加える。具体的には、表示部22は、検索結果の文書に対応する原文の文書が表示される領域221において、分類クラス「現象」、「原因」、および「対処」に分類された文が表示されている領域222a、222b、222cを加工する。
表示部22は、例えば、領域222a、222b、222cをHTMLのブロック要素としてグループ化するタグ(例えば、divタグ)で囲んだり、Cascading Style Sheets(CSS)などのスタイルシートを適用してもよい。
その後、表示部22は、表示内容が加工された検索結果の文書を表示する(ステップS5)。具体的には、表示部22は、ステップS3で決定された検索結果の文書の出力表示の順序に従って、対応する原文の文書を表示画面の上から順にリスト表示する。図4の表示例に示すように、表示画面において最上位に表示される文書「No.1」は、最も高い表示順指標値が算出された文書である。
なお、表示部22は、表示内容が加工された検索結果の文書を表示する際に、各文書において、分類クラス「現象」、「原因」、および「対処」に属する文が互いに識別可能となるように、例えば、領域222a、222b、222cの文字色やハイライト表示の色を互いに変更してもよい。
以上説明したように、第1の実施の形態によれば、文書検索装置1は、全文検索によって抽出された複数の文書のうち、現象を表す分類クラスに属する文を含む文書を優先的に表示するので、現在発生している現象と類似する過去に発生した現象の情報を含む既存の文書を優先的に表示することができる。その結果として、ユーザは製造現場などで発生した不具合などに対し、より迅速な緊急対応を行うことができる。
また、文書検索装置1は、検索結果の文書を表示する際に、文書に含まれている、分類クラスに属する文を強調して表示する。そのため、ユーザは、検索結果を表示画面において確認する際に、検索結果の文書が実際に現在発生している現象と類似している情報を含む既存の文書であるかどうかの確認をより容易に行うことができる。
また、文書検索装置1は、分類クラス「現象」、「原因」、および「対処」の3つの分類クラスを用いるため、現在発生している現象に関する既存の文書だけでなく、現在発生している現象の原因の究明や復旧など、ユーザにとってより有用な情報を含む文書を出力表示することができる。
また、文書検索装置1は、検索対象の文書について、文単位での分類クラスの情報が予め格納されている分類結果DB42を有するので、文書検索装置1における演算負荷をより低減することができ、文書検索装置1をより簡易な構成とすることが可能となる。
[第2の実施の形態]
次に、本発明の第2の実施の形態について説明する。図5は、第2の実施の形態に係る文書検索装置1aの機能ブロック図である。なお、以下の説明では、上述した第1の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。
第1の実施の形態では、分類結果DB42には、検索対象の文書に含まれる文ごとの分類クラスに関する情報が予め格納されている場合について説明した。これに対し、第2の実施の形態では、文書検索装置1aは、分類実行部5および分類モデル格納部43を備え、検索対象である複数の原文の文書のそれぞれについて文単位でクラス分類を行い分類結果を分類結果DB42に格納する。文書検索装置1aは、その後にユーザによって入力される検索条件に基づく検索を行う。
分類実行部5は、原文DB410に登録されている複数の原文の文書を、文単位で分類クラスに分類する。より詳細には、分類実行部5は、分類対象である原文DB410に登録されている原文の文書を、分類モデル格納部43に予め格納されている分類モデルに入力する。そして、分類実行部5は、各文書に含まれる文ごとに、予め設定されている、分類クラス「現象」、「原因」、および「対処」に分類して分類結果を出力する。
例えば、分類実行部5は、分類を実行する際に、しきい値を設定して1文単位で、分類クラス「現象」、「原因」、および「対処」のいずれかの分類クラスに分類可能かを判断してもよい。なお、この場合において、分類実行部5は、どの分類クラスにも分類されない文を分類結果として出力する場合があってもよい。分類実行部5によって出力される分類結果は分類結果DB42に格納される。
分類結果DB42に格納される分類結果の情報は、原文の文書を識別する情報と、文を識別する情報と、その文が分類された分類クラスを示す情報とが関連付けられたデータである。なお、分類結果DB42に格納される分類結果は、分類クラスと1文(原文の文書に含まれる文)でもよく、また、分類クラスと原文の文書の中での位置(例えば、開始位置と文字数)を含む情報であってもよい。
分類モデル格納部43には、例えば、外部に設置された装置によって予め学習が行われ構築された分類モデルが格納されている。なお、分類モデルとは、自然言語処理において用いられる公知のアルゴリズムから選択された分類器を学習させて構築したモデルをいい、詳細は後述する。
次に、本実施の形態に係る文書検索装置1aの分類処理を図6のフローチャートを用いて説明する。
まず、分類実行部5は、検索部3による検索処理に先立って、文書DB41の原文DB410に登録されている原文の文書を読み出して、分類モデル格納部43に格納されている分類モデルに入力する(ステップS20)。
次に、分類実行部5は、複数の原文の文書のそれぞれについて、文ごとのクラス分類を実行する(ステップS21)。より詳細には、分類実行部5は、原文の文書に含まれる文のそれぞれを、予め定められている分類クラス「現象」、「原因」、および「対処」のいずれかに分類する。
分類実行部5は、複数の原文の文書のそれぞれについてクラス分類を実行した後に、文書を識別する情報と、文を識別する情報と、その文が分類された分類クラスに関する情報とを互いに関連付けて分類結果DB42に格納する(ステップS22)。なお、各文を識別する情報は、原文の文や、原文の文書における位置であってもよい。
分類実行部5による分類処理が完了すると、抽出部31は、第1の実施の形態と同様に、検索条件入力部21に入力される検索条件に基づいて、インデックスDB411を参照して全文検索を実行し、検索条件に一致する複数の文書を抽出する。
そして、表示順決定部32は、抽出された複数の文書を出力表示する順序を決定する。なお、表示順決定部32は、分類実行部5による分類結果が格納されている分類結果DB42を用いて文書を出力表示する順序を決定する。
検索結果の文書を出力表示する順序が決定すると、表示部22は、表示内容の加工を行い、検索結果の文書に含まれる分類クラス「現象」、「原因」、および「対処」に分類されている文を、対応する原文の文書において強調して表示する。さらに、表示部22は、各分類クラスの文が互いに識別可能となるように強調して表示する。
以上説明したように、第2の実施の形態に係る文書検索装置1aによれば、分類実行部5が、分類モデル格納部43に予め格納されている分類モデルを用いて、原文の文書のクラス分類を実行する。これにより、文書検索装置1aは、新たな原文の文書が原文DB410に登録される際に、その原文の文書についてのクラス分類を実行することができるため、文書検索装置1aにおける検索対象の原文の文書の更新に対応することが可能となる。
[第3の実施の形態]
次に、本発明の第3の実施の形態について説明する。図7は、第3の実施の形態に係る文書検索装置1bの機能ブロック図である。なお、以下の説明では、上述した第1および第2の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。
第2の実施の形態では、検索部3による検索処理に先立って、分類実行部5が、分類モデル格納部43に予め格納されている分類モデルを用い、文書DB41(原文DB410)に登録されている原文の文書を文単位で各分類クラスに分類する場合について説明した。これに対し、第3の実施の形態では、文書検索装置1bは、さらに学習部6を備える。学習部6は、予め定められた分類器の学習を行って、分類実行部5が分類処理を実行する際に用いる分類モデルを構築する。
学習部6は、教師データ設定部61と、分類モデル学習部62とを備える。学習部6が用いる分類器としては、例えば、サポートベクターマシン(Support Vector Machine、以下、「SVM」という。)や、2層構造のニューラルネットである「word2vec」と畳み込みニューラルネットとを組み合わせたネットワークなど、自然言語処理での文書の分類で用いられる公知のアルゴリズムから選択すればよい。本実施の形態では、教師あり学習を用いる分類器を採用するが、分類モデルの構築においては、教師なし学習を用いる分類器を採用してもよい。
教師データ設定部61は、文とその文が属すべき分類クラスとを含む教師データを設定する。より詳細には、教師データ設定部61は、分類クラス「現象」を表す文、分類クラス「原因」を表す文、および分類クラス「対処」を表す文のように、ラベル付けされた教師データを準備する。
分類モデル学習部62は、教師データ設定部61により設定された教師データを分類器に入力し、例えば、SVMなどの分類器を学習させて分類モデルを構築する。より詳細には、分類モデル学習部62は、まず、テキストデータの文をベクトル表現に変換する。具体的には、分類モデル学習部62は、tf-idf法などのアルゴリズムを用いて、出現した単語ごとに重み付けした文ベクトルを利用してもよい。
分類モデル学習部62は、この文ベクトルを、SVMなどの分類器で分類し、分類モデルを構築する。分類モデル学習部62によって構築された分類モデルは、分類モデル格納部43に格納される。
次に、学習部6によって実行される分類モデル構築処理について、図8のフローチャートを用いて説明する。なお、本実施の形態において、分類モデル構築処理は、分類実行部5によって実行される分類処理に先立って行われる。
図8に示すように、教師データ設定部61によって設定された教師データが、SVMなどの分類器に入力される(ステップS30)。次に、分類モデル学習部62は、入力された教師データに基づいて分類器の学習を行い、分類モデルを構築する(ステップS31)。分類モデル学習部62によって構築された分類モデルは、分類モデル格納部43に格納される。
分類モデルが構築された後は、第2の実施の形態と同様に、分類実行部5による分類処理が実行され、さらに、検索部3による検索処理が実行されて、抽出された複数の文書の出力表示の順序が決定される。そして、表示部22は、検索結果の文書に対応する原文の文書において、表示内容の加工を行い、各分類クラスに属する文が互いに識別可能となるように強調して表示する。
以上説明したように、第3の実施の形態に係る文書検索装置1bによれば、学習部6が所定の分類器を学習させて分類モデルを構築する。これにより、文書検索装置1bは、必要に応じ、分類モデルの更新や、分類クラスの再設定などをローカルで行うことが可能となる。
以上、本発明の文書検索装置、および文書検索方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。
例えば、説明した実施の形態では、発生した「現象」、現象が発生した「原因」、および発生した現象に対する「対処」の3つの分類クラスが予め設定されている場合について説明した。しかし、分類クラスはこれら3つの場合に限られず、分類クラス「現象」を単独で用いてもよく、さらに異なる分類クラスを追加し、組み合わせて用いてもよい。
1、1a、1b、100…文書検索装置、2…入出力部、3…検索部、4…記憶部、5…分類実行部、6…学習部、21…検索条件入力部、22…表示部、31…抽出部、32…表示順決定部、41…文書DB、42…分類結果DB、43…分類モデル格納部、61…教師データ設定部、62…分類モデル学習部、102…制御部、102a…CPU、102b…主記憶部、103…通信制御装置、104…記憶装置、104a…プログラム格納部、105…入力装置、106…表示装置、220、221、222a、222b、222c…領域、410…原文DB、411…インデックスDB。

Claims (9)

  1. 複数の文書が記憶されている文書データベースと、
    前記複数の文書のそれぞれを識別する第1の情報と、前記複数の文書のそれぞれに含まれる文を識別する第2の情報と、前記文の属性を表す分類クラスを示す第3の情報とが互いに関連付けて記憶されている分類結果データベースと、
    ある現象に関する文書を検索するための検索条件が入力される検索条件入力部と、
    前記検索条件に基づいて前記文書データベースに記憶された前記複数の文書に対して全文検索を実行して前記検索条件に一致する文書を抽出する抽出部と、
    前記抽出部により抽出された文書が複数あるときに、前記複数の抽出された文書を出力表示する順序を決定する表示順決定部と、
    を備え、
    前記分類クラスは、少なくとも前記現象を表す第1の分類クラスを含み、
    前記表示順決定部は、前記分類結果データベースを参照して、前記複数の抽出された文書のうち、前記第1の分類クラスに関連付けられた文を含む文書を優先的に出力表示する決定を行うことを特徴とする文書検索装置。
  2. 請求項1に記載の文書検索装置において、
    さらに前記複数の文書のそれぞれに含まれる文をそれぞれ文の属性を表す複数の分類クラスのいずれかに分類して、前記分類結果データベースに記憶する分類実行部を備えることを特徴とする文書検索装置。
  3. 請求項2に記載の文書検索装置において、
    さらに分類器を学習させて前記分類クラスを定義する分類モデルを構築する学習部を備え、
    前記分類実行部は、前記学習部により構築された前記分類モデルを用いて文書を分類する
    ことを特徴とする文書検索装置。
  4. 請求項3に記載の文書検索装置において、
    前記学習部は、文とその文が属すべき分類クラスとを含む教師データに基づいて前記分類器を学習させて前記分類モデルを構築することを特徴とする文書検索装置。
  5. 請求項1から4のうちのいずれか1項に記載の文書検索装置において、
    前記分類クラスは、さらに前記現象が発生した原因を表す第2の分類クラスと、前記現象への対処を表す第3の分類クラスとを含むことを特徴とする文書検索装置。
  6. 請求項1から5のうちのいずれか1項に記載の文書検索装置において、
    さらに前記分類クラスに属する文を強調して前記複数の抽出された文書を表示する表示部を備えることを特徴とする文書検索装置。
  7. 請求項6に記載の文書検索装置において、
    前記表示部は、強調して表示された前記文について、その文が属する前記分類クラスが互いに識別可能となるように表示することを特徴とする文書検索装置。
  8. 請求項1から7のうちいずれか1項に記載の文書検索装置において、
    前記表示順決定部は、前記複数の文書のそれぞれと前記現象との関係の度合いを表す指標値に基づいて前記複数の抽出された文書のうち前記第1の分類クラスに属する文を含む文書を出力表示する前記順序を決定することを特徴とする文書検索装置。
  9. 文書データベースおよび分類結果データベースを備えた記憶部と、検索条件入力部と、抽出部と、表示順決定部とを備えた文書検索装置において実行される文書検索方法であって、
    前記検索条件入力部に、ある現象に関する文書を検索するための検索条件が入力される検索条件入力ステップと、
    前記抽出部が、前記検索条件に基づいて前記文書データベースに記憶されている複数の文書に対して全文検索を実行して前記検索条件に一致する文書を抽出する抽出ステップと、
    前記表示順決定部が、前記抽出ステップで抽出された文書が複数あるときに、前記複数の抽出された文書を出力表示する順序を決定する表示順決定ステップと、
    を備え、
    前記表示順決定ステップは、前記複数の文書のそれぞれを識別する第1の情報と、前記複数の文書のそれぞれに含まれる文を識別する第2の情報と、前記文の属性を表す分類クラスを示す第3の情報とが互いに関連付けて記憶されている前記分類結果データベースを参照して、前記複数の抽出された文書のうち、前記現象を表す第1の分類クラスに関連付けられた文を含む文書を優先的に出力表示する決定を行い、
    前記分類クラスは、少なくとも前記第1の分類クラスを含む
    ことを特徴とする文書検索方法。
JP2017213502A 2017-11-06 2017-11-06 文書検索装置および方法 Active JP7053219B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017213502A JP7053219B2 (ja) 2017-11-06 2017-11-06 文書検索装置および方法
PCT/JP2018/034358 WO2019087593A1 (ja) 2017-11-06 2018-09-18 文書検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017213502A JP7053219B2 (ja) 2017-11-06 2017-11-06 文書検索装置および方法

Publications (2)

Publication Number Publication Date
JP2019086934A JP2019086934A (ja) 2019-06-06
JP7053219B2 true JP7053219B2 (ja) 2022-04-12

Family

ID=66331610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017213502A Active JP7053219B2 (ja) 2017-11-06 2017-11-06 文書検索装置および方法

Country Status (2)

Country Link
JP (1) JP7053219B2 (ja)
WO (1) WO2019087593A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021022070A (ja) * 2019-07-25 2021-02-18 東京電力ホールディングス株式会社 情報処理方法、情報処理装置及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208774A (ja) 2011-03-30 2012-10-25 Casio Comput Co Ltd 検索方法、検索装置、ならびに、コンピュータプログラム
JP2012208775A (ja) 2011-03-30 2012-10-25 Casio Comput Co Ltd 検索方法、検索装置、ならびに、コンピュータプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255172A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208774A (ja) 2011-03-30 2012-10-25 Casio Comput Co Ltd 検索方法、検索装置、ならびに、コンピュータプログラム
JP2012208775A (ja) 2011-03-30 2012-10-25 Casio Comput Co Ltd 検索方法、検索装置、ならびに、コンピュータプログラム

Also Published As

Publication number Publication date
JP2019086934A (ja) 2019-06-06
WO2019087593A1 (ja) 2019-05-09

Similar Documents

Publication Publication Date Title
AU2019261735B2 (en) System and method for recommending automation solutions for technology infrastructure issues
US20120136862A1 (en) System and method for presenting comparisons of electronic documents
EP1564652A2 (en) Method and apparatus for visually emphasizing numerical data contained within an electronic document
US10073827B2 (en) Method and system to generate a process flow diagram
US20080104506A1 (en) Method for producing a document summary
US20110144978A1 (en) System and method for advancement of vocabulary skills and for identifying subject matter of a document
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
KR20180077152A (ko) 핸드라이팅 입력을 가이드하는 시스템 및 방법
US20150339298A1 (en) Document management system, document management method, and document management program
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
Piasecki et al. WordNetLoom: a WordNet development system integrating form-based and graph-based perspectives
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
JP5056133B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP7053219B2 (ja) 文書検索装置および方法
Hoffswell et al. Interactive repair of tables extracted from pdf documents on mobile devices
US20210318949A1 (en) Method for checking file data, computer device and readable storage medium
JP3743204B2 (ja) データ分析支援方法および装置
JP4835791B2 (ja) Gui評価システム、gui評価方法およびgui評価用プログラム
JP2008171164A (ja) 分類付与支援装置及び方法及びプログラム
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium
KR102449580B1 (ko) 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법
US20240126978A1 (en) Determining attributes for elements of displayable content and adding them to an accessibility tree
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language
US20220319216A1 (en) Image reading systems, methods and storage medium for performing geometric extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220331

R150 Certificate of patent or registration of utility model

Ref document number: 7053219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150