JP6772478B2 - 情報検索プログラム及び情報検索装置 - Google Patents

情報検索プログラム及び情報検索装置 Download PDF

Info

Publication number
JP6772478B2
JP6772478B2 JP2016029515A JP2016029515A JP6772478B2 JP 6772478 B2 JP6772478 B2 JP 6772478B2 JP 2016029515 A JP2016029515 A JP 2016029515A JP 2016029515 A JP2016029515 A JP 2016029515A JP 6772478 B2 JP6772478 B2 JP 6772478B2
Authority
JP
Japan
Prior art keywords
document
search
feature word
document set
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016029515A
Other languages
English (en)
Other versions
JP2017146869A (ja
Inventor
鈴木 星児
星児 鈴木
基行 鷹合
基行 鷹合
奈実 徳永
奈実 徳永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2016029515A priority Critical patent/JP6772478B2/ja
Priority to US15/218,408 priority patent/US20170242851A1/en
Publication of JP2017146869A publication Critical patent/JP2017146869A/ja
Application granted granted Critical
Publication of JP6772478B2 publication Critical patent/JP6772478B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Description

本発明は、情報検索プログラム及び情報検索装置に関する。
従来から、文書データベースを検索対象として、ユーザが入力した入力キーワードが含まれる文書を検索し、検索結果の文書のリストを画面に表示する情報検索装置が知られている。特許文献1には、文書データベースを検索対象として、入力キーワードに基づいて情報検索を行い、検索結果である入力キーワードが含まれる複数の文書を、互いに類似した文書により構成される文書集合に分類し、各文書集合から特徴的な語句である特徴語および特徴的な関係を求め、文書集合毎に、文書のリストと、特徴語と、特徴的な関係とを画面に表示する技術が開示されている。ユーザは文書集合毎に表示されている特徴語や、特徴的な関係を頼りに、自らが求めている文書が含まれている可能性がある文書集合を見つけることが可能である。また、表示された特徴語や特徴的な関係を用いて、再検索を行うことで、求めている文書に到達し易い。
特開2001−306594号公報
ところで、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合、文書集合に含まれる文書が入力キーワードを含む基本文書に限定されているため、文書集合の特徴語として、多様な語句が出力され難い課題がある。
そこで、本発明は、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合に比べて、より多様性のある特徴語を出力することができるようにすることを目的とする。
請求項1に係る発明は、入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段、前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段、複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段、前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段、としてコンピュータを機能させ、前記特徴語出力手段は、前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、情報検索プログラムである。
請求項に係る発明は、前記特徴語出力手段は、前記選出上位概念を有する前記文書キーワードのうち、前記特徴語の出力の対象となっている前記文書集合内の文書において出現頻度が高く、かつ、他の前記文書集合内の文書において出現頻度が低い前記文書キーワードの全て、または、いずれかを前記特徴語とする、ことを特徴とする請求項に記載の情報検索プログラムである。
請求項に係る発明は、前記特徴語出力手段は、前記選出上位概念を有する前記文書キーワードのうち、前記文書集合内の多くの文書において出現する前記文書キーワードを前記特徴語とする、ことを特徴とする請求項またはに記載の情報検索プログラムである。
請求項に係る発明は、行列の行または列の一方に前記特徴語を伴って前記文書集合の表示を配列し、前記行列の行または列の他方に文書の背景を示す情報を配列し、前記行列の要素に前記文書集合内の文書に関する表示を配置した2次元表を表示部に表示させる表示処理手段、をさらに含む、ことを特徴とする請求項1からのいずれか一項に記載の情報検索プログラムである。
請求項に係る発明は、前記文書集合生成手段は、前記文書群を分類することにより生成した暫定文書集合と、前記文書集合生成手段により以前に生成された前記文書集合との集合演算を行って、前記文書集合を生成する、ことを特徴とする請求項1からのいずれか一項に記載の情報検索プログラムである。
請求項に係る発明は、前記入力キーワードとして第1入力キーワードが用いられたことによって、前記特徴語として第1特徴語が出力された場合に、前記第1特徴語を前記入力キーワードとした再検索、前記第1入力キーワードと前記第1特徴語との両方を前記入力キーワードとした再検索である絞り込み検索、拡張検索および周辺検索の少なくとも1つを実行可能である、ことを特徴とする請求項1からのいずれか一項に記載の情報検索プログラムである。
請求項に係る発明は、入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段と、前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段と、複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段と、前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段と、を含み、前記特徴語出力手段は、前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、ことを特徴とする情報検索装置である。
請求項1及びに係る発明によれば、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合に比べて、より多様性のある特徴語を出力することができる。また、文書集合の特徴を表す概念に属する語句であって、実際に文書に登場する多様な語句を特徴語とすることができる。
請求項及びに係る発明によれば、選出上位概念を有する文書キーワードの全てを特徴語とする場合に比べて、特徴語の数をより少なくできる。
請求項に係る発明によれば、文書集合毎に特徴語のみを表示させる場合に比べて、各文書集合内の文書が有する特徴をより可視化することができる。
請求項に係る発明によれば、集合演算を行わずに文書集合を生成した場合に比べて、より様々な文書集合を生成することができる。
請求項に係る発明によれば、入力キーワードとして第1入力キーワードのみを用いた検索では得られなかった検索結果を得ることができる。
情報検索装置の構成例を示すブロック図である。 情報検索装置が実行する情報検索処理の流れの一例を示すフローチャートである。 情報検索装置が実行する情報検索処理のうち文書集合生成の処理の流れの一例を示すフローチャートである。 情報検索装置が実行する情報検索処理のうち特徴語出力の処理の流れの一例を示すフローチャートである。 概念階層の辞書の一例を示す図である。 検索結果の表示例を示す図である。
以下、図面を参照しながら本発明の一実施形態について説明する。
図1は、本実施形態の情報検索装置100の構成例を示すブロック図である。本実施形態に係る情報検索装置100は、制御部40と、記憶部60と、操作部70と、表示部80と、通信部90とを含んでいる。
制御部40は、CPU等のプロセッサであり、記憶部60に記憶されている情報検索プログラム50に従って情報処理を実行する。記憶部60は、ROM、RAM、ハードディスク等であり、制御部40が実行する情報検索プログラム50や、一時的なデータ等を記憶し、また、後述する概念階層の辞書52や文書集合情報54を記憶する。通信部90は、例えばネットワークカードであり、LANやインターネット等のネットワーク300を介して、文書データベース200等と通信を行う。なお、文書データベース200は、記憶部60に格納されていても良い。操作部70は、キーボード、マウス、タッチパネルなどであり、ユーザからの検索指示等を受け付ける。表示部80は、ディスプレイであり、ユーザに対して検索指示を促す画面の表示や、検索結果の表示などを行う。
制御部40は、記憶部60に記憶されている情報検索プログラム50に従って情報処理を実行することにより、基本文書検索手段10、関連文書検索手段12、文書集合生成手段14、特徴語出力手段16、表示処理手段18等として機能する。なお、情報検索プログラム50は、インターネット等の通信手段により提供されても良いし、光ディスク等のコンピュータ読み取り可能な記憶媒体に格納して提供されても良い。
図2は、情報検索装置100が実行する情報検索処理の流れの一例を示すフローチャートである。図2を参照しながら、情報検索装置100が実行する情報検索処理について説明する。
まず、S100において、基本文書検索手段10は、操作部70を介して、ユーザからキーワードの入力を受け付る。以降、このキーワードを、入力キーワードと呼ぶ。なお、「キーワード」は単語に限らず、句、節などであっても良い。基本文書検索手段10は、受け付けられた入力キーワードを含む文書である基本文書を、文書データベース200から検索する。そして、検索して見つかった基本文書の情報を、関連文書検索手段12および文書集合生成手段14に出力する。基本文書の情報とは、基本文書の内容全体を含んだ情報であっても良いし、基本文書を特定できる最低限の情報、例えば、文書の名称等だけであっても良い。
次に、S102に進み、関連文書検索手段12は、基本文書の情報を受け取って、基本文書に関連する文書である関連文書を、文書データベース200から検索する。関連文書の検索方法としては様々な方法が存在し、本発明においては特定の方法に限定されるものではない。関連文書の検索方法としては、例えば、次のような方法がある。
(1)Term vectorによる方法
文書に含まれる語句を抽出して、当該語句の出現頻度を示す値を成分とする多次元ベクトル(Term vector)を構成し、特定の文書の多次元ベクトルと、他の文書の多次元ベクトルのなす角度のコサイン値、すなわち、2つの多次元ベクトルの内積を演算し、演算結果の値が閾値以上の場合は、特定の文書と当該他の文書とは類似していると判断する方法である。この方法によれば、語句の出現頻度が似た文書を、関連する文書として見つけることができる。
(2)深層学習(Convolutional Neural Network)を用いた方法
この方法では、あらかじめ十分な量の画像を用いて、ニューラルネットワークを深層学習しておく。それにより、ニューラルネットワークに、文書のスクリーンショットまたはサムネールのような画像を入力した場合に、ニューラルネットワークのある深さの層を成すセル群、または、人為的に選択した特定のセル群の出力に画像の特徴が表れる。そのセル群の出力をベクトルとすることで、そのベクトルが画像の特徴を表すことになる。この方法では、ニューラルネットワークに、特定の文書の画像を入力して得られたベクトルと、他の文書の画像を入力して得られたベクトルとの内積を演算し、演算結果の値が閾値以上の場合は、特定の文書と当該他の文書とは類似していると判断する。この方法によれば、例えば、説明図や文章のレイアウトが同一である日本語版の文書と、英語版の文書とを類似であると判断できる。
(3)コミュニティの情報を用いた方法
特開2015−46102には、文書へのアクセス履歴を用いて、例えば、同一文書に対して予め定めた回数以上のアクセスを行った利用者同士には関連性があるとして、当該利用者同士を同じグループに分類する(コミュニティを抽出する)ことが記載されている。また、こうしたアクセス履歴を用いてコミュティを抽出しなくても、例えば、会社の中における課やチームと、そこに属する社員の情報とが関連づけられた関連情報が存在すれば、すでにコミュティの抽出ができている。このようなコミュニティの情報を用いて関連する文書を見つける方法としては、例えば、次の方法が考えられる。同一コミュニティに属する利用者がアクセスする文書は、業務や興味などの背景から潜在的に関連性があると推定できる。したがって、各文書のアクセス履歴を確認して、同一コミュニティに属する利用者の多くがアクセスした文書同士を、互いに関連する文書であると判断する。この方法によれば、文書に含まれる内容が全く異なる場合であっても、関連文書とすることができる。
関連文書検索手段12による関連文書の検索方法は、基本的には、上記した(1)Term vectorによる方法のように、文書に含まれる語句が類似する文書が関連文書として検索される方法であるが、上記した(2)深層学習を用いた方法や、(3)コミュニティの情報を用いた方法のように、文書に含まれる語句が全く異なる文書であっても関連文書として検索される方法であっても良い。関連文書検索手段12は、検索して見つかった関連文書の情報を文書集合生成手段14に出力する。関連文書の情報とは、関連文書の内容全体を含んだ情報であっても良いし、関連文書を特定できる最低限の情報、例えば、文書の名称等だけであっても良い。
次に、S104に進み、文書集合生成手段14は、基本文書の情報と、関連文書の情報とを受け取って、基本文書と関連文書とからなる文書群を分類することにより、複数の文書集合を生成する。
文書集合生成手段14による文書集合の生成方法には、関連文書検索手段12による関連文書の検索の仕方に応じて、2つの生成方法がある。1つ目の生成方法は、関連文書検索手段12が基本文書毎に関連文書を検索した場合の文書集合の生成方法であり、2つ目の生成方法は、関連文書検索手段12が複数の基本文書をまとめた全体に対して関連文書を検索した場合の文書集合の生成方法である。
まず、1つ目の生成方法について説明する。関連文書検索手段12が基本文書毎に関連文書を検索した場合には、文書集合生成手段14は、基本文書と、検索結果として得られた当該基本文書に関連する文書である関連文書とからなる文書集合を生成する。つまり、基本文書毎に文書集合を生成することになる。しかし、ある基本文書に関連するとして検索された関連文書と、別の基本文書が同じである場合は、別の基本文書については文書集合を生成しないとしても良い。これは、基本文書検索手段10が、入力キーワードが含まれる基本文書を検索した場合、文書のバージョンが違うのみで、文書の内容にほとんど差が無い基本文書が大量に検索される場合が多く、このような基本文書の1つ1つに対して文書集合を生成した場合には、ほとんど差がない文書集合が大量に生成されてしまうので、それを防止するためである。
次に、2つ目の生成方法について説明する。関連文書検索手段12が複数の基本文書をまとめた全体に対して関連文書を検索した場合には、文書集合生成手段14は、従来から知られている様々なクラスタリング手法の1つまたは複数を用いて、文書群の分類を行い、複数の文書集合を生成する。なお、複数の基本文書をまとめた全体に対して関連文書を検索する場合とは、例えば、上記した(1)Term vectorによる方法により、各基本文書の多次元ベクトルを求め、求められた多次元ベクトルを互いに加算した上で、基本文書の数で割ることにより平均の多次元ベクトルを求め、その平均の多次元ベクトルを用いて、関連文書を検索する場合等が考えられる。
また、文書集合生成手段14は、以前に生成した文書集合と集合演算を行って、文書集合を生成するとしてもよい。以前に生成した文書集合とは、今回の情報検索処理(図2の一連の処理を言う、以下同じ。)が、前回の情報検索処理によって出力された後述する特徴語などを入力キーワードとして行う再検索の処理である場合における、前回の情報検索処理で生成された文書集合である。
しかし、それに限定されず、例えば、関連文書検索手段12が基本文書毎に関連文書を検索し、文書集合生成手段14が、基本文書と、当該基本文書の関連文書とからなる文書集合を生成する場合において、ある基本文書についての文書集合を生成した後に、別の基本文書についての文書集合を生成する場合には、すでに生成済みの文書集合を、以前に生成した文書集合としてもよい。
図3を用いて、以前に生成した文書集合と集合演算を行って、文書集合を生成する処理の一例について説明する。まず、S200において、基本文書と関連文書とからなる文書群を分類することにより、暫定文書集合を生成する。
次のS202以降は、生成された暫定文書集合が1つずつ取りあげられて処理が行われる。S202では、まず1つ目の暫定文書集合である暫定文書集合1を処理するため、変数iに1が入力される。次のS204では、記憶部60に、以前に生成した文書集合が記憶されているか否かを確認する。具体的には、記憶部60に、以前に生成した文書集合の情報である文書集合情報54が記憶されているか否かを確認する。なお、文書集合情報54は、少なくとも、文書集合に含まれる文書を特定できる情報を含んでいるものとする。以前に生成した文書集合が記憶されていない場合には、集合演算することができないので、S210に進み、暫定文書集合iを文書集合iとする処理を行う。具体的には、現在iは1なので、暫定文書集合1を文書集合1とする処理を行う。
記憶部60に、以前に生成した文書集合が記憶されている場合(S204:Yes)には、S206に進み、暫定文書集合と、以前に生成した文書集合と、の集合演算を行うか否かを決定する。この決定は、例えば、ユーザに指示を促す画面を表示部80に表示し、ユーザが操作部70を用いて指示を行うことで実現するが、予め、集合演算を行うか否かを決定しておいてもよい。集合演算を行わない場合(S206:No)には、S210に進み、暫定文書集合iを文書集合iとする処理を行う。
集合演算を行う場合(S206:Yes)には、S208に進み、集合演算を行って文書集合iを生成する処理を行う。集合演算として、基本的には、AND−NOTの集合演算を行う。AND−NOTの集合演算とは、暫定文書集合iに含まれる文書のうち、以前に生成した文書集合に含まれていない文書が抽出され、その抽出された文書からなる文書集合iが生成される集合演算である。以前に生成した文書集合が複数ある場合には、暫定文書集合iに含まれる文書のうち、以前に生成した複数の文書集合のいずれにも含まれていない文書が抽出され、その抽出された文書からなる文書集合iが生成される。しかし、例えば、どの文書集合とAND−NOTの集合演算を行うのかを、ユーザが操作部70を用いて特定することで、特定の文書集合とのみAND−NOTの集合演算を行ってもよい。
S208で集合演算を行って文書集合iを生成した後は、S212において、生成した文書集合iの情報を、文書集合情報54として記憶部60に記憶する。現在iは1なので、集合演算を行って文書集合1を生成した後、生成した文書集合1の情報を、文書集合情報54として記憶部60に記憶する。次に、S214に進み、次の暫定文書集合の処理を行うため、変数iを1つ増やす。そして、S216で、変数iが、S200において生成された暫定文書集合の数より大きいか否か、換言すれば、全ての暫定文書集合について文書集合を生成したかを確認する。文書集合を生成していない暫定文書集合がある場合(S216:No)は、S204に戻って、次の暫定文書集合である暫定文書集合2について、文書集合を生成する処理を進める。このようにして、全ての暫定文書集合について、文書集合が生成された場合(S216:Yes)は、図3のフローを終了する。なお、S208において集合演算を行った結果、文書集合内に文書が1つも存在しない場合には、その文書集合を生成しないとしても良い。
以上説明したように、AND−NOTの集合演算を行うことにより、以前に生成した文書集合に含まれていない文書からなる文書集合を生成することができる。このようにして生成された文書集合は、後述する文書集合の特徴語を出力させた場合に、以前に生成した文書集合の特徴語とは異なる特徴語を出力する可能性が高い。したがって、AND−NOTの集合演算を行わずに文書集合を生成した場合に比べて、より多様な特徴語を出力することが可能となる。
なお、集合演算は、AND−NOTに限られず、ANDやORなどであってもよい。ANDの集合演算の場合には、暫定文書集合に含まれる文書のうち、以前に生成した文書集合に含まれる文書が抽出され、その抽出された文書からなる文書集合が生成される。また、ORの集合演算の場合には、暫定文書集合に含まれる文書と、以前に生成した文書集合に含まれる文書とを合わせた文書集合が生成される。このように、ANDやORなどの集合演算を行うと、様々な文書集合を生成することが可能となり、文書集合の生成に柔軟性を持たせることができる。
図2に戻り、S104において文書集合が生成された後は、S106に進む。S106では、特徴語出力手段16により、文書集合毎に、文書集合にとって特徴的な語句である特徴語を出力する特徴語出力の処理が行われる。なお、「特徴語」は、「キーワード」と同様に、単語に限らず、句、節などであっても良い。特徴語出力手段16には、文書集合生成手段14において生成された文書集合の情報が入力される。文書集合の情報とは、少なくとも、各文書集合に含まれる文書を特定できる情報を含むものである。
図4は、1つの文書集合の特徴語出力の処理の流れの一例を示すフローチャートである。まず、S300において、文書集合内の文書に含まれるキーワードである文書キーワードを抽出する。この際、数や曜日等の一般的に文書に用いられる語句や、文書の全ページのフッターに現れる会社名などは、特徴語として相応しくないので、文書キーワードとして抽出しないことが望ましい。実際には、多くの文書キーワードが抽出されることになるが、ここでは説明の都合上、7つの文書キーワードである「鉄」、「ニッケル」、「アルミニウム」、「真鍮」、「紙」、「ガラス」、「犬」が抽出されたとする例(以下、「7つの文書キーワードの例」という)を用いる。
次のS302からS310までは、抽出された文書キーワードが1つずつ取りあげられて処理が行われる。S302では、まず1つ目の文書キーワードを処理するため、変数jに1が入力される。次のS304では、文書キーワードjの上位概念を、概念階層の辞書52から探索する。現在、jは1であり、1つ目の文書キーワードである文書キーワード1の「鉄」の上位概念が探索される。
図5は、概念階層の辞書の一例を示す図である。図4のS300において抽出された7つの文書キーワードを、一点破線で囲ってある。概念階層の辞書は、語句の上位下位概念の関係を階層状に示した辞書である。図5に示すように、文書キーワード1の「鉄」の上位概念は、第2階層にある「磁性」および第1階層にある「金属」である。探索すべき上位概念は、第2階層にある語句でも、第1階層にある語句でも、どちらでも構わないが、ここでは一例として、予めどちらにするか決まっているものとし、全ての文書キーワードについての上位概念の探索において、統一して同じ階層の上位概念が探索されるものとする。本実施形態では、第1階層の語句が探索されるものとする。したがって、S304において、文書キーワード1の「鉄」の上位概念として「金属」が探索される。なお、文書キーワードが、概念階層の辞書52の最も上の階層である第1階層の語句であった場合(例えば、図5の「金属」)には、その語句自体が探索されるとしても良い。
次に、S306に進み、探索された上位概念についてのカウンタの値を増やす。例えば、図5に示す第1階層の語句である「金属」、「非金属」、「生物」のそれぞれに対して初期値を0とするカウンタを予め用意しておき、S306においては、探索された上位概念のカウンタを、1つ増やす処理を行う。文書キーワード1の「鉄」については、「金属」が探索された為、「金属」のカウンタを1つ増やし、0から1にする。
S308では、次の文書キーワードの処理を行うため、変数jを1つ増やす。そして、S310に進み、変数jが、S300において抽出された文書キーワードの数より大きいか否か、換言すれば、抽出された文書キーワードの全てを処理したかを確認する。ここでは、処理していない文書キーワードが存在する(S310:No)ので、S304に戻り、次の文書キーワードである文書キーワード1の「ニッケル」の上位概念が探索される。このようにして、全ての文書キーワードについて上位概念の探索(S304)と、探索された上位概念についてのカウンタの値を増やす処理(S306)を行う。全ての文書キーワードの処理が終わると、S310がYesとなり、S312に進む。
S312では、カウンタの値が最も多い上位概念である選出上位概念を探索する。7つの文書キーワードの例における、「鉄」、「ニッケル」、「アルミニウム」、「真鍮」、「紙」、「ガラス」、「犬」については、図5の概念階層の辞書により、順番に、「金属」、「金属」、「金属」、「金属」、「非金属」、「非金属」、「生物」の上位概念が探索される。したがって、「金属」のカウンタの値は4、「非金属」のカウンタの値は2、「生物」のカウンタの値は1となる。したがって、S312において、カウンタの値が最も多い上位概念である「金属」が、選出上位概念として探索される。
次に、S314では、選出上位概念に属する文書キーワードが抽出される。7つの文書キーワードの例では、選出上位概念「金属」に属する文書キーワードである「鉄」、「ニッケル」、「アルミ」、「真鍮」が抽出される。この抽出された文書キーワードを特徴語として、S316では、特徴語の出力を行う。なお、本実施形態では、カウンタの値が最も多い上位概念のみを選出上位概念としたが、選出上位概念は複数でも良く、例えば、カウンタの値が2番目に多い上位概念も探索した上で選出上位概念としても良い。その場合は、それぞれの選出上位概念に属する文書キーワードが抽出され、その抽出された文書キーワードが特徴語として出力される。
以上説明したように、特徴語出力手段16は、文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、共通の上位概念を有する文書キーワードの数が、他の上位概念よりも多い上位概念である選出上位概念を探索し、探索された選出上位概念を有する文書キーワードを特徴語として出力する。
本実施形態では、文書集合に、入力キーワードを含む基本文書に加えて、基本文書に関連する関連文書が含まれている。したがって、文書集合内の文書が基本文書のみである場合に比べて、文書集合内の文書に含まれるキーワードである文書キーワードが多様となり、その文書キーワードの中から決定される特徴語も多様となる。特に、関連文書の検索として、上記した(2)深層学習を用いた方法や、(3)コミュニティの情報を用いた方法などを用いた場合には、文書に含まれる語句が全く異なる文書であっても関連文書として検索されるものであるため、より多様な語句を特徴語として得ることが可能となる。
また、本実施形態では、特徴語出力手段16が、共通の上位概念を有する文書キーワードの数が、他の上位概念よりも多い上位概念である選出上位概念を探索する。そして、選出上位概念に属する文書キーワードを特徴語として出力する。これにより、文書集合の特徴を表す選出上位概念に属する語句であって、実際に文書に登場する多様な語句を特徴語とすることができる。このような特徴語は、例えば、ユーザが、後述する検索結果に表示される特徴語を入力キーワードとして再検索したい場合に、役に立つ特徴語である。
また、本実施形態では、選出上位概念に属する文書キーワードを特徴語として出力したが、選出上位概念を特徴語として出力しても良い。選出上位概念は文書集合の特徴を表している為、例えば、後述する検索結果において特徴語として選出上位概念を表示することにより、ユーザは、文書集合の概要を確認することができる。
概念階層の辞書52を用いて特徴語を決定するその他の方法としては、入力キーワードの上位概念を探索し、その上位概念に属する文書キーワードを特徴語とする方法もある。図5の概念階層の辞書を用いて説明すると、入力キーワードが「磁性」であった場合、その上位概念は「金属」であり、その上位概念「金属」に属する文書キーワードである「鉄」、「ニッケル」、「アルミニウム」、「真鍮」が特徴語となる。この方法によれば、出力される特徴語を、入力キーワードの上位概念に属する語句に限定することができる。なお、この方法において、入力キーワードが、概念階層の辞書52の最も上の階層である第1階層の語句であった場合(例えば、図5の「金属」)は、その語句(概念)に属する文書キーワードを特徴語としても良い。
また、本実施形態においては、1つの「概念階層の辞書52」を用いた。しかし、複数の「概念階層の辞書52」を用いてもよい。例えば、ユーザの属性(ユーザが会社の中の技術職なのか営業職なのか等)に応じて、複数の「概念階層の辞書52」を切り替えて用いても良い。具体的には、ユーザの属性に応じて最適化した「概念階層の辞書52」を複数用意しておき、例えば、ユーザが検索を行う前に、操作部70を介して、使用する「概念階層の辞書52」を選択し、ユーザが検索を実行した時には、その選択した「概念階層の辞書52」を用いて、特徴語出力手段16が特徴語を出力する。語句は多義的であり、検索を行うユーザの属性によって、上位概念にあたる語句が変化する。したがって、このように「概念階層の辞書52」を切り替えて用いれば、各ユーザにとって、より関心のある特徴語を出力することが可能となる。
また、図4のフローの処理によって出力された特徴語の数が多い場合は、さらに選び出しを行って、特徴語の数を少なくしても良い。その方法として、例えば、次の2つの選出方法がある。
1つ目の選出方法は、特徴語の出力の対象となっている文書集合内の文書において出現頻度が高く、かつ、他の文書集合内の文書において出現頻度が低い語句を、特徴語として選出する方法である。例えば、文書集合内の文書における出現頻度が、相対的に、他の文書集合内の文書における出現頻度より高い語句の中から特徴語を選出する方法である。この選出方法は、例えば、tf−idfの手法を用いて実現できる。tf−idfは、本来、文書中の単語に関する重みであり、tf(term frequency、単語の出現頻度)及びidf(inverse document frequency、逆文書頻度)の2つの指標で表される。ここでは、文書集合内の複数の文書をまとめて1つの文書として扱うことで、文書集合毎に、語句に関する重みを求める。tf−idf値の高い語句を優先的に特徴語として選出し、tf−idf値の低い語句を選出しないことで、特徴語を減らすことができる。
2つ目の選出方法は、文書集合内の多くの文書において出現する語句を、特徴語として選出する方法である。例えば、文書集合内の文書に出現する語句のうち、その語句が出現する文書の数がより多い語句ほど、優先的に特徴語として選出する方法である。この選出方法は、文書集合内の文書における、idf値の逆数、すなわち、df値(document frequency、文書頻度)が高い語句を優先的に特徴語として選出し、df値の低い語句を選出しないことで実現でき、特徴語を減らすことができる。なお、1つ目の選出方法と、2つ目の選出方法とを組み合わせて、特徴語を選出することも可能である。
次に、表示処理手段18が行う、図2のS108の表示処理について説明する。表示処理手段18は、文書集合生成手段14から文書集合の情報を受付け、特徴語出力手段16から特徴語を受付け、検索結果を、表示部80に表示する。
図6は、キーワード入力枠401に入力キーワードとして「磁性」が入力され、検索ボタン402が操作部70のマウス等により選択、押下されたことにより検索が実行された時の、表示部80に表示された検索結果の表示例である。図6に示すように、キーワード入力枠401の下に、検索結果として2次元表450が表示される。2次元表450は、行列の行または列の一方に特徴語を伴って文書集合の表示が配列され、行列の行または列の他方に文書の背景を示す情報が配列され、行列の要素に文書集合内の文書に関する表示(図6では文書の数)が配置される。文書の背景を示す情報とは、例えば、文書の作成者、作成日時、ファイル形式といった情報であり、文書の背景を示す情報に従って、文書集合に含まれる文書が分類された上で、2次元表450が表示される。図6では、文書の背景を示す情報が「作成者」となっており、各文書集合に含まれる文書の数が、作成者毎に分類されて表示されている。
検索結果として、このような2次元表450を表示することにより、文書集合毎に特徴語のみを表示させる場合に比べて、各文書集合内の文書が有する特徴をより可視化することができる。例えば、文書集合No.1およびNo.2については、「Aさん」が作成した文書が多く含まれることが分かる。したがって、例えば、ユーザが、「Aさん」が作成した文書を探し出したい場合には、文書集合No.1およびNo.2に含まれる文書を確認すれば、探し出せる可能性が高いことが容易に分かる。また、各文書集合の特徴語を確認することで、ユーザが探し出したい文書に関連しているのは、文書集合No.1またはNo.2のどちらなのか容易に判断することができる。
以上説明した本実施形態によれば、文書集合に関連文書が含まれるため、文書集合内の文書に含まれる語句が多様となる。その結果、入力キーワードが含まれる文書である基本文書を、互いに類似した基本文書により構成される文書集合に分類し、文書集合にとって特徴的な語句である特徴語を出力した場合に比べて、より多様性のある特徴語を出力することができる。
検索結果においては、多様性のある特徴語が表示されるため、ユーザは、それらの特徴語の中から、自らが求めている文書に関連すると思われる特徴語を見つけられる可能性が高い。そして、その関連すると思われる特徴語を入力キーワードとして、再検索を行うことで、最初の入力キーワードを用いた情報検索処理では検索結果として得られなかった文書が得られ、求めている文書に迅速に到達できる可能性がある。
再検索の方法としては、検索結果として得られた特徴語のみを入力キーワードとして使う方法以外にも、種々の方法が考えられる。例えば、ある入力キーワードである第1入力キーワードを用いた情報検索処理によって得られた特徴語である第1特徴語があった場合には、次の情報検索処理、すなわち再検索において、第1入力キーワードと、第1特徴語とを入力キーワードとして用いて、絞り込み検索(AND検索)、拡張検索(OR検索)、周辺検索(AND−NOT検索)などの検索を行ってもよい。次に、この第1入力キーワードと、第1特徴語とを入力キーワードとして用いた再検索について、具体的に説明する。
絞り込み検索(AND検索)の場合は、図2のS100の基本文書検索において、第1入力キーワードと第1特徴語との両方が含まれる文書が検索され、S102以降の情報検索処理を行う。また、別の方法としては、次の方法がある。まず、図2のS100の基本文書検索において、第1入力キーワードが含まれる文書である「第1入力キーワードの基本文書」を検索し、S102の関連文書検索において、「第1入力キーワードの基本文書」に関連する関連文書である「第1入力キーワードの関連文書」を検索し、「第1入力キーワードの基本文書」と「第1入力キーワードの関連文書」とからなる「第1入力キーワードの文書群」を作る。同様に、第1特徴語についても基本文書検索と、関連文書検索とを行い、「第1特徴語の基本文書」と「第1特徴語の関連文書」とからなる「第1特徴語の文書群」を作る。そして、「第1入力キーワードの文書群」と「第1特徴語の文書群」に共通して含まれる文書を抽出して文書群を作り、その文書群に対して、図2のS104以降の情報検索処理を行う。
拡張検索(OR検索)の場合は、図2のS100の基本文書検索において、第1入力キーワードが含まれる文書と、第1特徴語が含まれる文書とが検索され、図2のS102以降の情報検索処理を行う。また、別の方法としては、上記した「第1入力キーワードの文書群」と「第1特徴語の文書群」とをまとめた文書群を作り、その文書群に対して図2のS104以降の情報検索処理を行う。
周辺検索(AND−NOT検索)の場合は、図2のS100の基本文書検索において、第1特徴語が含まれる文書のうち、第1入力キーワードが含まれない文書を検索し、図2のS102以降の情報検索処理を行う。また、別の方法としては、上記した「第1特徴語の文書群」に含まれる文書のうち、「第1入力キーワードの文書群」に含まれていない文書からなる文書群を作り、その文書群に対して図2のS104以降の情報検索処理を行う。
以上のように、再検索として、絞り込み検索(AND検索)や周辺検索(AND−NOT検索)を行うことにより、検索結果として得られる文書の数が減る可能性が高く、ユーザは求めている文書を見つけ易くなる。また、再検索として、拡張検索(OR検索)を行うことにより、検索結果として広範囲の文書をまとめて得ることが可能となる。
10 基本文書検索手段、12 関連文書検索手段、14 文書集合生成手段、16 特徴語出力手段、18 表示処理手段、40 制御部、50 情報検索プログラム、52 概念階層の辞書、54 文書集合情報、60 記憶部、70 操作部、80 表示部、90 通信部、100 情報検索装置、200 文書データベース、300 ネットワーク、401 キーワード入力枠、402 検索ボタン、450 2次元表。

Claims (7)

  1. 入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段、
    前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段、
    複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段、
    前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段、
    としてコンピュータを機能させ、
    前記特徴語出力手段は、
    前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、
    共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、情報検索プログラム。
  2. 前記特徴語出力手段は、
    前記選出上位概念を有する前記文書キーワードのうち、前記特徴語の出力の対象となっている前記文書集合内の文書において出現頻度が高く、かつ、他の前記文書集合内の文書において出現頻度が低い前記文書キーワードの全て、または、いずれかを前記特徴語とする、
    ことを特徴とする請求項に記載の情報検索プログラム。
  3. 前記特徴語出力手段は、
    前記選出上位概念を有する前記文書キーワードのうち、前記文書集合内の多くの文書において出現する前記文書キーワードを前記特徴語とする、
    ことを特徴とする請求項またはに記載の情報検索プログラム。
  4. 行列の行または列の一方に前記特徴語を伴って前記文書集合の表示を配列し、前記行列の行または列の他方に文書の背景を示す情報を配列し、前記行列の要素に前記文書集合内の文書に関する表示を配置した2次元表を表示部に表示させる表示処理手段、をさらに含む、
    ことを特徴とする請求項1からのいずれか一項に記載の情報検索プログラム。
  5. 前記文書集合生成手段は、
    前記文書群を分類することにより生成した暫定文書集合と、前記文書集合生成手段により以前に生成された前記文書集合との集合演算を行って、前記文書集合を生成する、
    ことを特徴とする請求項1からのいずれか一項に記載の情報検索プログラム。
  6. 前記入力キーワードとして第1入力キーワードが用いられたことによって、前記特徴語として第1特徴語が出力された場合に、
    前記第1特徴語を前記入力キーワードとした再検索、前記第1入力キーワードと前記第1特徴語との両方を前記入力キーワードとした再検索である絞り込み検索、拡張検索および周辺検索の少なくとも1つを実行可能である、
    ことを特徴とする請求項1からのいずれか一項に記載の情報検索プログラム。
  7. 入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段と、
    前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段と、
    複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段と、
    前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段と、
    を含み、
    前記特徴語出力手段は、
    前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、
    共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、ことを特徴とする情報検索装置。
JP2016029515A 2016-02-19 2016-02-19 情報検索プログラム及び情報検索装置 Active JP6772478B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016029515A JP6772478B2 (ja) 2016-02-19 2016-02-19 情報検索プログラム及び情報検索装置
US15/218,408 US20170242851A1 (en) 2016-02-19 2016-07-25 Non-transitory computer readable medium, information search apparatus, and information search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016029515A JP6772478B2 (ja) 2016-02-19 2016-02-19 情報検索プログラム及び情報検索装置

Publications (2)

Publication Number Publication Date
JP2017146869A JP2017146869A (ja) 2017-08-24
JP6772478B2 true JP6772478B2 (ja) 2020-10-21

Family

ID=59631107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016029515A Active JP6772478B2 (ja) 2016-02-19 2016-02-19 情報検索プログラム及び情報検索装置

Country Status (2)

Country Link
US (1) US20170242851A1 (ja)
JP (1) JP6772478B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180013816A1 (en) * 2016-07-06 2018-01-11 Saeid Safavi Method and Apparatus for On Demand Mobile Data Transfer
JP6727992B2 (ja) * 2016-09-02 2020-07-22 株式会社日立製作所 分析装置、分析方法、および分析プログラム
US10140574B2 (en) * 2016-12-31 2018-11-27 Via Alliance Semiconductor Co., Ltd Neural network unit with segmentable array width rotator and re-shapeable weight memory to match segment width to provide common weights to multiple rotator segments
JPWO2022190384A1 (ja) * 2021-03-12 2022-09-15

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US7185001B1 (en) * 2000-10-04 2007-02-27 Torch Concepts Systems and methods for document searching and organizing
US7107266B1 (en) * 2000-11-09 2006-09-12 Inxight Software, Inc. Method and apparatus for auditing training supersets
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
US8214346B2 (en) * 2008-06-27 2012-07-03 Cbs Interactive Inc. Personalization engine for classifying unstructured documents
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
US9558185B2 (en) * 2012-01-10 2017-01-31 Ut-Battelle Llc Method and system to discover and recommend interesting documents

Also Published As

Publication number Publication date
US20170242851A1 (en) 2017-08-24
JP2017146869A (ja) 2017-08-24

Similar Documents

Publication Publication Date Title
US20240152559A1 (en) Related notes and multi-layer search in personal and shared content
Koch et al. VarifocalReader—in-depth visual analysis of large text documents
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US9092428B1 (en) System, methods and user interface for discovering and presenting information in text content
EP3513328A1 (en) Method and apparatus for ranking electronic information by similarity association
JP6772478B2 (ja) 情報検索プログラム及び情報検索装置
US20150347576A1 (en) Method and system for information retrieval and aggregation from inferred user reasoning
WO2013134200A1 (en) Digital resource set integration methods, interface and outputs
US10042934B2 (en) Query generation system for an information retrieval system
JP2011103075A (ja) 抜粋文抽出方法
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
US9875298B2 (en) Automatic generation of a search query
JP2017117021A (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP4453440B2 (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
JP2006215675A (ja) データマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラム
JP2011103027A (ja) 文書表示装置、文書表示方法および文書表示プログラム
KR101078978B1 (ko) 문서 분류 시스템
JP2007233752A (ja) 検索装置、コンピュータプログラム及び記録媒体
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
KR101769940B1 (ko) 문서를 검색하는 방법
Vallejo-Huanga et al. Similarity Visualizer Using Natural Language Processing in Academic Documents of the DSpace in Ecuador
Kudelka et al. Social aspects of web page contents
JP7352315B2 (ja) 情報処理方法、探索システムおよび探索方法
JP6976537B1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R150 Certificate of patent or registration of utility model

Ref document number: 6772478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350