JP2019125025A - システム、文書データの管理方法、及びプログラム - Google Patents

システム、文書データの管理方法、及びプログラム Download PDF

Info

Publication number
JP2019125025A
JP2019125025A JP2018003485A JP2018003485A JP2019125025A JP 2019125025 A JP2019125025 A JP 2019125025A JP 2018003485 A JP2018003485 A JP 2018003485A JP 2018003485 A JP2018003485 A JP 2018003485A JP 2019125025 A JP2019125025 A JP 2019125025A
Authority
JP
Japan
Prior art keywords
document data
attribute
search
given
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018003485A
Other languages
English (en)
Inventor
衛藤 達也
Tatsuya Eto
達也 衛藤
正和 松浦
Masakazu Matsuura
正和 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2018003485A priority Critical patent/JP2019125025A/ja
Publication of JP2019125025A publication Critical patent/JP2019125025A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書データの更新等の操作を考慮した文書データの検索を実現する。【解決手段】文書データを格納するデータベースにアクセス可能な計算機を有するシステムであって、データベースには属性が付与された文書データが格納され、計算機は、基準検索キーを含む実行要求を受信した場合、前記基準検索キーに基づいて、前記データベースを参照して、第一次文書データを検索し、第一次文書データに類似する第二次文書データを検索し、第一次文書データ及び第二次文書データに付与される属性を解析することによって、第一次文書データに関連性がある属性を抽出し、抽出された属性を拡張属性として第一次文書データに付与する。【選択図】図1

Description

本発明は、文書データの検索システムに関する。
データベースに格納される文書データを検索する場合、ユーザは、文書データの名称又は文書データに含まれる単語を検索キーとして含む検索要求を検索システムに入力する。従来の検索システムは、入力された単語に一致する文書データを検索することができるが、関連する文書データを検索できない。例えば、従来の検索システムは、単語が属する技術分野に関連する文書データを検索できない。
ここで、関連する文書データとは、検索キーに基づいて照合される項目が同一又は類似する文書データのことを示す。例えば、検索キーである単語に類似する単語を含む文書データ、検索キーである文書データに類似する内容の文書データ、検索キーである文書データと同一の技術分野に属する文書データが、関連する文書データである。
近年、検索キーに関連する文書データを検索する検索システムが注目されている。例えば、特許文献1に記載の技術が知られている。
特許文献1には、「複数の段落文により章節を形成し、複数の章節で構成された文書について、複数の文書を電子データとして得、一方文書の前記段落文を他方文書の前記段落文または章節と比較して類似度を判断し、判断した類似度から前記比較した一方文書の前記段落文が前記他方文書の前記段落文または章節と類似であるか、新規であるかを判断する。」ことが記載されている。
特開2015−219799号公報
特許文献1に記載された検索システムは、文書間の類似度、又は単語と文書との間の類似度等に基づいて、関連する文書データを検索する。したがって、メタデータに含まれる所有者及びタイムスタンプ等の属性が検索キーとして入力された場合、関連する文書データを検索できない。なぜならば、メタデータと、文書データ又は文書データに含まれる単語との間の関係性は考慮されておらず、また、メタデータに含まれる属性は、一般的に文書データ又は文書データに含まれる単語と類似関係を構成しないためである。
本発明は、メタデータに含まれる属性を検索キーとして用いた場合に、関連する文書データを検索できるシステムを提供することを目的とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、文書データを格納するデータベースにアクセス可能な計算機を備えるシステムであって、前記計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有し、前記データベースには、少なくとも一つの属性が付与された前記文書データが格納され、前記計算機は、前記文書データの検索を行う検索モジュール、及び関連する文書データを検索するための検索キーとして使用される属性である拡張属性を付与する属性解析モジュールを有し、前記検索モジュールは、第一文書データと関連性がある第二文書データを検索し、前記属性解析モジュールは、前記第二文書データに付与される属性を解析することによって、前記第二文書データに付与される属性の中から前記拡張属性として付与する属性を特定し、前記特定された拡張属性を前記第一文書データに付与することを特徴とする。
本発明によれば、関連する文書の属性を拡張属性として文書データに付与できる。これによって、属性を検索キーに用いた場合であっても、関連する文書データを検索できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の検索システムの構成例を示す図である。 実施例1の文書データ管理データベースのデータ構造の一例を示す図である。 実施例1のベクトル管理データベースのデータ構造の一例を示す図である。 実施例1の検索サーバが実行する学習処理の一例を説明するフローチャートである。 実施例1の検索サーバが実行する属性解析処理を説明するフローチャートである。 実施例1の属性解析処理が実行された後の文書データ管理データベースのデータ構造の一例を示す図である。 実施例1の検索サーバが実行する検索処理の一例を説明するフローチャートである。 実施例1の検索サーバが実行する検索処理の一例を説明するフローチャートである。 実施例1の検索画面の一例を示す図である。 実施例1の検索画面の一例を示す図である。 実施例1の検索画面の一例を示す図である。
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
本明細書等における「第一」、「第二」、「第三」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。
図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。
図1は、実施例1の検索システムの構成例を示す図である。
検索システムは、ファイルサーバ100、検索サーバ101、及び端末102から構成される。ファイルサーバ100、検索サーバ101、及び端末102は、ネットワーク105を介して互いに接続される。なお、各装置は、異なるネットワークを介して接続されてもよい。
ネットワーク105は、WAN(Wide Area Network)及びLAN(Local Area Network)等である。なお、本発明は、ネットワーク105の種別に限定されない。また、ネットワーク105の接続方式は、有線又は無線のいずれでもよい。
ファイルサーバ100は文書データを管理する計算機である。ファイルサーバ100は、ハードウェアとして、プロセッサ110、メモリ111、及びネットワークインタフェース112を有する。
プロセッサ110は、メモリ111に格納されるプログラムを実行する。プロセッサ110がプログラムにしたがって処理を実行することによって、特定の機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ110が当該モジュールを実現するプログラムを実行していることを示す。
メモリ111は、プロセッサ110が実行するプログラム及び情報を格納する。また、メモリ111は、プログラムが使用するワークエリアを含む。
ネットワークインタフェース112は、ネットワーク105に接続するためのインタフェースである。
実施例1のメモリ111は、文書データ管理モジュール120を実現するプログラム及び文書データ管理データベース130を格納する。
文書データ管理データベース130は、文書データを管理するデータベースである。実施例1の文書データはファイル形式のデータとして管理される。文書データ管理データベース130のデータ構造は図2を用いて説明する。
文書データ管理モジュール120は、文書データ管理データベース130を管理するモジュールである。例えば、文書データ管理モジュール120は、文書データの書込処理及び文書データの読出処理等を実行する。
本実施例では、メモリ111に文書データ管理データベース130が格納されるが、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等の記憶装置に文書データ管理データベース130が格納されてもよい。
検索サーバ101はファイルサーバ100が管理する文書データを検索する計算機である。検索サーバ101は、ハードウェアとして、プロセッサ140、メモリ141、及びネットワークインタフェース142を有する。プロセッサ140、メモリ141、及びネットワークインタフェース142は、プロセッサ110、メモリ111、及びネットワークインタフェース112と同一のものである。
実施例1のメモリ141は、検索モジュール150及び属性解析モジュール151を実現するプログラム、並びにベクトル管理データベース160を格納する。
ベクトル管理データベース160は、文書データから算出されたベクトルを管理するためのデータベースである。当該ベクトルは、文書データの特徴を示すデータである。ベクトル管理データベース160のデータ構造は図3を用いて説明する。
検索モジュール150は、文書データの検索処理を実行する。検索モジュール150が実行する処理の詳細は後述する。
属性解析モジュール151は、文書データに付与されるメタデータ(属性)を解析する。属性解析モジュール151が実行する処理の詳細は後述する。
端末102はユーザが操作する計算機である。端末102は、図示しないプロセッサ、メモリ、及びネットワークインタフェースを有する。ユーザは、端末102を使用して、文書データに関する各種操作を行う。
なお、ファイルサーバ100及び検索サーバ101が有するモジュールについては、複数のモジュールを一つのモジュールにまとめてもよいし、一つのモジュールを機能毎に複数のモジュールに分けてもよい。
図2は、実施例1の文書データ管理データベース130のデータ構造の一例を示す図である。
文書データ管理データベース130は、データID201、パス202、属性群203、及び特徴単語204から構成されるエントリを含む。一つのエントリが一つの文書データに対応する。なお、エントリに含まれるフィールドは、前述したフィールド以外のフィールドが含まれてもよい。
データID201は、ファイル形式の文書データを一意に識別するための識別情報を格納するフィールドである。パス202は、文書データの格納位置を示すパスを格納するフィールドである。文書データの実体は、パスに対応するメモリ111の記憶領域に格納される。
属性群203は、文書データのメタデータに含まれる属性を格納するフィールド群である。属性群203は、文書データのメタデータとして扱われる。属性群203には、文書データの所有者の識別情報を格納する所有者211及び文書データの作成日を格納する作成日212等のフィールドが含まれる。
特徴単語204は、文書データを特徴づける単語である特徴単語を格納するフィールドである。特徴単語204には特徴単語及び関連度の組合せが登録される。
なお、特徴単語は、文書データに含まれる文字列を解析することによって抽出される。例えば、文書データと文字列との間の関係性、及び文字列の出現頻度等に基づいて、特徴単語が抽出される。
図3は、実施例1のベクトル管理データベース160のデータ構造の一例を示す図である。
ベクトル管理データベース160は、データID301及びベクトル302から構成されるエントリを含む。一つのエントリが一つの文書データのベクトルに対応する。
データID301は、データID201と同一のフィールドである。ベクトル302は、データID301に対応する文書データから算出されたベクトルを格納するフィールドである。
文書データのベクトルは、任意のタイミングで検索サーバ101によって算出される。例えば、検索サーバ101は、ユーザから実行指示を受信した場合、又は、ファイルサーバ100に文書データが登録された場合、文書データのベクトルの算出処理を実行する。また、検索サーバ101は、周期的に、文書データのベクトルの算出処理を実行してもよい。
文書データのベクトルの算出処理では、検索サーバ101は、ファイルサーバ100からターゲットとなる文書データを読み出し、ターゲット文書データに含まれる文字列を解析することによってベクトルを算出する。なお、文字列の解析方法としては、形態素解析等を用いる方法が考えられる。
次に、実施例1の検索サーバ101が実行する処理について説明する。
図4は、実施例1の検索サーバ101が実行する学習処理の一例を説明するフローチャートである。
検索サーバ101は、周期的に、又は、ユーザから実行指示を受信した場合、以下で説明する学習処理を実行する。
検索サーバ101の属性解析モジュール151は、特徴単語を登録するための文書データのループ処理を開始する(ステップS100)。
具体的には、属性解析モジュール151は、文書データ管理データベース130を参照し、ターゲットエントリを一つ選択する。属性解析モジュール151は、選択されたエントリを読み出し、メモリ141に格納する。以下の説明では、ターゲットエントリに対応する文書データをターゲット文書データと記載する。
次に、属性解析モジュール151は、ターゲット文書データのベクトルを算出し(ステップS101)、ベクトル管理データベース160を更新する(ステップS102)。
具体的には、属性解析モジュール151は、Doc2Vec等の公知の手法を用いて、ターゲット文書データのベクトルを算出する。属性解析モジュール151は、ベクトル管理データベース160にエントリを追加し、追加されたエントリのデータID301に、ターゲットエントリのデータID201に設定された識別情報を設定する。また、属性解析モジュール151は、追加されたエントリのベクトル302に算出されたベクトルを設定する。
次に、属性解析モジュール151は、ターゲット文書データの特徴単語を特定する(ステップS103)。
具体的には、属性解析モジュール151は、ターゲット文書データに対して形態素解析を実行し、ターゲット文書データに含まれる単語(文字列)を抽出する。さらに、属性解析モジュール151は、単語の出現回数等に基づいて、ターゲット文書データと単語との間の関連度を算出する。属性解析モジュール151は、関連度が高い順にn個の単語を特徴単語として選択する。なお、選択する単語の数は任意に設定できる。
なお、前述した特徴単語の特定方法は一例であって、これに限定されない。例えば、関連度及び閾値の比較結果に基づいて、特徴単語を選択してもよい。
次に、属性解析モジュール151は、文書データ管理データベース130を更新する(ステップS104)。
具体的には、属性解析モジュール151は、文書データ管理データベース130を参照し、ターゲットエントリの特徴単語204に、特定された特徴単語を設定する。
次に、属性解析モジュール151は、全ての文書データについて処理が完了したか否かを判定する(ステップS105)。すなわち、文書データ管理データベース130の全てのエントリについて処理が実行されたか否かが判定される。
全ての文書データについて処理が完了していないと判定された場合、属性解析モジュール151は、ステップS100に戻り、新たなターゲット文書データを選択し、同様の処理を実行する。
全ての文書データについて処理が完了したと判定された場合、属性解析モジュール151は、属性を解析するための文書データのループ処理を開始する(ステップS106)。ステップS106の処理は、ステップS100の処理と同一である。
次に、属性解析モジュール151は、ターゲット文書データの特徴単語のループ処理を開始する(ステップS107)。
具体的には、属性解析モジュール151は、ターゲットエントリの特徴単語204に設定された特徴単語の中からターゲット特徴単語を選択する。
次に、属性解析モジュール151は、ターゲット特徴単語を検索キーとして用いた検索処理の実行を検索モジュール150に指示する(ステップS108)。検索処理は公知の技術を用いればよい。例えば、以下のような処理が考えられる。
検索モジュール150は、Word2Vec等の公知の技術を用いてターゲット特徴単語のベクトルを算出する。検索モジュール150は、ベクトル管理データベース160の各エントリのベクトル302の値と、ターゲット特徴単語のベクトルとを用いて類似度を算出する。このとき、ターゲット文書データは除外される。
算出された類似度は、ターゲット特徴単語と文書データとの間の関連性を評価する指標として用いられる。以下の説明では、第一関連度と記載する。
検索モジュール150は、第一関連度に基づいて、ターゲット特徴単語に関連する文書データを検索する。例えば、検索モジュール150は、第一関連度が閾値より大きい文書データを、ターゲット特徴単語に関連する文書データに決定する。また、検索モジュール150は、第一関連度が高い順にm個の文書データをターゲット特徴単語に関連する文書データに決定する。選択する文書データの数は任意に設定できる。
検索モジュール150は、検索された文書データ及び第一関連度から構成されるエントリを関連文書データリストに登録する。以下の説明では、検索された文書データを関連文書データと記載する。検索モジュール150は、検索処理が終了した場合、属性解析モジュール151に、検索結果として関連文書データリストを出力する。
次に、属性解析モジュール151は、ターゲット文書データの全ての特徴単語について処理が完了したか否かを判定する(ステップS109)。すなわち、ターゲットエントリの特徴単語204に設定された全ての特徴単語について処理が実行されたか否かが判定される。
ターゲット文書データの全ての特徴単語について処理が完了していないと判定された場合、属性解析モジュール151は、ステップS107に戻り、新たなターゲット特徴単語を選択し、同様の処理を実行する。
ターゲット文書データの全ての特徴単語について処理が完了したと判定された場合、属性解析モジュール151は、関連文書データを用いて属性解析処理を実行する(ステップS110)。
属性解析処理は、ターゲット文書データに付与する拡張属性(拡張メタデータ)を特定するための処理である。属性解析処理の詳細は図5を用いて説明する。ここで、拡張属性は、関連する文書データを検索するための検索キーとして使用される属性を示す。
次に、属性解析モジュール151は、全ての文書データについて処理が完了したか否かを判定する(ステップS111)。ステップS111の処理は、ステップS105の処理と同一である。
全ての文書データについて処理が完了していないと判定された場合、属性解析モジュール151は、ステップS106に戻り、新たなターゲット文書データを選択し、同様の処理を実行する。
全ての文書データについて処理が完了したと判定された場合、属性解析モジュール151は処理を終了する。
図5は、実施例1の検索サーバ101が実行する属性解析処理を説明するフローチャートである。図6は、実施例1の属性解析処理が実行された後の文書データ管理データベース130のデータ構造の一例を示す図である。
属性解析モジュール151は、ファイルサーバ100に、拡張属性群205の追加指示を送信する(ステップS200)。ファイルサーバ100は、検索サーバ101から拡張属性群205の追加指示を受信した場合、文書データ管理データベース130に拡張属性群205を追加する。
拡張属性群205は、例えば、属性の分類に対応するフィールドから構成される。実施例1の拡張属性群205には、作成者及び修正者等のユーザに分類される属性を格納する関係者222、並びに、作成日及び修正日等のタイムスタンプに分類される属性を格納する関連日時223が含まれる。なお、拡張属性群205は、各属性を格納するフィールドから構成されてもよい。
次に、属性解析モジュール151は、全ての関連文書データの属性を取得する(ステップS201)。
具体的には、属性解析モジュール151は、関連文書データリストに基づいて文書データ管理データベース130を参照し、各関連文書データに対応するエントリの属性群203から属性を取得する。このとき、属性解析モジュール151は、取得された各関連文書データの属性のリストを生成する。
次に、属性解析モジュール151は、属性のループ処理を開始する(ステップS202)。
具体的には、属性解析モジュール151は、属性のリストからターゲット属性を選択する。
次に、属性解析モジュール151は、ターゲット属性の評価値を算出する(ステップS203)。
ターゲット属性の評価値の算出方法は様々な方法が考えられる。例えば、属性解析モジュール151は、属性のリストに含まれるターゲット属性の数に基づいて評価値を算出する。また、属性解析モジュール151は、ターゲット文書データに含まれる属性とターゲット属性との間の類似度及び第一関連度の乗算値の平方根を評価値として算出してもよい。
次に、属性解析モジュール151は、ターゲット属性の評価値が閾値より大きいか否かを判定する(ステップS204)。
ターゲット属性の評価値が閾値以下であると判定された場合、属性解析モジュール151は、ステップS206に進む。
ターゲット属性の評価値が閾値より大きいと判定された場合、属性解析モジュール151は、文書データ管理データベース130を更新する(ステップS205)。
具体的には、属性解析モジュール151は、拡張属性群205に含まれるフィールドであって、ターゲット属性が属する分類に対応するフィールドに、ターゲット属性を設定する。
ステップS206では、属性解析モジュール151は、属性のリストに登録された全ての属性について処理が完了したか否かを判定する(ステップS206)。
属性のリストに登録された全ての属性について処理が完了していないと判定された場合、属性解析モジュール151は、ステップS202に戻り、新たなターゲット属性を選択し、同様の処理を実行する。
属性のリストに登録された全ての属性について処理したと判定された場合、属性解析モジュール151は、属性解析処理を終了する。
以上の処理によって、図2に示す文書データ管理データベース130は、図6に示す文書データ管理データベース130に更新される。実施例1の検索サーバ101は、文書データ間の関連性、並びに文書データ及び単語の関連性を解析することによって、関連する文書データを検索するための拡張属性を文書データに追加することができる。
図7A及び図7Bは、実施例1の検索サーバ101が実行する検索処理の一例を説明するフローチャートである。図8A、図8B、及び図8Cは、実施例1の検索画面800の一例を示す図である。
まず、検索画面800について説明する。検索画面800は、検索条件入力欄810、検索結果表示欄820、及び学習結果表示欄830を含む。なお、学習結果表示欄830は、学習処理が実行された場合に表示される欄である。
検索条件入力欄810は、検索処理の条件を設定するための欄である。検索条件入力欄810は、検索キー欄811、検索対象欄812、学習欄813、及び検索ボタン814を含む。
検索キー欄811は、検索キーを入力する欄である。検索対象欄812は、検索キーを用いた検索を行う対象を入力する欄である。検索対象欄812には、例えば、「文書データ」又は「属性」が入力される。検索対象欄812が「文書データ」である場合、検索キー及び文書データの類似性に基づく検索処理が実行され、検索対象欄812が「属性」である場合、検索キー並びに文書データの属性及び拡張属性の照合結果に基づく検索処理が実行される。
学習欄813は、学習処理を実行するか否かを選択するための欄である。学習欄813には、学習処理を実行させるためのラジオボタン「ON」及び学習処理を実行させないラジオボタン「OFF」が表示される。
なお、実施例1では、検索対象欄812が「文書データ」である場合に、学習欄813の「ON」が選択できるものとする。
検索ボタン814は、検索処理の実行を指示するための操作ボタンである。
検索結果表示欄820は、検索結果を表示する欄である。検索結果表示欄820には、テーブル形式のデータが表示される。検索結果表示欄820に表示されるテーブルの構造は、検索の対象に依存する。
検索の対象が文書データである場合、検索結果表示欄820に表示されるテーブルのエントリは、検索キー821、データID822、ソースデータID823、及び関連度824から構成される。検索の対象が属性である場合、検索結果表示欄820に表示されるテーブルのエントリは、データID822及び関連度824から構成される。
検索キー821は、検索キーとして使用された文字列を格納するフィールドである。データID822は、検索キー821に格納される文字列に基づいて検索された文書データの識別情報を格納するフィールドである。
ソースデータID823は、検索キー821に格納される特徴単語の選択元の文書データの識別情報を格納するフィールドである。
関連度824は、検索キー821に対応する文字列とデータID822に対応する文書データとの間の関連度を格納するフィールドである。単語及び文書データの関連度は、例えば、それぞれのベクトルを用いて算出できる。
学習結果表示欄830は、学習結果を表示する欄である。学習結果表示欄830には、テーブル形式のデータが表示される。学習結果表示欄830に表示されるテーブルは、データID831、属性種別832、属性833、及び関連度834から構成されるエントリを含む。
データID831は、拡張属性群205に値が設定された文書データの識別情報を格納するフィールドである。
属性種別832は、拡張属性群205に追加された属性の種別を格納するフィールドである。属性種別832には、拡張属性群205に含まれるフィールドの名称と同一の値が格納される。
属性833は、拡張属性群205に追加された属性の値を格納するフィールドである。
関連度835は、データID831に格納される文書データと属性833に格納される属性(文字列)との間の関連度を格納するフィールドである。
実施例1では、テーブル形式の検索結果が出力されるが、グラフとして検索結果を表示してもよい。具体的には、検索キー及び文書データをノードとして表現し、関連度824に基づいて決定された長さのエッジを用いて検索キー及び文書データを接続し、また、関連度824に基づいて決定された長さのエッジを用いて文書データ間を接続する。
次に、検索サーバ101が実行する検索処理について説明する。
ユーザは、検索画面800を参照し、検索条件入力欄810に含まれる欄に値を設定し、検索ボタン814を操作する。当該ボタンが操作された場合、端末102は、検索条件入力欄810に設定された値を含む検索要求を検索サーバ101に送信する。検索サーバ101は、検索要求を受信した場合、以下で説明する検索処理を開始する。
まず、検索サーバ101の検索モジュール150は、学習処理を実行するか否かを判定する(ステップS301)。
具体的には、検索モジュール150は、検索要求に学習処理の実行を指示する情報が含まれるか否かを判定する。図3Aに示す検索条件入力欄810の場合、学習処理を実行すると判定される。図3B及び図3Cに示す検索条件入力欄810の場合、学習処理を実行しないと判定される。
学習処理を実行すると判定された場合、検索モジュール150は、検索要求に含まれる検索キーを用いた検索処理を実行する(ステップS301)。具体的には、以下のような処理が実行される。
検索モジュール150は、検索キーを用いて文書データを検索する。検索キーの種類に応じて処理が異なる。
(1)検索キーが文書データである場合、検索モジュール150は、ベクトル管理データベース160を参照し、検索キーとして設定された文書データのベクトルを取得する。検索モジュール150は、取得したベクトル及び他の文書データのベクトルを用いて文書データ間の類似度を算出する。検索モジュール150は、類似度に基づいて、検索結果として出力する文書データ(第一次文書データ)を選択する。検索モジュール150は、検索キー、選択した文書データの識別情報、及び関連度から構成されるエントリを含む第一出力リストを生成する。なお、類似度が関連度として出力される。
(2)検索キーが単語である場合、検索モジュール150は、単語のベクトルを算出する。検索モジュール150は、単語のベクトル及び文書データのベクトルを用いて単語及び文書データ間の類似度を算出する。検索モジュール150は、類似度に基づいて、検索結果として出力する文書データ(第一次文書データ)を選択する。検索モジュール150は、検索キー、選択した文書データの識別情報、及び関連度から構成されるエントリを含む第一出力リストを生成する。なお、類似度が関連度として出力される。
なお、第一出力リストに含まれるエントリを構成する検索キー、文書データの識別情報、及び関連度は、検索結果表示欄820に表示されるテーブルの検索キー821、データID822、及び関連度824に設定される値となる。以上がステップS301の処理の説明である。
次に、検索モジュール150は、属性解析モジュール151と連携して、ステップS302からステップS307の処理を実行する。ステップS302からステップS307の処理は、ステップS106からステップS111の処理と同様である。ただし、以下で述べるように一部の処理が異なる。
ステップS302では、属性解析モジュール151は、第一出力リストに登録された文書データの中からターゲット文書データを選択する。ステップS304では、検索モジュール150は、第一次文書データの特徴単語に関連する文書データ(第二次文書データ)が検索される。ステップS305の処理が終了した後、属性解析モジュール151は、特徴単語、選択した文書データ(第二次文書データ)の識別情報、ターゲット文書データ(第一次文書データ)の識別情報、及び関連度から構成されるエントリを含む第二出力リストを生成する。
ステップS306では、属性解析モジュール151は、文書データ管理データベース130に追加された属性に関する情報として、学習結果リストを生成する。具体的には、属性解析モジュール151は、属性が追加された文書データの識別情報、追加された属性の種別、追加された属性、及び関連度から構成されるエントリを含む学習結果リストを生成する。エントリを構成する属性が追加された文書データの識別情報、追加された属性の種別、追加された属性、及び関連度は、学習結果表示欄830に表示されるテーブルのデータID831、属性種別832、属性833、及び関連度834に設定される値となる。
なお、第二出力リストに含まれるエントリを構成する特徴単語、文書データの識別情報、ターゲット文書データの識別情報、及び関連度は、検索結果表示欄820に表示されるテーブルの検索キー821、データID822、ソースデータID823、及び関連度824に設定される値となる。
次に、検索モジュール150は、検索結果を生成し、端末102に送信する(ステップS316)。その後、検索サーバ101は、処理を終了する。
具体的には、検索モジュール150は、第一出力リスト及び第二出力リストに登録されたエントリをまとめて、検索結果リストを生成する。検索モジュール150は、検索結果リスト及び学習結果リストを端末102に送信する。以上の処理によって、検索画面800には、図8Aに示すような検索結果及び学習結果が表示される。
ステップS301において、学習処理を実行しないと判定された場合、検索モジュール150は、検索対象が属性であるか否かを判定する(ステップS308)。
検索対象が属性であると判定された場合、検索モジュール150は、検索要求に含まれる検索キーを用いた検索処理を実行する(ステップS309)。
具体的には、検索モジュール150は、文書データ管理データベース130に含まれる各エントリの属性群203及び拡張属性群205を参照し、検索キーに一致する属性を含む文書データを検索する。検索モジュール150は、検索された文書データの識別情報及び検索キーに対応する属性の関連度から構成されるエントリを含む第三出力リストを生成する。なお、属性群203に含まれる属性の関連度は「1.0」とする。
なお、第三出力リストに含まれるエントリを構成する検索された文書データの識別情報及び検索キーに対応する属性の関連度は、検索結果表示欄820に表示されるテーブルのデータID822及び関連度824に設定される値となる。
次に、検索モジュール150は、検索結果を生成し、端末102に送信する(ステップS316)。その後、検索モジュール150は、処理を終了する。
具体的には、検索モジュール150は、第三出力リストを検索結果リストとして生成する。検索モジュール150は、検索結果リストを端末102に送信する。以上の処理によって、検索画面800には、図8Bに示すような検索結果が表示される。
ステップS308において、検索対象が属性でないと判定された場合、検索モジュール150は、検索要求に含まれる検索キーを用いた検索処理を実行する(ステップS310)。ステップS310の処理は、ステップS301の処理と同一である。
次に、検索モジュール150は、属性解析モジュール151と連携して、ステップS311からステップS315の処理を実行する。ステップS311からステップS314の処理は、ステップS106からステップS109の処理と同様である。ステップS315の処理は、ステップS111の処理と同様である。ただし、以下で述べるように一部の処理が異なる。
ステップS311では、属性解析モジュール151は、第一出力リストに登録された文書データの中からターゲット文書データを選択する。
ステップS314の処理が終了した後、属性解析モジュール151は、特徴単語、選択した文書データの識別情報、ターゲット文書データの識別情報、及び関連度から構成されるエントリを含む第二出力リストを生成する。
ステップS315の処理が終了した後、検索モジュール150は、検索結果を生成し、端末102に送信する(ステップS316)。その後、検索モジュール150は、処理を終了する。
具体的には、検索サーバ101は、第一出力リスト及び第二出力リストに登録されたエントリをまとめて、検索結果リストを生成する。検索サーバ101は、検索結果リストを端末102に送信する。以上の処理によって、検索画面800には、図8Cに示すような検索結果が表示される。
以上で説明したように、検索サーバ101は、関連する文書データの属性を解析することによって、関連する文書データを検索するための拡張属性を付与できる。これによって、メタデータを検索キーとして用いた検索処理において、関連する文書データを検索できる。
例えば、ユーザ名を検索キーとする検索処理を実行することによって、ユーザに関連する文書データを網羅的に特定することができる。これによって、ユーザの業務内容及び専門分野等を把握できる。
例えば、日付を検索キーとする検索処理を実行することによって、業務及び技術のトレンドを把握できる。また、業務に係わっていたユーザを特定できる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 ファイルサーバ
101 検索サーバ
102 端末
105 ネットワーク
110、140 プロセッサ
111、141 メモリ
112、142 ネットワークインタフェース
120 文書データ管理モジュール
130 文書データ管理データベース
150 検索モジュール
151 属性解析モジュール
160 ベクトル管理データベース
800 検索画面
810 検索条件入力欄
820 検索結果表示欄
830 学習結果表示欄

Claims (15)

  1. 文書データを格納するデータベースにアクセス可能な計算機を備えるシステムであって、
    前記計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有し、
    前記データベースには、少なくとも一つの属性が付与された前記文書データが格納され、
    前記計算機は、前記文書データの検索を行う検索モジュール、及び関連する文書データを検索するための検索キーとして使用される属性である拡張属性を付与する属性解析モジュールを有し、
    前記検索モジュールは、第一文書データと関連性がある第二文書データを検索し、
    前記属性解析モジュールは、
    前記第二文書データに付与される属性を解析することによって、前記第二文書データに付与される属性の中から前記拡張属性として付与する属性を特定し、
    前記特定された拡張属性を前記第一文書データに付与することを特徴とするシステム。
  2. 請求項1に記載のシステムであって、
    前記属性解析モジュールは、
    前記第二文書データに付与される属性の評価値を算出し、
    前記評価値に基づいて、前記第二文書データに付与される属性の中から前記拡張属性として付与する属性を特定することを特徴とするシステム。
  3. 請求項2に記載のシステムであって、
    前記データベースに格納される文書データは、関連性がある文書データを検索するための検索キーとして使用する特徴文字列と対応づけて管理され、
    前記検索モジュールは、
    前記第一文書データに対応づけられる前記特徴文字列と前記データベースに格納される前記文書データとの間の関連性を評価する第一関連度を算出し、
    前記第一関連度に基づいて、前記データベースに格納される文書データの中から前記第二文書データを選択することを特徴とするシステム。
  4. 請求項2に記載のシステムであって、
    前記検索モジュールは、
    前記拡張属性を前記検索キーとして含む検索要求を受信した場合、前記文書データに付与された前記拡張属性と、前記検索キーとの間の関連性を評価する第二関連度を算出し、
    前記第二関連度に基づいて、前記データベースに格納される文書データの中から検索結果として出力する文書データを選択することを特徴とするシステム。
  5. 請求項2に記載のシステムであって、
    前記属性及び前記拡張属性は、前記文書データのメタデータとして付与されることを特徴とするシステム。
  6. 文書データを格納するデータベースにアクセス可能な計算機を有するシステムにおける文書データの管理方法であって、
    前記計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有し、
    前記データベースには、少なくとも一つの属性が付与された前記文書データが格納され、
    前記計算機は、前記文書データの検索を行う検索モジュール、及び関連する文書データを検索するための検索キーとして使用される属性である拡張属性を付与する属性解析モジュールを有し、
    前記文書データの管理方法は、
    前記検索モジュールが、第一文書データと関連性がある第二文書データを検索する第1のステップと、
    前記属性解析モジュールが、前記第二文書データに付与される属性を解析することによって、前記第二文書データに付与される属性の中から前記拡張属性として付与する属性を特定する第2のステップと、
    前記属性解析モジュールが、前記特定された拡張属性を前記第一文書データに付与する第3のステップと、を含むことを特徴とする文書データの管理方法。
  7. 請求項6に記載の文書データの管理方法であって、
    前記第2のステップは、
    前記属性解析モジュールが、前記第二文書データに付与される属性の評価値を算出するステップと、
    前記属性解析モジュールが、前記評価値に基づいて、前記第二文書データに付与される属性の中から前記拡張属性として付与する属性を特定するステップと、を含むことを特徴とする文書データの管理方法。
  8. 請求項7に記載の文書データの管理方法であって、
    前記データベースに格納される文書データは、関連性がある文書データを検索するための検索キーとして使用する特徴文字列と対応づけて管理され、
    前記第1のステップは、
    前記検索モジュールが、前記第一文書データに対応づけられる前記特徴文字列と前記データベースに格納される前記文書データとの間の関連性を評価する第一関連度を算出するステップと、
    前記検索モジュールが、前記第一関連度に基づいて、前記データベースに格納される文書データの中から前記第二文書データを選択するステップと、を含むことを特徴とする文書データの管理方法。
  9. 請求項7に記載の文書データの管理方法であって、
    前記検索モジュールが、前記拡張属性を前記検索キーとして含む検索要求を受信した場合、前記文書データに付与された前記拡張属性と、前記検索キーとの間の関連性を評価する第二関連度を算出するステップと、
    前記検索モジュールが、前記第二関連度に基づいて、前記データベースに格納される文書データの中から検索結果として出力する文書データを選択するステップと、を含むことを特徴とする文書データの管理方法。
  10. 請求項7に記載の文書データの管理方法であって、
    前記属性及び前記拡張属性は、前記文書データのメタデータとして付与されることを特徴とする文書データの管理方法。
  11. 文書データを格納するデータベースにアクセス可能な計算機に実行させるためのプログラムであって、
    前記計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有し、
    前記データベースには、少なくとも一つの属性が付与された前記文書データが格納され、
    前記プログラムは、
    第一文書データと関連性がある第二文書データを検索する第1の手順と、
    前記第二文書データに付与される属性を解析することによって、前記第二文書データに付与される属性の中から、関連する文書データを検索するための検索キーとして使用される拡張属性として付与する属性を特定する第2の手順と、
    前記特定された拡張属性を前記第一文書データに付与する第3の手順と、を前記計算機に実行させることを特徴とするプログラム。
  12. 請求項11に記載のプログラムであって、
    前記第2の手順は、
    前記第二文書データに付与される属性の評価値を算出する手順と、
    前記評価値に基づいて、前記第二文書データに付与される属性の中から前記拡張属性として付与する属性を特定する手順と、を含むことを特徴とするプログラム。
  13. 請求項12に記載のプログラムであって、
    前記データベースに格納される文書データは、関連性がある文書データを検索するための検索キーとして使用する特徴文字列と対応づけて管理され、
    前記第1の手順は、
    前記第一文書データに対応づけられる前記特徴文字列と前記データベースに格納される前記文書データとの間の関連性を評価する第一関連度を算出する手順と、
    前記第一関連度に基づいて、前記データベースに格納される文書データの中から前記第二文書データを選択する手順と、を含むことを特徴とするプログラム。
  14. 請求項12に記載のプログラムであって、
    前記拡張属性を前記検索キーとして含む検索要求を受信した場合、前記文書データに付与された前記拡張属性と、前記検索キーとの間の関連性を評価する第二関連度を算出する手順と、
    前記第二関連度に基づいて、前記データベースに格納される文書データの中から検索結果として出力する文書データを選択する手順と、前記計算機に実行させることを特徴とするプログラム。
  15. 請求項12に記載のプログラムであって、
    前記属性及び前記拡張属性は、前記文書データのメタデータとして付与されることを特徴とするプログラム。
JP2018003485A 2018-01-12 2018-01-12 システム、文書データの管理方法、及びプログラム Pending JP2019125025A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018003485A JP2019125025A (ja) 2018-01-12 2018-01-12 システム、文書データの管理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018003485A JP2019125025A (ja) 2018-01-12 2018-01-12 システム、文書データの管理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2019125025A true JP2019125025A (ja) 2019-07-25

Family

ID=67398772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018003485A Pending JP2019125025A (ja) 2018-01-12 2018-01-12 システム、文書データの管理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2019125025A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135246A (ja) * 2019-02-15 2020-08-31 国立大学法人大阪大学 文書検索装置、文書検索方法、及び、文書検索プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086412A (ja) * 2008-10-01 2010-04-15 Canon Inc 文書処理システム及びその制御方法、プログラム、記憶媒体
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム
JP2012168880A (ja) * 2011-02-16 2012-09-06 Nippon Telegr & Teleph Corp <Ntt> メタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086412A (ja) * 2008-10-01 2010-04-15 Canon Inc 文書処理システム及びその制御方法、プログラム、記憶媒体
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム
JP2012168880A (ja) * 2011-02-16 2012-09-06 Nippon Telegr & Teleph Corp <Ntt> メタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135246A (ja) * 2019-02-15 2020-08-31 国立大学法人大阪大学 文書検索装置、文書検索方法、及び、文書検索プログラム

Similar Documents

Publication Publication Date Title
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
JP2017224184A (ja) 機械学習装置
AU2013365452B2 (en) Document classification device and program
JP2007025868A (ja) カテゴリ設定支援方法及び装置
JP5194818B2 (ja) データ分類方法およびデータ処理装置
CN111507400A (zh) 应用分类方法、装置、电子设备以及存储介质
JP2014048741A (ja) データ検索プログラム、データベース装置および情報処理システム
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
US11244000B2 (en) Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
US20200125592A1 (en) Attribute extraction apparatus and attribute extraction method
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
JPWO2011070979A1 (ja) 辞書作成装置、単語収集方法、及び、プログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
WO2018220688A1 (ja) 辞書生成装置、辞書生成方法、及びプログラム
JP2009093581A (ja) 類義語検索管理システム
CN113064982A (zh) 一种问答库生成方法及相关设备
JP5751318B2 (ja) 文書分類装置、文書分類方法、及びプログラム
JP3602084B2 (ja) データベース管理装置
Huang et al. Rough-set-based approach to manufacturing process document retrieval
JP7493195B1 (ja) プログラム、方法、情報処理装置、システム
JP7261262B2 (ja) 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法
JP4189251B2 (ja) キーワード解析方法及びそれに使用するプログラム
JP5648491B2 (ja) 入力支援プログラム、情報処理装置、及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211207