JP2023042480A - 文書検索支援システム、文書検索支援方法および文書検索支援プログラム - Google Patents

文書検索支援システム、文書検索支援方法および文書検索支援プログラム Download PDF

Info

Publication number
JP2023042480A
JP2023042480A JP2021149796A JP2021149796A JP2023042480A JP 2023042480 A JP2023042480 A JP 2023042480A JP 2021149796 A JP2021149796 A JP 2021149796A JP 2021149796 A JP2021149796 A JP 2021149796A JP 2023042480 A JP2023042480 A JP 2023042480A
Authority
JP
Japan
Prior art keywords
tag information
document
unit
tag
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021149796A
Other languages
English (en)
Inventor
万理 寺田
Manri TERADA
清孝 粕渕
Kiyotaka Kasubuchi
明子 吉田
Akiko Yoshida
光規 梅原
Mitsunori Umehara
祐輝 角谷
Yuki Sumiya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2021149796A priority Critical patent/JP2023042480A/ja
Priority to CN202211088438.0A priority patent/CN115809361A/zh
Priority to EP22194785.6A priority patent/EP4148598A1/en
Priority to US17/944,706 priority patent/US20230083617A1/en
Publication of JP2023042480A publication Critical patent/JP2023042480A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コストの増加を抑制しつつ文書の検索を可能にする文書検索支援システム、文書検索支援方法および文書検索支援プログラムを提供する。【解決手段】検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データが教師データ取得部13により取得される。コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに取得された教師データが適用されることにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルが構築部14により構築される。構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報が付与部により付与される。【選択図】図2

Description

本発明は、文書の検索を支援する文書検索支援システム、文書検索支援方法および文書検索支援プログラムに関する。
近年、インターネット等において、電子化された文書が種々の情報を取得するために利用されている。使用者は、所望のタグ情報を検索することにより、当該タグ情報が付与された文書を選択して利用することができる。
例えば、特許文献1に記載された文書検索学習システムにおいては、電子文書リーダにより読み込まれたコンテンツがコンテンツ表示部に表示される。使用者がコンテンツ内の文字列をマウス等でドラッグして選択して検索ボタンをクリックすると、選択された文字列がサーチエンジンに転送される。これにより、選択された文字列に関連する文書がインターネットにより検索され、検索結果の一覧がWEBブラウザ表示部に表示される。
特開2018-195222号公報
文書の検索を可能にするため、検索対象の文書に事前にタグ情報を付与する必要がある。しかしながら、検索対象の文書数は膨大であるため、タグ情報の付与を行う作業者の負担が大きい。また、タグ情報の名称(ラベル)は、統一されているとは限らず、作業者ごとにばらついていることが多い。そのため、タグ情報の付与、保守または整備には多大なコストが発生する。また、新規に作成された文書が検索可能となるまでに相当の期間を要する。
AI(人工知能)を用いて文書のタグ情報を推定して自動的に付与することも考えられる。しかしながら、教師データの数が十分ではない場合には、高い精度でタグ情報を推定することができない。そのため、AIを用いて文書にタグ情報を付与するためには、大量の教師データが必要となる。したがって、大量の教師データを作成するためには、多大なコストが発生する。
本発明の目的は、コストの増加を抑制しつつ文書の検索を可能にする文書検索支援システム、文書検索支援方法および文書検索支援プログラムを提供することである。
(1)第1の発明に係る文書検索支援システムは、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する教師データ取得部と、コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに教師データ取得部により取得された教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する構築部と、構築部により構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する付与部とを備える。
この文書検索支援システムにおいては、Transformer系の機械学習モデルにコーパスを用いて予め学習が行われるので、教師データ数が少ない場合でも、タグ情報を高い精度で推定可能なタグ情報推定モデルが構築される。この場合、大量の教師データを取得する必要がない。したがって、検索対象の複数の文書ファイルの全部ではなく、一部の文書ファイルを教師データとして構築されたタグ情報推定モデルを用いることにより、検索対象の複数の文書ファイルの各々にタグ情報を付与することができる。
この構成によれば、使用者は膨大な数の文書ファイルにタグ情報を付与する作業を行う必要がない。また、タグ情報のラベルには表現ゆらぎがない。そのため、タグ情報の付与、保守または整備にはほとんどコストが発生しない。これにより、コストの増加を抑制しつつ文書の検索を行うことができる。また、新規に作成された文書ファイルについても、即座にタグ情報が付与されるので、新規に作成された文書ファイルも即座に検索を行うことができる。
(2)教師データは、説明変数である文書ファイルの内容と、目的変数である文書ファイルに付与されるタグ情報との関係を示し、タグ推定モデルは、教師データに基づいてTransformer系の機械学習モデルが文書ファイルの内容と文書ファイルに付与されるタグ情報との関係を学習することにより構築されてもよい。この場合、タグ推定モデルを容易に構築することができる。
(3)Transformer系の機械学習モデルは、BERT(Bidirectional Encoder Representations from Transformers)であってもよい。この場合、機械学習モデルにコーパスを用いた学習を容易に行わせることができる。
(4)文書検索支援システムは、検索対象の複数の文書ファイルに付与されるべきタグ情報の候補の一覧を示すタグ情報一覧表を作成する作成部と、検索対象の複数の文書ファイルから一部の文書ファイルを抽出する抽出部とをさらに備え、教師データ取得部は、作成部により作成されたタグ情報一覧表におけるいずれかのタグ情報を抽出部により抽出された一部の文書ファイルに付与することにより教師データを生成してもよい。この場合、検索対象の複数の文書ファイルから抽出された一部の文書ファイルから容易に教師データを生成することができる。
(5)文書検索支援システムは、付与部により検索対象の複数の文書ファイルの各々にタグ情報が付与された後、文字列の入力を受け付け、検索対象の複数の文書ファイルから文字列に適合する文書ファイルを検索し、検索結果を示す結果画面を出力する検索部をさらに備えてもよい。この場合、使用者は、所望の文字列を入力することにより、当該文字列に適合する文書ファイルを容易に利用することができる。
(6)検索部により出力された結果画面は、検索された文書ファイルに関連してアクセス可能なタグ情報をさらに表示し、検索部は、結果画面に表示されたタグ情報のうち、使用者により選択されたタグ情報が付与された文書ファイルを検索し、検索結果を示す結果画面を出力してもよい。この場合、使用者は、結果画面に表示された所望のタグ情報を選択することにより、当該タグ情報が付与された文書ファイルを容易に利用することができる。
(7)アクセス可能なタグ情報は、検索部により検索された文書ファイルに付与されたタグ情報と、当該タグ情報と同一の階層に属するタグ情報の候補とを含んでもよい。この場合、アクセス可能なタグ情報を結果画面に容易に表示することができる。
(8)文書検索支援システムは、検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付ける受付部と、受付部に指示された文書ファイルのタグ情報を編集するとともに、他の検索対象の文書ファイルのタグ情報を編集する編集部とをさらに備え、付与部は、文書ファイルに付与されたタグ情報を編集部により編集されたタグ情報に更新してもよい。この構成によれば、文書ファイルに適切でないタグ情報が付与された場合でも、文書ファイルに付与されたタグ情報を適切に修正することができる。
(9)編集部は、所定のしきい値に基づいて、選択的に検索対象の文書ファイルのタグ情報を編集してもよい。この場合、しきい値に基づいて複数の文書ファイルのタグ情報を選択的に一括して編集することができる。
(10)検索部により出力された結果画面は、使用者により操作されるGUI(Graphical User Interface)をさらに表示し、受付部は、GUIが操作されることにより検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付けてもよい。この場合、使用者は、所望の文書ファイルに付与されたタグ情報の編集を容易に指示することができる。
(11)編集部は、編集結果に基づいて構築部により構築されたタグ推定モデルを更新してもよい。この場合、文書ファイルに適切なタグ情報を付与することが容易になる。
(12)第2の発明に係る文書検索支援方法は、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得することと、コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに取得された教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築することと、構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与することとを含む。
この文書検索支援方法によれば、大量の教師データを取得する必要がない。また、使用者は膨大な数の文書ファイルにタグ情報を付与する作業を行う必要がない。さらに、タグ情報のラベルには表現ゆらぎがない。そのため、タグ情報の付与、保守または整備にはほとんどコストが発生しない。これにより、コストの増加を抑制しつつ文書の検索を行うことができる。また、新規に作成された文書ファイルについても、即座にタグ情報が付与されるので、新規に作成された文書ファイルも即座に検索を行うことができる。
(13)第3の発明に係る文書検索支援プログラムは、処理装置により実行可能な文書検索支援プログラムであって、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する処理と、コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに取得された教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する処理と、構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する処理とを、処理装置に実行させる。
この文書検索支援プログラムによれば、大量の教師データを取得する必要がない。また、使用者は膨大な数の文書ファイルにタグ情報を付与する作業を行う必要がない。さらに、タグ情報のラベルには表現ゆらぎがない。そのため、タグ情報の付与、保守または整備にはほとんどコストが発生しない。これにより、コストの増加を抑制しつつ文書の検索を行うことができる。また、新規に作成された文書ファイルについても、即座にタグ情報が付与されるので、新規に作成された文書ファイルも即座に検索を行うことができる。
本発明によれば、コストの増加を抑制しつつ文書の検索を行うことが可能になる。
本発明の一実施の形態に係る文書検索支援システムの構成を示す図である。 図1のタグ推定装置および検索装置の構成を示す図である。 図2の作成部により作成されたタグ情報一覧表を示す図である。 図2の抽出部により抽出される文書ファイルの指定方法の一例を示す図である。 図2の抽出部により抽出された文書ファイルを含むテーブルを示す図である。 生成された教師データを示す図である。 マルチラベル構造を有する教師データの作成例を説明するための図である。 マルチラベル構造を有する教師データの作成例を説明するための図である。 検索画面の一例を示す図である。 結果画面の一例を示す図である。 編集画面の一例を示す図である。 結果画面のファイル欄の第1の表示例を示す図である。 結果画面のファイル欄の第2の表示例を示す図である。 結果画面のファイル欄の第3の表示例を示す図である。 結果画面のファイル欄の第3の表示例を示す図である。 結果画面のファイル欄の第4の表示例を示す図である。 結果画面のファイル欄の第5の表示例を示す図である。 教師データがマルチラベル構造を有する場合の編集画面の一例を示す図である。 図2のタグ推定装置によるタグ推定処理を示すフローチャートである。 図2の検索装置による検索処理を示すフローチャートである。 図2の検索装置による検索処理を示すフローチャートである。
(1)文書検索支援システムの構成
以下、本発明の実施の形態に係る文書検索支援システム、文書検索支援方法および文書検索支援プログラムについて図面を用いて説明する。図1は、本発明の一実施の形態に係る文書検索支援システムの構成を示す図である。図1に示すように、文書検索支援システム100は、パーソナルコンピュータ等の情報処理装置により実現され、RAM(ランダムアクセスメモリ)110、ROM(リードオンリメモリ)120、CPU(中央演算処理装置)130、記憶部140、操作部150、表示部160およびデータベース記憶装置170を備える。
RAM110、ROM120、CPU130、記憶部140、操作部150、表示部160およびデータベース記憶装置170は、バス180に接続される。RAM110、ROM120およびCPU130により、タグ推定装置10と検索装置20とが構成される。本実施の形態では、タグ推定装置10と検索装置20とは共通の文書検索支援システム100により構成されるが、実施の形態はこれに限定されない。タグ推定装置10と検索装置20とは、互いに接続可能である限り、別個の文書検索支援システム100により構成されてもよい。
RAM110は、例えば揮発性メモリからなり、CPU130の作業領域として用いられる。ROM120は、例えば不揮発性メモリからなり、文書検索支援プログラムを記憶する。文書検索支援プログラムは、タグ推定プログラムと検索プログラムとを含む。CPU130は、ROM120に記憶されたタグ推定プログラムをRAM110上で実行することにより、タグ推定装置10としてタグ推定処理を行う。また、CPU130は、ROM120に記憶された検索プログラムをRAM110上で実行することにより、検索装置20として検索処理を行う。タグ推定処理および検索処理の詳細については後述する。
検索プログラムは、ROM120ではなく記憶部140に記憶されてもよい。あるいは、検索プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ROM120または記憶部140にインストールされてもよい。あるいは、文書検索支援システム100がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ(クラウドサーバを含む。)から配信された検索プログラムがROM120または記憶部140にインストールされてもよい。
記憶部140は、ハードディスク、半導体メモリ、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含み、任意の文書ファイルに付与されるべきタグ情報を推定するためのTransformer系の機械学習モデル等を記憶する。Transformer系の機械学習モデルには、大規模のコーパスを用いて予め学習が行われている。本例では、Transformer系の機械学習モデルはBERT(Bidirectional Encoder Representations from Transformers)である。
操作部150は、例えばマウス等のポインティングデバイス、キーボードまたはタッチパネルを含む。使用者は、操作部150を操作することにより、タグ推定装置10または検索装置20に所定の選択または指示を行うことができる。表示部160は、例えば液晶ディスプレイを含み、所定のGUI(Graphical User Interface)または検索処理の結果等を表示する。データベース記憶装置170は、サーバ等の大容量の記憶装置を含み、検索対象となる多数の文書を示す文書ファイルを予め記憶する。
(2)タグ推定装置の構成
図2は、図1のタグ推定装置10および検索装置20の構成を示す図である。図2に示すように、タグ推定装置10は、機能部として作成部11、抽出部12、教師データ取得部13、構築部14、推定部15および編集部16を含む。図1のCPU130がROM120等に記憶されたタグ推定プログラムを実行することにより、タグ推定装置10の機能部が実現される。タグ推定装置10の機能部の一部または全てが電子回路等のハードウエアにより実現されてもよい。
作成部11は、操作部150の操作に応答して、検索対象の文書ファイルに付与すべきタグ情報の候補の一覧(タグ情報一覧表と呼ぶ。)を作成する。タグ情報一覧表101においては、タグ情報の候補が階層構造に分類した状態で配列される。使用者は、操作部150を用いてタグ情報一覧表を作成するための操作を行うことができる。
抽出部12は、操作部150の操作に応答して、データベース記憶装置170に記憶された多数の文書ファイルのうち、教師データの生成に用いる一部の文書ファイルを抽出する。使用者は、操作部150を用いて教師データの生成に用いる一部の文書ファイルを指定することができる。
教師データ取得部13は、抽出部12により抽出された各文書ファイルについて、作成部11により作成された作成部11におけるいずれかのタグ情報を付与することにより、各文書ファイルを後述するタグ推定モデルの構築に用いるための教師データとして生成する。教師データは、説明変数である文書ファイルの内容と、目的変数である文書ファイルに付与されるタグ情報との関係を示す。
構築部14は、記憶部140に記憶されたBERTを取得する。また、構築部14は、教師データ取得部13により生成された複数の教師データを用いてBERTに文書ファイルの内容と、文書ファイルに付与されたタグ情報との関係を学習させる。これにより、BERTがタグ推定モデルとして構築される。
推定部15は、構築部14により構築されたタグ推定モデルを用いて、検索装置20から指定された文書ファイルのタグ情報を推定し、推定結果を検索装置20に送信する。また、構築部14は、推定されたタグ情報の推定確率(信頼度)を評価する。上記のように、BERTには大規模のコーパスを用いて予め学習が行われるので、教師データの数が比較的少ない場合でも、タグ情報を高い精度で推定することが可能である。本例では、タグ情報1つあたりの教師データ数は10程度でよい。
編集部16は、検索装置20からのいずれかの文書ファイルに付与されたタグ情報の編集を要求された場合、当該文書ファイルに付与されたタグ情報を編集することにより編集済みファイルF1を作成する。また、編集部16は、他の検索対象の文書ファイル(編集前ファイルF2)について、編集済みファイルF1と同様にタグ情報を編集する。編集部16は、編集前ファイルF2について、推定確率のしきい値に基づいて選択的に一括してタグ情報を編集することができる。編集部16は、編集後のタグ情報を検索装置20に送信するとともに、編集結果に基づいて構築部14により構築されたタグ推定モデルを更新する。
タグ情報の保守により、使用されなくなったタグ情報または名称が変更されたタグ情報が発見されることがある。また、推定部15により推定されたタグ情報の推定確率は100%であるとは限らず、誤ったタグ情報が推定されることがある。さらに、今までに存在しなかった新規のタグ情報を付与したいことがある。このような場合でも、編集部16がタグ情報を編集することにより、適切なタグ情報を文書に付与することができる。また、新規のタグ情報を推定するためのタグ推定モデルの再学習を行う必要がないので、ダウンタイムが発生することを防止することができる。
(3)検索装置の構成
図2に示すように、検索装置20は、機能部としてインデックス取得部21、登録部22、ファイル取得部23、検索部24および受付部25を含む。図1のCPU130がROM120等に記憶された検索プログラムを実行することにより、検索装置20の機能部が実現される。検索装置20の機能部の一部または全てが電子回路等のハードウエアにより実現されてもよい。
インデックス取得部21は、データベース記憶装置170をクロールすることにより、各文書ファイルのインデックス情報を取得する。インデックス情報は、データベース記憶装置170に記憶された文書ファイルのパス、名称、作成者、作成日または内容等を含む。インデックス取得部21は、データベース記憶装置170に新規の文書ファイルが追加されるごとに、追加された文書ファイルのインデックス情報をさらに取得する。登録部22は、インデックス取得部21により取得されたインデックス情報を検索部24に登録する。
また、後述するように、登録部22は、各文書ファイルについてタグ推定装置10の推定部15により推定されたタグ情報を受信する。登録部22は、各文書ファイルについて推定部15から受信したタグ情報を、当該文書ファイルのインデックス情報の一部として検索部24にさらに登録する。これにより、文書ファイルにタグ情報が付与され、当該文書ファイルを検索することが可能になる。したがって、登録部22は文書ファイルにタグ情報を付与する付与部として機能する。
さらに、後述するように、登録部22は、各文書ファイルについてタグ推定装置10の編集部16により編集されたタグ情報を受信する。登録部22は、検索部24に登録されたタグ情報を編集部16から受信した編集後のタグ情報に更新する。
ファイル取得部23は、検索部24に登録されたタグ情報を除くインデックス情報に基づいて、検索対象の文書ファイルを取得し、取得された文書ファイルをタグ推定装置10に指定する。この場合、指定された文書ファイルのタグ情報がタグ推定装置10の推定部15により推定される。推定部15により推定されたタグ情報は、上記のように登録部22に送信される。
検索部24は、登録部22により各文書ファイルのタグ情報が登録された後、所定の検索画面を表示部160に表示させる。使用者は、操作部150を操作することにより、所望の文字列を検索画面に入力することができる。検索部24は、検索画面に入力された文字列に適合するタグ情報が付与された文書ファイルを検索し、検索結果を示す結果画面を表示部160に表示させる。
受付部25は、表示部160に表示された結果画面からタグ情報の編集の指示を受け付ける。使用者は、結果画面において、操作部150を操作することにより、所望の文書ファイルに付与されたタグ情報の編集を指示することができる。ここで、初期設定においては、タグ情報の編集に用いる推定確率のしきい値は既定値であるが、使用者は、操作部150を操作することにより、推定確率のしきい値の設定を変更することも可能である。
受付部25は、タグ情報の編集の指示を受け付けた場合、当該文書ファイルに付与されたタグ情報の編集をタグ推定装置10に要求する。この場合、タグ推定装置10の編集部16により当該文書ファイルに付与されたタグ情報が編集されるとともに、他の文書ファイルに付与されたタグ情報も同様に編集される。編集部16により編集されたタグ情報は、上記のように登録部22に送信される。
(4)タグ推定装置の動作例
図3は、図2の作成部11により作成されたタグ情報一覧表を示す図である。図3に示すように、作成部11は、使用者による操作部150の操作に基づいて、表示部160に表示されたテーブルを用いてタグ情報一覧表101を作成する。
図3のタグ情報一覧表101の例では、タグ情報は、項目として「業界」、「テーマ」、「手法」および「ファイル種別」を含む。項目「業界」のラベルは、「食品」、「情報」および「自動車」を含む。項目「テーマ」のラベルは、「発酵食品」、「サービス」および「自動運転」を含む。項目「手法」のラベルは、「酵母」、「SaaS」、「PaaS」、「MaaS」および「高精度GPS」を含む。項目「ファイル種別」のラベルは、「調査報告書」および「設計書」を含む。
図4は、図2の抽出部12により抽出される文書ファイルの指定方法の一例を示す図である。図4に示すように、文書ファイルは、表示部160上で保存先のパスが指定されることにより抽出される。図4の例では、使用者は、操作部150を操作することにより、「Cドライブ」の「フォルダAAA」の「フォルダBBB」の「フォルダCCC」を指定する。また、使用者は、操作部150を操作することにより、「Cドライブ」の「フォルダXXX」の「フォルダYYY」の「フォルダWWW」および「フォルダZZZ」を指定する。
この場合、抽出部12は、「フォルダCCC」に保存された文書ファイル「aaa.txt」および「bbb.pptx」を抽出する。また、抽出部12は、「フォルダWWW」に保存された文書ファイル「xxx.pdf」を抽出する。さらに、抽出部12は、「フォルダZZZ」に保存された文書ファイル「yyy.docx」および「zzz.pptx」を抽出する。
図4で指定されたパスおよび抽出された文書ファイルは、図3で作成されたタグ情報一覧表101と対応付けられた状態で、テーブル形式で表示部160に表示される。図5は、図2の抽出部12により抽出された文書ファイルを含むテーブルを示す図である。図5に示すように、使用者は、操作部150を操作することにより、テーブル102の各文書ファイルに対応する各項目のラベルをタグ情報一覧表101に含まれるラベルから選択する。図5の例では、各項目のラベルは、タグ情報一覧表101に対応するプルダウンメニューから選択される。ラベルの一部は自動的に選択されてもよい。
選択されたタグ情報のラベルが図2の教師データ取得部13により各文書ファイルに付与される。これにより、各文書ファイルが教師データとして生成される。図6は、生成された教師データを示す図である。図6の例では、抽出された5つの文書ファイルから5つの教師データがそれぞれ生成される。教師データ「xxx.pdf」には、ラベル「食品」、「発酵食品」、「発酵食品」および「調査報告書」が付与される。
同様に、教師データ「yyy.docx」には、ラベル「情報」、「サービス」、「SaaS」および「設計書」が付与される。教師データ「zzz.pptx」には、ラベル「情報」、「サービス」、「PaaS」および「設計書」が付与される。教師データ「aaa.txt」には、ラベル「自動車」、「サービス」、「MaaS」および「調査報告書」が付与される。教師データ「bbb.pptx」には、ラベル「自動車」、「自動運転」、「高精度GPS」および「設計書」が付与される。
1つの項目に対して複数のラベル(マルチラベル)を選択することも可能である。図7および図8は、マルチラベル構造を有する教師データの作成例を説明するための図である。図7の左には、「産業」において分類される「業種」の構造がツリー状に記載される。同様に、図7の右には、「労災」において分類される「事故内容」の構造がツリー状に記載される。
図7に示すように、項目「業種」におけるラベル「その他」の「業種」は、「自動車整備業」、「クリーニング業」または「機械修理業」にさらに分類される。また、項目「事故内容」におけるラベル「転倒」の「事故内容」は、「滑り」、「躓き」または「踏み外し」にさらに分類される。図7のマルチラベル構造を有する教師データを作成する場合には、図5のテーブル102に代えて、図8のテーブル103が表示部160に表示される。
図8のテーブル103においては、作成部11により作成された作成部11に基づいて、抽出部12により抽出された文書ファイルの各項目に付与可能な1以上のラベルが文書ファイルに対応するように表示される。使用者は、操作部150を操作することにより、各文書ファイルに対応する各項目の1以上のラベルをテーブル103上で選択する。図8の例では、選択されたラベルに対応するテーブル103のマスに「〇」が付される。この構成によれば、各文書ファイルに対応する各項目に複数のラベルを付与することが可能である。これにより、マルチラベル構造を有する教師データを作成することができる。
(5)検索装置の動作例
各文書ファイルのタグ情報がインデックス情報の一部として図2の検索部24に登録された後、検索画面が検索部24により表示部160に表示される。図9は、検索画面の一例を示す図である。図9に示すように、検索画面30には、入力欄31を含む。使用者は、図2の操作部150を操作することにより、所望の文字列を入力欄31に入力することができる。文字列は、単語であってもよいし、文章であってもよい。
入力欄31に文字列が入力されることにより、当該文字列に適合するタグ情報が付与された文書ファイルが検索部24により検索され、検索結果を示す結果画面が表示部160に表示される。図9の例では、「労災」という単語が入力欄31に入力されている。図10は、結果画面の一例を示す図である。図10に示すように、結果画面40は、入力欄41、ファイル欄42、タグ検索欄43およびボタン44,45を含む。
入力欄41は、検索画面30の入力欄31と同様の機能を有する。使用者は、所望の文字列を入力欄41に入力することも可能である。そのため、検索部24は、各文書ファイルのタグ情報がインデックス情報の一部として登録された後、検索画面30ではなく結果画面40を表示部160に表示させてもよい。
ファイル欄42には、検索された文書ファイルに基づく文書の文頭部分、文書ファイルのパスおよびインデックス情報(タグ情報を含む。)等が表示される。また、ファイル欄42には、編集アイコン46が表示される。編集アイコン46は、タグ情報の編集を受け付けるために操作されるGUIである。複数の文書ファイルが検索された場合には、複数のファイル欄42が、複数の文書ファイルにそれぞれ対応し、かつ上下方向に並ぶように配置される。
タグ検索欄43には、検索された文書ファイルに関連してアクセス可能なタグ情報がツリー状に表示される。アクセス可能なタグ情報は、検索された文書ファイルに付与されたタグ情報と、当該タグ情報と同一の階層に属するタグ情報とを含む。また、各タグ情報の左にはチェックボックスが表示され、各タグ情報右にはタグ情報の該当件数が括弧書きで表示される。なお、該当件数が0のタグ情報は、グレーアウトにより表示される。
使用者が操作部150を操作して所望のタグ情報に対応するチェックボックスにチェックマークをつけ、ボタン44を操作することにより、当該チェックボックスに対応するタグ情報のみがタグ検索欄43に表示される。また、使用者が操作部150を操作してボタン45を操作することにより、アクセス可能な全てのタグ情報がタグ検索欄43に表示される。
また、使用者が操作部150を操作して所望のタグ情報を選択することにより、当該タグ情報が付与された文書ファイルが検索部24により検索され、検索結果を示す結果画面が表示部160に表示される。したがって、使用者は、タグ情報のみを選択することにより文書ファイルを検索することができる。
さらに、使用者が操作部150を操作して所望のファイル欄42の編集アイコン46を操作することにより、当該ファイル欄42に対応する文書ファイルが選択される。また、選択された文書ファイルに付与されたタグ情報を編集するための編集画面がポップアップ画面として表示される。図11は、編集画面の一例を示す図である。図11に示すように、編集画面50は、タグ編集欄51およびボタン52を含む。
タグ編集欄51には、選択された文書ファイルに付与されたタグ情報が項目の階層ごとに表示される。また、タグ編集欄51には、チェックボックス53が表示される。選択された文書ファイルに複数のタグ情報が付与されている場合には、複数のタグ編集欄51が、複数のタグ情報にそれぞれ対応し、かつ上下方向に並ぶように配置される。
使用者が操作部150を操作して所望のタグ編集欄51のチェックボックス53のチェックマークを外し、ボタン52を操作することにより、当該チェックボックス53に対応するタグ情報が選択された文書ファイルから削除される。一方、使用者が操作部150を操作して所望のタグ編集欄51のチェックボックス53のチェックマークをつけ、ボタン52を操作することにより、当該チェックボックス53に対応するタグ情報が選択された文書ファイルに追加される。
また、使用者が操作部150を操作して所望のタグ編集欄51のタグ情報における所望のラベルを変更し、ボタン52を操作することにより、選択された文書ファイルに付されたタグ情報のラベルが変更後のラベルに更新される。図11の例では、タグ情報における項目「事故内容」のラベルとして、「動作の反動・無理な動作」が図3のタグ情報一覧表101に対応するプルダウンメニューから選択される。これにより、項目「事故内容」のラベル「はさまれ・巻き込まれ」がラベル「動作の反動・無理な動作」に変更される。
上記の操作が実行された場合、図2のタグ推定装置10の編集部16にタグ情報の編集が要求される。選択された文書ファイルに付与されたタグ情報が編集部16により編集されることにより編集済みファイルF1が作成される。また、他の編集前ファイルF2についても、推定確率のしきい値に基づいて編集済みファイルF1と同様にタグ情報が編集される。
例えば、編集前ファイルF2である第1~第4の文書ファイルに付与されたラベル「はさまれ・巻き込まれ」の推定確率がそれぞれ85%、50%、70%および55%であったとする。ここで、推定確率のしきい値を60%とした場合、しきい値以上の推定確率でラベルが付与された第1および第3の文書ファイルについては、項目「事故内容」のラベルが「動作の反動・無理な動作」に変更される。一方、しきい値より小さい推定確率でラベルが付与された第2および第4の文書ファイルについては、項目「事故内容」のラベルが「選択肢なし」に変更される。
(6)他の表示例
図12は、結果画面40のファイル欄42の第1の表示例を示す図である。図12の上段に示すように、第1の表示例では、タグ情報が種類ごとに1行にまとめられた状態で各ファイル欄42に表示される。図12の例では、図7の左における項目「業種」のラベルが1行にまとめられ、図7の右における項目「事故内容」のラベルが他の1行にまとめられている。図12の下段に示すように、タグ情報のヘッダの表示が省略されてもよい。この場合、ファイル欄42に表示される文字数が減少するので、ファイル欄42の可読性が向上する。
図13は、結果画面40のファイル欄42の第2の表示例を示す図である。図13の上段に示すように、第2の表示例では、第1の表示例と同様に、タグ情報が種類ごとに1行にまとめた状態で各ファイル欄42に表示される。ここで、親子関係にあるラベルは、同一の色で表示される。この場合、使用者は、タグ情報におけるラベルの親子関係を容易に認識することができる。図13の下段に示すように、タグ情報のヘッダの表示が省略されてもよい。
図14および図15は、結果画面40のファイル欄42の第3の表示例を示す図である。図14に示すように、第3の表示例では、タグ情報が親子関係ごとに1行にまとめられた状態で各ファイル欄42に表示される。この場合、使用者は、タグ情報におけるラベルの親子関係を容易に認識することができる。図15の上段に示すように、タグ情報のヘッダの表示が省略されてもよい。また、図15の下段に示すように、同一種類のタグ情報は、同一の色で表示されてもよい。
図16は、結果画面40のファイル欄42の第4の表示例を示す図である。図16に示すように、第4の表示例では、タグ情報の種類に対応するようにボタン47が各ファイル欄42に表示される。使用者が操作部150を操作して所望のボタン47を操作するごとに、当該ボタン47に対応するタグ情報のラベルの展開表示と表示の解除とが交互に行われる。
図17は、結果画面40のファイル欄42の第5の表示例を示す図である。図17に、第5の表示例では、タグ情報が種類ごとに1行にまとめられかつ最下位の項目に細分化された状態で各ファイル欄42に表示される。
図18は、教師データがマルチラベル構造を有する場合の編集画面の一例を示す図である。使用者が操作部150を操作して図10の所望のファイル欄42の編集アイコン46を操作することにより、図18の編集画面60がポップアップ画面として表示される。図18に示すように、編集画面60は、複数のタブ61、タグ編集欄62およびボタン63を含む。
複数のタブ61は、タグ情報の複数の項目にそれぞれ対応する。使用者が操作部150を操作して所望のタブ61を操作することにより、タグ情報において当該タブ61に対応する項目のラベルがツリー状にタグ編集欄62に表示される。使用者が操作部150を用いて所望のラベルを操作するごとに、当該ラベルの選択と選択の解除とが交互に行われる。選択されたラベルは、背景色が付されることにより識別可能に表示される。複数のラベルを選択することも可能である。
使用者は、選択された各ラベルについて、図11の編集画面50における操作と同様に、追加、削除または変更等の編集を指示するための操作を行うことができる。使用者は、選択された各ラベルの編集を指示した状態で、ボタン63を操作することにより、選択された文書ファイルに付されかつ選択されたタグ情報のラベルが編集される。
(7)タグ推定処理
図19は、図2のタグ推定装置10によるタグ推定処理を示すフローチャートである。図19のタグ推定処理は、図1のCPU130がROM120等に記憶された文書検索支援プログラムにおけるタグ推定プログラムをRAM110上で実行することにより行われる。以下、図2のタグ推定装置10とともに、図19のフローチャートを用いてタグ推定処理を説明する。
まず、作成部11は、使用者による操作部150の操作に基づいてタグ情報一覧表101を作成する(ステップS1)。また、抽出部12は、使用者による操作部150の操作に基づいて、データベース記憶装置170に記憶された一部の文書ファイルを抽出する(ステップS2)。ステップS1とステップS2とは、いずれが先に実行されてもよい。
次に、教師データ取得部13は、ステップS1で作成された作成部11のタグ情報のラベルをステップS2で抽出された文書ファイルに付与することにより教師データを生成する(ステップS3)。続いて、構築部14は、大規模コーパスを用いて予め学習が行われたBERTを取得し、BERTにステップS3で生成された教師データを用いて学習させることによりタグ推定モデルを構築する(ステップS4)。
その後、推定部15は、検索対象の文書ファイルが指定されたか否かを判定する(ステップS5)。後述する検索処理におけるステップS23またはステップS37が実行された場合、推定部15は、文書ファイルが指定されたと判定する。文書ファイルが指定されない場合、推定部15はステップS8に進む。
文書ファイルが指定された場合、推定部15は、ステップS4で構築されたタグ推定モデルを用いて文書ファイルのタグ情報を推定する(ステップS6)。また、推定部15は、ステップS6で推定されたタグ情報を検索装置20に送信し(ステップS7)、ステップS8に進む。
ステップS8で、編集部16は、いずれかの文書ファイルについてタグ情報の編集が要求されたか否かを判定する(ステップS8)。後述する検索処理におけるステップS31が実行された場合、編集部16は、タグ情報の編集が要求されたと判定する。タグ情報の編集が要求されない場合、編集部16はステップS5に戻る。
タグ情報の編集が要求された場合、編集部16は、要求に従って文書ファイルに付与されたタグ情報を編集することにより編集済みファイルF1を作成する(ステップS9)。また、編集部16は、推定確率のしきい値に基づいて、他の編集前ファイルF2のタグ情報を編集する(ステップS10)。
また、編集部16は、ステップS10で編集されたタグ情報をタグ推定装置10に送信する(ステップS11)。さらに、編集部16は、ステップS10における編集結果に基づいてステップS4で構築されたタグ推定モデルを更新し(ステップS12)、ステップS5に戻る。ステップS11とステップS12とは、いずれが先に実行されてもよい。
(8)検索処理
図20および図21は、図2の検索装置20による検索処理を示すフローチャートである。図20および図21の検索処理は、図1のCPU130がROM120等に記憶された文書検索支援プログラムにおける検索プログラムをRAM110上で実行することにより行われる。以下、図2の検索装置20とともに、図20および図21のフローチャートを用いて検索処理を説明する。
まず、インデックス取得部21は、データベース記憶装置170をクロールすることにより、各文書ファイルのタグ情報を除くインデックス情報を取得する(ステップS21)。次に、登録部22は、ステップS21で取得されたインデックス情報を検索部24に登録する(ステップS22)。
続いて、ファイル取得部23は、ステップS22で登録されたインデックス情報に基づいて、検索対象の文書ファイルを指定する(ステップS23)。この場合、上記のタグ推定処理のステップS6,S7が順次実行されることにより、指定された文書ファイルのタグ情報が推定され、推定されたタグ情報が検索装置20に送信される。
登録部22は、タグ推定装置10から送信されたタグ情報を受信する(ステップS24)。また、登録部22は、ステップS23で指定された文書ファイルのインデックス情報の一部として、ステップS24で受信されたタグ情報を検索部24に登録する(ステップS25)。その後、検索部24は、図9の検索画面30を表示部160に表示させる(ステップS26)。
次に、検索部24は、検索画面30の入力欄31に文字列が入力されたか否かを判定する(ステップS27)。なお、ステップS26で、検索部24は、検索画面30に代えて図10の結果画面40を表示部160に表示させてもよい。この場合、ステップS27で、検索部24は、結果画面40の入力欄41に文字列が入力されたか否かを判定する。
文字列が入力されない場合、検索部24はステップS30に進む。文字列が入力された場合、検索部24は、入力された文字列に適合するタグ情報が付与された文書ファイルを検索する(ステップS28)。続いて、検索部24は、ステップS28による検索結果を示す結果画面40を表示部160に表示し(ステップS29)、ステップS30に進む。ステップS30で、受付部25は、ステップS29で表示された結果画面40からいずれかの文書ファイルについてタグ情報の編集の指示を受け付けた否かを判定する(ステップS30)。
タグ情報の編集の指示を受け付けた場合、受付部25は、当該文書ファイルに付与されたタグ情報の編集をタグ推定装置10に要求する(ステップS31)。この場合、上記のタグ推定処理のステップS9~S11が順次実行されることにより、要求に従って、所定の文書ファイルに付与されたタグ情報が編集され、編集されたタグ情報が検索装置20に送信される。
登録部22は、タグ推定装置10から送信された編集後のタグ情報を受信する(ステップS32)。また、登録部22は、ステップS25で登録されたタグ情報をステップS32で受信された編集後のタグ情報に更新し(ステップS33)、ステップS27に戻る。
ステップS30で、タグ情報の編集の指示を受け付ない場合、受付部25はステップS34に進む。ステップS34で、インデックス取得部21は、データベース記憶装置170をクロールすることにより、データベース記憶装置170に新規の文書ファイルが追加されたか否かを判定する(ステップS34)。新規の文書ファイルが追加されていない場合、インデックス取得部21はステップS27に戻る。
新規の文書ファイルが追加された場合、インデックス取得部21は、当該新規の文書ファイルのタグ情報を除くインデックス情報を取得する(ステップS35)。次に、登録部22は、ステップS36で取得されたインデックス情報を検索部24に登録する(ステップS36)。続いて、ファイル取得部23は、ステップS36で登録されたインデックス情報に基づいて、検索対象として新規の文書ファイルを指定し(ステップS37)、ステップS27に戻る。
(9)効果
本実施の形態に係る文書検索支援システム100においては、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データが教師データ取得部13により取得される。コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに教師データ取得部13により取得された教師データが適用されることにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルが構築部14により構築される。構築部14により構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報が登録部22により付与される。
この文書検索支援システム100においては、Transformer系の機械学習モデルであるBERTにコーパスを用いて予め学習が行われるので、教師データ数が少ない場合でも、タグ情報を高い精度で推定可能なタグ情報推定モデルが構築される。この場合、大量の教師データを取得する必要がない。したがって、検索対象の複数の文書ファイルの全部ではなく、一部の文書ファイルを教師データとして構築されたタグ情報推定モデルを用いることにより、検索対象の複数の文書ファイルの各々にタグ情報を付与することができる。
この構成によれば、使用者は膨大な数の文書ファイルにタグ情報を付与する作業を行う必要がない。また、タグ情報のラベルには表現ゆらぎがない。そのため、タグ情報の付与、保守または整備にはほとんどコストが発生しない。これにより、コストの増加を抑制しつつ文書の検索を行うことができる。また、新規に作成された文書ファイルについても、即座にタグ情報が付与されるので、新規に作成された文書ファイルも即座に検索を行うことができる。
使用者は、検索画面30の入力欄31または結果画面40の入力欄41所望の文字列を入力することにより、当該文字列に適合する文書ファイルを容易に利用することができる。また、使用者は、結果画面40のタグ検索欄43に表示された所望のタグ情報を選択することにより、当該タグ情報が付与された文書ファイルを容易に利用することができる。
また、使用者は、結果画面40のファイル欄42における編集アイコン46を操作することにより、所望の文書ファイルに付与されたタグ情報の編集を容易に指示することができる。これにより、文書ファイルに適切でないタグ情報が付与された場合でも、文書ファイルに付与されたタグ情報を適切に修正することができる。さらに、タグ情報が編集された場合には、編集結果に基づいてタグ推定モデルが更新されるので、文書ファイルに適切なタグ情報を付与することが容易になる。
(10)他の実施の形態
上記実施の形態において、文書検索支援システム100は記憶部140、操作部150、表示部160およびデータベース記憶装置170を含むが、実施の形態はこれに限定されない。文書検索支援システム100は、記憶部140、操作部150、表示部160およびデータベース記憶装置170と接続可能である限り、記憶部140、操作部150、表示部160およびデータベース記憶装置170の一部または全部を含まなくてもよい。
また、教師データ取得部13は作成部11により作成されたタグ情報一覧表101におけるいずれかのタグ情報を抽出部12により抽出された一部の文書ファイルに付与することにより教師データを生成するが、実施の形態はこれに限定されない。教師データ取得部13は、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを外部の記憶装置等から取得してもよい。この場合、タグ推定装置10は、作成部11および抽出部12を含まなくてもよい。
(11)請求項の各構成要素と実施の形態の各部との対応関係
以下、請求項の各構成要素と実施の形態の各要素との対応の例について説明するが、本発明は下記の例に限定されない。請求項の各構成要素として、請求項に記載されている構成または機能を有する他の種々の要素を用いることもできる。
上記実施の形態においては、教師データ取得部13が教師データ取得部の例であり、構築部14が構築部の例であり、登録部22が付与部の例であり、文書検索支援システム100が文書検索支援システムの例である。作成部11が作成部の例であり、抽出部12が抽出部の例であり、結果画面40が結果画面の例であり、検索部24が検索部の例であり、受付部25が受付部の例であり、編集部16が編集部の例である。
10…タグ推定装置,11…作成部,12…抽出部,13…教師データ取得部,14…構築部,15…推定部,16…編集部,20…検索装置,21…インデックス取得部,22…登録部,23…ファイル取得部,24…検索部,25…受付部,30…検索画面,31,41…入力欄,40…結果画面,42…ファイル欄,43…タグ検索欄,44,45,47,52,63…ボタン,46…編集アイコン,50,60…編集画面,51,62…タグ編集欄,53…チェックボックス,61…タブ,100…文書検索支援システム,101…タグ情報一覧表,102,103…テーブル,110…RAM,120…ROM,130…CPU,140…記憶部,150…操作部,160…表示部,170…データベース記憶装置,180…バス,F1…編集済みファイル,F2…編集前ファイル

Claims (13)

  1. 検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する教師データ取得部と、
    コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに前記教師データ取得部により取得された前記教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する構築部と、
    前記構築部により構築された前記タグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する付与部とを備える、文書検索支援システム。
  2. 前記教師データは、説明変数である文書ファイルの内容と、目的変数である文書ファイルに付与されるタグ情報との関係を示し、
    前記タグ推定モデルは、前記教師データに基づいて前記Transformer系の機械学習モデルが文書ファイルの内容と文書ファイルに付与されるタグ情報との関係を学習することにより構築される、請求項1記載の文書検索支援システム。
  3. 前記Transformer系の機械学習モデルは、BERT(Bidirectional Encoder Representations from Transformers)である、請求項1または2記載の文書検索支援システム。
  4. 検索対象の複数の文書ファイルに付与されるべきタグ情報の候補の一覧を示すタグ情報一覧表を作成する作成部と、
    検索対象の複数の文書ファイルから一部の文書ファイルを抽出する抽出部とをさらに備え、
    前記教師データ取得部は、前記作成部により作成された前記タグ情報一覧表におけるいずれかのタグ情報を前記抽出部により抽出された一部の文書ファイルに付与することにより前記教師データを生成する、請求項1~3のいずれか一項に記載の文書検索支援システム。
  5. 前記付与部により検索対象の複数の文書ファイルの各々にタグ情報が付与された後、文字列の入力を受け付け、検索対象の複数の文書ファイルから前記文字列に適合する文書ファイルを検索し、検索結果を示す結果画面を出力する検索部をさらに備える、請求項1~4のいずれか一項に記載の文書検索支援システム。
  6. 前記検索部により出力された前記結果画面は、検索された文書ファイルに関連してアクセス可能なタグ情報をさらに表示し、
    前記検索部は、前記結果画面に表示されたタグ情報のうち、使用者により選択されたタグ情報が付与された文書ファイルを検索し、検索結果を示す前記結果画面を出力する、請求項5記載の文書検索支援システム。
  7. 前記アクセス可能なタグ情報は、前記検索部により検索された文書ファイルに付与されたタグ情報と、当該タグ情報と同一の階層に属するタグ情報の候補とを含む、請求項6記載の文書検索支援システム。
  8. 検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付ける受付部と、
    前記受付部に指示された文書ファイルのタグ情報を編集するとともに、他の検索対象の文書ファイルのタグ情報を編集する編集部とをさらに備え、
    前記付与部は、文書ファイルに付与されたタグ情報を前記編集部により編集されたタグ情報に更新する、請求項5~7のいずれか一項に記載の文書検索支援システム。
  9. 前記編集部は、所定のしきい値に基づいて、選択的に検索対象の文書ファイルのタグ情報を編集する、請求項8記載の文書検索支援システム。
  10. 前記検索部により出力された前記結果画面は、使用者により操作されるGUI(Graphical User Interface)をさらに表示し、
    前記受付部は、前記GUIが操作されることにより検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付ける、請求項8または9記載の文書検索支援システム。
  11. 前記編集部は、編集結果に基づいて前記構築部により構築された前記タグ推定モデルを更新する、請求項8~10のいずれか一項に記載の文書検索支援システム。
  12. 検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得することと、
    コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに取得された前記教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築することと、
    構築された前記タグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与することとを含む、文書検索支援方法。
  13. 処理装置により実行可能な文書検索支援プログラムであって、
    検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する処理と、
    コーパスを用いて予め学習が行われたTransformer系の機械学習モデルに取得された前記教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する処理と、
    構築された前記タグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する処理とを、
    前記処理装置に実行させる、文書検索支援プログラム。
JP2021149796A 2021-09-14 2021-09-14 文書検索支援システム、文書検索支援方法および文書検索支援プログラム Pending JP2023042480A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021149796A JP2023042480A (ja) 2021-09-14 2021-09-14 文書検索支援システム、文書検索支援方法および文書検索支援プログラム
CN202211088438.0A CN115809361A (zh) 2021-09-14 2022-09-07 文档检索支援系统、方法及存储有程序的计算机可读介质
EP22194785.6A EP4148598A1 (en) 2021-09-14 2022-09-09 Document retrieval support system, document retrieval support method, and document retrieval support program
US17/944,706 US20230083617A1 (en) 2021-09-14 2022-09-14 Document retrieval support system, document retrieval support method, and non-transitory computer readable medium storing document retrieval support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021149796A JP2023042480A (ja) 2021-09-14 2021-09-14 文書検索支援システム、文書検索支援方法および文書検索支援プログラム

Publications (1)

Publication Number Publication Date
JP2023042480A true JP2023042480A (ja) 2023-03-27

Family

ID=83271162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021149796A Pending JP2023042480A (ja) 2021-09-14 2021-09-14 文書検索支援システム、文書検索支援方法および文書検索支援プログラム

Country Status (4)

Country Link
US (1) US20230083617A1 (ja)
EP (1) EP4148598A1 (ja)
JP (1) JP2023042480A (ja)
CN (1) CN115809361A (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6513129B2 (ja) 2017-05-20 2019-05-15 武史 藤田 文書検索学習システム
US11087070B1 (en) * 2020-11-04 2021-08-10 Workiva Inc. Systems and methods for XBRL tag suggestion and validation

Also Published As

Publication number Publication date
EP4148598A1 (en) 2023-03-15
US20230083617A1 (en) 2023-03-16
CN115809361A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
US9323731B1 (en) Data extraction using templates
KR101265851B1 (ko) 데이터베이스로의 질의를 통한 자동 완성
KR101366392B1 (ko) Url 및 url 히스토리의 검색 및 브라우징
CN107346325A (zh) 信息查询方法及装置
US10423697B2 (en) User interface with navigation controls for the display or concealment of adjacent content
Bradshaw Scraping for journalists
JP4839195B2 (ja) Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置
JP2006091994A (ja) 文書情報処理装置および方法、文書情報処理プログラム
CN111143370B (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
CN101763424B (zh) 根据文件内容确定特征词并用于检索的方法
JPWO2020065970A1 (ja) 学習システム、学習方法、及びプログラム
JP2005352612A (ja) プログラム開発支援装置および変数名リスト表示方法
JP2015162004A (ja) 開発ドキュメント間トレースリンク生成支援装置及び方法及びプログラム
JP2023042480A (ja) 文書検索支援システム、文書検索支援方法および文書検索支援プログラム
JP4888534B2 (ja) プログラム開発支援装置および処理方法
JPH09245052A (ja) 構造化文書処理装置
KR101589705B1 (ko) 구매요청도서 마크 데이터 구축방법
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
US20040199501A1 (en) Information extracting apparatus
JP2010218459A (ja) 情報処理装置、情報処理方法及びプログラム
JPH1139327A (ja) リンク情報自動修復方法および装置
KR101589704B1 (ko) 구매요청도서 마크 데이터 구축방법
JP2007199987A (ja) 特許情報検索システム
Gurský et al. Semiautomatic Annotation of E-Shops.
KR20070003468A (ko) 검색창을 이용한 명령어 실행 시스템 및 방법