JP2023042480A

JP2023042480A - 文書検索支援システム、文書検索支援方法および文書検索支援プログラム

Info

Publication number: JP2023042480A
Application number: JP2021149796A
Authority: JP
Inventors: 万理寺田; Manri TERADA; 清孝粕渕; Kiyotaka Kasubuchi; 明子吉田; Akiko Yoshida; 光規梅原; Mitsunori Umehara; 祐輝角谷; Yuki Sumiya
Original assignee: Screen Holdings Co Ltd
Current assignee: Screen Holdings Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-03-27
Also published as: EP4148598A1; US20230083617A1; CN115809361A

Abstract

【課題】コストの増加を抑制しつつ文書の検索を可能にする文書検索支援システム、文書検索支援方法および文書検索支援プログラムを提供する。【解決手段】検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データが教師データ取得部１３により取得される。コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに取得された教師データが適用されることにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルが構築部１４により構築される。構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報が付与部により付与される。【選択図】図２

Description

本発明は、文書の検索を支援する文書検索支援システム、文書検索支援方法および文書検索支援プログラムに関する。

近年、インターネット等において、電子化された文書が種々の情報を取得するために利用されている。使用者は、所望のタグ情報を検索することにより、当該タグ情報が付与された文書を選択して利用することができる。

例えば、特許文献１に記載された文書検索学習システムにおいては、電子文書リーダにより読み込まれたコンテンツがコンテンツ表示部に表示される。使用者がコンテンツ内の文字列をマウス等でドラッグして選択して検索ボタンをクリックすると、選択された文字列がサーチエンジンに転送される。これにより、選択された文字列に関連する文書がインターネットにより検索され、検索結果の一覧がＷＥＢブラウザ表示部に表示される。

特開２０１８－１９５２２２号公報

文書の検索を可能にするため、検索対象の文書に事前にタグ情報を付与する必要がある。しかしながら、検索対象の文書数は膨大であるため、タグ情報の付与を行う作業者の負担が大きい。また、タグ情報の名称（ラベル）は、統一されているとは限らず、作業者ごとにばらついていることが多い。そのため、タグ情報の付与、保守または整備には多大なコストが発生する。また、新規に作成された文書が検索可能となるまでに相当の期間を要する。

ＡＩ（人工知能）を用いて文書のタグ情報を推定して自動的に付与することも考えられる。しかしながら、教師データの数が十分ではない場合には、高い精度でタグ情報を推定することができない。そのため、ＡＩを用いて文書にタグ情報を付与するためには、大量の教師データが必要となる。したがって、大量の教師データを作成するためには、多大なコストが発生する。

本発明の目的は、コストの増加を抑制しつつ文書の検索を可能にする文書検索支援システム、文書検索支援方法および文書検索支援プログラムを提供することである。

（１）第１の発明に係る文書検索支援システムは、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する教師データ取得部と、コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに教師データ取得部により取得された教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する構築部と、構築部により構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する付与部とを備える。

この文書検索支援システムにおいては、Ｔｒａｎｓｆｏｒｍｅｒ系の機械学習モデルにコーパスを用いて予め学習が行われるので、教師データ数が少ない場合でも、タグ情報を高い精度で推定可能なタグ情報推定モデルが構築される。この場合、大量の教師データを取得する必要がない。したがって、検索対象の複数の文書ファイルの全部ではなく、一部の文書ファイルを教師データとして構築されたタグ情報推定モデルを用いることにより、検索対象の複数の文書ファイルの各々にタグ情報を付与することができる。

この構成によれば、使用者は膨大な数の文書ファイルにタグ情報を付与する作業を行う必要がない。また、タグ情報のラベルには表現ゆらぎがない。そのため、タグ情報の付与、保守または整備にはほとんどコストが発生しない。これにより、コストの増加を抑制しつつ文書の検索を行うことができる。また、新規に作成された文書ファイルについても、即座にタグ情報が付与されるので、新規に作成された文書ファイルも即座に検索を行うことができる。

（２）教師データは、説明変数である文書ファイルの内容と、目的変数である文書ファイルに付与されるタグ情報との関係を示し、タグ推定モデルは、教師データに基づいてＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルが文書ファイルの内容と文書ファイルに付与されるタグ情報との関係を学習することにより構築されてもよい。この場合、タグ推定モデルを容易に構築することができる。

（３）Ｔｒａｎｓｆｏｒｍｅｒ系の機械学習モデルは、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）であってもよい。この場合、機械学習モデルにコーパスを用いた学習を容易に行わせることができる。

（４）文書検索支援システムは、検索対象の複数の文書ファイルに付与されるべきタグ情報の候補の一覧を示すタグ情報一覧表を作成する作成部と、検索対象の複数の文書ファイルから一部の文書ファイルを抽出する抽出部とをさらに備え、教師データ取得部は、作成部により作成されたタグ情報一覧表におけるいずれかのタグ情報を抽出部により抽出された一部の文書ファイルに付与することにより教師データを生成してもよい。この場合、検索対象の複数の文書ファイルから抽出された一部の文書ファイルから容易に教師データを生成することができる。

（５）文書検索支援システムは、付与部により検索対象の複数の文書ファイルの各々にタグ情報が付与された後、文字列の入力を受け付け、検索対象の複数の文書ファイルから文字列に適合する文書ファイルを検索し、検索結果を示す結果画面を出力する検索部をさらに備えてもよい。この場合、使用者は、所望の文字列を入力することにより、当該文字列に適合する文書ファイルを容易に利用することができる。

（６）検索部により出力された結果画面は、検索された文書ファイルに関連してアクセス可能なタグ情報をさらに表示し、検索部は、結果画面に表示されたタグ情報のうち、使用者により選択されたタグ情報が付与された文書ファイルを検索し、検索結果を示す結果画面を出力してもよい。この場合、使用者は、結果画面に表示された所望のタグ情報を選択することにより、当該タグ情報が付与された文書ファイルを容易に利用することができる。

（７）アクセス可能なタグ情報は、検索部により検索された文書ファイルに付与されたタグ情報と、当該タグ情報と同一の階層に属するタグ情報の候補とを含んでもよい。この場合、アクセス可能なタグ情報を結果画面に容易に表示することができる。

（８）文書検索支援システムは、検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付ける受付部と、受付部に指示された文書ファイルのタグ情報を編集するとともに、他の検索対象の文書ファイルのタグ情報を編集する編集部とをさらに備え、付与部は、文書ファイルに付与されたタグ情報を編集部により編集されたタグ情報に更新してもよい。この構成によれば、文書ファイルに適切でないタグ情報が付与された場合でも、文書ファイルに付与されたタグ情報を適切に修正することができる。

（９）編集部は、所定のしきい値に基づいて、選択的に検索対象の文書ファイルのタグ情報を編集してもよい。この場合、しきい値に基づいて複数の文書ファイルのタグ情報を選択的に一括して編集することができる。

（１０）検索部により出力された結果画面は、使用者により操作されるＧＵＩ（Graphical User Interface）をさらに表示し、受付部は、ＧＵＩが操作されることにより検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付けてもよい。この場合、使用者は、所望の文書ファイルに付与されたタグ情報の編集を容易に指示することができる。

（１１）編集部は、編集結果に基づいて構築部により構築されたタグ推定モデルを更新してもよい。この場合、文書ファイルに適切なタグ情報を付与することが容易になる。

（１２）第２の発明に係る文書検索支援方法は、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得することと、コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに取得された教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築することと、構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与することとを含む。

この文書検索支援方法によれば、大量の教師データを取得する必要がない。また、使用者は膨大な数の文書ファイルにタグ情報を付与する作業を行う必要がない。さらに、タグ情報のラベルには表現ゆらぎがない。そのため、タグ情報の付与、保守または整備にはほとんどコストが発生しない。これにより、コストの増加を抑制しつつ文書の検索を行うことができる。また、新規に作成された文書ファイルについても、即座にタグ情報が付与されるので、新規に作成された文書ファイルも即座に検索を行うことができる。

（１３）第３の発明に係る文書検索支援プログラムは、処理装置により実行可能な文書検索支援プログラムであって、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する処理と、コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに取得された教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する処理と、構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する処理とを、処理装置に実行させる。

この文書検索支援プログラムによれば、大量の教師データを取得する必要がない。また、使用者は膨大な数の文書ファイルにタグ情報を付与する作業を行う必要がない。さらに、タグ情報のラベルには表現ゆらぎがない。そのため、タグ情報の付与、保守または整備にはほとんどコストが発生しない。これにより、コストの増加を抑制しつつ文書の検索を行うことができる。また、新規に作成された文書ファイルについても、即座にタグ情報が付与されるので、新規に作成された文書ファイルも即座に検索を行うことができる。

本発明によれば、コストの増加を抑制しつつ文書の検索を行うことが可能になる。

本発明の一実施の形態に係る文書検索支援システムの構成を示す図である。図１のタグ推定装置および検索装置の構成を示す図である。図２の作成部により作成されたタグ情報一覧表を示す図である。図２の抽出部により抽出される文書ファイルの指定方法の一例を示す図である。図２の抽出部により抽出された文書ファイルを含むテーブルを示す図である。生成された教師データを示す図である。マルチラベル構造を有する教師データの作成例を説明するための図である。マルチラベル構造を有する教師データの作成例を説明するための図である。検索画面の一例を示す図である。結果画面の一例を示す図である。編集画面の一例を示す図である。結果画面のファイル欄の第１の表示例を示す図である。結果画面のファイル欄の第２の表示例を示す図である。結果画面のファイル欄の第３の表示例を示す図である。結果画面のファイル欄の第３の表示例を示す図である。結果画面のファイル欄の第４の表示例を示す図である。結果画面のファイル欄の第５の表示例を示す図である。教師データがマルチラベル構造を有する場合の編集画面の一例を示す図である。図２のタグ推定装置によるタグ推定処理を示すフローチャートである。図２の検索装置による検索処理を示すフローチャートである。図２の検索装置による検索処理を示すフローチャートである。

（１）文書検索支援システムの構成
以下、本発明の実施の形態に係る文書検索支援システム、文書検索支援方法および文書検索支援プログラムについて図面を用いて説明する。図１は、本発明の一実施の形態に係る文書検索支援システムの構成を示す図である。図１に示すように、文書検索支援システム１００は、パーソナルコンピュータ等の情報処理装置により実現され、ＲＡＭ（ランダムアクセスメモリ）１１０、ＲＯＭ（リードオンリメモリ）１２０、ＣＰＵ（中央演算処理装置）１３０、記憶部１４０、操作部１５０、表示部１６０およびデータベース記憶装置１７０を備える。

ＲＡＭ１１０、ＲＯＭ１２０、ＣＰＵ１３０、記憶部１４０、操作部１５０、表示部１６０およびデータベース記憶装置１７０は、バス１８０に接続される。ＲＡＭ１１０、ＲＯＭ１２０およびＣＰＵ１３０により、タグ推定装置１０と検索装置２０とが構成される。本実施の形態では、タグ推定装置１０と検索装置２０とは共通の文書検索支援システム１００により構成されるが、実施の形態はこれに限定されない。タグ推定装置１０と検索装置２０とは、互いに接続可能である限り、別個の文書検索支援システム１００により構成されてもよい。

ＲＡＭ１１０は、例えば揮発性メモリからなり、ＣＰＵ１３０の作業領域として用いられる。ＲＯＭ１２０は、例えば不揮発性メモリからなり、文書検索支援プログラムを記憶する。文書検索支援プログラムは、タグ推定プログラムと検索プログラムとを含む。ＣＰＵ１３０は、ＲＯＭ１２０に記憶されたタグ推定プログラムをＲＡＭ１１０上で実行することにより、タグ推定装置１０としてタグ推定処理を行う。また、ＣＰＵ１３０は、ＲＯＭ１２０に記憶された検索プログラムをＲＡＭ１１０上で実行することにより、検索装置２０として検索処理を行う。タグ推定処理および検索処理の詳細については後述する。

検索プログラムは、ＲＯＭ１２０ではなく記憶部１４０に記憶されてもよい。あるいは、検索プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ＲＯＭ１２０または記憶部１４０にインストールされてもよい。あるいは、文書検索支援システム１００がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ（クラウドサーバを含む。）から配信された検索プログラムがＲＯＭ１２０または記憶部１４０にインストールされてもよい。

記憶部１４０は、ハードディスク、半導体メモリ、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含み、任意の文書ファイルに付与されるべきタグ情報を推定するためのＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデル等を記憶する。Ｔｒａｎｓｆｏｒｍｅｒ系の機械学習モデルには、大規模のコーパスを用いて予め学習が行われている。本例では、Ｔｒａｎｓｆｏｒｍｅｒ系の機械学習モデルはＢＥＲＴ（Bidirectional Encoder Representations from Transformers）である。

操作部１５０は、例えばマウス等のポインティングデバイス、キーボードまたはタッチパネルを含む。使用者は、操作部１５０を操作することにより、タグ推定装置１０または検索装置２０に所定の選択または指示を行うことができる。表示部１６０は、例えば液晶ディスプレイを含み、所定のＧＵＩ（Graphical User Interface）または検索処理の結果等を表示する。データベース記憶装置１７０は、サーバ等の大容量の記憶装置を含み、検索対象となる多数の文書を示す文書ファイルを予め記憶する。

（２）タグ推定装置の構成
図２は、図１のタグ推定装置１０および検索装置２０の構成を示す図である。図２に示すように、タグ推定装置１０は、機能部として作成部１１、抽出部１２、教師データ取得部１３、構築部１４、推定部１５および編集部１６を含む。図１のＣＰＵ１３０がＲＯＭ１２０等に記憶されたタグ推定プログラムを実行することにより、タグ推定装置１０の機能部が実現される。タグ推定装置１０の機能部の一部または全てが電子回路等のハードウエアにより実現されてもよい。

作成部１１は、操作部１５０の操作に応答して、検索対象の文書ファイルに付与すべきタグ情報の候補の一覧（タグ情報一覧表と呼ぶ。）を作成する。タグ情報一覧表１０１においては、タグ情報の候補が階層構造に分類した状態で配列される。使用者は、操作部１５０を用いてタグ情報一覧表を作成するための操作を行うことができる。

抽出部１２は、操作部１５０の操作に応答して、データベース記憶装置１７０に記憶された多数の文書ファイルのうち、教師データの生成に用いる一部の文書ファイルを抽出する。使用者は、操作部１５０を用いて教師データの生成に用いる一部の文書ファイルを指定することができる。

教師データ取得部１３は、抽出部１２により抽出された各文書ファイルについて、作成部１１により作成された作成部１１におけるいずれかのタグ情報を付与することにより、各文書ファイルを後述するタグ推定モデルの構築に用いるための教師データとして生成する。教師データは、説明変数である文書ファイルの内容と、目的変数である文書ファイルに付与されるタグ情報との関係を示す。

構築部１４は、記憶部１４０に記憶されたＢＥＲＴを取得する。また、構築部１４は、教師データ取得部１３により生成された複数の教師データを用いてＢＥＲＴに文書ファイルの内容と、文書ファイルに付与されたタグ情報との関係を学習させる。これにより、ＢＥＲＴがタグ推定モデルとして構築される。

推定部１５は、構築部１４により構築されたタグ推定モデルを用いて、検索装置２０から指定された文書ファイルのタグ情報を推定し、推定結果を検索装置２０に送信する。また、構築部１４は、推定されたタグ情報の推定確率（信頼度）を評価する。上記のように、ＢＥＲＴには大規模のコーパスを用いて予め学習が行われるので、教師データの数が比較的少ない場合でも、タグ情報を高い精度で推定することが可能である。本例では、タグ情報１つあたりの教師データ数は１０程度でよい。

編集部１６は、検索装置２０からのいずれかの文書ファイルに付与されたタグ情報の編集を要求された場合、当該文書ファイルに付与されたタグ情報を編集することにより編集済みファイルＦ１を作成する。また、編集部１６は、他の検索対象の文書ファイル（編集前ファイルＦ２）について、編集済みファイルＦ１と同様にタグ情報を編集する。編集部１６は、編集前ファイルＦ２について、推定確率のしきい値に基づいて選択的に一括してタグ情報を編集することができる。編集部１６は、編集後のタグ情報を検索装置２０に送信するとともに、編集結果に基づいて構築部１４により構築されたタグ推定モデルを更新する。

タグ情報の保守により、使用されなくなったタグ情報または名称が変更されたタグ情報が発見されることがある。また、推定部１５により推定されたタグ情報の推定確率は１００％であるとは限らず、誤ったタグ情報が推定されることがある。さらに、今までに存在しなかった新規のタグ情報を付与したいことがある。このような場合でも、編集部１６がタグ情報を編集することにより、適切なタグ情報を文書に付与することができる。また、新規のタグ情報を推定するためのタグ推定モデルの再学習を行う必要がないので、ダウンタイムが発生することを防止することができる。

（３）検索装置の構成
図２に示すように、検索装置２０は、機能部としてインデックス取得部２１、登録部２２、ファイル取得部２３、検索部２４および受付部２５を含む。図１のＣＰＵ１３０がＲＯＭ１２０等に記憶された検索プログラムを実行することにより、検索装置２０の機能部が実現される。検索装置２０の機能部の一部または全てが電子回路等のハードウエアにより実現されてもよい。

インデックス取得部２１は、データベース記憶装置１７０をクロールすることにより、各文書ファイルのインデックス情報を取得する。インデックス情報は、データベース記憶装置１７０に記憶された文書ファイルのパス、名称、作成者、作成日または内容等を含む。インデックス取得部２１は、データベース記憶装置１７０に新規の文書ファイルが追加されるごとに、追加された文書ファイルのインデックス情報をさらに取得する。登録部２２は、インデックス取得部２１により取得されたインデックス情報を検索部２４に登録する。

また、後述するように、登録部２２は、各文書ファイルについてタグ推定装置１０の推定部１５により推定されたタグ情報を受信する。登録部２２は、各文書ファイルについて推定部１５から受信したタグ情報を、当該文書ファイルのインデックス情報の一部として検索部２４にさらに登録する。これにより、文書ファイルにタグ情報が付与され、当該文書ファイルを検索することが可能になる。したがって、登録部２２は文書ファイルにタグ情報を付与する付与部として機能する。

さらに、後述するように、登録部２２は、各文書ファイルについてタグ推定装置１０の編集部１６により編集されたタグ情報を受信する。登録部２２は、検索部２４に登録されたタグ情報を編集部１６から受信した編集後のタグ情報に更新する。

ファイル取得部２３は、検索部２４に登録されたタグ情報を除くインデックス情報に基づいて、検索対象の文書ファイルを取得し、取得された文書ファイルをタグ推定装置１０に指定する。この場合、指定された文書ファイルのタグ情報がタグ推定装置１０の推定部１５により推定される。推定部１５により推定されたタグ情報は、上記のように登録部２２に送信される。

検索部２４は、登録部２２により各文書ファイルのタグ情報が登録された後、所定の検索画面を表示部１６０に表示させる。使用者は、操作部１５０を操作することにより、所望の文字列を検索画面に入力することができる。検索部２４は、検索画面に入力された文字列に適合するタグ情報が付与された文書ファイルを検索し、検索結果を示す結果画面を表示部１６０に表示させる。

受付部２５は、表示部１６０に表示された結果画面からタグ情報の編集の指示を受け付ける。使用者は、結果画面において、操作部１５０を操作することにより、所望の文書ファイルに付与されたタグ情報の編集を指示することができる。ここで、初期設定においては、タグ情報の編集に用いる推定確率のしきい値は既定値であるが、使用者は、操作部１５０を操作することにより、推定確率のしきい値の設定を変更することも可能である。

受付部２５は、タグ情報の編集の指示を受け付けた場合、当該文書ファイルに付与されたタグ情報の編集をタグ推定装置１０に要求する。この場合、タグ推定装置１０の編集部１６により当該文書ファイルに付与されたタグ情報が編集されるとともに、他の文書ファイルに付与されたタグ情報も同様に編集される。編集部１６により編集されたタグ情報は、上記のように登録部２２に送信される。

（４）タグ推定装置の動作例
図３は、図２の作成部１１により作成されたタグ情報一覧表を示す図である。図３に示すように、作成部１１は、使用者による操作部１５０の操作に基づいて、表示部１６０に表示されたテーブルを用いてタグ情報一覧表１０１を作成する。

図３のタグ情報一覧表１０１の例では、タグ情報は、項目として「業界」、「テーマ」、「手法」および「ファイル種別」を含む。項目「業界」のラベルは、「食品」、「情報」および「自動車」を含む。項目「テーマ」のラベルは、「発酵食品」、「サービス」および「自動運転」を含む。項目「手法」のラベルは、「酵母」、「ＳａａＳ」、「ＰａａＳ」、「ＭａａＳ」および「高精度ＧＰＳ」を含む。項目「ファイル種別」のラベルは、「調査報告書」および「設計書」を含む。

図４は、図２の抽出部１２により抽出される文書ファイルの指定方法の一例を示す図である。図４に示すように、文書ファイルは、表示部１６０上で保存先のパスが指定されることにより抽出される。図４の例では、使用者は、操作部１５０を操作することにより、「Ｃドライブ」の「フォルダＡＡＡ」の「フォルダＢＢＢ」の「フォルダＣＣＣ」を指定する。また、使用者は、操作部１５０を操作することにより、「Ｃドライブ」の「フォルダＸＸＸ」の「フォルダＹＹＹ」の「フォルダＷＷＷ」および「フォルダＺＺＺ」を指定する。

この場合、抽出部１２は、「フォルダＣＣＣ」に保存された文書ファイル「ａａａ．ｔｘｔ」および「ｂｂｂ．ｐｐｔｘ」を抽出する。また、抽出部１２は、「フォルダＷＷＷ」に保存された文書ファイル「ｘｘｘ．ｐｄｆ」を抽出する。さらに、抽出部１２は、「フォルダＺＺＺ」に保存された文書ファイル「ｙｙｙ．ｄｏｃｘ」および「ｚｚｚ．ｐｐｔｘ」を抽出する。

図４で指定されたパスおよび抽出された文書ファイルは、図３で作成されたタグ情報一覧表１０１と対応付けられた状態で、テーブル形式で表示部１６０に表示される。図５は、図２の抽出部１２により抽出された文書ファイルを含むテーブルを示す図である。図５に示すように、使用者は、操作部１５０を操作することにより、テーブル１０２の各文書ファイルに対応する各項目のラベルをタグ情報一覧表１０１に含まれるラベルから選択する。図５の例では、各項目のラベルは、タグ情報一覧表１０１に対応するプルダウンメニューから選択される。ラベルの一部は自動的に選択されてもよい。

選択されたタグ情報のラベルが図２の教師データ取得部１３により各文書ファイルに付与される。これにより、各文書ファイルが教師データとして生成される。図６は、生成された教師データを示す図である。図６の例では、抽出された５つの文書ファイルから５つの教師データがそれぞれ生成される。教師データ「ｘｘｘ．ｐｄｆ」には、ラベル「食品」、「発酵食品」、「発酵食品」および「調査報告書」が付与される。

同様に、教師データ「ｙｙｙ．ｄｏｃｘ」には、ラベル「情報」、「サービス」、「ＳａａＳ」および「設計書」が付与される。教師データ「ｚｚｚ．ｐｐｔｘ」には、ラベル「情報」、「サービス」、「ＰａａＳ」および「設計書」が付与される。教師データ「ａａａ．ｔｘｔ」には、ラベル「自動車」、「サービス」、「ＭａａＳ」および「調査報告書」が付与される。教師データ「ｂｂｂ．ｐｐｔｘ」には、ラベル「自動車」、「自動運転」、「高精度ＧＰＳ」および「設計書」が付与される。

１つの項目に対して複数のラベル（マルチラベル）を選択することも可能である。図７および図８は、マルチラベル構造を有する教師データの作成例を説明するための図である。図７の左には、「産業」において分類される「業種」の構造がツリー状に記載される。同様に、図７の右には、「労災」において分類される「事故内容」の構造がツリー状に記載される。

図７に示すように、項目「業種」におけるラベル「その他」の「業種」は、「自動車整備業」、「クリーニング業」または「機械修理業」にさらに分類される。また、項目「事故内容」におけるラベル「転倒」の「事故内容」は、「滑り」、「躓き」または「踏み外し」にさらに分類される。図７のマルチラベル構造を有する教師データを作成する場合には、図５のテーブル１０２に代えて、図８のテーブル１０３が表示部１６０に表示される。

図８のテーブル１０３においては、作成部１１により作成された作成部１１に基づいて、抽出部１２により抽出された文書ファイルの各項目に付与可能な１以上のラベルが文書ファイルに対応するように表示される。使用者は、操作部１５０を操作することにより、各文書ファイルに対応する各項目の１以上のラベルをテーブル１０３上で選択する。図８の例では、選択されたラベルに対応するテーブル１０３のマスに「〇」が付される。この構成によれば、各文書ファイルに対応する各項目に複数のラベルを付与することが可能である。これにより、マルチラベル構造を有する教師データを作成することができる。

（５）検索装置の動作例
各文書ファイルのタグ情報がインデックス情報の一部として図２の検索部２４に登録された後、検索画面が検索部２４により表示部１６０に表示される。図９は、検索画面の一例を示す図である。図９に示すように、検索画面３０には、入力欄３１を含む。使用者は、図２の操作部１５０を操作することにより、所望の文字列を入力欄３１に入力することができる。文字列は、単語であってもよいし、文章であってもよい。

入力欄３１に文字列が入力されることにより、当該文字列に適合するタグ情報が付与された文書ファイルが検索部２４により検索され、検索結果を示す結果画面が表示部１６０に表示される。図９の例では、「労災」という単語が入力欄３１に入力されている。図１０は、結果画面の一例を示す図である。図１０に示すように、結果画面４０は、入力欄４１、ファイル欄４２、タグ検索欄４３およびボタン４４，４５を含む。

入力欄４１は、検索画面３０の入力欄３１と同様の機能を有する。使用者は、所望の文字列を入力欄４１に入力することも可能である。そのため、検索部２４は、各文書ファイルのタグ情報がインデックス情報の一部として登録された後、検索画面３０ではなく結果画面４０を表示部１６０に表示させてもよい。

ファイル欄４２には、検索された文書ファイルに基づく文書の文頭部分、文書ファイルのパスおよびインデックス情報（タグ情報を含む。）等が表示される。また、ファイル欄４２には、編集アイコン４６が表示される。編集アイコン４６は、タグ情報の編集を受け付けるために操作されるＧＵＩである。複数の文書ファイルが検索された場合には、複数のファイル欄４２が、複数の文書ファイルにそれぞれ対応し、かつ上下方向に並ぶように配置される。

タグ検索欄４３には、検索された文書ファイルに関連してアクセス可能なタグ情報がツリー状に表示される。アクセス可能なタグ情報は、検索された文書ファイルに付与されたタグ情報と、当該タグ情報と同一の階層に属するタグ情報とを含む。また、各タグ情報の左にはチェックボックスが表示され、各タグ情報右にはタグ情報の該当件数が括弧書きで表示される。なお、該当件数が０のタグ情報は、グレーアウトにより表示される。

使用者が操作部１５０を操作して所望のタグ情報に対応するチェックボックスにチェックマークをつけ、ボタン４４を操作することにより、当該チェックボックスに対応するタグ情報のみがタグ検索欄４３に表示される。また、使用者が操作部１５０を操作してボタン４５を操作することにより、アクセス可能な全てのタグ情報がタグ検索欄４３に表示される。

また、使用者が操作部１５０を操作して所望のタグ情報を選択することにより、当該タグ情報が付与された文書ファイルが検索部２４により検索され、検索結果を示す結果画面が表示部１６０に表示される。したがって、使用者は、タグ情報のみを選択することにより文書ファイルを検索することができる。

さらに、使用者が操作部１５０を操作して所望のファイル欄４２の編集アイコン４６を操作することにより、当該ファイル欄４２に対応する文書ファイルが選択される。また、選択された文書ファイルに付与されたタグ情報を編集するための編集画面がポップアップ画面として表示される。図１１は、編集画面の一例を示す図である。図１１に示すように、編集画面５０は、タグ編集欄５１およびボタン５２を含む。

タグ編集欄５１には、選択された文書ファイルに付与されたタグ情報が項目の階層ごとに表示される。また、タグ編集欄５１には、チェックボックス５３が表示される。選択された文書ファイルに複数のタグ情報が付与されている場合には、複数のタグ編集欄５１が、複数のタグ情報にそれぞれ対応し、かつ上下方向に並ぶように配置される。

使用者が操作部１５０を操作して所望のタグ編集欄５１のチェックボックス５３のチェックマークを外し、ボタン５２を操作することにより、当該チェックボックス５３に対応するタグ情報が選択された文書ファイルから削除される。一方、使用者が操作部１５０を操作して所望のタグ編集欄５１のチェックボックス５３のチェックマークをつけ、ボタン５２を操作することにより、当該チェックボックス５３に対応するタグ情報が選択された文書ファイルに追加される。

また、使用者が操作部１５０を操作して所望のタグ編集欄５１のタグ情報における所望のラベルを変更し、ボタン５２を操作することにより、選択された文書ファイルに付されたタグ情報のラベルが変更後のラベルに更新される。図１１の例では、タグ情報における項目「事故内容」のラベルとして、「動作の反動・無理な動作」が図３のタグ情報一覧表１０１に対応するプルダウンメニューから選択される。これにより、項目「事故内容」のラベル「はさまれ・巻き込まれ」がラベル「動作の反動・無理な動作」に変更される。

上記の操作が実行された場合、図２のタグ推定装置１０の編集部１６にタグ情報の編集が要求される。選択された文書ファイルに付与されたタグ情報が編集部１６により編集されることにより編集済みファイルＦ１が作成される。また、他の編集前ファイルＦ２についても、推定確率のしきい値に基づいて編集済みファイルＦ１と同様にタグ情報が編集される。

例えば、編集前ファイルＦ２である第１～第４の文書ファイルに付与されたラベル「はさまれ・巻き込まれ」の推定確率がそれぞれ８５％、５０％、７０％および５５％であったとする。ここで、推定確率のしきい値を６０％とした場合、しきい値以上の推定確率でラベルが付与された第１および第３の文書ファイルについては、項目「事故内容」のラベルが「動作の反動・無理な動作」に変更される。一方、しきい値より小さい推定確率でラベルが付与された第２および第４の文書ファイルについては、項目「事故内容」のラベルが「選択肢なし」に変更される。

（６）他の表示例
図１２は、結果画面４０のファイル欄４２の第１の表示例を示す図である。図１２の上段に示すように、第１の表示例では、タグ情報が種類ごとに１行にまとめられた状態で各ファイル欄４２に表示される。図１２の例では、図７の左における項目「業種」のラベルが１行にまとめられ、図７の右における項目「事故内容」のラベルが他の１行にまとめられている。図１２の下段に示すように、タグ情報のヘッダの表示が省略されてもよい。この場合、ファイル欄４２に表示される文字数が減少するので、ファイル欄４２の可読性が向上する。

図１３は、結果画面４０のファイル欄４２の第２の表示例を示す図である。図１３の上段に示すように、第２の表示例では、第１の表示例と同様に、タグ情報が種類ごとに１行にまとめた状態で各ファイル欄４２に表示される。ここで、親子関係にあるラベルは、同一の色で表示される。この場合、使用者は、タグ情報におけるラベルの親子関係を容易に認識することができる。図１３の下段に示すように、タグ情報のヘッダの表示が省略されてもよい。

図１４および図１５は、結果画面４０のファイル欄４２の第３の表示例を示す図である。図１４に示すように、第３の表示例では、タグ情報が親子関係ごとに１行にまとめられた状態で各ファイル欄４２に表示される。この場合、使用者は、タグ情報におけるラベルの親子関係を容易に認識することができる。図１５の上段に示すように、タグ情報のヘッダの表示が省略されてもよい。また、図１５の下段に示すように、同一種類のタグ情報は、同一の色で表示されてもよい。

図１６は、結果画面４０のファイル欄４２の第４の表示例を示す図である。図１６に示すように、第４の表示例では、タグ情報の種類に対応するようにボタン４７が各ファイル欄４２に表示される。使用者が操作部１５０を操作して所望のボタン４７を操作するごとに、当該ボタン４７に対応するタグ情報のラベルの展開表示と表示の解除とが交互に行われる。

図１７は、結果画面４０のファイル欄４２の第５の表示例を示す図である。図１７に、第５の表示例では、タグ情報が種類ごとに１行にまとめられかつ最下位の項目に細分化された状態で各ファイル欄４２に表示される。

図１８は、教師データがマルチラベル構造を有する場合の編集画面の一例を示す図である。使用者が操作部１５０を操作して図１０の所望のファイル欄４２の編集アイコン４６を操作することにより、図１８の編集画面６０がポップアップ画面として表示される。図１８に示すように、編集画面６０は、複数のタブ６１、タグ編集欄６２およびボタン６３を含む。

複数のタブ６１は、タグ情報の複数の項目にそれぞれ対応する。使用者が操作部１５０を操作して所望のタブ６１を操作することにより、タグ情報において当該タブ６１に対応する項目のラベルがツリー状にタグ編集欄６２に表示される。使用者が操作部１５０を用いて所望のラベルを操作するごとに、当該ラベルの選択と選択の解除とが交互に行われる。選択されたラベルは、背景色が付されることにより識別可能に表示される。複数のラベルを選択することも可能である。

使用者は、選択された各ラベルについて、図１１の編集画面５０における操作と同様に、追加、削除または変更等の編集を指示するための操作を行うことができる。使用者は、選択された各ラベルの編集を指示した状態で、ボタン６３を操作することにより、選択された文書ファイルに付されかつ選択されたタグ情報のラベルが編集される。

（７）タグ推定処理
図１９は、図２のタグ推定装置１０によるタグ推定処理を示すフローチャートである。図１９のタグ推定処理は、図１のＣＰＵ１３０がＲＯＭ１２０等に記憶された文書検索支援プログラムにおけるタグ推定プログラムをＲＡＭ１１０上で実行することにより行われる。以下、図２のタグ推定装置１０とともに、図１９のフローチャートを用いてタグ推定処理を説明する。

まず、作成部１１は、使用者による操作部１５０の操作に基づいてタグ情報一覧表１０１を作成する（ステップＳ１）。また、抽出部１２は、使用者による操作部１５０の操作に基づいて、データベース記憶装置１７０に記憶された一部の文書ファイルを抽出する（ステップＳ２）。ステップＳ１とステップＳ２とは、いずれが先に実行されてもよい。

次に、教師データ取得部１３は、ステップＳ１で作成された作成部１１のタグ情報のラベルをステップＳ２で抽出された文書ファイルに付与することにより教師データを生成する（ステップＳ３）。続いて、構築部１４は、大規模コーパスを用いて予め学習が行われたＢＥＲＴを取得し、ＢＥＲＴにステップＳ３で生成された教師データを用いて学習させることによりタグ推定モデルを構築する（ステップＳ４）。

その後、推定部１５は、検索対象の文書ファイルが指定されたか否かを判定する（ステップＳ５）。後述する検索処理におけるステップＳ２３またはステップＳ３７が実行された場合、推定部１５は、文書ファイルが指定されたと判定する。文書ファイルが指定されない場合、推定部１５はステップＳ８に進む。

文書ファイルが指定された場合、推定部１５は、ステップＳ４で構築されたタグ推定モデルを用いて文書ファイルのタグ情報を推定する（ステップＳ６）。また、推定部１５は、ステップＳ６で推定されたタグ情報を検索装置２０に送信し（ステップＳ７）、ステップＳ８に進む。

ステップＳ８で、編集部１６は、いずれかの文書ファイルについてタグ情報の編集が要求されたか否かを判定する（ステップＳ８）。後述する検索処理におけるステップＳ３１が実行された場合、編集部１６は、タグ情報の編集が要求されたと判定する。タグ情報の編集が要求されない場合、編集部１６はステップＳ５に戻る。

タグ情報の編集が要求された場合、編集部１６は、要求に従って文書ファイルに付与されたタグ情報を編集することにより編集済みファイルＦ１を作成する（ステップＳ９）。また、編集部１６は、推定確率のしきい値に基づいて、他の編集前ファイルＦ２のタグ情報を編集する（ステップＳ１０）。

また、編集部１６は、ステップＳ１０で編集されたタグ情報をタグ推定装置１０に送信する（ステップＳ１１）。さらに、編集部１６は、ステップＳ１０における編集結果に基づいてステップＳ４で構築されたタグ推定モデルを更新し（ステップＳ１２）、ステップＳ５に戻る。ステップＳ１１とステップＳ１２とは、いずれが先に実行されてもよい。

（８）検索処理
図２０および図２１は、図２の検索装置２０による検索処理を示すフローチャートである。図２０および図２１の検索処理は、図１のＣＰＵ１３０がＲＯＭ１２０等に記憶された文書検索支援プログラムにおける検索プログラムをＲＡＭ１１０上で実行することにより行われる。以下、図２の検索装置２０とともに、図２０および図２１のフローチャートを用いて検索処理を説明する。

まず、インデックス取得部２１は、データベース記憶装置１７０をクロールすることにより、各文書ファイルのタグ情報を除くインデックス情報を取得する（ステップＳ２１）。次に、登録部２２は、ステップＳ２１で取得されたインデックス情報を検索部２４に登録する（ステップＳ２２）。

続いて、ファイル取得部２３は、ステップＳ２２で登録されたインデックス情報に基づいて、検索対象の文書ファイルを指定する（ステップＳ２３）。この場合、上記のタグ推定処理のステップＳ６，Ｓ７が順次実行されることにより、指定された文書ファイルのタグ情報が推定され、推定されたタグ情報が検索装置２０に送信される。

登録部２２は、タグ推定装置１０から送信されたタグ情報を受信する（ステップＳ２４）。また、登録部２２は、ステップＳ２３で指定された文書ファイルのインデックス情報の一部として、ステップＳ２４で受信されたタグ情報を検索部２４に登録する（ステップＳ２５）。その後、検索部２４は、図９の検索画面３０を表示部１６０に表示させる（ステップＳ２６）。

次に、検索部２４は、検索画面３０の入力欄３１に文字列が入力されたか否かを判定する（ステップＳ２７）。なお、ステップＳ２６で、検索部２４は、検索画面３０に代えて図１０の結果画面４０を表示部１６０に表示させてもよい。この場合、ステップＳ２７で、検索部２４は、結果画面４０の入力欄４１に文字列が入力されたか否かを判定する。

文字列が入力されない場合、検索部２４はステップＳ３０に進む。文字列が入力された場合、検索部２４は、入力された文字列に適合するタグ情報が付与された文書ファイルを検索する（ステップＳ２８）。続いて、検索部２４は、ステップＳ２８による検索結果を示す結果画面４０を表示部１６０に表示し（ステップＳ２９）、ステップＳ３０に進む。ステップＳ３０で、受付部２５は、ステップＳ２９で表示された結果画面４０からいずれかの文書ファイルについてタグ情報の編集の指示を受け付けた否かを判定する（ステップＳ３０）。

タグ情報の編集の指示を受け付けた場合、受付部２５は、当該文書ファイルに付与されたタグ情報の編集をタグ推定装置１０に要求する（ステップＳ３１）。この場合、上記のタグ推定処理のステップＳ９～Ｓ１１が順次実行されることにより、要求に従って、所定の文書ファイルに付与されたタグ情報が編集され、編集されたタグ情報が検索装置２０に送信される。

登録部２２は、タグ推定装置１０から送信された編集後のタグ情報を受信する（ステップＳ３２）。また、登録部２２は、ステップＳ２５で登録されたタグ情報をステップＳ３２で受信された編集後のタグ情報に更新し（ステップＳ３３）、ステップＳ２７に戻る。

ステップＳ３０で、タグ情報の編集の指示を受け付ない場合、受付部２５はステップＳ３４に進む。ステップＳ３４で、インデックス取得部２１は、データベース記憶装置１７０をクロールすることにより、データベース記憶装置１７０に新規の文書ファイルが追加されたか否かを判定する（ステップＳ３４）。新規の文書ファイルが追加されていない場合、インデックス取得部２１はステップＳ２７に戻る。

新規の文書ファイルが追加された場合、インデックス取得部２１は、当該新規の文書ファイルのタグ情報を除くインデックス情報を取得する（ステップＳ３５）。次に、登録部２２は、ステップＳ３６で取得されたインデックス情報を検索部２４に登録する（ステップＳ３６）。続いて、ファイル取得部２３は、ステップＳ３６で登録されたインデックス情報に基づいて、検索対象として新規の文書ファイルを指定し（ステップＳ３７）、ステップＳ２７に戻る。

（９）効果
本実施の形態に係る文書検索支援システム１００においては、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データが教師データ取得部１３により取得される。コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに教師データ取得部１３により取得された教師データが適用されることにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルが構築部１４により構築される。構築部１４により構築されたタグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報が登録部２２により付与される。

この文書検索支援システム１００においては、Ｔｒａｎｓｆｏｒｍｅｒ系の機械学習モデルであるＢＥＲＴにコーパスを用いて予め学習が行われるので、教師データ数が少ない場合でも、タグ情報を高い精度で推定可能なタグ情報推定モデルが構築される。この場合、大量の教師データを取得する必要がない。したがって、検索対象の複数の文書ファイルの全部ではなく、一部の文書ファイルを教師データとして構築されたタグ情報推定モデルを用いることにより、検索対象の複数の文書ファイルの各々にタグ情報を付与することができる。

使用者は、検索画面３０の入力欄３１または結果画面４０の入力欄４１所望の文字列を入力することにより、当該文字列に適合する文書ファイルを容易に利用することができる。また、使用者は、結果画面４０のタグ検索欄４３に表示された所望のタグ情報を選択することにより、当該タグ情報が付与された文書ファイルを容易に利用することができる。

また、使用者は、結果画面４０のファイル欄４２における編集アイコン４６を操作することにより、所望の文書ファイルに付与されたタグ情報の編集を容易に指示することができる。これにより、文書ファイルに適切でないタグ情報が付与された場合でも、文書ファイルに付与されたタグ情報を適切に修正することができる。さらに、タグ情報が編集された場合には、編集結果に基づいてタグ推定モデルが更新されるので、文書ファイルに適切なタグ情報を付与することが容易になる。

（１０）他の実施の形態
上記実施の形態において、文書検索支援システム１００は記憶部１４０、操作部１５０、表示部１６０およびデータベース記憶装置１７０を含むが、実施の形態はこれに限定されない。文書検索支援システム１００は、記憶部１４０、操作部１５０、表示部１６０およびデータベース記憶装置１７０と接続可能である限り、記憶部１４０、操作部１５０、表示部１６０およびデータベース記憶装置１７０の一部または全部を含まなくてもよい。

また、教師データ取得部１３は作成部１１により作成されたタグ情報一覧表１０１におけるいずれかのタグ情報を抽出部１２により抽出された一部の文書ファイルに付与することにより教師データを生成するが、実施の形態はこれに限定されない。教師データ取得部１３は、検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを外部の記憶装置等から取得してもよい。この場合、タグ推定装置１０は、作成部１１および抽出部１２を含まなくてもよい。

（１１）請求項の各構成要素と実施の形態の各部との対応関係
以下、請求項の各構成要素と実施の形態の各要素との対応の例について説明するが、本発明は下記の例に限定されない。請求項の各構成要素として、請求項に記載されている構成または機能を有する他の種々の要素を用いることもできる。

上記実施の形態においては、教師データ取得部１３が教師データ取得部の例であり、構築部１４が構築部の例であり、登録部２２が付与部の例であり、文書検索支援システム１００が文書検索支援システムの例である。作成部１１が作成部の例であり、抽出部１２が抽出部の例であり、結果画面４０が結果画面の例であり、検索部２４が検索部の例であり、受付部２５が受付部の例であり、編集部１６が編集部の例である。

１０…タグ推定装置，１１…作成部，１２…抽出部，１３…教師データ取得部，１４…構築部，１５…推定部，１６…編集部，２０…検索装置，２１…インデックス取得部，２２…登録部，２３…ファイル取得部，２４…検索部，２５…受付部，３０…検索画面，３１，４１…入力欄，４０…結果画面，４２…ファイル欄，４３…タグ検索欄，４４，４５，４７，５２，６３…ボタン，４６…編集アイコン，５０，６０…編集画面，５１，６２…タグ編集欄，５３…チェックボックス，６１…タブ，１００…文書検索支援システム，１０１…タグ情報一覧表，１０２，１０３…テーブル，１１０…ＲＡＭ，１２０…ＲＯＭ，１３０…ＣＰＵ，１４０…記憶部，１５０…操作部，１６０…表示部，１７０…データベース記憶装置，１８０…バス，Ｆ１…編集済みファイル，Ｆ２…編集前ファイル

Claims

検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する教師データ取得部と、
コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに前記教師データ取得部により取得された前記教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する構築部と、
前記構築部により構築された前記タグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する付与部とを備える、文書検索支援システム。
前記教師データは、説明変数である文書ファイルの内容と、目的変数である文書ファイルに付与されるタグ情報との関係を示し、
前記タグ推定モデルは、前記教師データに基づいて前記Ｔｒａｎｓｆｏｒｍｅｒ系の機械学習モデルが文書ファイルの内容と文書ファイルに付与されるタグ情報との関係を学習することにより構築される、請求項１記載の文書検索支援システム。
前記Ｔｒａｎｓｆｏｒｍｅｒ系の機械学習モデルは、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）である、請求項１または２記載の文書検索支援システム。
検索対象の複数の文書ファイルに付与されるべきタグ情報の候補の一覧を示すタグ情報一覧表を作成する作成部と、
検索対象の複数の文書ファイルから一部の文書ファイルを抽出する抽出部とをさらに備え、
前記教師データ取得部は、前記作成部により作成された前記タグ情報一覧表におけるいずれかのタグ情報を前記抽出部により抽出された一部の文書ファイルに付与することにより前記教師データを生成する、請求項１～３のいずれか一項に記載の文書検索支援システム。
前記付与部により検索対象の複数の文書ファイルの各々にタグ情報が付与された後、文字列の入力を受け付け、検索対象の複数の文書ファイルから前記文字列に適合する文書ファイルを検索し、検索結果を示す結果画面を出力する検索部をさらに備える、請求項１～４のいずれか一項に記載の文書検索支援システム。
前記検索部により出力された前記結果画面は、検索された文書ファイルに関連してアクセス可能なタグ情報をさらに表示し、
前記検索部は、前記結果画面に表示されたタグ情報のうち、使用者により選択されたタグ情報が付与された文書ファイルを検索し、検索結果を示す前記結果画面を出力する、請求項５記載の文書検索支援システム。
前記アクセス可能なタグ情報は、前記検索部により検索された文書ファイルに付与されたタグ情報と、当該タグ情報と同一の階層に属するタグ情報の候補とを含む、請求項６記載の文書検索支援システム。
検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付ける受付部と、
前記受付部に指示された文書ファイルのタグ情報を編集するとともに、他の検索対象の文書ファイルのタグ情報を編集する編集部とをさらに備え、
前記付与部は、文書ファイルに付与されたタグ情報を前記編集部により編集されたタグ情報に更新する、請求項５～７のいずれか一項に記載の文書検索支援システム。
前記編集部は、所定のしきい値に基づいて、選択的に検索対象の文書ファイルのタグ情報を編集する、請求項８記載の文書検索支援システム。
前記検索部により出力された前記結果画面は、使用者により操作されるＧＵＩ（Graphical User Interface）をさらに表示し、
前記受付部は、前記ＧＵＩが操作されることにより検索対象の複数の文書ファイルのいずれかに付与されたタグ情報の編集の指示を受け付ける、請求項８または９記載の文書検索支援システム。
前記編集部は、編集結果に基づいて前記構築部により構築された前記タグ推定モデルを更新する、請求項８～１０のいずれか一項に記載の文書検索支援システム。
検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得することと、
コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに取得された前記教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築することと、
構築された前記タグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与することとを含む、文書検索支援方法。
処理装置により実行可能な文書検索支援プログラムであって、
検索対象の複数の文書ファイルから抽出された一部の文書ファイルにタグ情報が付与された教師データを取得する処理と、
コーパスを用いて予め学習が行われたＴｒａｎｓｆｏｒｍｅｒ系の機械学習モデルに取得された前記教師データを適用することにより、文書ファイルに付与されるべきタグ情報を推定するためのタグ推定モデルを構築する処理と、
構築された前記タグ推定モデルを用いて、検索対象の複数の文書ファイルの各々にタグ情報を付与する処理とを、
前記処理装置に実行させる、文書検索支援プログラム。