JP7234078B2

JP7234078B2 - 検索支援システム、学習システム、検索支援方法、及びプログラム

Info

Publication number: JP7234078B2
Application number: JP2019158247A
Authority: JP
Inventors: 駿介川端; 雅之鈴木; 祐乃福島; 幸司加藤
Original assignee: Toppan Forms Co Ltd
Current assignee: Toppan Forms Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2023-03-07
Anticipated expiration: 2039-08-30
Also published as: JP2021036408A

Description

本発明は、検索支援システム、学習システム、検索支援方法、及びプログラムに関する。

検索キーワードに基づいて文書を検索する技術がある。例えば、特許文献１には、入力されたキーワードを、検索目的を示す語句に拡張し、検索キーワードの候補として表示する技術が開示されている。これにより、検索者は、検索目的を表現した検索キーワードを指定して検索を行うことができ、検索回数を増やすことなく、目的に合致する文書を検索することが可能である。

特開２００７－１３３６８８号公報

しかしながら、特許文献１の技術では、入力されたキーワードを元にした検索目的への拡張しか行われない。このため、入力されたキーワードと、検索対象とする文書に記載された語彙とが乖離していた場合、そもそも検索者が所望する文書を検索することが困難となってしまう。

特に、政府や役所など行政のホームページ等には、「働き方改革」など、その時節に応じたテーマに関する行政の施策や制度が掲載されている。このような、あるテーマに沿って展開される行政サービス等の内容は、国民や住民の理解が得られるようにするために、難しい法律用語や専門用語を用いずに、行政に特有のわかりやすい語彙を使用している場合がある。

一方、保険業や金融業など、各業界において各種の手続きを扱う会社では、それぞれの手続きに対して、規定文書、事務基準、検査基準、お知らせ、書式集、マニュアル集、内部統制文書等、数多くの文書が存在しており、その多くにはその業界特有の法律用語や専門用語が記載されている。

このため、各種の手続を行うにあたり、行政の施策や制度との関わりを確認しようとして、行政に特有の語彙をキーワードとして入力しても、規定文書等には、そのような特有の語彙がそもそも記載されていない。すなわち、検索キーワードと、検索対象とする文書に記載された語彙とに乖離があるため、検索者が所望する文書を検索することができないという問題があった。

本発明は、このような状況に鑑みてなされたもので、入力されたキーワードと、検索対象とする文書に記載された語彙とに乖離がある場合であっても、検索者が所望する内容が記載された文書を検索することができる検索支援システム、学習システム、検索支援方法、及びプログラムを提供する。

本発明の上述した課題を解決するために、本発明は、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得する入力キーワード取得部と、前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定する推定部と、前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う検索部と、を備える検索支援システムである。

また、本発明は、上述の検索支援システムにおいて、また、本発明は、上述の検索支援システムにおいて、前記コンテンツ語彙抽出部は、外部インターネットを介して任意に取得可能な前記文書コンテンツに記載された前記コンテンツ語彙を抽出し、前記文書語彙抽出部は、前記外部インターネットを介して任意に取得することができない環境にて管理されている前記検索対象文書の文書語彙を抽出する。

また、本発明は、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、を備える学習システムである。

また、本発明は、コンテンツ語彙抽出部が、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出し、文書語彙抽出部が、前記検索対象文書に記載された語彙である文書語彙を抽出し、学習済みモデル生成部が、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成し、入力キーワード取得部が、前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得し、推定部が、前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定し、検索部が、前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う検索支援方法である。

また、本発明は、コンピュータを、上記に記載の学習システムとして動作させるためのプログラムであって、前記コンピュータを前記学習システムが備える各部として機能させるためのプログラムである。

本発明によれば、入力されたキーワードと、検索対象とする文書に記載された語彙とに乖離がある場合であっても、検索者が所望する内容が記載された文書を検索することができる。

実施形態に係る検索支援システム１の構成の例を示すブロック図である。実施形態に係る学習サーバ２０の構成の例を示すブロック図である。実施形態に係るＷｅｂサーバ３０の構成の例を示すブロック図である。実施形態に係る推定サーバ４０の構成の例を示すブロック図である。実施形態に係る検索サーバ５０の構成の例を示すブロック図である。実施形態に係るコンテンツ語彙情報記憶部２６に記憶される文書語彙情報の構成の例を示す図である。実施形態に係る文書語彙情報記憶部２７に記憶されるコンテンツ語彙情報の構成の例を示す図である。実施形態に係る検索支援システム１が行う処理の流れ示すシーケンス図である。実施形態に係る検索支援システム１が行う処理の流れ示すシーケンス図である。

以下、発明の実施形態について図面を参照しながら説明する。

（実施形態）
まず、実施形態について説明する。
検索支援システム１は、検索者により入力されたキーワード（以下、入力キーワード）に基づいて、検索対象とする文書（以下、検索対象文書）から該当する文書を検索するシステムである。
以下では、検索対象文書が、保険業や金融業など、各業界において各種の手続きを扱う会社の内部文書である場合について説明する。すなわち、内部文書は「検索対象文書」の一例である。
この場合、検索対象文書は、外部インターネットを介して任意に取得することができないクローズドな環境にて管理されている文書、例えば、アクセス権限をもつユーザ（関連する業務を担当する部署の社員など）にのみ閲覧可能な文書群である。検索対象文書は、例えば、各種の手続きに関連する規定文書、事務基準、検査基準、お知らせ、書式集、マニュアル集、内部統制文書等である。
検索支援システム１には、検索対象文書に記載されている語彙が、検索可能なキーワード（以下、検索キーワード）として予め登録されている。検索支援システム１は、検索キーワードに基づいて、その検索キーワードが記載されている文書を、検索結果として提示する。

入力キーワードは、検索者により入力される任意の語彙である。このため、入力キーワードが、検索キーワードとは異なる語彙となる場合が考えられる。検索支援システム１は、入力キーワードが、検索キーワードに一致しない場合、一致する場合と同様な検索を行うことができない。

しかしながら、入力キーワードと検索キーワードとが一致しない（乖離している）場合であっても、検索者は、意味が似ているものの、内部文書に含まれない語彙、あるいは、業務に無関係に見えても、ある専門用語に関連する一般的な語彙を入力キーワードとして入力することで、何らかの内部文書を検索しようとしていると考えられる。例えば、検索対象文書に記載されている業界（例えば、保険業）ではあまり使われないが、異なる業界（例えば、行政）でよく使われる「働き方改革」とのキーワードを用いて、「時短勤務」や「時間外労働」に関する内容が記載された文書を検索しようとしていると考えられる。このような乖離が生じた場合であっても、入力キーワードに関係する内容が記載された内部文書が、検索結果として提示されることが望ましい。

この対策として、本実施形態では、入力キーワードが検索キーワードと乖離している場合に、入力キーワードから、入力キーワードに関係する検索キーワードを推定する。これにより、入力キーワードが検索キーワードと乖離している場合であっても、検索者が所望すると考えられる文書を、検索者に提示することが可能となり、検索の支援を行うことができる。

具体的に、検索支援システム１は、学習段階と実行段階の二つの処理フェーズを有する。
学習段階において、検索支援システム１は、入力キーワードから、入力キーワードに関係する検索キーワードを推定するための学習を行う。これにより、入力キーワードから検索キーワードを推定する学習済みモデルを生成する。
実行段階において、検索支援システム１は、学習段階で生成した学習済みモデルを用いて、入力キーワードから検索キーワードを推定する処理を行う。

以下では、学習段階において、検索支援システム１が、外部インターネットのウェブサイトに掲載された文書コンテンツ（以下、単に、コンテンツという）から得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習する場合を例に説明する。外部インターネットを介して取得可能なコンテンツは、クローズドな環境で管理されている検索対象文書とは異なる文書であって、任意のユーザによりアクセス可能なコンテンツである。外部インターネットを介して取得するコンテンツは、例えば、役所等の自治体のホームページに掲載された情報である。すなわち、外部インターネットのウェブサイトに掲載された文書は、「文書コンテンツ」の一例である。
しかしながら、これに限定されることはない。検索支援システム１は、少なくとも検索対象文書とは異なる文書から得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習すればよい。

以下では、学習段階を経た後に、実行段階の処理を行う場合を例に説明するが、これに限定されない。学習段階と実行段階とは、同時進行で処理されてもよいし、実行段階で得られた情報が、学習段階の処理に用いられてもよい。また、所定のタイミングで、学習段階の処理が繰り返し行われることにより、学習済みモデルが定期的に更新されてもよい。

図１は、実施形態に係る検索支援システム１の構成の例を示すブロック図である。検索支援システム１は、例えば、検索端末１０と、学習サーバ２０と、Ｗｅｂサーバ３０と、推定サーバ４０と、検索サーバ５０とを備える。検索支援システム１において、検索支援システム１の構成要素（検索端末１０と、学習サーバ２０と、Ｗｅｂサーバ３０と、推定サーバ４０と、検索サーバ５０）は、通信ネットワークＮＷを介して、互いに通信可能に接続される。

まず、学習段階について説明する。
学習サーバ２０は、学習済みモデルを生成するパーソナルコンピュータ、サーバ装置等である。学習済みモデルは、入力キーワード及び学習した内容に基づいて、その入力キーワードに関係する検索キーワードを推定し、推定結果を出力するモデルである。
学習サーバ２０は、外部インターネットを介して、Ｗｅｂサーバ３０から、特定のウェブサイトに掲載されたコンテンツに関する情報（以下、コンテンツ情報）を取得する。特定のウェブサイトは、少なくとも、検索対象文書が関係する業界や分野についての情報が記載されたコンテンツが掲載されるサイトであればよく、検索対象文書の内容に応じて任意に設定されてよい。
学習サーバ２０は、検索サーバ５０から検索対象文書に関する情報（以下、検索対象文書情報）を取得する。
学習サーバ２０は、コンテンツ情報と検索対象文書情報とに基づいて、コンテンツから得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習した学習済みモデルを生成する。

Ｗｅｂサーバ３０は、外部インターネットのＷｅｂサイトにコンテンツを掲載するサーバである。Ｗｅｂサーバ３０は、コンテンツ情報を記憶し、学習段階において、学習サーバ２０にコンテンツ情報を出力する。
検索サーバ５０は、検索を行うパーソナルコンピュータ、サーバ装置等である。検索サーバ５０は、検索対象文書情報を記憶し、学習段階において、学習サーバ２０に検索対象文書情報を学習サーバ２０に出力する。

次に実行段階について説明する。
検索端末１０は、検索者が検索を行う際に利用されるパーソナルコンピュータ、タブレット端末等である。検索端末１０は、検索者のキーボード操作等により入力された入力キーワードを取得する。検索端末１０は、取得した入力キーワードを推定サーバ４０に出力する。この応答として、検索端末１０は、推定サーバ４０から、入力キーワードに関係する検索キーワードを推定した推定結果を取得する。
検索端末１０は、推定結果を表示し、検索者に入力キーワードに代えて検索キーワードでの検索を行う旨の確認を促す。検索端末１０は、検索者より確認された結果を取得する。検索端末１０は、検索者より確認（確定）された検索キーワードを、検索サーバ５０に出力する。この応答として、検索端末１０は、検索サーバ５０から、検索キーワードに応じた文書を、検索結果として取得する。検索端末１０は、取得した検索結果を表示する。

学習サーバ２０は、生成した学習済みモデルを示す情報を、推定サーバ４０に出力する。
推定サーバ４０は、入力キーワードに関係する検索キーワードを推定するパーソナルコンピュータ、サーバ装置等である。推定サーバ４０は、検索端末１０から入力キーワードを取得する。推定サーバ４０は、学習サーバ２０から学習済みモデルを取得する。推定サーバ４０は、取得した入力キーワード、及び学習済みモデルを用いて、入力キーワードに関係する検索キーワードを推定する。推定サーバ４０は、推定結果を、検索端末１０に出力する。
検索サーバ５０は、検索端末１０から、検索キーワードを取得する。検索サーバ５０は、検索対象文書から、検索キーワードに基づいて検索した文書を示す情報を、検索結果として、検索端末１０に出力する。

図１に示すように、検索端末１０は、例えば、入力部１１と、推定結果取得部１２と、検索結果取得部１３と、表示部１４とを備える。

入力部１１は、キーワードやマウスなどの入力装置と接続し、当該入力装置を介して入力された情報を取得する。入力部１１が取得する情報は、例えば、検索者により入力される、入力キーワード、及び、入力キーワードに代えて検索キーワードによる検索を行う場合の、その確認の結果を示す情報である。
推定結果取得部１２は、入力キーワードを推定サーバ４０に出力し、その応答として、入力キーワードに関係する検索キーワードを推定した推定結果を取得する。
検索結果取得部１３は、検索者により確認された検索キーワードを、検索サーバ５０に出力する。その応答として、検索結果取得部１３は、検索サーバ５０から検索結果を取得する。
表示部１４は、推定結果取得部１２により取得された推定結果を表示する。表示部１４は、検索結果取得部１３により取得された検索結果を表示する。

図２は、実施形態に係る学習サーバ２０の構成の例を示すブロック図である。
図２に示すように、学習サーバ２０は、例えば、Ｗｅｂコンテンツ情報取得部２１と、文書情報取得部２２と、語彙抽出部２３と、特徴量抽出部２４と、学習済みモデル生成部２５と、コンテンツ語彙情報記憶部２６と、文書語彙情報記憶部２７とを備える。ここで、語彙抽出部２３は、「コンテンツ語彙抽出部」の一例である。また、語彙抽出部２３は、「文書語彙抽出部」の一例である。

Ｗｅｂコンテンツ情報取得部２１は、コンテンツ情報を取得する。コンテンツ情報は、検索対象文書とは異なる文書（コンテンツ）に記載された内容に関する情報であって、例えば、コンテンツに記載された内容そのもの、コンテンツのタイトル、目次、各章における記載内容等を示す情報である。また、コンテンツに、そのコンテンツが作成された時期や、作成者、ＩＳＢＮ（International Standard Book Number）等が付されている場合には、コンテンツ情報として、これらの情報が含まれていてもよい。

文書情報取得部２２は、検索対象文書情報を取得する。検索対象文書情報は、検索対象文書に記載された内容に関する情報であって、情報の具体的な内容は、コンテンツ情報と同様であってよく、例えば、文書に記載された内容そのもの、タイトル、目次、各章における記載内容等の他、その文書が作成された時期や、作成者、ＩＳＢＮ等が付されている場合における、これらの情報である。

語彙抽出部２３は、コンテンツ情報に基づいて、コンテンツに記載された語彙（コンテンツ語彙）を抽出する。また、語彙抽出部２３は、検索対象文書情報に基づいて、検索対象文書に記載された語彙（文書語彙）を抽出する。語彙抽出部２３は、例えば、文書の全文又は一部から、文書に記載された語彙を抽出する。文書の全文から語彙を抽出するか、一部から語彙を抽出するかは、検索対象文書の内容や量、検索サーバの処理能力等に応じて任意に設定されてよい。

特徴量抽出部２４は、コンテンツ情報、及び検索対象文書情報に基づいて、文書に対する自然言語処理を施すことにより、その文書に含まれる語彙の特徴量を抽出する。ここでの自然言語処理とは、形態素解析、構文解析、意味解析、あるいは文脈解析を含む処理であって、例えば、ｆａｓｔＴｅｘｔである。語彙の特徴量とは、コンテンツ語彙、又は文書語彙（以下、コンテンツ語彙等）から、その語彙における任意の特徴を数値化（高次のベクトル表現、或いは、分散表現などともいう）したものである。語彙の特徴とは、コンテンツ語彙等の、その記載された内容に基づく特徴であって、例えば、「保険に加入すれば安心」という文章が記載されていた場合、「保険」という語彙は、「加入するもの」、「安心さ」という特徴を有するとみなされる。この場合、例えば、「保険に加入する」という旨の文章が繰り返されている度合い、或いは、「保険」と、「加入」との単語が近い位置に配置されている度合い等に応じて、「保険」という語彙における、「加入するもの」という特徴を数値化したものが特徴量となる。特徴量抽出部２４は、コンテンツ情報から抽出したコンテンツの特徴量を、コンテンツ語彙情報として、コンテンツ語彙情報記憶部２６に記憶させる。特徴量抽出部２４は、検索対象文書情報から抽出した検索対象文書の特徴量を、文書語彙情報として、文書語彙情報記憶部２７に記憶させる。

学習済みモデル生成部２５は、語彙抽出部２３により抽出された、コンテンツ語彙等の特徴量を用いて、機械学習を実行することにより、検索対象文書語彙のそれぞれの類似度合いを学習した学習済みモデルを生成する。学習済みモデルは、例えば、語彙の特徴量に基づいて、語彙同士の類似度合いを算出する。ここでの類似度合いは、互いの語彙における所定の特徴を数値化した値の近さ（相関量）を示す度合いであり、例えば、語彙の特徴に基づいて分散表現される、高次元のベクトル空間における距離である。学習済みモデルは、ベクトル空間における語彙同士の距離が、所定の閾値より小さい場合、その語彙同士が類似すると判定する。一方、学習済みモデルは、ベクトル空間における語彙同士の距離が、所定の閾値より大きい場合、その語彙同士が類似しないと判定する。

コンテンツ語彙情報記憶部２６は、コンテンツ語彙情報を記憶する。コンテンツ語彙情報は、特徴量抽出部２４により抽出されたコンテンツ語彙の特徴量に関する情報である。コンテンツ語彙情報は、例えば、コンテンツを一意に識別するコンテンツＩＤと、コンテンツＩＤにて特定されるコンテンツに記載されている語彙から抽出された、特徴ごとの特徴量とが対応付けられた情報である（図６参照）。

文書語彙情報記憶部２７は、文書語彙情報を記憶する。文書語彙情報は、特徴量抽出部２４により抽出された文書語彙の特徴量に関する情報である。文書語彙情報は、例えば、検索対象文書を一意に識別する文書ＩＤと、文書ＩＤにて特定される検索対象文書に記載されている語彙から抽出された、特徴ごとの特徴量とが対応付けられた情報である（図７参照）。

図３は、実施形態に係るＷｅｂサーバ３０の構成の例を示すブロック図である。
図３に示すように、Ｗｅｂサーバ３０は、例えば、コンテンツ取得部３１と、コンテンツ配信部３２と、コンテンツ記憶部３３とを備える。
コンテンツ取得部３１は、コンテンツを示す情報を取得する。コンテンツを示す情報は、Ｗｅｂサイトにコンテンツを掲載するための情報であって、例えば、ＨＴＭＬ言語やＪａｖａＳｃｒｉｐｔ（登録商標）言語で記述されたＨＴＭＬ文書である。
コンテンツ配信部３２は、コンテンツ取得部３１により取得されたコンテンツを示す情報を配信する。これにより、Ｗｅｂブラウザ機能を有するパーソナルコンピュータ、スマートフォン等が、Ｗｅｂサーバ３０のサイトにアクセスすると、コンテンツを閲覧することができる。
コンテンツ記憶部３３は、コンテンツ取得部３１により取得されたコンテンツを示す情報を記憶する。

図４は、実施形態に係る推定サーバ４０の構成の例を示すブロック図である。
図４に示すように、推定サーバ４０は、例えば、入力キーワード取得部４１と、入力キーワード判定部４２と、検索キーワード推定部４３と、推定結果出力部４４と、学習済みモデル記憶部４５とを備える。ここで、検索キーワード推定部４３は、「推定部」の一例である。
入力キーワード取得部４１は、検索端末１０から、検索者により入力された入力キーワードを取得し、取得した入力キーワードを入力キーワード判定部４２に出力する。

入力キーワード判定部４２は、入力キーワード取得部４１から取得した入力キーワードに基づいて、入力キーワードに関連する検索キーワードを、検索キーワード推定部４３に推定させるか否かを判定する。入力キーワード判定部４２は、例えば、入力キーワードが、検索キーワードの何れかと一致している場合、検索キーワードを推定させないと判定する。
一方、入力キーワード判定部４２は、入力キーワードが、検索キーワードの何れかと一致していない（乖離している）場合、検索キーワードを推定させると判定する。

入力キーワード判定部４２は、検索キーワードを推定させないと判定した場合、入力キーワード取得部４１から取得した入力キーワードを推定結果出力部４４に出力する。
一方、入力キーワード判定部４２は、検索キーワードを推定させると判定した場合、入力キーワード取得部４１から取得した入力キーワードを検索キーワード推定部４３に出力する。

検索キーワード推定部４３は、入力キーワード判定部４２から取得した入力キーワード、及び学習済みモデルを基づいて、当該入力キーワードに関連する検索キーワードを推定する。学習済みモデルは、学習サーバ２０により生成され、学習済みモデル記憶部４５に記憶されたモデルである。
検索キーワード推定部４３は、入力キーワードに相当する語彙に類似する語彙（以下、類似語彙という）であって、検索対象文書に記載されている語彙を、入力キーワードに関連する検索キーワードとして推定する。検索キーワード推定部４３は、学習済みモデルを用いて、ベクトル空間において、入力キーワードに相当する語彙との距離が所定の閾値より小さい語彙を、類似語彙として抽出する。検索キーワード推定部４３は、抽出した類似語彙から、検索対象文書に記載されている語彙を選択する。検索キーワード推定部４３は、選択した語彙を、入力キーワードに関連する検索キーワードを推定した推定結果とする。

推定結果出力部４４は、検索キーワード推定部４３による推定が行われた場合、その推定結果を、検索端末１０に出力する。
一方、推定結果出力部４４は、検索キーワード推定部４３による推定が行われなかった場合、入力キーワード判定部４２から取得した入力キーワードを、検索端末１０に出力する。

学習済みモデル記憶部４５は、学習サーバ２０により生成された学習済みモデルを示す情報を記憶する。学習済みモデルを示す情報は、例えば、複数の語彙におけるベクトル空間上の距離に基づいて、語彙が互いに類似しているか否かを判定するアルゴリズムである。或いは、学習済みモデルを示す情報は、コンテンツ、及び検索対象文書のそれぞれに記載された語彙ごとのベクトル空間における位置を示す情報であってもよいし、そのベクトル空間における位置に基づいて判定された、語彙が互いに類似しているか否かを示す判定結果が記憶されたテーブルであってもよい。

図５は、実施形態に係る検索サーバ５０の構成の例を示すブロック図である。
図５に示すように、検索サーバ５０は、例えば、検索キーワード取得部５１と、検索部５２と、検索結果出力部５３と、検索対象文書情報記憶部５４とを備える。

検索キーワード取得部５１は、検索端末１０から、検索キーワードを取得し、取得した検索キーワードを検索部５２に出力する。ここでの検索キーワードは、検索者により入力された入力キーワードが検索キーワードの何れかと一致していた場合には、入力キーワードそのものである。一方、検索者により入力された入力キーワードが検索キーワードと乖離していた場合、ここでの検索キーワードは、推定サーバ４０により推定された、入力キーワードに関連する検索キーワードである。

検索部５２は、検索キーワード取得部５１から取得した検索キーワードに基づいて、検索対象文書から該当する文書（該当文書）を検索する。検索部５２は、例えば、検索対象文書のうち、検索キーワードが記載された文書を該当文書とする。或いは、検索部５２は、検索キーワードが記載された文書の数が所定の閾値以上である場合には、検索キーワードが記載された回数が所定の閾値以上であるもの、又は、文書にとっての検索キーワードの重要度が所定の閾値以上であるものを該当文書とするようにしてもよい。なお、ここでいう重要度とは、その文書における該当キーワードがよく頻出し、かつその文書に対して特徴的である度合いを指す。

検索結果出力部５３は、検索部５２により検索された該当文書を示す情報を、検索結果として検索端末１０に出力する。
検索対象文書情報記憶部５４は、検索対象文書情報を記憶する。検索対象文書情報は、検索対象文書に関する情報であって、例えば、検索対象文書を一意に識別する文書ＩＤと、検索対象文書のタイトル、ページ数、及び記載された内容等の属性情報とが対応付けられた情報である。

図６は、実施形態に係るコンテンツ語彙情報記憶部２６に記憶される情報の構成の例を示す図である。コンテンツ語彙情報は、例えば、コンテンツＩＤと、タイトルと、語彙と、特徴量とを備える。コンテンツＩＤは、コンテンツを一意に識別する識別情報である。タイトルは、コンテンツの題名（タイトル）である。語彙は、コンテンツから抽出された語彙である。特徴量は、語彙の特徴量であり、例えば、特徴１、特徴２…のように、特徴ごとにその特徴量が示される。この例では、コンテンツＩＤ（１００１）で識別されるコンテンツが、「○○市役所働き方改革推進プラン」であることを示している。

図７は、実施形態に係る文書語彙情報記憶部２７に記憶される情報の構成の例を示す図である。文書語彙情報は、例えば、文書ＩＤと、タイトルと、語彙と、特徴量とを備える。文書ＩＤは、検索対象文書を一意に識別する識別情報である。タイトルは、検索対象文書の題名（タイトル）である。語彙は、検索対象文書から抽出された語彙である。特徴量は、語彙の特徴量であり、例えば、特徴１、特徴２…のように、特徴ごとにその特徴量が示される。この例では、文書ＩＤ（２００１）で識別される検索対象文書が、「○○マニュアル」であることを示している。

ここで、図８、及び図９を用いて、検索支援システム１が行う処理の流れを説明する。
図８は、学習段階の処理の流れ示すシーケンス図である。
図９は、実行段階の処理の流れ示すシーケンス図である。

図８に示すように、学習段階において、Ｗｅｂサーバ３０は、コンテンツを配信する（ステップＳ１０）。学習サーバ２０は、Ｗｅｂサーバ３０に掲載されたコンテンツ情報を取得する（ステップＳ１１）。学習サーバ２０は、取得したコンテンツ情報に基づいて、コンテンツ語彙を抽出し（ステップＳ１２）、抽出した語彙の特徴量を抽出する（ステップＳ１３）。学習サーバ２０は、抽出した語彙の特徴量を、コンテンツ語彙情報記憶部２６に記憶する（ステップＳ１４）。
学習サーバ２０は、ステップＳ１００（ステップＳ１１～Ｓ１４）に示す処理を繰り返し行うことにより、所定のＷｅｂサイトに掲載されたコンテンツのそれぞれから、語彙とその語彙の特徴量を抽出し、所定数の語彙についてその特徴量を取得する。

一方、検索サーバ５０は、検索対象文書情報記憶部５４に検索対象文書情報を記憶することにより、検索に用いる検索対象文書を登録する（ステップＳ１５）。学習サーバ２０は、検索サーバ５０から検索対象文書情報を取得する（ステップＳ１６）。学習サーバ２０は、取得した検索対象文書情報に基づいて、文書語彙を抽出し（ステップＳ１７）、抽出した語彙の特徴量を抽出する（ステップＳ１８）。学習サーバ２０は、抽出した語彙の特徴量を、文書語彙情報記憶部２７に記憶する（ステップＳ１９）。

学習サーバ２０は、コンテンツ語彙情報記憶部２６に記憶された情報、及び文書語彙情報記憶部２７に記憶された情報に基づいて、検索キーワード以外の語彙（入力キーワードとして想定される語彙）と、検索キーワードとの対応関係を学習モデルに学習させることにより、学習済みモデルを生成する（ステップＳ２０）。

図９に示すように、実行段階において、推定サーバ４０は、学習済みモデルを記憶する（ステップＳ３０）。学習済みモデルを記憶する処理は、例えば、学習段階においてステップＳ２０に示す処理が実行された後、推定サーバ４０が、学習済みモデルを示す情報を、学習サーバ２０から取得し、取得した情報を記憶することにより行う。

検索端末１０は、検索者により入力キーワードが入力（入力操作）されると、その入力キーワードを取得し（ステップＳ３１）、取得した業務情報を推定サーバ４０に出力する。
推定サーバ４０は、検索端末１０から入力キーワードを取得し、取得したキーワードに基づいて、検索キーワードを推定するか否かを判定する（ステップＳ３２）。推定サーバ４０は、検索キーワードを推定する場合、入力キーワード、及び学習済みモデルに基づいて、検索キーワードを推定する（ステップＳ３３）。一方、推定サーバ４０は、検索キーワードを推定しない場合、入力キーワードを検索キーワードとする。推定サーバ４０は、推定した検索キーワード（又は、入力キーワードと同じ検索キーワード）を検索端末１０に出力する（ステップＳ３４）。

検索端末１０は、推定サーバ４０から取得した検索キーワードを表示させ、検索者に確認を促す。検索端末１０は、検索者により確認結果が入力（確定操作）されると、その旨を取得し（ステップＳ３５）、取得した結果に基づいて、検索キーワードを検索サーバ５０に出力する。

なお、このステップＳ３５において、検索者により検索キーワードによる検索が了承されなかった場合、検索端末１０は、その旨を推定サーバ４０に出力し、推定サーバ４０から再度の推定結果を取得するようにしてもよい。
この場合、推定サーバ４０は、前回とは異なる方法にて検索キーワードを推定する。例えば、推定サーバ４０は、前回推定した第１ベクトル空間とは異なる特徴量の組合せにより構成した第２のベクトル空間における語彙同士の距離に基づいて、再度、類似語彙を抽出する。検索キーワード推定部４３は、抽出した類似語彙のうち、検索対象文書に記載されている語彙を、推定結果とする。

検索サーバ５０は、検索端末１０から検索キーワードを取得し、取得した検索キーワードに応じた検索を行う（ステップＳ３６）。検索サーバ５０は、検索結果を検索端末１０に出力する。
検索端末１０は、検索サーバ５０から検索結果を取得し（ステップＳ３７）、取得した検索結果を表示する。

上述したフローでは、ステップＳ３２に示す処理による判定（検索キーワードを推定するか否か）の判定結果に関わらず、推定サーバ４０が、検索端末１０に検索キーワードを出力したが、これに限定されない。推定サーバ４０は、検索キーワードを推定しない、つまり、入力キーワードが、検索キーワードの何れかに一致する場合には、その入力を検索サーバ５０に出力するようにしてもよい。これにより、入力キーワードが検索キーワードの何れかに一致し、検索キーワードを推定する必要がない場合には、検索者による確認（確定）の操作を省略して、検索者の手間を低減させることが可能である。

以上説明したように、実施形態の検索支援システム１は、語彙抽出部２３と、学習済みモデル生成部２５と、入力キーワード取得部４１と、検索キーワード推定部４３と、検索部５２とを備える。語彙抽出部２３は、検索対象文書とは異なる文書コンテンツ（例えば、Ｗｅｂサーバ３０により配信されたコンテンツ）からコンテンツ語彙を抽出する。語彙抽出部２３は、検索対象文書から文書語彙を抽出する。学習済みモデル生成部２５は、コンテンツ語彙と、文書語彙との類似度合いを学習した学習済みモデルを生成する。入力キーワード取得部４１は、検索者（「検索対象文書を検索する検索ユーザ」の一例）により入力された入力キーワードを取得する。検索キーワード推定部４３は、入力キーワード、及び学習済みモデルを用いて、入力キーワードに対応する文書語彙を、検索に用いる検索キーワードとして推定する。検索部５２は、検索キーワード推定部４３により推定された検索キーワードに基づいて、検索対象文書から該当する文書の検索を行う。

これにより、実施形態の検索支援システム１は、入力キーワードに基づいて、入力キーワードに類似する文書語彙を推定し、推定した文書語彙を検索キーワードに用いることができる。したがって、入力されたキーワードと、検索対象とする文書に記載された語彙とに乖離がある場合であっても、検索者が所望する内容が記載された文書を検索することができる。

実施形態の検索支援システム１を学習システムとして機能させてもよい。この場合、学習システムは、語彙抽出部２３と、学習済みモデル生成部２５とを備える。これにより、学習システムは、コンテンツ語彙と、文書語彙との関係を学習した学習済みモデルを生成することができき、上述した効果と同様の効果を奏する。

上述したように、本実施形態において、コンテンツは、検索対象文書が関係する業界や分野についての情報が記載されたコンテンツである。このため、コンテンツ語彙と、文書語彙とは相関関係を有する。また、検索者は、検索対象文書から所望の文書を検索する。したがって、検索者により入力される入力キーワードと、コンテンツ語彙と、文書語彙とは密接な関係を有する。すなわち、コンテンツ語彙と、文書語彙との関係を学習した学習済みモデルを用いて推定を行うことで、入力キーワードに関連（類似）する検索キーワードを精度よく推定することが可能である。

上述した実施形態における検索支援システム１の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…検索支援システム
１０…検索端末
１１…入力部
１２…推定結果取得部
１３…検索結果取得部
１４…表示部
２０…学習サーバ
２１…Ｗｅｂコンテンツ情報取得部
２２…文書情報取得部
２３…語彙抽出部
２４…特徴量抽出部
２５…学習済みモデル生成部
３０…Ｗｅｂサーバ
３１…コンテンツ取得部
３２…コンテンツ配信部
３３…コンテンツ記憶部
４０…推定サーバ
４１…入力キーワード取得部
４２…入力キーワード判定部
４３…検索キーワード推定部
４４…推定結果出力部
４５…学習済みモデル記憶部
５０…検索サーバ
５１…検索キーワード取得部
５２…検索部
５３…検索結果出力部
５４…検索対象文書情報記憶部

Claims

検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、
前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、
前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、
前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得する入力キーワード取得部と、
前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定する推定部と、
前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う検索部と、
を備える検索支援システム。
前記コンテンツ語彙抽出部は、外部インターネットを介して任意に取得可能な前記文書コンテンツに記載された前記コンテンツ語彙を抽出し、
前記文書語彙抽出部は、前記外部インターネットを介して任意に取得することができない環境にて管理されている前記検索対象文書の文書語彙を抽出する、
請求項１に記載の検索支援システム。
検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、
前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、
前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、
を備える学習システム。
コンテンツ語彙抽出部が、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出し、
文書語彙抽出部が、前記検索対象文書に記載された語彙である文書語彙を抽出し、
学習済みモデル生成部が、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成し、
入力キーワード取得部が、前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得し、
推定部が、前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定し、
検索部が、前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う、
検索支援方法。
コンピュータを、請求項３に記載の学習システムとして動作させるためのプログラムであって、前記コンピュータを前記学習システムが備える各部として機能させるためのプログラム。