JP7234079B2 - 検索支援システム、検索支援方法、及びプログラム - Google Patents

検索支援システム、検索支援方法、及びプログラム Download PDF

Info

Publication number
JP7234079B2
JP7234079B2 JP2019158248A JP2019158248A JP7234079B2 JP 7234079 B2 JP7234079 B2 JP 7234079B2 JP 2019158248 A JP2019158248 A JP 2019158248A JP 2019158248 A JP2019158248 A JP 2019158248A JP 7234079 B2 JP7234079 B2 JP 7234079B2
Authority
JP
Japan
Prior art keywords
search
document
vocabulary
content
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019158248A
Other languages
English (en)
Other versions
JP2021036409A (ja
Inventor
駿介 川端
雅之 鈴木
祐乃 福島
幸司 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Forms Co Ltd
Original Assignee
Toppan Forms Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Forms Co Ltd filed Critical Toppan Forms Co Ltd
Priority to JP2019158248A priority Critical patent/JP7234079B2/ja
Publication of JP2021036409A publication Critical patent/JP2021036409A/ja
Application granted granted Critical
Publication of JP7234079B2 publication Critical patent/JP7234079B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索支援システム、検索支援方法、及びプログラムに関する。
検索キーワードに基づいて文書を検索する技術がある。例えば、特許文献1には、入力されたキーワードを、検索目的を示す語句に拡張し、検索キーワードの候補として表示する技術が開示されている。これにより、検索者は、検索目的を表現した検索キーワードを指定して検索を行うことができ、検索回数を増やすことなく、目的に合致する文書を検索することが可能である。
特開2007-133688号公報
しかしながら、検索目的に合致する文書であっても、必ずしも検索者が所望する文書であるとは限らない。検索目的が同じであっても、検索者の立場により、その検索者が所望する文書が異なるためである。例えば、検索目的を示す語句が「自動車 保険 加入」である場合、自動車保険に加入したい一般ユーザであれば、自動車保険を取り扱っている保険会社の所在地などが記載された文書が検索できることが望ましい。一方、保険会社等における自動車保険の担当者であれば、保険加入の手続きを行うための要件、具体的な手続きの内容、報告義務の有無など記載された文書が検索できることが望ましい。
特に、保険業や金融業など、各業界において各種の手続きを扱う会社では、それぞれの手続きに対して、規定文書、事務基準、検査基準、お知らせ、書式集、マニュアル集、内部統制文書等、数多くの文書が存在する。このため、手続を行うにあたり、その手続き名称などを検索目的に指定して検索した場合、数多くの文書が該当することになる。このような数多くの文書から、検索者が所望する内容が記載された文書を選択するには、全ての文書を詳細に読みこまなければならず、多大な労力が必要となる問題があった。
本発明は、このような状況に鑑みてなされたもので、検索結果に数多くの文書が存在する場合であっても、検索者が所望する内容が記載された文書を容易に選択することができる検索支援システム、検索支援方法、及びプログラムを提供する。
本発明の上述した課題を解決するために、本発明は、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する第1学習済みモデル生成部と、検索ユーザの業務に関する業務情報を取得する業務情報取得部と、前記検索ユーザが検索に用いた検索キーワード、及び前記第1学習済みモデルを用いて前記検索キーワードから推定される前記文書語彙である関連キーワードに基づいて、前記検索対象文書から検索された文書を示す検索結果を取得する検索結果取得部と、前記検索結果に基づいて前記検索ユーザにより選択された文書を示す選択実績を取得する選択実績取得部と、前記業務情報及び前記検索結果と、前記選択実績を対応づけた学習用のデータセットを学習モデルに学習させることにより、前記業務情報及び前記検索結果と前記選択実績との関係を学習した第2学習済みモデルを生成する第2学習済みモデル生成部と、推定の対象とする対象ユーザの前記業務情報、及び前記対象ユーザが検索に用いた検索キーワードに応じた前記検索結果と、前記第2学習済みモデルとを用いて、前記検索結果から、前記対象ユーザにより選択される選択文書を推定する選択文書推定部と、を備える検索支援システムである。
また、本発明は、上述の検索支援システムにおいて、前記コンテンツ語彙抽出部は、外部インターネットを介して任意に取得可能な前記文書コンテンツに記載された前記コンテンツ語彙を抽出し、前記文書語彙抽出部は、前記外部インターネットを介して任意に取得することができない環境にて管理されている前記検索対象文書の文書語彙を抽出する。
また、本発明は、上述の検索支援システムにおいて、前記選択文書推定部により推定された推定結果に応じて、前記検索結果に対応する文書を表示させる順序を制御する表示制御部を、更に備える。
また、本発明は、コンテンツ語彙抽出部が、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出し、文書語彙抽出部が、前記検索対象文書に記載された語彙である文書語彙を抽出し、第1学習済みモデル生成部が、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成し、業務情報取得部が、検索ユーザの業務に関する業務情報を取得し、検索結果取得部が、前記検索ユーザが検索に用いた検索キーワード、及び前記第1学習済みモデルを用いて前記検索キーワードから推定される前記文書語彙である関連キーワードに基づいて、前記検索対象文書から検索された文書を示す検索結果を取得し、選択実績取得部が、前記検索結果に基づいて前記検索ユーザにより選択された文書を示す選択実績を取得し、第2学習済みモデル生成部が、前記業務情報及び前記検索結果と、前記選択実績を対応づけた学習用のデータセットを学習モデルに学習させることにより、前記業務情報及び前記検索結果と前記選択実績との関係を学習した第2学習済みモデルを生成し、業務情報取得部が、推定の対象とする対象ユーザの前記業務情報を取得し、選択文書推定部が、推定の対象とする対象ユーザの前記業務情報、及び前記対象ユーザが検索に用いた検索キーワードに応じた前記検索結果と、前記第2学習済みモデルとを用いて、前記検索結果から、前記対象ユーザにより選択される選択文書を推定する、検索支援方法である。
また、本発明は、コンピュータを、上記に記載の検索支援システムとして動作させるためのプログラムであって、前記コンピュータを前記検索支援システムが備える各部として機能させるためのプログラムである。
本発明によれば、検索結果に数多くの文書が存在する場合であっても、検索者が所望する内容が記載された文書を容易に選択することができる。
実施形態に係る検索支援システム1の構成の例を示すブロック図である。 実施形態に係る第1学習サーバ20の構成の例を示すブロック図である。 実施形態に係る検索サーバ30の構成の例を示すブロック図である。 実施形態に係る第2学習サーバ40の構成の例を示すブロック図である。 実施形態に係る推定サーバ50の構成の例を示すブロック図である。 実施形態に係るWebサーバ60の構成の例を示すブロック図である。 実施形態に係る業務情報記憶部16に記憶される業務情報の構成の例を示す図である。 実施形態に係るコンテンツ語彙情報記憶部26に記憶される情報の構成の例を示す図である。 実施形態に係る文書語彙情報記憶部27に記憶される情報の構成の例を示す図である。 実施形態に係る検索支援システム1が行う処理の流れ示すシーケンス図である。 実施形態に係る検索支援システム1が行う処理の流れ示すシーケンス図である。 実施形態に係る検索支援システム1が行う処理の流れ示すシーケンス図である。
以下、発明の実施形態について図面を参照しながら説明する。
検索支援システム1は、検索された文書が、検索者が所望する文書か否かを推定することにより、検索の支援を行うシステムである。検索支援システム1は、例えば、保険業や金融業など、各業界において各種の手続きを扱う会社などに設置される。
検索支援システム1には、検索対象とする文書(検索対象文書)を記憶したデータベース(後述する検索対象文書情報記憶部35に相当)有することを前提とする。
以下では、検索対象文書が、保険業や金融業など、各業界において各種の手続きを扱う会社の内部文書である場合について説明する。すなわち、内部文書は「検索対象文書」の一例である。
この場合、検索対象文書は、外部インターネットを介して任意に取得することができないクローズドな環境にて管理されている文書、例えば、アクセス権限をもつユーザ(関連する業務を担当する部署の社員など)にのみ閲覧可能な文書群である。検索対象文書は、例えば、各種の手続きに関連する規定文書、事務基準、検査基準、お知らせ、書式集、マニュアル集、内部統制文書等である。
検索支援システム1には、学習段階と実行段階の二つの処理フェーズがある。
学習段階において、検索支援システム1は、検索者により入力される検索キーワードが、検索対象文書に記載されている語彙と一致しない(乖離する)場合に備えて、検索キーワードから関連キーワードを推定するための学習をしたモデル(後述する、第1学習済みモデル)を生成する。関連キーワードは、検索キーワードに関連する語彙であって、検索対象文書に記載されている語彙である。
検索キーワードと関連キーワードとが一致しない(乖離している)場合であっても、検索者は、意味が似ているものの、内部文書に含まれない語彙、あるいは、業務に無関係に見えても、ある専門用語に関連する一般的な語彙を検索キーワードとして入力することで、何らかの内部文書を検索しようとしていると考えられるためである。例えば、検索対象文書に記載されている業界(例えば、保険業)ではあまり使われないが、異なる業界(例えば、行政)でよく使われる「働き方改革」とのキーワードを用いて、「時短勤務」や「時間外労働」に関する内容が記載された文書を検索しようとしていると考えられる。このような乖離が生じた場合であっても、検索キーワードに関係する内容が記載された内部文書が、検索結果として提示されることが望ましい。
また、学習段階において、検索支援システム1は、検索結果として、複数の検索対象文書が該当する場合に備えて、検索者の業務から、検索者が複数の検索対象文書から選択する文書を推定するための学習をしたモデル(後述する、第2学習済みモデル)を生成する。
実行段階において、検索支援システム1は、学習段階で生成した第1学習済みモデルを用いて、検索キーワードから関連キーワードを推定する。検索支援システム1は、検索対象文書から、検索キーワード、又は推定した関連キーワードが記載されている文書を検索する。そして、検索支援システム1は、検索した文書が複数ある場合、検索者の業務に基づいて、検索者が複数の検索対象文書から選択する文書を推定する。
このように、検索支援システム1では、学習段階において、第1学習済みモデルが生成されることにより、実行段階において検索キーワードから関連キーワードを推定することができる。これにより、検索者により入力される検索キーワードが、検索対象文書に記載されている語彙と一致しない(乖離する)場合に、検索キーワードから、検索対象文書に記載されている語彙を関連キーワードとして推定でき、検索対象文書から文書を検索することができる。
また、検索支援システム1では、学習段階において、第2学習済みモデルが生成されることにより、実行段階において、文書が複数検索された場合に、検索者の業務から、その複数の文書から検索者が選択する文書を推定することができる。これにより、検索者が選択すると推定される文書を、優先して表示することが可能である。したがって、検索された文書が機械的に表示される場合と比較して、検索者自身が選択すると推定される文書を選択し易くすることができ、検索者が検索に要する労力を、低減させることが可能である。
以下では、学習段階を経た後に、実行段階の処理を行う場合を例に説明するが、これに限定されない。学習段階と実行段階とは、同時進行で処理されてもよく、実行段階で得られた情報が、学習段階の処理に用いられてもよい。また、所定のタイミングで、学習段階の処理が繰り返し行われることにより、学習済みモデルが定期的に更新されてもよい。
図1は、実施形態に係る検索支援システム1の構成の例を示すブロック図である。検索支援システム1は、例えば、検索端末10と、第1学習サーバ20と、検索サーバ30と、第2学習サーバ40と、推定サーバ50と、Webサーバ60とを備える。検索支援システム1において、検索支援システム1の構成要素(検索端末10と、第1学習サーバ20と、検索サーバ30と、第2学習サーバ40と、推定サーバ50と、Webサーバ60)は、通信ネットワークNWを介して、互いに通信可能に接続される。
まず、学習段階について説明する。
検索端末10は、検索に用いられるパーソナルコンピュータ、タブレット端末等である。
検索端末10には、検索者により、検索者の業務に関する業務情報、及び検索キーワードが入力される。ここで、学習段階における検索者は、「検索ユーザ」の一例である。
検索端末10は、検索者の業務に関する業務情報を第2学習サーバ40に出力する。検索端末10は、検索者により入力された検索キーワードを検索サーバ30に出力する。検索端末10は、検索サーバ30から、検索キーワードに応じた検索結果を取得する。例えば、検索結果には、検索対象文書のうちの複数の文書が含まれる。
検索端末10は、検索結果を表示する。
学習段階においては、検索結果を表示は、予め定めた所定のアルゴリズムに応じて、機械的に表示される。ここでの所定のアルゴリズムは、任意であってよいが、例えば、文書のタイトルをアルファベット順、あいうえお順に表示する、或いは、検索サーバ30から通知された順に文書を表示するもの等である。
検索者は、表示された検索結果から所望する文書を選択する。検索端末10には、検索者により選択された文書(つまり、検索者が所望した文書)を示す選択実績が入力される。検索端末10は、選択実績を、第2学習サーバ40に出力する。
第1学習サーバ20は、第1学習済みモデルを生成するパーソナルコンピュータ、サーバ装置等である。学習済みモデルは、検索キーワードから関連キーワードを推定し、推定結果を出力するモデルである。
第1学習サーバ20は、検索対象文書とは異なる文書コンテンツ(以下、単に、コンテンツという)から得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習したモデル(第1学習済みモデル)を生成する。以下では、第1学習サーバ20、外部インターネットのウェブサイトに掲載されたコンテンツから得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習する場合を例に説明する。外部インターネットを介して取得可能なコンテンツは、クローズドな環境で管理されている検索対象文書とは異なる文書であって、任意のユーザによりアクセス可能なコンテンツである。外部インターネットを介して取得するコンテンツは、例えば、役所等の自治体のホームページに掲載された情報である。すなわち、外部インターネットのウェブサイトに掲載された文書は、「文書コンテンツ」の一例である。
しかしながら、これに限定されることはない。第1学習サーバ20は、少なくとも検索対象文書とは異なる文書(コンテンツ)から得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習すればよい。
第1学習サーバ20は、外部インターネットを介して、Webサーバ60から、特定のウェブサイトに掲載されたコンテンツに関する情報(以下、コンテンツ情報)を取得する。特定のウェブサイトは、少なくとも、検索対象文書が関係する業界や分野についての情報が記載されたコンテンツが掲載されるサイトであればよく、検索対象文書の内容に応じて任意に設定されてよい。
第1学習サーバ20は、検索サーバ30から検索対象文書に関する情報(以下、検索対象文書情報)を取得する。
第1学習サーバ20は、コンテンツ情報と検索対象文書情報とに基づいて、コンテンツから得られる語彙(以下、コンテンツ語彙)と、検索対象文書に記載されている語彙(以下、文書語彙)との対応関係を学習した、第1学習済みモデルを生成する。
検索サーバ30は、検索対象文書を検索するパーソナルコンピュータ、サーバ装置等である。検索サーバ30は、検索キーワード、及び第1学習済みモデルを用いて、関連キーワードを推定する。検索サーバ30は、検索キーワードと、関連キーワードとを用いて、検索対象文書から検索した文書を示す情報を、検索結果として、検索端末10に出力する。
第2学習サーバ40は、第2学習済みモデルを生成するパーソナルコンピュータ、サーバ装置等である。第2学習済みモデルは、過去に行われた検索の実績に基づいて、検索者の業務情報及び検索結果と、当該検索者により選択された文書(選択実績)との関係を学習したモデルである。
Webサーバ60は、外部インターネットのWebサイトにコンテンツを掲載するサーバである。Webサーバ60は、コンテンツ情報を記憶し、学習段階において、第1学習サーバ20にコンテンツ情報を出力する。
次に、実行段階について説明する。
実行段階において、検索端末10には、学習段階と同様に、検索者により、検索者の業務に関する業務情報、及び検索キーワードが入力される。検索端末10は、検索者により入力された検索キーワードを検索サーバ30に出力する。検索端末10は、検索サーバ30から、検索キーワードに応じた検索結果を取得する。ここで、実行段階における検索者は、推定の対象となる者であり、「対象ユーザ」の一例である。
検索端末10は、検索者の業務に関する業務情報、及び検索キーワードに応じた検索結果を、推定サーバ50に出力する。
第2学習サーバ40は、生成した第2学習済みモデルを示す情報を、推定サーバ50に出力する。
推定サーバ50は、検索者により選択される文書を示す選択文書を推定するパーソナルコンピュータ、サーバ装置等である。
推定サーバ50は、検索端末10から検索者の業務情報と検索結果とを取得する。推定サーバ50は、第2学習サーバ40から第2学習済みモデルを取得する。推定サーバ50は、検索者の業務情報、及びその検索者による検索の検索結果と第2学習済みモデルとを用いて、選択文書を推定する。
例えば、検索者による検索キーワードに、「保険 加入 手続き」との文言が入力された場合に、検索結果として以下の文書が抽出された場合を考える。
1)保険に加入するための要件が記載された規定文書A
2)保険に加入するための申請書に対する事務処理が記載された事務基準B
3)保険に加入するための申請書の記載内容を検査する方法が記載された検査基準C
4)保険に加入するための申請書の改定を知らせるお知らせD
5)保険に加入するための申請書の書式集が記載された書式集E
例えば、推定サーバ50は、検索者の業務情報として、保険に加入するための要件を顧客に対して確認する業務(例えば、営業職など)が示されている場合、検索者により規定文書Aが選択される可能性が高く、他の文書(事務基準B、検査基準C、お知らせD、及び書式集E)が選択される可能性が低い推定する。
或いは、推定サーバ50は、検索者の業務情報として、保険に加入するための申請書を管理する業務(例えば、事務職など)が示されている場合、検索者によりお知らせD、及び書式集Eが選択される可能性が高く、他の文書(規定文書A、事務基準B、及び検査基準C)が選択される可能性が低いと推定する。
このように、推定サーバ50は、検索結果として示された複数の文書のそれぞれについて当該文書が選択される可能性を示す情報を、推定結果としてもよい。或いは、推定サーバ50は、検索結果として示された複数の文書のそれぞれにおける当該文書が選択されるか否かの二値情報を、推定結果としてもよい。
推定サーバ50は、推定結果を検索端末10に出力する。
検索端末10は、推定結果を取得し、取得した推定結果に基づいて、検索結果を表示する。例えば、検索端末10は、検索結果及び推定結果に基づいて、検索結果を、推定結果に応じた順序にて表示する。
検索者は、表示された検索結果から所望する文書を選択する。
ここで、実行段階で得られた情報を、学習段階の処理に用いる場合には、検索端末10には、検索者により選択された文書(つまり、検索者が所望する文書)を示す選択実績を、第2学習サーバ40に出力する。
図1に示すように、検索端末10は、例えば、入力部11と、検索結果取得部12と、推定結果取得部13と、表示部14と、表示制御部15と、業務情報記憶部16とを備える。
入力部11は、キーワードやマウスなどの入力装置と接続し、当該入力装置を介して入力された情報を取得する。入力部11が取得する情報は、例えば、検索者により入力される、業務情報、検索キーワード、選択実績を示す情報である。
検索結果取得部12は、検索キーワードに応じた検索結果を取得する。検索結果取得部12は、入力部11に入力された検索キーワードを、検索サーバ30に出力し、その応答として、検索サーバ30から検索キーワードに応じた検索結果を取得する。
推定結果取得部13は、検索者の業務情報、及び検索結果に基づいて推定された推定結果を取得する。推定結果取得部13は、入力部11に入力された検索者の業務情報を推定サーバ50に出力する。推定結果取得部13は、検索結果取得部12により取得された検索者の検索キーワードに応じた検索結果を、推定サーバ50に出力する。その応答として、推定結果取得部13は、推定サーバ50から、検索者の業務情報、及び検索結果に基づいて推定された推定結果を取得する。
表示部14は、表示制御部15の制御にしたがって検索結果を表示する。
表示制御部15は、推定結果に応じて、表示部14による検索結果の表示を制御する。表示制御部15は、検索結果取得部12から、検索者の検索キーワードに応じた検索結果を取得する。表示制御部15は、推定結果取得部13から、検索者の業務情報、及び検索結果に基づいて推定された推定結果を取得する。表示制御部15は、検索結果、及び推定結果に基づいて、例えば、検索結果のうち、検索者が選択する可能性が高い文書を優先して表示部14に表示させる。
業務情報記憶部16は、業務情報を記憶する。業務情報は、検索支援システム1を利用する検索者の業務に関する情報であって、例えば、ユーザを一意に識別するユーザIDと、ユーザIDにて特定されるユーザの業務に関する属性を示す業務属性とが対応付けられた情報である(図7参照)。
図2は、実施形態に係る第1学習サーバ20の構成の例を示すブロック図である。
図2に示すように、第1学習サーバ20は、例えば、Webコンテンツ情報取得部21と、文書情報取得部22と、語彙抽出部23と、特徴量抽出部24と、第1学習済みモデル生成部25と、コンテンツ語彙情報記憶部26と、文書語彙情報記憶部27とを備える。ここで、語彙抽出部23は、「コンテンツ語彙抽出部」の一例である。また、語彙抽出部23は、「文書語彙抽出部」の一例である。
Webコンテンツ情報取得部21は、コンテンツ情報を取得する。コンテンツ情報は、検索対象文書とは異なる文書(コンテンツ)に記載された内容に関する情報であって、例えば、コンテンツに記載された内容そのもの、コンテンツのタイトル、目次、各章における記載内容等を示す情報である。また、コンテンツに、そのコンテンツが作成された時期や、作成者、ISBN(International Standard Book Number)等が付されている場合には、コンテンツ情報として、これらの情報が含まれていてもよい。
文書情報取得部22は、検索対象文書情報を取得する。検索対象文書情報は、検索対象文書に記載された内容に関する情報であって、情報の具体的な内容は、コンテンツ情報と同様であってよく、例えば、文書に記載された内容そのもの、タイトル、目次、各章における記載内容等の他、その文書が作成された時期や、作成者、ISBN等が付されている場合における、これらの情報である。
語彙抽出部23は、コンテンツ情報に基づいて、コンテンツに記載された語彙(コンテンツ語彙)を抽出する。また、語彙抽出部23は、検索対象文書情報に基づいて、検索対象文書に記載された語彙(文書語彙)を抽出する。語彙抽出部23は、例えば、文書の全文又は一部から、文書に記載された語彙を抽出する。文書の全文から語彙を抽出するか、一部から語彙を抽出するかは、検索対象文書の内容や量、検索サーバの処理能力等に応じて任意に設定されてよい。
特徴量抽出部24は、コンテンツ情報、及び検索対象文書情報に基づいて、文書に対する自然言語処理を施すことにより、その文書に含まれる語彙の特徴量を抽出する。ここでの自然言語処理とは、形態素解析、構文解析、意味解析、あるいは文脈解析を含む処理であって、例えば、fastTextである。語彙の特徴量とは、コンテンツ語彙、又は文書語彙(以下、コンテンツ語彙等)から、その語彙における任意の特徴を数値化(高次のベクトル表現、或いは、分散表現などともいう)したものである。語彙の特徴とは、コンテンツ語彙等の、その記載された内容に基づく特徴であって、例えば、「保険に加入すれば安心」という文章が記載されていた場合、「保険」という語彙は、「加入するもの」、「安心さ」という特徴を有するとみなされる。この場合、例えば、「保険に加入する」という旨の文章が繰り返されている度合い、或いは、「保険」と、「加入」との単語が近い位置に配置されている度合い等に応じて、「保険」という語彙における、「加入するもの」という特徴を数値化したものが特徴量となる。特徴量抽出部24は、コンテンツ情報から抽出したコンテンツの特徴量を、コンテンツ語彙情報として、コンテンツ語彙情報記憶部26に記憶させる。特徴量抽出部24は、検索対象文書情報から抽出した検索対象文書の特徴量を、文書語彙情報として、文書語彙情報記憶部27に記憶させる。
第1学習済みモデル生成部25は、語彙抽出部23により抽出された、コンテンツ語彙等の特徴量を用いて、機械学習を実行することにより、検索対象文書語彙のそれぞれの類似度合いを学習した学習済みモデルを生成する。学習済みモデルは、例えば、語彙の特徴量に基づいて、語彙同士の類似度合いを算出する。ここでの類似度合いは、互いの語彙における所定の特徴を数値化した値の近さ(相関量)を示す度合いであり、例えば、語彙の特徴に基づいて分散表現される、高次元のベクトル空間における距離である。学習済みモデルは、ベクトル空間における語彙同士の距離が、所定の閾値より小さい場合、その語彙同士が類似すると判定する。一方、学習済みモデルは、ベクトル空間における語彙同士の距離が、所定の閾値より大きい場合、その語彙同士が類似しないと判定する。
コンテンツ語彙情報記憶部26は、コンテンツ語彙情報を記憶する。コンテンツ語彙情報は、特徴量抽出部24により抽出されたコンテンツ語彙の特徴量に関する情報である。コンテンツ語彙情報は、例えば、コンテンツを一意に識別するコンテンツIDと、コンテンツIDにて特定されるコンテンツに記載されている語彙から抽出された、特徴ごとの特徴量とが対応付けられた情報である(図8参照)。
文書語彙情報記憶部27は、文書語彙情報を記憶する。文書語彙情報は、特徴量抽出部24により抽出された文書語彙の特徴量に関する情報である。文書語彙情報は、例えば、検索対象文書を一意に識別する文書IDと、文書IDにて特定される検索対象文書に記載されている語彙から抽出された、特徴ごとの特徴量とが対応付けられた情報である(図9参照)。
図3は、実施形態に係る検索サーバ30の構成の例を示すブロック図である。
図3に示すように、検索サーバ30は、例えば、検索キーワード取得部31と、関連キーワード推定部32と、検索部33と、検索結果出力部34と、検索対象文書情報記憶部35と、第1学習済みモデル記憶部36とを備える。
検索キーワード取得部31は、検索端末10から、検索者により入力された検索キーワードを取得し、取得した検索キーワードを関連キーワード推定部32、及び検索部33に出力する。
関連キーワード推定部32は、検索キーワードと第1学習済みモデルとを用いて、関連キーワードを推定する。関連キーワード推定部32は、第1学習済みモデルを用いて、ベクトル空間において、検索キーワードに相当する語彙との距離が所定の閾値より小さい語彙を、類似語彙として抽出する。関連キーワード推定部32は、抽出した類似語彙から、検索対象文書に記載されている語彙を選択する。関連キーワード推定部32は、選択した語彙を、検索キーワードに関連する関連キーワードを推定した推定結果とする。関連キーワード推定部32は、推定結果を検索部33に出力する。
検索部33は、検索キーワード及び関連キーワードのそれぞれに基づいて、検索対象文書から該当する文書(該当文書)を検索する。検索部33は、例えば、検索対象文書のうち、関連キーワードが記載された文書を該当文書とする。或いは、検索部33は、関連キーワードが記載された文書の数が所定の閾値以上である場合には、関連キーワードが記載された回数が所定の閾値以上であるもの、又は、文書にとっての関連キーワードの重要度が所定の閾値以上であるものを該当文書とするようにしてもよい。なお、ここでいう重要度とは、その文書における該当キーワードがよく頻出し、かつその文書に対して特徴的である度合いを指す。
検索部33は、検索結果を検索結果出力部34に出力する。
検索結果出力部34は、検索部33により検索された該当文書を示す情報を、検索結果として、検索端末10に出力する。
検索対象文書情報記憶部35は、検索対象文書情報を記憶する。検索対象文書情報は、検索対象文書に関する情報であって、例えば、検索対象文書を一意に識別する文書IDと、検索対象文書のタイトル、ページ数、及び記載された内容等の属性情報とが対応付けられた情報である。
第1学習済みモデル記憶部36は、第1学習サーバ20により生成された学習済みモデルを示す情報を記憶する。第1学習済みモデルを示す情報は、例えば、複数の語彙におけるベクトル空間上の距離に基づいて、語彙が互いに類似しているか否かを判定するアルゴリズムである。或いは、学習済みモデルを示す情報は、コンテンツ、及び検索対象文書のそれぞれに記載された語彙ごとのベクトル空間における位置を示す情報であってもよいし、そのベクトル空間における位置に基づいて判定された、語彙が互いに類似しているか否かを示す判定結果が記憶されたテーブルであってもよい。
図4は、実施形態に係る第2学習サーバ40の構成の例を示すブロック図である。
図4に示すように、第2学習サーバ40は、例えば、業務情報取得部41と、検索結果取得部42と、選択実績取得部43と、学習用データセット生成部44と、第2学習済みモデル生成部45とを備える。
業務情報取得部41は、検索端末10から、検索者により入力された業務情報を取得し、取得した業務情報を学習用データセット生成部44に出力する。
検索結果取得部42は、検索端末10から、検索キーワードに応じた検索結果を取得する。或いは検索結果取得部42は、検索サーバ30から、関連キーワードに応じた検索結果を取得するようにしてもよい。検索結果取得部42は、取得した検索結果を学習用データセット生成部44に出力する。
選択実績取得部43は、検索端末10から、検索者により選択された選択実績を取得し、取得した選択実績を学習用データセット生成部44に出力する。
学習用データセット生成部44は、一回の検索により紐づけられる、業務情報及び検索結果と、選択実績とを組み合わせることにより、学習用データセットを生成する。
第2学習済みモデル生成部45は、学習用データセットを教師として、学習モデルに機械学習させることにより、第2学習済みモデルを生成する。
学習モデルは、例えば、CNN(Convolutional Neural Network)である。CNNは、入力層、隠れ層(中間層)、出力層の3つの階層により構成されるモデルである。入力層には推定の対象となるデータ(入力データ)が入力される。出力層からは、学習された結果を示すデータ(推定結果)が出力される。隠れ層は、学習の核となる処理を行う。例えば、隠れ層は、入力を活性化関数(伝達関数)と呼ばれる関数により表現される値に変換して出力する。例えば、活性化関数は、正規化線形関数や、シグモイド関数、ステップ関数などであるが、これに限定されず、任意の関数が用いられてよい。
第2学習済みモデル生成部45は、学習モデルに、学習用データセットの入力を入力させる。本実施形態における学習用データセットの入力データは、業務情報及び検索結果である。学習モデルは、入力データに対する隠れ層の処理を経て、出力層から推定結果を出力する。
第2学習済みモデル生成部45は、出力層から出力された推定結果が学習用データセットの出力に近づくように、学習モデルの隠れ層の処理パラメータを調整する。本実施形態における学習用のデータセットの出力は、選択実績である。
第2学習済みモデル生成部45は、所定数の学習用データセットの全てについて、出力層から出力された推定結果が、学習用データセットの出力に近づくように、隠れ層の処理パラメータの調整を繰り返し行う。このようにして、学習用データセットの入力に対し、学習用データセットの出力に近い値を、推定結果として出力することができるように学習させた学習モデルが、第2学習済みモデルとなる。第2学習済みモデル生成部45は、生成した第2学習済みモデルを示す情報を、推定サーバ50に送信する。
図5は、実施形態に係る推定サーバ50の構成の例を示すブロック図である。
図5に示すように、推定サーバ50は、例えば、業務情報取得部51と、検索結果取得部52と、選択文書推定部53と、推定結果出力部54と、第2学習済みモデル記憶部55とを備える。
業務情報取得部51の機能は、業務情報取得部41と同様であるため、その説明を省略する。業務情報取得部51は、取得した業務情報を選択文書推定部53に出力する。
検索結果取得部42の機能は、検索結果取得部42と同様であるため、その説明を省略する。検索結果取得部52は、取得した検索結果を選択文書推定部53に出力する。
選択文書推定部53は、業務情報及び検索結果と、第2学習済みモデルを用いて、推定対象である選択文書を推定する。選択文書推定部53は、業務情報取得部51から取得した業務情報、及び検索結果取得部52から取得した検索結果を、第2学習済みモデルに入力させる。選択文書推定部53は、第2学習済みモデルからの出力を、検索者により選択される(であろう)選択文書を推定した推定結果とする。
推定結果出力部54は、選択文書推定部53により推定された推定結果を、検索端末10に出力する。
第2学習済みモデル記憶部55は、第2学習サーバ40により生成された、第2学習済みモデルを示す情報を記憶する。第2学習済みモデルを示す情報は、例えば、CNNの構成(隠れ層の層数や、各層のユニット数、活性化関数の種別、など)、及び隠れ層の処理パラメータ(ユニット間の重み係数、バイアス成分量、など)である。
図6は、実施形態に係るWebサーバ60の構成の例を示すブロック図である。
図6に示すように、Webサーバ60は、例えば、コンテンツ取得部61と、コンテンツ配信部62と、コンテンツ記憶部63とを備える。
コンテンツ取得部61は、コンテンツを示す情報を取得する。コンテンツを示す情報は、Webサイトにコンテンツを掲載するための情報であって、例えば、HTML言語やJavaScript(登録商標)言語で記述されたHTML文書である。
コンテンツ配信部62は、コンテンツ取得部61により取得されたコンテンツを示す情報を配信する。これにより、Webブラウザ機能を有するパーソナルコンピュータ、スマートフォン等が、Webサーバ60のサイトにアクセスすると、コンテンツを閲覧することができる。
コンテンツ記憶部63は、コンテンツ取得部61により取得されたコンテンツを示す情報を記憶する。
図7は、実施形態に係る業務情報記憶部16に記憶される業務情報の構成の例を示す図である。業務情報は、例えば、ユーザIDと、業務属性とを備える。ユーザIDは、検索者を一意に識別する識別情報である。業務属性は、検索者の業務に関する属性を示す情報であり、例えば、部門、役職、及び在籍年数などで構成される。部門には、検索者が所属する部門の別が示されており、例えば、自動車保険部門の営業部、自動車保険部門の事務部、医療保険部門の企画管理部などの情報が示される。役職には、部長や一般社員などの役が示される。在籍年数には、検索者が現在所属する部門に在籍している年数が示される。
図8は、実施形態に係るコンテンツ語彙情報記憶部26に記憶される情報の構成の例を示す図である。コンテンツ語彙情報は、例えば、コンテンツIDと、タイトルと、語彙と、特徴量とを備える。コンテンツIDは、コンテンツを一意に識別する識別情報である。タイトルは、コンテンツの題名(タイトル)である。語彙は、コンテンツから抽出された語彙である。特徴量は、語彙の特徴量であり、例えば、特徴1、特徴2…のように、特徴ごとにその特徴量が示される。この例では、コンテンツID(1001)で識別されるコンテンツが、「○○市役所 働き方改革推進プラン」であることを示している。
図9は、実施形態に係る文書語彙情報記憶部27に記憶される情報の構成の例を示す図である。文書語彙情報は、例えば、文書IDと、タイトルと、語彙と、特徴量とを備える。文書IDは、検索対象文書を一意に識別する識別情報である。タイトルは、検索対象文書の題名(タイトル)である。語彙は、検索対象文書から抽出された語彙である。特徴量は、語彙の特徴量であり、例えば、特徴1、特徴2…のように、特徴ごとにその特徴量が示される。この例では、文書ID(2001)で識別される検索対象文書が、「○○マニュアル」であることを示している。
ここで、図10~図12を用いて、検索支援システム1が行う処理の流れを説明する。
図10は、学習段階において、第1学習済みモデルを生成する処理の流れ示すシーケンス図である。
図11は、学習段階において、第2学習済みモデルを生成する処理の流れ示すシーケンス図である。
図12は、実行段階の処理の流れ示すシーケンス図である。
図10に示すように、学習段階において、Webサーバ60は、コンテンツを配信する(ステップS10)。第1学習サーバ20は、Webサーバ60に掲載されたコンテンツ情報を取得する(ステップS11)。第1学習サーバ20は、取得したコンテンツ情報に基づいて、コンテンツ語彙を抽出し(ステップS12)、抽出した語彙の特徴量を抽出する(ステップS13)。第1学習サーバ20は、抽出した語彙の特徴量を、コンテンツ語彙情報記憶部26に記憶する(ステップS14)。
第1学習サーバ20は、ステップS100(ステップS11~S14)に示す処理を繰り返し行うことにより、所定のWebサイトに掲載されたコンテンツのそれぞれから、語彙とその語彙の特徴量を抽出し、所定数の語彙についてその特徴量を取得する。
一方、検索サーバ30は、検索対象文書情報記憶部35に検索対象文書情報を記憶することにより、検索に用いる検索対象文書を登録する(ステップS15)。第1学習サーバ20は、検索サーバ30から検索対象文書情報を取得する(ステップS16)。第1学習サーバ20は、取得した検索対象文書情報に基づいて、文書語彙を抽出し(ステップS17)、抽出した語彙の特徴量を抽出する(ステップS18)。第1学習サーバ20は、抽出した語彙の特徴量を、文書語彙情報記憶部27に記憶する(ステップS19)。
第1学習サーバ20は、コンテンツ語彙情報記憶部26に記憶された情報、及び文書語彙情報記憶部27に記憶された情報に基づいて、検索キーワードと関連キーワード(文書語彙)との対応関係を学習モデルに学習させることにより、第1学習済みモデルを生成する(ステップS20)。
図11に示すように、学習段階において、検索サーバ30は、第1学習サーバ20から第1学習済みモデルを示す情報を取得し、取得した情報を記憶する(ステップS30)。
検索端末10は、検索者の業務情報が入力されると、その業務情報を取得し(ステップS31)、取得した業務情報を第2学習サーバ40に出力する。
検索端末10は、検索者により検索キーワードが入力されると、その検索キーワードを取得し(ステップS33)、取得した検索キーワードを検索サーバ30に出力する。
検索サーバ30は、検索端末10から検索キーワードを取得し(ステップS34)、検索キーワードに基づいて、関連キーワードを推定する(ステップS35)。検索サーバ30は、検索キーワードと関連キーワードとに基づいて、検索該当文書を検索する(ステップS36)。検索サーバ30は、検索結果を検索端末10に出力する。
検索端末10は、検索サーバ30から検索結果を取得すると、その検索結果を表示する(ステップS37)。また、検索端末10は、検索サーバ30から取得した検索結果を、第2学習サーバ40に出力する。第2学習サーバ40は、検索結果を取得する(ステップS38)。
検索端末10は、検索者により検索結果から、検索者が所望の文書が選択されると、その選択実績を取得する(ステップS39)。検索端末10は、取得した選択実績を第2学習サーバ40に出力する。第2学習サーバ40は、選択実績を取得する(ステップS40)。
第2学習サーバ40は、ステップS32で取得した業務情報、及びステップS38で取得した検索結果と、ステップS40で取得した選択実績とに基づいて、学習用データセットを生成する(ステップS41)。
検索支援システム1は、ステップS100(ステップS31~S41)に示す処理を繰り返し行うことにより、所定数の学習用データセットを生成する。
第2学習サーバ40は、学習用データセットを用いて、第2学習済みモデルを生成する(ステップS42)。
図12に示すように、実行段階において、検索サーバ30は、第1学習済みモデルを記憶する(ステップS50)。推定サーバ50は、第2学習済みモデルを記憶する(ステップS51)。
ステップS52~S57に示す処理は、学習段階におけるステップS31~S36に示す処理と同様の処理であるため、その説明を省略する。
検索端末10は、検索サーバ30から検索結果を取得すると、その検索結果を、出力する(ステップS58)。
推定サーバ50は、検索結果を取得する(ステップS59)。
推定サーバ50は、ステップS53で取得した業務情報、及びステップS59で取得した検索結果と、ステップS51で記憶した第2学習済みモデルとを用いて、選択文書を推定する(ステップS60)。推定サーバ50は、推定結果を検索端末10に出力する。
検索端末10は、推定サーバ50から推定結果を取得し(ステップS61)、取得した推定結果に応じて、検索結果の表示を制御する(ステップS62)。
以上説明したように、実施形態の検索支援システム1は、語彙抽出部23と、第1学習済みモデル生成部25と、業務情報取得部41と、検索結果取得部42と、選択実績取得部43と、第2学習済みモデル生成部45と、業務情報取得部51と、選択文書推定部53とを備える。語彙抽出部23は、検索対象文書とは異なる文書コンテンツ(例えば、Webサーバ60により配信されたコンテンツ)からコンテンツ語彙を抽出する。語彙抽出部23は、検索対象文書から文書語彙を抽出する。第1学習済みモデル生成部25は、コンテンツ語彙と、文書語彙との類似度合いを学習した第1学習済みモデルを生成する。業務情報取得部41は、学習段階における検索者(「検索ユーザ」の一例)の業務に関する業務情報を取得する検索結果取得部42は、学習段階における検索者が検索に用いた検索キーワード、及び第1学習済みモデルを用いて、検索対象文書から検索された文書を示す検索結果を取得する。選択実績取得部43は、検索結果に基づいて、学習段階における検索者により選択された文書を示す選択実績を取得する。第2学習済みモデル生成部45は、学習段階における検索者の業務に関する業務情報及び検索結果と、選択実績を対応づけた学習用のデータセットを学習モデルに学習させることにより、業務情報及び検索結果と、選択実績との関係を学習した第2学習済みモデルを生成する。業務情報取得部51は、実行段階における検索者(「推定の対象とする対象ユーザ」の一例)の業務情報を取得する。選択文書推定部53は、実行段階における検索者の業務情報、及び、実行段階における検索者が検索に用いた検索キーワードに応じた検索結果と、第2学習済みモデルとを用いて、検索結果から、実行段階における検索者により選択される選択文書を推定する。
これにより、実施形態の検索支援システム1は、検索者の業務から、検索者により選択される選択文書を推定することができ、推定結果に応じて検索結果を提示することが可能となる。このため、検索結果として数多くの文書が存在する場合であっても、検索者の業務から推定される、検索者が所望する文書を容易に選択できるようにすることができる。
また、実施形態の検索支援システム1では、検索キーワードから関連キーワードを推定することができるため、検索キーワードが、検索対象文書に記載された語彙と乖離する場合であっても、検索対象文書から文書を検索することが可能である。しかも、検索キーワードと関連キーワードとのそれぞれに基づいて、数多くの文書が検索された場合であっても、検索者の業務から、検索者により選択される選択文書を推定することができるため、数多くの文書から検索者が所望する文書を容易に選択できるようにすることが可能である。
また、実施形態の検索支援システム1は、表示制御部15を更に備える。表示制御部15は、選択文書推定部53により推定された推定結果に応じて、検索結果に対応する文書を表示させる順序を制御する。これにより、実施形態の検索支援システム1は、検索者が所望する可能性が高い文書を優先して表示することができ、上述した効果と同様の効果を奏する。
上述したように、本実施形態において、検索対象文書は、各種の手続きに関連する規定文書等を想定している。検索対象文書は、各種の手続きに応じて作成されるものであり、例えば、手続を行う部門、或いは業務ごとに、必要に応じて作成される。或いは、各種の手続きを行う必要性から、部門や業務が設立される。このことから、業務情報と、選択実績とは相関関係を有する。すなわち、検索者の業務と選択実績とは密接に関係しており、同じ業務に属する検索者は、同じような検索結果から選択する文書は、似た傾向にあると考えられる。このため、業務情報及び検索結果と、選択実績との関係を学習した第2学習済みモデルを用いて推定を行うことで、検索者が所望する文書を精度よく推定することが可能である。
また、本実施形態において、コンテンツは、検索対象文書が関係する業界や分野についての情報が記載されたコンテンツである。このため、コンテンツ語彙と、文書語彙とは相関関係を有する。また、検索者は、検索対象文書から所望の文書を検索する。したがって、検索者により入力される検索キーワードと、コンテンツ語彙と、文書語彙とは密接な関係を有する。すなわち、コンテンツ語彙と、文書語彙との関係を学習した学習済みモデルを用いて推定を行うことで、検索キーワードに関連(類似)する関連キーワードを精度よく推定することが可能である。
上述した実施形態における検索支援システム1の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1…検索支援システム
10…検索端末
11…入力部
12…検索結果取得部
13…推定結果取得部
14…表示部
15…表示制御部
16…業務情報記憶部
20…第1学習サーバ
21…Webコンテンツ情報取得部
22…文書情報取得部
23…語彙抽出部
24…特徴量抽出部
25…第1学習済みモデル生成部
30…検索サーバ
31…検索キーワード取得部
32…関連キーワード推定部
33…検索部
34…検索結果出力部
35…検索対象文書情報記憶部
36…第1学習済みモデル記憶部
40…第2学習サーバ
41…業務情報取得部
42…検索結果取得部
43…選択実績取得部
44…学習用データセット生成部
45…第2学習済みモデル生成部
50…推定サーバ
51…業務情報取得部
52…検索結果取得部
53…選択文書推定部
54…推定結果出力部
55…第2学習済みモデル記憶部
60…Webサーバ
61…コンテンツ取得部
62…コンテンツ配信部
63…コンテンツ記憶部

Claims (5)

  1. 検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、
    前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、
    前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する第1学習済みモデル生成部と、
    検索ユーザの業務に関する業務情報を取得する業務情報取得部と、
    前記検索ユーザが検索に用いた検索キーワード、及び前記第1学習済みモデルを用いて前記検索キーワードから推定される前記文書語彙である関連キーワードに基づいて、前記検索対象文書から検索された文書を示す検索結果を取得する検索結果取得部と、
    前記検索結果に基づいて前記検索ユーザにより選択された文書を示す選択実績を取得する選択実績取得部と、
    前記業務情報及び前記検索結果と、前記選択実績を対応づけた学習用のデータセットを学習モデルに学習させることにより、前記業務情報及び前記検索結果と前記選択実績との関係を学習した第2学習済みモデルを生成する第2学習済みモデル生成部と、
    推定の対象とする対象ユーザの前記業務情報、及び前記対象ユーザが検索に用いた検索キーワードに応じた前記検索結果と、前記第2学習済みモデルとを用いて、前記検索結果から、前記対象ユーザにより選択される選択文書を推定する選択文書推定部と、
    を備える検索支援システム。
  2. 前記コンテンツ語彙抽出部は、外部インターネットを介して任意に取得可能な前記文書コンテンツに記載された前記コンテンツ語彙を抽出し、
    前記文書語彙抽出部は、前記外部インターネットを介して任意に取得することができない環境にて管理されている前記検索対象文書の文書語彙を抽出する、
    請求項1に記載の検索支援システム。
  3. 前記選択文書推定部により推定された推定結果に応じて、前記検索結果に対応する文書を表示させる順序を制御する表示制御部を、更に備える、
    請求項1又は請求項2に記載の検索支援システム。
  4. コンテンツ語彙抽出部が、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出し、
    文書語彙抽出部が、前記検索対象文書に記載された語彙である文書語彙を抽出し、
    第1学習済みモデル生成部が、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成し、
    業務情報取得部が、検索ユーザの業務に関する業務情報を取得し、
    検索結果取得部が、前記検索ユーザが検索に用いた検索キーワード、及び前記第1学習済みモデルを用いて前記検索キーワードから推定される前記文書語彙である関連キーワードに基づいて、前記検索対象文書から検索された文書を示す検索結果を取得し、
    選択実績取得部が、前記検索結果に基づいて前記検索ユーザにより選択された文書を示す選択実績を取得し、
    第2学習済みモデル生成部が、前記業務情報及び前記検索結果と、前記選択実績を対応づけた学習用のデータセットを学習モデルに学習させることにより、前記業務情報及び前記検索結果と前記選択実績との関係を学習した第2学習済みモデルを生成し、
    業務情報取得部が、推定の対象とする対象ユーザの前記業務情報を取得し、
    選択文書推定部が、推定の対象とする対象ユーザの前記業務情報、及び前記対象ユーザが検索に用いた検索キーワードに応じた前記検索結果と、前記第2学習済みモデルとを用いて、前記検索結果から、前記対象ユーザにより選択される選択文書を推定する、
    検索支援方法。
  5. コンピュータを、請求項1に記載の検索支援システムとして動作させるためのプログラムであって、前記コンピュータを前記検索支援システムが備える各部として機能させるためのプログラム。
JP2019158248A 2019-08-30 2019-08-30 検索支援システム、検索支援方法、及びプログラム Active JP7234079B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019158248A JP7234079B2 (ja) 2019-08-30 2019-08-30 検索支援システム、検索支援方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019158248A JP7234079B2 (ja) 2019-08-30 2019-08-30 検索支援システム、検索支援方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021036409A JP2021036409A (ja) 2021-03-04
JP7234079B2 true JP7234079B2 (ja) 2023-03-07

Family

ID=74716728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019158248A Active JP7234079B2 (ja) 2019-08-30 2019-08-30 検索支援システム、検索支援方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7234079B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063185A (ja) 2003-08-13 2005-03-10 Toshiba Corp 文書検索システム、質問応答システム、文書検索方法
JP2007133688A (ja) 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法
JP2010205189A (ja) 2009-03-05 2010-09-16 Nec Corp 検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラム
US20180300324A1 (en) 2017-04-17 2018-10-18 Microstrategy Incorporated Contextually relevant document recommendations
JP2019121392A (ja) 2018-01-05 2019-07-22 Jfeスチール株式会社 情報検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063185A (ja) 2003-08-13 2005-03-10 Toshiba Corp 文書検索システム、質問応答システム、文書検索方法
JP2007133688A (ja) 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法
JP2010205189A (ja) 2009-03-05 2010-09-16 Nec Corp 検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラム
US20180300324A1 (en) 2017-04-17 2018-10-18 Microstrategy Incorporated Contextually relevant document recommendations
JP2019121392A (ja) 2018-01-05 2019-07-22 Jfeスチール株式会社 情報検索システム

Also Published As

Publication number Publication date
JP2021036409A (ja) 2021-03-04

Similar Documents

Publication Publication Date Title
JP6381775B2 (ja) 情報処理システム及び情報処理方法
Beel et al. The architecture and datasets of Docear's Research paper recommender system
US20240004884A1 (en) Personalized profile-modified search for dialog concepts
US20170103439A1 (en) Searching Evidence to Recommend Organizations
US20120246168A1 (en) System and method for contextual resume search and retrieval based on information derived from the resume repository
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
Aruleba et al. A full text retrieval system in a digital library environment
Rakholia et al. Information retrieval for Gujarati language using cosine similarity based vector space model
Swaminathan et al. Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow
US20200293581A1 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
Nwagwu et al. Knowledge mapping and visualization of personal information management literature, 1988–2020
Kara et al. Job Recommendation Based on Extracted Skill Embeddings
KR101826594B1 (ko) 지식 구조 기반의 전자책 추천 방법 및 시스템
JP7234079B2 (ja) 検索支援システム、検索支援方法、及びプログラム
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
JP2020067864A (ja) 知識検索装置、知識検索方法、および、知識検索プログラム
Nicholson et al. Dissemination and discovery of diverse data: do libraries promote their unique research data collections?
Musabeyezu Comparative study of annotation tools and techniques
JP7234077B2 (ja) 検索支援システム、学習システム、検索支援方法、及びプログラム
Daybell et al. A tale of two levels: Analyzing the discoverability and impact of item-level description in EAD finding aids
Hong et al. An efficient tag recommendation method using topic modeling approaches
JP2023008284A (ja) 検索システム、検索方法及び検索プログラム
JP7234078B2 (ja) 検索支援システム、学習システム、検索支援方法、及びプログラム
Divya et al. Onto-search: An ontology based personalized mobile search engine
Urinkulov et al. Models and algorithms for optimizing legal information retrieval in the corporate network of academic libraries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230222

R150 Certificate of patent or registration of utility model

Ref document number: 7234079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350