JP7234078B2 - 検索支援システム、学習システム、検索支援方法、及びプログラム - Google Patents

検索支援システム、学習システム、検索支援方法、及びプログラム Download PDF

Info

Publication number
JP7234078B2
JP7234078B2 JP2019158247A JP2019158247A JP7234078B2 JP 7234078 B2 JP7234078 B2 JP 7234078B2 JP 2019158247 A JP2019158247 A JP 2019158247A JP 2019158247 A JP2019158247 A JP 2019158247A JP 7234078 B2 JP7234078 B2 JP 7234078B2
Authority
JP
Japan
Prior art keywords
search
vocabulary
document
content
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019158247A
Other languages
English (en)
Other versions
JP2021036408A (ja
Inventor
駿介 川端
雅之 鈴木
祐乃 福島
幸司 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Forms Co Ltd
Original Assignee
Toppan Forms Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Forms Co Ltd filed Critical Toppan Forms Co Ltd
Priority to JP2019158247A priority Critical patent/JP7234078B2/ja
Publication of JP2021036408A publication Critical patent/JP2021036408A/ja
Application granted granted Critical
Publication of JP7234078B2 publication Critical patent/JP7234078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索支援システム、学習システム、検索支援方法、及びプログラムに関する。
検索キーワードに基づいて文書を検索する技術がある。例えば、特許文献1には、入力されたキーワードを、検索目的を示す語句に拡張し、検索キーワードの候補として表示する技術が開示されている。これにより、検索者は、検索目的を表現した検索キーワードを指定して検索を行うことができ、検索回数を増やすことなく、目的に合致する文書を検索することが可能である。
特開2007-133688号公報
しかしながら、特許文献1の技術では、入力されたキーワードを元にした検索目的への拡張しか行われない。このため、入力されたキーワードと、検索対象とする文書に記載された語彙とが乖離していた場合、そもそも検索者が所望する文書を検索することが困難となってしまう。
特に、政府や役所など行政のホームページ等には、「働き方改革」など、その時節に応じたテーマに関する行政の施策や制度が掲載されている。このような、あるテーマに沿って展開される行政サービス等の内容は、国民や住民の理解が得られるようにするために、難しい法律用語や専門用語を用いずに、行政に特有のわかりやすい語彙を使用している場合がある。
一方、保険業や金融業など、各業界において各種の手続きを扱う会社では、それぞれの手続きに対して、規定文書、事務基準、検査基準、お知らせ、書式集、マニュアル集、内部統制文書等、数多くの文書が存在しており、その多くにはその業界特有の法律用語や専門用語が記載されている。
このため、各種の手続を行うにあたり、行政の施策や制度との関わりを確認しようとして、行政に特有の語彙をキーワードとして入力しても、規定文書等には、そのような特有の語彙がそもそも記載されていない。すなわち、検索キーワードと、検索対象とする文書に記載された語彙とに乖離があるため、検索者が所望する文書を検索することができないという問題があった。
本発明は、このような状況に鑑みてなされたもので、入力されたキーワードと、検索対象とする文書に記載された語彙とに乖離がある場合であっても、検索者が所望する内容が記載された文書を検索することができる検索支援システム、学習システム、検索支援方法、及びプログラムを提供する。
本発明の上述した課題を解決するために、本発明は、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得する入力キーワード取得部と、前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定する推定部と、前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う検索部と、を備える検索支援システムである。
また、本発明は、上述の検索支援システムにおいて、また、本発明は、上述の検索支援システムにおいて、前記コンテンツ語彙抽出部は、外部インターネットを介して任意に取得可能な前記文書コンテンツに記載された前記コンテンツ語彙を抽出し、前記文書語彙抽出部は、前記外部インターネットを介して任意に取得することができない環境にて管理されている前記検索対象文書の文書語彙を抽出する。
また、本発明は、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、を備える学習システムである。
また、本発明は、コンテンツ語彙抽出部が、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出し、文書語彙抽出部が、前記検索対象文書に記載された語彙である文書語彙を抽出し、学習済みモデル生成部が、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成し、入力キーワード取得部が、前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得し、推定部が、前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定し、検索部が、前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う検索支援方法である。
また、本発明は、コンピュータを、上記に記載の学習システムとして動作させるためのプログラムであって、前記コンピュータを前記学習システムが備える各部として機能させるためのプログラムである。
本発明によれば、入力されたキーワードと、検索対象とする文書に記載された語彙とに乖離がある場合であっても、検索者が所望する内容が記載された文書を検索することができる。
実施形態に係る検索支援システム1の構成の例を示すブロック図である。 実施形態に係る学習サーバ20の構成の例を示すブロック図である。 実施形態に係るWebサーバ30の構成の例を示すブロック図である。 実施形態に係る推定サーバ40の構成の例を示すブロック図である。 実施形態に係る検索サーバ50の構成の例を示すブロック図である。 実施形態に係るコンテンツ語彙情報記憶部26に記憶される文書語彙情報の構成の例を示す図である。 実施形態に係る文書語彙情報記憶部27に記憶されるコンテンツ語彙情報の構成の例を示す図である。 実施形態に係る検索支援システム1が行う処理の流れ示すシーケンス図である。 実施形態に係る検索支援システム1が行う処理の流れ示すシーケンス図である。
以下、発明の実施形態について図面を参照しながら説明する。
(実施形態)
まず、実施形態について説明する。
検索支援システム1は、検索者により入力されたキーワード(以下、入力キーワード)に基づいて、検索対象とする文書(以下、検索対象文書)から該当する文書を検索するシステムである。
以下では、検索対象文書が、保険業や金融業など、各業界において各種の手続きを扱う会社の内部文書である場合について説明する。すなわち、内部文書は「検索対象文書」の一例である。
この場合、検索対象文書は、外部インターネットを介して任意に取得することができないクローズドな環境にて管理されている文書、例えば、アクセス権限をもつユーザ(関連する業務を担当する部署の社員など)にのみ閲覧可能な文書群である。検索対象文書は、例えば、各種の手続きに関連する規定文書、事務基準、検査基準、お知らせ、書式集、マニュアル集、内部統制文書等である。
検索支援システム1には、検索対象文書に記載されている語彙が、検索可能なキーワード(以下、検索キーワード)として予め登録されている。検索支援システム1は、検索キーワードに基づいて、その検索キーワードが記載されている文書を、検索結果として提示する。
入力キーワードは、検索者により入力される任意の語彙である。このため、入力キーワードが、検索キーワードとは異なる語彙となる場合が考えられる。検索支援システム1は、入力キーワードが、検索キーワードに一致しない場合、一致する場合と同様な検索を行うことができない。
しかしながら、入力キーワードと検索キーワードとが一致しない(乖離している)場合であっても、検索者は、意味が似ているものの、内部文書に含まれない語彙、あるいは、業務に無関係に見えても、ある専門用語に関連する一般的な語彙を入力キーワードとして入力することで、何らかの内部文書を検索しようとしていると考えられる。例えば、検索対象文書に記載されている業界(例えば、保険業)ではあまり使われないが、異なる業界(例えば、行政)でよく使われる「働き方改革」とのキーワードを用いて、「時短勤務」や「時間外労働」に関する内容が記載された文書を検索しようとしていると考えられる。このような乖離が生じた場合であっても、入力キーワードに関係する内容が記載された内部文書が、検索結果として提示されることが望ましい。
この対策として、本実施形態では、入力キーワードが検索キーワードと乖離している場合に、入力キーワードから、入力キーワードに関係する検索キーワードを推定する。これにより、入力キーワードが検索キーワードと乖離している場合であっても、検索者が所望すると考えられる文書を、検索者に提示することが可能となり、検索の支援を行うことができる。
具体的に、検索支援システム1は、学習段階と実行段階の二つの処理フェーズを有する。
学習段階において、検索支援システム1は、入力キーワードから、入力キーワードに関係する検索キーワードを推定するための学習を行う。これにより、入力キーワードから検索キーワードを推定する学習済みモデルを生成する。
実行段階において、検索支援システム1は、学習段階で生成した学習済みモデルを用いて、入力キーワードから検索キーワードを推定する処理を行う。
以下では、学習段階において、検索支援システム1が、外部インターネットのウェブサイトに掲載された文書コンテンツ(以下、単に、コンテンツという)から得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習する場合を例に説明する。外部インターネットを介して取得可能なコンテンツは、クローズドな環境で管理されている検索対象文書とは異なる文書であって、任意のユーザによりアクセス可能なコンテンツである。外部インターネットを介して取得するコンテンツは、例えば、役所等の自治体のホームページに掲載された情報である。すなわち、外部インターネットのウェブサイトに掲載された文書は、「文書コンテンツ」の一例である。
しかしながら、これに限定されることはない。検索支援システム1は、少なくとも検索対象文書とは異なる文書から得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習すればよい。
以下では、学習段階を経た後に、実行段階の処理を行う場合を例に説明するが、これに限定されない。学習段階と実行段階とは、同時進行で処理されてもよいし、実行段階で得られた情報が、学習段階の処理に用いられてもよい。また、所定のタイミングで、学習段階の処理が繰り返し行われることにより、学習済みモデルが定期的に更新されてもよい。
図1は、実施形態に係る検索支援システム1の構成の例を示すブロック図である。検索支援システム1は、例えば、検索端末10と、学習サーバ20と、Webサーバ30と、推定サーバ40と、検索サーバ50とを備える。検索支援システム1において、検索支援システム1の構成要素(検索端末10と、学習サーバ20と、Webサーバ30と、推定サーバ40と、検索サーバ50)は、通信ネットワークNWを介して、互いに通信可能に接続される。
まず、学習段階について説明する。
学習サーバ20は、学習済みモデルを生成するパーソナルコンピュータ、サーバ装置等である。学習済みモデルは、入力キーワード及び学習した内容に基づいて、その入力キーワードに関係する検索キーワードを推定し、推定結果を出力するモデルである。
学習サーバ20は、外部インターネットを介して、Webサーバ30から、特定のウェブサイトに掲載されたコンテンツに関する情報(以下、コンテンツ情報)を取得する。特定のウェブサイトは、少なくとも、検索対象文書が関係する業界や分野についての情報が記載されたコンテンツが掲載されるサイトであればよく、検索対象文書の内容に応じて任意に設定されてよい。
学習サーバ20は、検索サーバ50から検索対象文書に関する情報(以下、検索対象文書情報)を取得する。
学習サーバ20は、コンテンツ情報と検索対象文書情報とに基づいて、コンテンツから得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習した学習済みモデルを生成する。
Webサーバ30は、外部インターネットのWebサイトにコンテンツを掲載するサーバである。Webサーバ30は、コンテンツ情報を記憶し、学習段階において、学習サーバ20にコンテンツ情報を出力する。
検索サーバ50は、検索を行うパーソナルコンピュータ、サーバ装置等である。検索サーバ50は、検索対象文書情報を記憶し、学習段階において、学習サーバ20に検索対象文書情報を学習サーバ20に出力する。
次に実行段階について説明する。
検索端末10は、検索者が検索を行う際に利用されるパーソナルコンピュータ、タブレット端末等である。検索端末10は、検索者のキーボード操作等により入力された入力キーワードを取得する。検索端末10は、取得した入力キーワードを推定サーバ40に出力する。この応答として、検索端末10は、推定サーバ40から、入力キーワードに関係する検索キーワードを推定した推定結果を取得する。
検索端末10は、推定結果を表示し、検索者に入力キーワードに代えて検索キーワードでの検索を行う旨の確認を促す。検索端末10は、検索者より確認された結果を取得する。検索端末10は、検索者より確認(確定)された検索キーワードを、検索サーバ50に出力する。この応答として、検索端末10は、検索サーバ50から、検索キーワードに応じた文書を、検索結果として取得する。検索端末10は、取得した検索結果を表示する。
学習サーバ20は、生成した学習済みモデルを示す情報を、推定サーバ40に出力する。
推定サーバ40は、入力キーワードに関係する検索キーワードを推定するパーソナルコンピュータ、サーバ装置等である。推定サーバ40は、検索端末10から入力キーワードを取得する。推定サーバ40は、学習サーバ20から学習済みモデルを取得する。推定サーバ40は、取得した入力キーワード、及び学習済みモデルを用いて、入力キーワードに関係する検索キーワードを推定する。推定サーバ40は、推定結果を、検索端末10に出力する。
検索サーバ50は、検索端末10から、検索キーワードを取得する。検索サーバ50は、検索対象文書から、検索キーワードに基づいて検索した文書を示す情報を、検索結果として、検索端末10に出力する。
図1に示すように、検索端末10は、例えば、入力部11と、推定結果取得部12と、検索結果取得部13と、表示部14とを備える。
入力部11は、キーワードやマウスなどの入力装置と接続し、当該入力装置を介して入力された情報を取得する。入力部11が取得する情報は、例えば、検索者により入力される、入力キーワード、及び、入力キーワードに代えて検索キーワードによる検索を行う場合の、その確認の結果を示す情報である。
推定結果取得部12は、入力キーワードを推定サーバ40に出力し、その応答として、入力キーワードに関係する検索キーワードを推定した推定結果を取得する。
検索結果取得部13は、検索者により確認された検索キーワードを、検索サーバ50に出力する。その応答として、検索結果取得部13は、検索サーバ50から検索結果を取得する。
表示部14は、推定結果取得部12により取得された推定結果を表示する。表示部14は、検索結果取得部13により取得された検索結果を表示する。
図2は、実施形態に係る学習サーバ20の構成の例を示すブロック図である。
図2に示すように、学習サーバ20は、例えば、Webコンテンツ情報取得部21と、文書情報取得部22と、語彙抽出部23と、特徴量抽出部24と、学習済みモデル生成部25と、コンテンツ語彙情報記憶部26と、文書語彙情報記憶部27とを備える。ここで、語彙抽出部23は、「コンテンツ語彙抽出部」の一例である。また、語彙抽出部23は、「文書語彙抽出部」の一例である。
Webコンテンツ情報取得部21は、コンテンツ情報を取得する。コンテンツ情報は、検索対象文書とは異なる文書(コンテンツ)に記載された内容に関する情報であって、例えば、コンテンツに記載された内容そのもの、コンテンツのタイトル、目次、各章における記載内容等を示す情報である。また、コンテンツに、そのコンテンツが作成された時期や、作成者、ISBN(International Standard Book Number)等が付されている場合には、コンテンツ情報として、これらの情報が含まれていてもよい。
文書情報取得部22は、検索対象文書情報を取得する。検索対象文書情報は、検索対象文書に記載された内容に関する情報であって、情報の具体的な内容は、コンテンツ情報と同様であってよく、例えば、文書に記載された内容そのもの、タイトル、目次、各章における記載内容等の他、その文書が作成された時期や、作成者、ISBN等が付されている場合における、これらの情報である。
語彙抽出部23は、コンテンツ情報に基づいて、コンテンツに記載された語彙(コンテンツ語彙)を抽出する。また、語彙抽出部23は、検索対象文書情報に基づいて、検索対象文書に記載された語彙(文書語彙)を抽出する。語彙抽出部23は、例えば、文書の全文又は一部から、文書に記載された語彙を抽出する。文書の全文から語彙を抽出するか、一部から語彙を抽出するかは、検索対象文書の内容や量、検索サーバの処理能力等に応じて任意に設定されてよい。
特徴量抽出部24は、コンテンツ情報、及び検索対象文書情報に基づいて、文書に対する自然言語処理を施すことにより、その文書に含まれる語彙の特徴量を抽出する。ここでの自然言語処理とは、形態素解析、構文解析、意味解析、あるいは文脈解析を含む処理であって、例えば、fastTextである。語彙の特徴量とは、コンテンツ語彙、又は文書語彙(以下、コンテンツ語彙等)から、その語彙における任意の特徴を数値化(高次のベクトル表現、或いは、分散表現などともいう)したものである。語彙の特徴とは、コンテンツ語彙等の、その記載された内容に基づく特徴であって、例えば、「保険に加入すれば安心」という文章が記載されていた場合、「保険」という語彙は、「加入するもの」、「安心さ」という特徴を有するとみなされる。この場合、例えば、「保険に加入する」という旨の文章が繰り返されている度合い、或いは、「保険」と、「加入」との単語が近い位置に配置されている度合い等に応じて、「保険」という語彙における、「加入するもの」という特徴を数値化したものが特徴量となる。特徴量抽出部24は、コンテンツ情報から抽出したコンテンツの特徴量を、コンテンツ語彙情報として、コンテンツ語彙情報記憶部26に記憶させる。特徴量抽出部24は、検索対象文書情報から抽出した検索対象文書の特徴量を、文書語彙情報として、文書語彙情報記憶部27に記憶させる。
学習済みモデル生成部25は、語彙抽出部23により抽出された、コンテンツ語彙等の特徴量を用いて、機械学習を実行することにより、検索対象文書語彙のそれぞれの類似度合いを学習した学習済みモデルを生成する。学習済みモデルは、例えば、語彙の特徴量に基づいて、語彙同士の類似度合いを算出する。ここでの類似度合いは、互いの語彙における所定の特徴を数値化した値の近さ(相関量)を示す度合いであり、例えば、語彙の特徴に基づいて分散表現される、高次元のベクトル空間における距離である。学習済みモデルは、ベクトル空間における語彙同士の距離が、所定の閾値より小さい場合、その語彙同士が類似すると判定する。一方、学習済みモデルは、ベクトル空間における語彙同士の距離が、所定の閾値より大きい場合、その語彙同士が類似しないと判定する。
コンテンツ語彙情報記憶部26は、コンテンツ語彙情報を記憶する。コンテンツ語彙情報は、特徴量抽出部24により抽出されたコンテンツ語彙の特徴量に関する情報である。コンテンツ語彙情報は、例えば、コンテンツを一意に識別するコンテンツIDと、コンテンツIDにて特定されるコンテンツに記載されている語彙から抽出された、特徴ごとの特徴量とが対応付けられた情報である(図6参照)。
文書語彙情報記憶部27は、文書語彙情報を記憶する。文書語彙情報は、特徴量抽出部24により抽出された文書語彙の特徴量に関する情報である。文書語彙情報は、例えば、検索対象文書を一意に識別する文書IDと、文書IDにて特定される検索対象文書に記載されている語彙から抽出された、特徴ごとの特徴量とが対応付けられた情報である(図7参照)。
図3は、実施形態に係るWebサーバ30の構成の例を示すブロック図である。
図3に示すように、Webサーバ30は、例えば、コンテンツ取得部31と、コンテンツ配信部32と、コンテンツ記憶部33とを備える。
コンテンツ取得部31は、コンテンツを示す情報を取得する。コンテンツを示す情報は、Webサイトにコンテンツを掲載するための情報であって、例えば、HTML言語やJavaScript(登録商標)言語で記述されたHTML文書である。
コンテンツ配信部32は、コンテンツ取得部31により取得されたコンテンツを示す情報を配信する。これにより、Webブラウザ機能を有するパーソナルコンピュータ、スマートフォン等が、Webサーバ30のサイトにアクセスすると、コンテンツを閲覧することができる。
コンテンツ記憶部33は、コンテンツ取得部31により取得されたコンテンツを示す情報を記憶する。
図4は、実施形態に係る推定サーバ40の構成の例を示すブロック図である。
図4に示すように、推定サーバ40は、例えば、入力キーワード取得部41と、入力キーワード判定部42と、検索キーワード推定部43と、推定結果出力部44と、学習済みモデル記憶部45とを備える。ここで、検索キーワード推定部43は、「推定部」の一例である。
入力キーワード取得部41は、検索端末10から、検索者により入力された入力キーワードを取得し、取得した入力キーワードを入力キーワード判定部42に出力する。
入力キーワード判定部42は、入力キーワード取得部41から取得した入力キーワードに基づいて、入力キーワードに関連する検索キーワードを、検索キーワード推定部43に推定させるか否かを判定する。入力キーワード判定部42は、例えば、入力キーワードが、検索キーワードの何れかと一致している場合、検索キーワードを推定させないと判定する。
一方、入力キーワード判定部42は、入力キーワードが、検索キーワードの何れかと一致していない(乖離している)場合、検索キーワードを推定させると判定する。
入力キーワード判定部42は、検索キーワードを推定させないと判定した場合、入力キーワード取得部41から取得した入力キーワードを推定結果出力部44に出力する。
一方、入力キーワード判定部42は、検索キーワードを推定させると判定した場合、入力キーワード取得部41から取得した入力キーワードを検索キーワード推定部43に出力する。
検索キーワード推定部43は、入力キーワード判定部42から取得した入力キーワード、及び学習済みモデルを基づいて、当該入力キーワードに関連する検索キーワードを推定する。学習済みモデルは、学習サーバ20により生成され、学習済みモデル記憶部45に記憶されたモデルである。
検索キーワード推定部43は、入力キーワードに相当する語彙に類似する語彙(以下、類似語彙という)であって、検索対象文書に記載されている語彙を、入力キーワードに関連する検索キーワードとして推定する。検索キーワード推定部43は、学習済みモデルを用いて、ベクトル空間において、入力キーワードに相当する語彙との距離が所定の閾値より小さい語彙を、類似語彙として抽出する。検索キーワード推定部43は、抽出した類似語彙から、検索対象文書に記載されている語彙を選択する。検索キーワード推定部43は、選択した語彙を、入力キーワードに関連する検索キーワードを推定した推定結果とする。
推定結果出力部44は、検索キーワード推定部43による推定が行われた場合、その推定結果を、検索端末10に出力する。
一方、推定結果出力部44は、検索キーワード推定部43による推定が行われなかった場合、入力キーワード判定部42から取得した入力キーワードを、検索端末10に出力する。
学習済みモデル記憶部45は、学習サーバ20により生成された学習済みモデルを示す情報を記憶する。学習済みモデルを示す情報は、例えば、複数の語彙におけるベクトル空間上の距離に基づいて、語彙が互いに類似しているか否かを判定するアルゴリズムである。或いは、学習済みモデルを示す情報は、コンテンツ、及び検索対象文書のそれぞれに記載された語彙ごとのベクトル空間における位置を示す情報であってもよいし、そのベクトル空間における位置に基づいて判定された、語彙が互いに類似しているか否かを示す判定結果が記憶されたテーブルであってもよい。
図5は、実施形態に係る検索サーバ50の構成の例を示すブロック図である。
図5に示すように、検索サーバ50は、例えば、検索キーワード取得部51と、検索部52と、検索結果出力部53と、検索対象文書情報記憶部54とを備える。
検索キーワード取得部51は、検索端末10から、検索キーワードを取得し、取得した検索キーワードを検索部52に出力する。ここでの検索キーワードは、検索者により入力された入力キーワードが検索キーワードの何れかと一致していた場合には、入力キーワードそのものである。一方、検索者により入力された入力キーワードが検索キーワードと乖離していた場合、ここでの検索キーワードは、推定サーバ40により推定された、入力キーワードに関連する検索キーワードである。
検索部52は、検索キーワード取得部51から取得した検索キーワードに基づいて、検索対象文書から該当する文書(該当文書)を検索する。検索部52は、例えば、検索対象文書のうち、検索キーワードが記載された文書を該当文書とする。或いは、検索部52は、検索キーワードが記載された文書の数が所定の閾値以上である場合には、検索キーワードが記載された回数が所定の閾値以上であるもの、又は、文書にとっての検索キーワードの重要度が所定の閾値以上であるものを該当文書とするようにしてもよい。なお、ここでいう重要度とは、その文書における該当キーワードがよく頻出し、かつその文書に対して特徴的である度合いを指す。
検索結果出力部53は、検索部52により検索された該当文書を示す情報を、検索結果として検索端末10に出力する。
検索対象文書情報記憶部54は、検索対象文書情報を記憶する。検索対象文書情報は、検索対象文書に関する情報であって、例えば、検索対象文書を一意に識別する文書IDと、検索対象文書のタイトル、ページ数、及び記載された内容等の属性情報とが対応付けられた情報である。
図6は、実施形態に係るコンテンツ語彙情報記憶部26に記憶される情報の構成の例を示す図である。コンテンツ語彙情報は、例えば、コンテンツIDと、タイトルと、語彙と、特徴量とを備える。コンテンツIDは、コンテンツを一意に識別する識別情報である。タイトルは、コンテンツの題名(タイトル)である。語彙は、コンテンツから抽出された語彙である。特徴量は、語彙の特徴量であり、例えば、特徴1、特徴2…のように、特徴ごとにその特徴量が示される。この例では、コンテンツID(1001)で識別されるコンテンツが、「○○市役所 働き方改革推進プラン」であることを示している。
図7は、実施形態に係る文書語彙情報記憶部27に記憶される情報の構成の例を示す図である。文書語彙情報は、例えば、文書IDと、タイトルと、語彙と、特徴量とを備える。文書IDは、検索対象文書を一意に識別する識別情報である。タイトルは、検索対象文書の題名(タイトル)である。語彙は、検索対象文書から抽出された語彙である。特徴量は、語彙の特徴量であり、例えば、特徴1、特徴2…のように、特徴ごとにその特徴量が示される。この例では、文書ID(2001)で識別される検索対象文書が、「○○マニュアル」であることを示している。
ここで、図8、及び図9を用いて、検索支援システム1が行う処理の流れを説明する。
図8は、学習段階の処理の流れ示すシーケンス図である。
図9は、実行段階の処理の流れ示すシーケンス図である。
図8に示すように、学習段階において、Webサーバ30は、コンテンツを配信する(ステップS10)。学習サーバ20は、Webサーバ30に掲載されたコンテンツ情報を取得する(ステップS11)。学習サーバ20は、取得したコンテンツ情報に基づいて、コンテンツ語彙を抽出し(ステップS12)、抽出した語彙の特徴量を抽出する(ステップS13)。学習サーバ20は、抽出した語彙の特徴量を、コンテンツ語彙情報記憶部26に記憶する(ステップS14)。
学習サーバ20は、ステップS100(ステップS11~S14)に示す処理を繰り返し行うことにより、所定のWebサイトに掲載されたコンテンツのそれぞれから、語彙とその語彙の特徴量を抽出し、所定数の語彙についてその特徴量を取得する。
一方、検索サーバ50は、検索対象文書情報記憶部54に検索対象文書情報を記憶することにより、検索に用いる検索対象文書を登録する(ステップS15)。学習サーバ20は、検索サーバ50から検索対象文書情報を取得する(ステップS16)。学習サーバ20は、取得した検索対象文書情報に基づいて、文書語彙を抽出し(ステップS17)、抽出した語彙の特徴量を抽出する(ステップS18)。学習サーバ20は、抽出した語彙の特徴量を、文書語彙情報記憶部27に記憶する(ステップS19)。
学習サーバ20は、コンテンツ語彙情報記憶部26に記憶された情報、及び文書語彙情報記憶部27に記憶された情報に基づいて、検索キーワード以外の語彙(入力キーワードとして想定される語彙)と、検索キーワードとの対応関係を学習モデルに学習させることにより、学習済みモデルを生成する(ステップS20)。
図9に示すように、実行段階において、推定サーバ40は、学習済みモデルを記憶する(ステップS30)。学習済みモデルを記憶する処理は、例えば、学習段階においてステップS20に示す処理が実行された後、推定サーバ40が、学習済みモデルを示す情報を、学習サーバ20から取得し、取得した情報を記憶することにより行う。
検索端末10は、検索者により入力キーワードが入力(入力操作)されると、その入力キーワードを取得し(ステップS31)、取得した業務情報を推定サーバ40に出力する。
推定サーバ40は、検索端末10から入力キーワードを取得し、取得したキーワードに基づいて、検索キーワードを推定するか否かを判定する(ステップS32)。推定サーバ40は、検索キーワードを推定する場合、入力キーワード、及び学習済みモデルに基づいて、検索キーワードを推定する(ステップS33)。一方、推定サーバ40は、検索キーワードを推定しない場合、入力キーワードを検索キーワードとする。推定サーバ40は、推定した検索キーワード(又は、入力キーワードと同じ検索キーワード)を検索端末10に出力する(ステップS34)。
検索端末10は、推定サーバ40から取得した検索キーワードを表示させ、検索者に確認を促す。検索端末10は、検索者により確認結果が入力(確定操作)されると、その旨を取得し(ステップS35)、取得した結果に基づいて、検索キーワードを検索サーバ50に出力する。
なお、このステップS35において、検索者により検索キーワードによる検索が了承されなかった場合、検索端末10は、その旨を推定サーバ40に出力し、推定サーバ40から再度の推定結果を取得するようにしてもよい。
この場合、推定サーバ40は、前回とは異なる方法にて検索キーワードを推定する。例えば、推定サーバ40は、前回推定した第1ベクトル空間とは異なる特徴量の組合せにより構成した第2のベクトル空間における語彙同士の距離に基づいて、再度、類似語彙を抽出する。検索キーワード推定部43は、抽出した類似語彙のうち、検索対象文書に記載されている語彙を、推定結果とする。
検索サーバ50は、検索端末10から検索キーワードを取得し、取得した検索キーワードに応じた検索を行う(ステップS36)。検索サーバ50は、検索結果を検索端末10に出力する。
検索端末10は、検索サーバ50から検索結果を取得し(ステップS37)、取得した検索結果を表示する。
上述したフローでは、ステップS32に示す処理による判定(検索キーワードを推定するか否か)の判定結果に関わらず、推定サーバ40が、検索端末10に検索キーワードを出力したが、これに限定されない。推定サーバ40は、検索キーワードを推定しない、つまり、入力キーワードが、検索キーワードの何れかに一致する場合には、その入力を検索サーバ50に出力するようにしてもよい。これにより、入力キーワードが検索キーワードの何れかに一致し、検索キーワードを推定する必要がない場合には、検索者による確認(確定)の操作を省略して、検索者の手間を低減させることが可能である。
以上説明したように、実施形態の検索支援システム1は、語彙抽出部23と、学習済みモデル生成部25と、入力キーワード取得部41と、検索キーワード推定部43と、検索部52とを備える。語彙抽出部23は、検索対象文書とは異なる文書コンテンツ(例えば、Webサーバ30により配信されたコンテンツ)からコンテンツ語彙を抽出する。語彙抽出部23は、検索対象文書から文書語彙を抽出する。学習済みモデル生成部25は、コンテンツ語彙と、文書語彙との類似度合いを学習した学習済みモデルを生成する。入力キーワード取得部41は、検索者(「検索対象文書を検索する検索ユーザ」の一例)により入力された入力キーワードを取得する。検索キーワード推定部43は、入力キーワード、及び学習済みモデルを用いて、入力キーワードに対応する文書語彙を、検索に用いる検索キーワードとして推定する。検索部52は、検索キーワード推定部43により推定された検索キーワードに基づいて、検索対象文書から該当する文書の検索を行う。
これにより、実施形態の検索支援システム1は、入力キーワードに基づいて、入力キーワードに類似する文書語彙を推定し、推定した文書語彙を検索キーワードに用いることができる。したがって、入力されたキーワードと、検索対象とする文書に記載された語彙とに乖離がある場合であっても、検索者が所望する内容が記載された文書を検索することができる。
実施形態の検索支援システム1を学習システムとして機能させてもよい。この場合、学習システムは、語彙抽出部23と、学習済みモデル生成部25とを備える。これにより、学習システムは、コンテンツ語彙と、文書語彙との関係を学習した学習済みモデルを生成することができき、上述した効果と同様の効果を奏する。
上述したように、本実施形態において、コンテンツは、検索対象文書が関係する業界や分野についての情報が記載されたコンテンツである。このため、コンテンツ語彙と、文書語彙とは相関関係を有する。また、検索者は、検索対象文書から所望の文書を検索する。したがって、検索者により入力される入力キーワードと、コンテンツ語彙と、文書語彙とは密接な関係を有する。すなわち、コンテンツ語彙と、文書語彙との関係を学習した学習済みモデルを用いて推定を行うことで、入力キーワードに関連(類似)する検索キーワードを精度よく推定することが可能である。
上述した実施形態における検索支援システム1の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1…検索支援システム
10…検索端末
11…入力部
12…推定結果取得部
13…検索結果取得部
14…表示部
20…学習サーバ
21…Webコンテンツ情報取得部
22…文書情報取得部
23…語彙抽出部
24…特徴量抽出部
25…学習済みモデル生成部
30…Webサーバ
31…コンテンツ取得部
32…コンテンツ配信部
33…コンテンツ記憶部
40…推定サーバ
41…入力キーワード取得部
42…入力キーワード判定部
43…検索キーワード推定部
44…推定結果出力部
45…学習済みモデル記憶部
50…検索サーバ
51…検索キーワード取得部
52…検索部
53…検索結果出力部
54…検索対象文書情報記憶部

Claims (5)

  1. 検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、
    前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、
    前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、
    前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得する入力キーワード取得部と、
    前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定する推定部と、
    前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う検索部と、
    を備える検索支援システム。
  2. 前記コンテンツ語彙抽出部は、外部インターネットを介して任意に取得可能な前記文書コンテンツに記載された前記コンテンツ語彙を抽出し、
    前記文書語彙抽出部は、前記外部インターネットを介して任意に取得することができない環境にて管理されている前記検索対象文書の文書語彙を抽出する、
    請求項1に記載の検索支援システム。
  3. 検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、
    前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、
    前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、
    を備える学習システム。
  4. コンテンツ語彙抽出部が、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出し、
    文書語彙抽出部が、前記検索対象文書に記載された語彙である文書語彙を抽出し、
    学習済みモデル生成部が、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成し、
    入力キーワード取得部が、前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得し、
    推定部が、前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定し、
    検索部が、前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う、
    検索支援方法。
  5. コンピュータを、請求項3に記載の学習システムとして動作させるためのプログラムであって、前記コンピュータを前記学習システムが備える各部として機能させるためのプログラム。
JP2019158247A 2019-08-30 2019-08-30 検索支援システム、学習システム、検索支援方法、及びプログラム Active JP7234078B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019158247A JP7234078B2 (ja) 2019-08-30 2019-08-30 検索支援システム、学習システム、検索支援方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019158247A JP7234078B2 (ja) 2019-08-30 2019-08-30 検索支援システム、学習システム、検索支援方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021036408A JP2021036408A (ja) 2021-03-04
JP7234078B2 true JP7234078B2 (ja) 2023-03-07

Family

ID=74716693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019158247A Active JP7234078B2 (ja) 2019-08-30 2019-08-30 検索支援システム、学習システム、検索支援方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7234078B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063185A (ja) 2003-08-13 2005-03-10 Toshiba Corp 文書検索システム、質問応答システム、文書検索方法
JP2007133688A (ja) 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法
JP2019121392A (ja) 2018-01-05 2019-07-22 Jfeスチール株式会社 情報検索システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063185A (ja) 2003-08-13 2005-03-10 Toshiba Corp 文書検索システム、質問応答システム、文書検索方法
JP2007133688A (ja) 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法
JP2019121392A (ja) 2018-01-05 2019-07-22 Jfeスチール株式会社 情報検索システム

Also Published As

Publication number Publication date
JP2021036408A (ja) 2021-03-04

Similar Documents

Publication Publication Date Title
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
KR101751113B1 (ko) 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치
US20240004884A1 (en) Personalized profile-modified search for dialog concepts
US20060179039A1 (en) Method and system for performing secondary search actions based on primary search result attributes
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN110909120B (zh) 简历搜索/投递方法、装置、系统及电子设备
GB2569858A (en) Constructing content based on multi-sentence compression of source content
JP2015197722A (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
Swaminathan et al. Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow
JP5125558B2 (ja) 推薦情報提供装置、推薦情報提供方法、推薦情報提供システムおよび推薦情報提供プログラム
JP6550628B1 (ja) 対話管理サーバ、対話管理方法、及びプログラム
JP2006099754A (ja) キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置
Song et al. Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
US20200293581A1 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
CN116991977B (zh) 一种基于大语言模型的领域向量知识精准检索方法及装置
CN107315735B (zh) 用于笔记整理的方法及设备
JP7234078B2 (ja) 検索支援システム、学習システム、検索支援方法、及びプログラム
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
JP2020204971A (ja) 対話管理サーバ、対話管理方法、及びプログラム
Hurtado Martín et al. An exploratory study on content-based filtering of call for papers
JP4795452B2 (ja) 検索システム及び検索プログラム
JP7234079B2 (ja) 検索支援システム、検索支援方法、及びプログラム
JP7234077B2 (ja) 検索支援システム、学習システム、検索支援方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230222

R150 Certificate of patent or registration of utility model

Ref document number: 7234078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350