JP2024015704A - 検索装置、検索方法、コンピュータプログラム及びモデル生成装置 - Google Patents
検索装置、検索方法、コンピュータプログラム及びモデル生成装置 Download PDFInfo
- Publication number
- JP2024015704A JP2024015704A JP2022117949A JP2022117949A JP2024015704A JP 2024015704 A JP2024015704 A JP 2024015704A JP 2022117949 A JP2022117949 A JP 2022117949A JP 2022117949 A JP2022117949 A JP 2022117949A JP 2024015704 A JP2024015704 A JP 2024015704A
- Authority
- JP
- Japan
- Prior art keywords
- search
- query
- document data
- unit
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000005094 computer simulation Methods 0.000 title 1
- 238000010801 machine learning Methods 0.000 claims abstract description 93
- 238000000605 extraction Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 230000010365 information processing Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 6
- 230000015654 memory Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005246 galvanizing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】指定されたクエリを適切に拡張し、ユーザの意図に合った検索を行うことを可能にする。
【解決手段】文書データの検索に用いるクエリが入力される入力部と、文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択部と、選択された機械学習モデルを用いて、指定されたクエリを拡張するクエリ拡張部と、拡張されたクエリに基づいて、複数の文書データの中から検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索部と、検索部による検索結果を出力する出力部と、を備える、検索装置が提供される。
【選択図】図1
【解決手段】文書データの検索に用いるクエリが入力される入力部と、文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択部と、選択された機械学習モデルを用いて、指定されたクエリを拡張するクエリ拡張部と、拡張されたクエリに基づいて、複数の文書データの中から検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索部と、検索部による検索結果を出力する出力部と、を備える、検索装置が提供される。
【選択図】図1
Description
本発明は、文書データを検索する検索装置、検索方法、コンピュータプログラム、及び、クエリを拡張する機械学習モデルを生成するモデル生成装置に関する。
大量の文書データから目的の文書データを検索する際に、ユーザは何らかのキーワードや文章をクエリとして検索装置に入力する。検索装置は、そのクエリを含む文書データを検索し、ユーザに検索結果を返す。このとき、ユーザの入力するクエリだけでは必要な文書検索結果が得られない場合がある。これは、表記ゆれや類義語、同義語等(以下、これらをまとめて「関連語句」ともいう。)が存在し、クエリと文書データ内の単語とが同等あるいは類似の意味を持っていたとしても、表層の表現が異なるためである。このようにユーザの入力するクエリのみでは十分な文書検索結果を得られないことを回避するための技術として、ユーザの入力したクエリに、自動的に別のクエリを追加するクエリ拡張がある。
クエリ拡張は、ユーザの入力したクエリに対して、検索装置が当該クエリの関連語句を自動的に求めて追加する技術である。例えば、予め関連語句の辞書を作成し、ユーザが入力したクエリの関連語句を当該辞書から取得することによりクエリ拡張する方法がある。しかし、この方法は辞書作成に膨大なコストがかかる。他のクエリ拡張の方法として、機械学習を利用する方法がある。かかる方法では、事前に大量の文書データを用いて、単語や文章間の距離を計算する機械学習モデルを取得する。取得された機械学習モデルを用いて単語や文章をベクトルに変換し、単語や文章間の距離を求めることで、ユーザの入力したクエリの関連語句を自動的に求めることができる。例えば、特許文献1には、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索するコンテンツ推薦装置が開示されている。
ここで、文書検索においては、様々な内容の文書データを検索対象とすることがある。例えば、技術文書における技術領域、ビジネス文書における業務領域、文書の作成部署等によって、文書データの内容は大きく異なる。これは文書のドメインが異なるためである。関連語句を求める機械学習モデルは、複数のドメインのデータで学習されるよりも、特定のドメインのデータで学習された方が高い性能を発揮することが知られている(例えば、非特許文献1)。つまり、複数のドメインのデータを検索対象とする検索装置においては、単一の機械学習モデルによるクエリ拡張ではより高い性能を発揮することができない。
例えば、特許文献2には、学習モデルを用いてユーザからの問い合わせに対応するための自動応答システムについての各処理を行う情報処理装置が開示されている。かかる情報処理装置は、それぞれが所定分野の問い合わせ対応を行うための複数の学習モデルのうちから選択された学習モデルを用いてチャット対応を行うチャット対応部と、チャット内容に応じてチャット対応部で使用する学習モデルを選択する選択部と、を備えており、一つのチャット対応部で複数の学習モデルを使い分けている。
Fernando Diaz, Bhaskar Mitra, and Nick Craswell. 2016. "Query Expansion with Locally-Trained Word Embeddings". In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 367-377, Berlin, Germany. Association for Computational Linguistics.
しかし、上記特許文献2に記載の技術は、チャットにおいて、話題毎に機械学習モデルを用意し、話題の変化を自動的に認識してモデルを切り替えることによって、適切な返答を1つ得るためのものである。これはチャットという文脈のある対話でのみ適用可能な手法であって、文脈が提供されずクエリのみによって行われる検索には適用できない。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、指定されたクエリを適切に拡張し、ユーザの意図に合った検索を行うことの可能な、検索装置、検索方法、コンピュータプログラム、及び、クエリを拡張する機械学習モデルを生成するモデル生成装置を提供することにある。
上記課題を解決するために、本発明のある観点によれば、文書データの検索に用いるクエリが入力される入力部と、文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択部と、選択された機械学習モデルを用いて、指定されたクエリを拡張するクエリ拡張部と、拡張されたクエリに基づいて、複数の文書データの中から検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索部と、検索部による検索結果を出力する出力部と、を備える、検索装置が提供される。
モデル選択部は、ユーザが指定したドメインを検索対象ドメインとして、機械学習モデルを選択してもよい。
また、モデル選択部は、ユーザが入力したクエリに基づいて特定されたドメインを検索対象ドメインとして、機械学習モデルを選択してもよい。
出力部は、複数の検索対象ドメインの文書データを検索範囲として検索された場合に、各検索結果を統合して出力してもよい。
検索装置は、入力された文書データからクエリを抽出するクエリ抽出部をさらに備えてもよい。このとき、クエリ拡張部は、クエリ抽出部により抽出されたクエリに基づいてクエリを拡張する。
出力部は、クエリ拡張部によるクエリ拡張結果を出力し、検索部は、クエリ拡張結果に基づきユーザが修正したクエリに基づいて、文書データを再検索してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、文書データの検索に用いるクエリを入力するクエリ入力ステップと、文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択ステップと、選択された機械学習モデルを用いて、クエリを拡張するクエリ拡張ステップと、拡張されたクエリに基づいて、複数の文書データの中から検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索ステップと、検索結果を出力する出力ステップと、を含む、検索方法が提供される。
さらに、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、文書データの検索に用いるクエリが入力される入力部と、文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択部と、選択された機械学習モデルを用いて、クエリを拡張するクエリ拡張部と、拡張されたクエリに基づいて、複数の文書データの中から検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索部と、検索部による検索結果を出力する出力部と、を備える、検索装置として機能させる、コンピュータプログラムが提供される。
また、上記課題を解決するために、本発明の別の観点によれば、複数のドメインのうちの少なくともいずれかに関連付けられている複数の文書データから、同一ドメインに関連付けられている文書データに含まれる複数の単語を取得する単語取得部と、単語取得部により取得された複数の単語を用いて、入力された単語から当該単語の関連語句を出力する機械学習モデルを生成するモデル生成部と、を備える、モデル生成装置が提供される。
以上説明したように本発明によれば、ドメインによって関連語句は異なるが、検索対象ドメインに対応する機械学習モデルを用いてクエリ拡張を行うことにより、指定されたクエリを適切に拡張し、ユーザの意図に合った検索を行うことを可能にする。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
本発明の検索装置は、複数の文書データから、指定されたクエリに関連する1または複数の文書データを検索する。本発明において、文書データとは、電子データ化された文書をいう。文書データは、記録媒体に記録されており、検索装置は、文書データが記録された記録媒体にアクセスして、文書データを検索する。ここで、文書は、文字により書き表した情報であり、以下の説明においては、1つの文書は、1つの文書データ(すなわち、1つのファイル)として記録媒体に記録されているものとする。例えば、1冊の書籍が1つの文書データとして記録媒体に記録されている。なお、本発明はかかる例に限定されず、複数の文書を1つの文書データ(すなわち、1つのファイル)として記録媒体に記録されていてもよい。例えば、毎月作成される報告書を1年分まとめて1つの文書データとして記録媒体に記録されていてもよい。クエリは、キーワードまたは文章である。検索装置は、指定されたクエリを拡張する機械学習モデルを用いて、表記ゆれや類義語、同義語等の関連語句を追加してクエリを拡張する。
クエリを拡張する機械学習モデルは、ドメイン毎に学習されている。ドメインは、文書の分類を表しており、例えば、技術文書、事務文書といった文書の種類や、技術文書における技術分野、事務文書における事務分野、設備保全文書における設備の種類、文書の作成部署、文書の作成年代、文書の作成言語等がある。検索装置は、検索対象の文書データのドメイン(以下、「検索対象ドメイン」ともいう。)に応じて、クエリ拡張に使用する機械学習モデルを選択する。
そして、検索装置は、検索対象ドメイン毎に、選択した機械学習モデルを用いて、拡張されたクエリに基づき検索対象ドメインの文書データを検索範囲として検索する。検索装置は、検索結果として、拡張されたクエリのうち少なくともいずれか1つを含む文書データを抽出する。このように、本発明の検索装置では、指定されたクエリを適切に拡張し、ユーザの意図に合った文書検索を実現する。以下、本発明の好適な実施の形態について詳細に説明する。
[1.検索装置]
まず、図1に基づいて、本発明の一実施形態に係る検索装置100の構成について説明する。図1は、本実施形態に係る検索装置100の一構成例を示すブロック図である。
まず、図1に基づいて、本発明の一実施形態に係る検索装置100の構成について説明する。図1は、本実施形態に係る検索装置100の一構成例を示すブロック図である。
本実施形態に係る検索装置100は、入力部110と、クエリ拡張部120と、モデル選択部130と、検索部140と、出力部150と、を備える。
入力部110は、入力装置10から入力される情報を受け付けるインタフェースである。入力装置10は、例えば、ユーザが情報を入力するための機器であって、例えばキーボード、マウス、タッチパネル等の入力機器である。入力部110は、入力装置10から入力される情報を、クエリ拡張部120へ出力する。例えば、ユーザが入力装置10を用いて、文書データの検索に用いるクエリを入力すると、入力部110は、入力されたクエリをクエリ拡張部120へ出力する。本実施形態において、クエリは、キーワードまたは文章であるとする。ユーザは、クエリに加えて、検索対象ドメインを、入力装置10を用いて入力し指定してもよい。
クエリ拡張部120は、機械学習モデルを用いて指定されたクエリを拡張する。クエリ拡張部120は、入力部110から入力されたクエリの拡張に用いる機械学習モデルを取得するため、検索対象ドメインに関する情報をモデル選択部130へ出力する。検索対象ドメインに関する情報は、ユーザが入力装置10を用いて入力したドメインであってもよく、ユーザが入力装置10を用いて入力したクエリであってもよい。
クエリ拡張部120は、モデル選択部130により選択された機械学習モデルが入力されると、当該機械学習モデルを用いてクエリを拡張する。クエリ拡張部120は、例えば、入力されたクエリを選択された機械学習モデルによってベクトルに変換し、他の語句のベクトルとの距離を計算して、その距離に応じて関連語句を選択することで、クエリを拡張する。このとき、クエリ拡張部120は、検索対象ドメイン毎に、対応する機械学習モデルを用いてクエリを拡張する。クエリ拡張部120は、拡張したクエリを、検索部140へ出力する。また、クエリ拡張部120は、拡張したクエリ及び検索対象ドメインを出力部150に出力してもよい。
モデル選択部130は、文書データのドメイン毎に生成された複数の機械学習モデルの中から、検索対象ドメインに対応する機械学習モデルを選択する。モデル選択部130は、クエリ拡張部120から検索対象ドメインに関する情報が入力されると、検索対象ドメインに関する情報から検索対象ドメインを特定する。クエリ拡張部120から入力された情報がドメインであれば、モデル選択部130は、当該ドメインを検索対象ドメインとする。また、クエリ拡張部120から入力された情報がクエリであれば、当該クエリから検索対象ドメインを判定する。この場合、モデル選択部130は、例えば、クエリとドメインとの関係性を予め学習させた言語モデルや、トピックモデル等の機械学習モデル、クエリとドメインとの関係性を収録した辞書等を用いることにより、検索対象ドメインを判定し得る。なお、モデル選択部130が選択する検索対象ドメインは、1つであってもよく、複数であってもよい。
モデル選択部130は、特定した検索対象ドメインに対応する機械学習モデルを、モデル記憶部200から選択する。モデル記憶部200は、文書データのドメイン毎に予め生成された、クエリを拡張する機械学習モデルを記憶するデータベースである。例えば、図1に示すモデル記憶部200には、ドメインAの文書データから生成されたモデルA211、ドメインBの文書データから生成されたモデルB212、ドメインCの文書データから生成されたモデルC213が格納されている。機械学習モデルの構築手法は特に限定されないが、例えばWord2Vec、BERT等の手法により構築してもよい。例えば、検索対象ドメインが「ドメインA」であるとき、モデル選択部130は、モデル記憶部200から、モデルA211を選択し、取得する。そして、モデル選択部130は、選択した機械学習モデルを、クエリ拡張部120へ出力する。
検索部140は、クエリ拡張部120により拡張されたクエリに基づき、文書サーバ300に記録された複数の文書データから、拡張されたクエリのうち少なくともいずれか1つを含む文書データを検索する。検索部140の検索手法は特に限定されないが、例えばキーワード検索エンジン等を用いてもよい。
検索部140は、文書サーバ300に記録されている文書データのうち、検索対象ドメインの文書データを検索範囲として検索する。例えば、図1に示すように、文書サーバ300が、ドメインAの文書データを格納する文書データベース310、ドメインBの文書データを格納する文書データベース320、及び、ドメインCの文書データを格納する文書データベース330を備えているとする。例えば、検索対象ドメインが「ドメインA」であるとき、検索部140は、クエリ拡張部120により拡張されたクエリに基づき、文書データベース310の文書データを検索範囲として、検索を行う。
なお、文書サーバ300が1つのデータベースのみを備え、当該データベースにすべてのドメインの文書データが格納されていてもよい。この場合、データベースに記録された文書データそれぞれに対してドメインを区別する符号を付与しておく。これにより、検索部140は、検索対象ドメインの符号によって検索範囲とする文書データをデータベースから絞り込み、絞り込んだ文書データを検索範囲として検索することができる。また、文書サーバ300は、図1では1つのみ記載されているが、複数設置されていてもよい。さらに文書サーバ300は、ネットワークを介して検索装置100と接続されたクラウドサーバであってもよい。検索部140は、ドメイン毎に検索を行い、検索結果を出力部150へ出力する。
出力部150は、検索装置100から出力装置20へ情報を出力するインタフェースである。出力装置20は、検索装置100から出力された情報をユーザに提示するための機器であって、例えばディスプレイ、プリンター等の出力機器である。例えば、出力部150は、クエリ拡張部120から入力される拡張したクエリ及び検索対象ドメインや、検索部140による検索結果を、出力装置20に出力する。
[2.検索方法]
次に、図2~図4に基づいて、本発明の一実施形態に係る検索装置100による文書データの検索方法について説明する。図2は、本実施形態に係る検索方法の一例を示すフローチャートである。図3は、文書検索画面400の一例を示す説明図である。図4は、複数の検索対象ドメインがある場合の検索結果の表示例を示す説明図である。
次に、図2~図4に基づいて、本発明の一実施形態に係る検索装置100による文書データの検索方法について説明する。図2は、本実施形態に係る検索方法の一例を示すフローチャートである。図3は、文書検索画面400の一例を示す説明図である。図4は、複数の検索対象ドメインがある場合の検索結果の表示例を示す説明図である。
(S100、S110:クエリ及び検索対象ドメインの指定)
本実施形態に係る文書データの検索方法では、まず、ユーザは、入力装置10を用いて、クエリとするキーワードまたは文章を入力する(S100)。ユーザは、例えば図3に示す文書検索画面400のクエリ入力エリア410のクエリ入力欄411に、クエリを入力する。図3の例では、ユーザはクエリとして「CGL」を入力している。
本実施形態に係る文書データの検索方法では、まず、ユーザは、入力装置10を用いて、クエリとするキーワードまたは文章を入力する(S100)。ユーザは、例えば図3に示す文書検索画面400のクエリ入力エリア410のクエリ入力欄411に、クエリを入力する。図3の例では、ユーザはクエリとして「CGL」を入力している。
また、ユーザは、入力装置10を用いて、文書データの検索範囲を指定する検索対象ドメインを指定する(S110)。例えば、図3に示す文書検索画面400のドメイン選択エリア420には、文書データを分類するドメインが表示されており、各ドメインにはチェックボックスが設けられている。ユーザは、検索範囲とする文書データのドメインのチェックボックスにチェックを入れることで、検索対象ドメインを指定することができる。例えば図3に示す文書検索画面400のドメイン選択エリア420には、ドメインとして「技術文書」、「事務文書」が表示されており、「技術文書」のチェックボックスにチェックが入っている。この場合、ユーザは、検索対象ドメインとして「技術文書」を指定している。
その後、ユーザは、入力装置10を用いて、文書検索画面400の検索ボタン415を押下して、文書データの検索を開始する。検索ボタン415が押下されると、検索装置100の入力部110は、文書検索画面400に入力されたクエリと、指定された検索対象ドメインとを、クエリ拡張部120へ出力する。
なお、ユーザは、複数のドメインを検索対象ドメインとして指定してもよい。また、ユーザが検索対象ドメインを指定しない場合、検索装置100は、検索対象ドメインに関する情報として、入力されたクエリがクエリ拡張部120からモデル選択部130へ出力される。この場合、モデル選択部130は、例えば、クエリとドメインとの関係性を予め学習させた言語モデルや、トピックモデル等の機械学習モデル、クエリとドメインとの関係性を収録した辞書等を用いることにより、入力されたクエリから検索対象ドメインを判定する。
(S120-S140:クエリ拡張)
クエリ及び検索対象ドメインが特定されると、検索装置100のモデル選択部130は、モデル記憶部200から検索対象ドメインに対応する機械学習モデルを選択する(S120)。複数の検索対象ドメインが指定されている場合には、モデル選択部130は、検索対象ドメインそれぞれについて、対応する機械学習モデルを選択する。その後、クエリ拡張部120は、選択された機械学習モデルを用いて、クエリを拡張する(S130)。クエリ拡張部120は、例えば、入力されたクエリを選択された機械学習モデルによってベクトルに変換し、他の語句のベクトルとの距離を計算して、その距離に応じて関連語句を選択することで、クエリを拡張する。複数の機械学習モデルが選択されている場合には、それぞれの機械学習モデルを用いて、クエリを拡張する。
クエリ及び検索対象ドメインが特定されると、検索装置100のモデル選択部130は、モデル記憶部200から検索対象ドメインに対応する機械学習モデルを選択する(S120)。複数の検索対象ドメインが指定されている場合には、モデル選択部130は、検索対象ドメインそれぞれについて、対応する機械学習モデルを選択する。その後、クエリ拡張部120は、選択された機械学習モデルを用いて、クエリを拡張する(S130)。クエリ拡張部120は、例えば、入力されたクエリを選択された機械学習モデルによってベクトルに変換し、他の語句のベクトルとの距離を計算して、その距離に応じて関連語句を選択することで、クエリを拡張する。複数の機械学習モデルが選択されている場合には、それぞれの機械学習モデルを用いて、クエリを拡張する。
クエリ拡張部120は、ステップS120において選択したすべての機械学習モデルを用いてクエリを拡張したかを判定し(S140)、未使用の機械学習モデルがある場合には(S140:NO)、すべての機械学習モデルを用いてクエリを拡張するまでステップS130、S140の処理を繰り返し実施する。そして、選択したすべての機械学習モデルを用いてクエリを拡張すると(S140:YES)、クエリ拡張部120は、拡張したクエリを検索部140へ出力する。また、クエリ拡張部120は、拡張したクエリを出力装置20に表示させるために、出力部150へ出力してもよい。
(S150-S170:文書検索)
検索部140は、クエリ拡張部120により拡張されたクエリに基づき、文書サーバ300に記録された複数の文書データから、拡張されたクエリのうち少なくともいずれか1つを含む文書データを検索する(S150)。検索部140は、文書サーバ300に記録されている文書データのうち、検索対象ドメインの文書データを検索範囲として検索する。例えば、図3に示す文書検索画面400のドメイン選択エリア420において、検索対象ドメインとして「技術文書」が指定された場合には、検索部140は、文書サーバ300が格納する文書データのうち、ドメインが「技術文書」である文書データを検索範囲として、文書検索を行う。
検索部140は、クエリ拡張部120により拡張されたクエリに基づき、文書サーバ300に記録された複数の文書データから、拡張されたクエリのうち少なくともいずれか1つを含む文書データを検索する(S150)。検索部140は、文書サーバ300に記録されている文書データのうち、検索対象ドメインの文書データを検索範囲として検索する。例えば、図3に示す文書検索画面400のドメイン選択エリア420において、検索対象ドメインとして「技術文書」が指定された場合には、検索部140は、文書サーバ300が格納する文書データのうち、ドメインが「技術文書」である文書データを検索範囲として、文書検索を行う。
検索部140は、ステップS110において指定されたすべての検索対象ドメインについて文書検索を行ったかを判定し(S160)、検索していない検索対象ドメインがある場合には(S160:NO)、すべての検索対象ドメインについて文書検索を行うまでステップS150、S160の処理を繰り返し実施する。そして、指定されたすべての検索対象ドメインについて文書検索を終えると(S160:YES)、検索部140は、文書検索結果を出力部150へ出力する。複数の検索対象ドメインについて文書検索を行った場合には、検索部140は、検索対象ドメイン毎に文書検索結果を出力する。
その後、出力部150は、文書検索結果を出力装置20へ出力する(S170)。出力装置20は、文書検索結果を、例えば図3に示す文書検索画面400の検索結果エリア450に表示する。図3に示す検索結果エリア450には、2つの文書データ(文書1、文書2)が検索により文書サーバ300から抽出され、そのタイトルが表示されている。検索結果は、クエリとの合致度の高い順序から表示してもよい。
また、文書検索画面400に、ステップS130のクエリ拡張により追加されたクエリを、クエリ拡張結果として表示してもよい。例えば、図3に示す文書検索画面400のクエリ拡張結果表示エリア430には、ステップS100にて入力されたクエリ「CGL」を拡張することで追加されたクエリとして「連続溶融亜鉛めっきライン」(拡張クエリ431a)と、「GA」(拡張クエリ431b)とが表示されている。検索結果エリア450に表示される文書検索結果は、クエリ入力欄411に入力されたクエリと、クエリ拡張結果表示エリア430に表示されたクエリ(拡張クエリ431a、431b)とに基づき、文書サーバ300を検索した結果である。
ここで、拡張されたクエリが適切でないために、文書検索結果がユーザの意図する内容でない場合もあり得る。このとき、ユーザは、クエリ拡張結果表示エリア430に表示された拡張クエリから不要なクエリを削除し、再度文書検索を実施してもよい。例えば、図3にクエリ拡張結果表示エリア430に表示された拡張クエリ431a、431bには、それぞれ削除ボタン435a、435bが設けられている。ユーザは、入力装置10を用いて不要なクエリの削除ボタンを押下することで、削除されたクエリを除くクエリに基づき、文書サーバ300を再検索することができる。例えばクエリ「GA」(拡張クエリ431b)が不要であるとき、ユーザは削除ボタン435bを押下する。その結果、検索部140は、クエリ「CGL」及び「連続溶融亜鉛めっきライン」に基づき、文書サーバ300を検索する。検索部140は再検索結果を出力部150へ出力し、出力装置20は検索結果エリア450に再検索結果を表示する。
このように、検索に用いるクエリをユーザが修正できるようにすることで、ユーザの意図にあった検索を実施することができる。なお、文書検索結果が表示された後、ユーザがクエリを新たに追加して、再検索を実施することも可能である。
また、検索対象ドメインが複数指定されていた場合、出力部150は、検索対象ドメインドメイン毎に、文書検索結果を出力装置20に出力してもよい。もしくは、出力部150は、複数の検索対象ドメインについて実施された各文書検索結果を統合して、出力装置20に出力してもよい。例えば、図3に示す文書検索画面400において、「技術文書」及び「事務文書」の両方のチェックボックスにチェックが入れられ、「技術文書」及び「事務文書」が検索対象ドメインとして指定されたとする。このとき、検索装置100は、「技術文書」のドメインについて学習された機械学習モデルを用いてクエリを拡張した後、文書サーバ300に記録されている文書データのうち、ドメインが「技術文書」の文書データを検索範囲として検索する。同様に、検索装置100は、「事務文書」のドメインについて学習された機械学習モデルを用いてクエリを拡張した後、文書サーバ300に記録されている文書データのうち、ドメインが「事務文書」の文書データを検索範囲として検索する。出力部150は、検索対象ドメインそれぞれについて得られた文書検索結果を1つにまとめて、出力装置20に出力する。
出力装置20は、文書検索画面400の検索結果エリア450において、例えば図4に示すように文書検索結果を表示し得る。図4に示す検索結果エリア450には、文書サーバ300から抽出された3つの文書データについて、文書内容欄451、452、453に、文書データのドメイン、文書データのタイトル、本文中のスニペットがそれぞれ記載されている。スニペットは、例えば、文書データの本文中にクエリが記載されている部分の周辺を抜粋したものであってもよい。スニペットを表示することで、抽出された文書データが意図するものであるか否かをユーザが判断しやすくなる。検索結果は、ドメインを問わず、クエリとの合致度の高い順序から表示してもよい。また、文書内容欄451、452、453には、著者、出版日等の文書情報をさらに表示してもよい。
以上、本発明の一実施形態に係る文書データの検索装置100とこれによる検索方法について説明した。本実施形態によれば、ユーザが入力したクエリを、検索対象ドメインに対応する機械学習モデルを用いて拡張した後、拡張されたクエリに基づき、検索対象ドメインの文書データを検索範囲として文書検索を行う。これにより、ドメインによって異なるクエリの関連語句を適切に拡張することができ、ユーザの意図にあった検索を実施することができる。
[3.変形例(文書データに基づく文書検索)]
上述の検索装置100による文書検索では、ユーザが入力したキーワードまたは文章をクエリとして文書データを検索したが、本発明はかかる例に限定されず、クエリは、ユーザが指定した文書データから抽出したものであってもよい。例えば、ある文書データと関連性の高い文書データを検索したい場合に、ユーザは、クエリを入力する代わりに、当該文書データを指定してもよい。
上述の検索装置100による文書検索では、ユーザが入力したキーワードまたは文章をクエリとして文書データを検索したが、本発明はかかる例に限定されず、クエリは、ユーザが指定した文書データから抽出したものであってもよい。例えば、ある文書データと関連性の高い文書データを検索したい場合に、ユーザは、クエリを入力する代わりに、当該文書データを指定してもよい。
ユーザが文書データを指定して当該文書データと関連性の高い文書データを検索する場合、検索装置100は、図5に示すように、図1に示した検索装置100が備える機能部(すなわち、入力部110、クエリ拡張部120、モデル選択部130、検索部140及び出力部150)に加えて、クエリ抽出部160をさらに備える。
ユーザが文書データを指定すると、入力部110は、指定された文書データをクエリ抽出部160へ出力する。クエリ抽出部160は、文書データの本文等から、当該文書データの内容に特徴的な単語または文章を、クエリとして抽出する。クエリ抽出部160は、例えばTF-IDFやBM25、TextRank等のキーワード抽出アルゴリズムや、文書データ中の重要文を抽出する機械学習モデル等を用いて、文書データからクエリを抽出する。クエリ抽出部160は、指定された文書データから抽出したクエリを入力部110へ出力する。入力部110は、クエリ抽出部160によって抽出されたクエリを、クエリ拡張部120へ出力する。
なお、クエリ拡張部120、モデル選択部130、検索部140及び出力部150は、図1に基づき説明した機能と同様の機能を有する。
ユーザが文書データを指定して当該文書データと関連性の高い文書データを検索する場合にも、クエリ抽出部160によって文書データからクエリが抽出された後は、図2に示したステップS110~S170の処理を実行することで、クエリを拡張し、文書検索を実施すればよい。図6に、ユーザが文書データを指定して文書検索を実施する場合のフローチャートを示す。なお、図6に示す処理のうち、図2のフローチャートに示した処理と同様の処理については、詳細な説明を省略する。
(S200-S220:クエリ及び検索対象ドメインの指定)
ユーザが文書データを指定して文書検索を実施する場合、図6に示すように、まず、ユーザは、入力装置10を用いて、文書データを指定する(S200)。文書データの指定は、例えば図3に示した文書検索画面400のクエリ入力エリア410に文書指定欄を新たに設け、文書指定欄に、指定する文書データを入力する、または、文書データの格納場所を入力することにより行ってもよい。文書指定欄にて文書データが指定されると、検索装置100の入力部110は、クエリ抽出部160に文書データを出力する。
ユーザが文書データを指定して文書検索を実施する場合、図6に示すように、まず、ユーザは、入力装置10を用いて、文書データを指定する(S200)。文書データの指定は、例えば図3に示した文書検索画面400のクエリ入力エリア410に文書指定欄を新たに設け、文書指定欄に、指定する文書データを入力する、または、文書データの格納場所を入力することにより行ってもよい。文書指定欄にて文書データが指定されると、検索装置100の入力部110は、クエリ抽出部160に文書データを出力する。
クエリ抽出部160は、文書データからクエリを抽出する(S210)。クエリ抽出部160は、文書データの本文等から、当該文書データの内容に特徴的な単語または文章を、クエリとして抽出する。クエリ抽出部160は、指定された文書データから抽出したクエリを、入力部110へ出力する。
また、ユーザは、入力装置10を用いて、文書データの検索範囲を指定する検索対象ドメインを指定する(S220)。そして、ユーザは、入力装置10を用いて、文書検索画面400の検索ボタン415を押下して、文書データの検索を開始する。ステップS220の処理は、図2のステップS110と同様に実行すればよい。
(S230-S250:クエリ拡張)
クエリ及び検索対象ドメインが特定されると、検索装置100のモデル選択部130は、モデル記憶部200から検索対象ドメインに対応する機械学習モデルを選択する(S230)。その後、クエリ拡張部120は、選択された機械学習モデルを用いて、クエリを拡張する(S240)。クエリ拡張部120は、選択したすべての機械学習モデルを用いてクエリを拡張したかを判定し(S250)、未使用の機械学習モデルがある場合には(S250:NO)、すべての機械学習モデルを用いてクエリを拡張するまでステップS240、S250の処理を繰り返し実施する。そして、選択したすべての機械学習モデルを用いてクエリを拡張すると(S250:YES)、クエリ拡張部120は、拡張したクエリを検索部140へ出力する。また、クエリ拡張部120は、拡張したクエリを出力装置20に表示させるために、出力部150へ出力してもよい。ステップS230-S250の処理は、図2のステップS120-S140と同様に実行すればよい。
クエリ及び検索対象ドメインが特定されると、検索装置100のモデル選択部130は、モデル記憶部200から検索対象ドメインに対応する機械学習モデルを選択する(S230)。その後、クエリ拡張部120は、選択された機械学習モデルを用いて、クエリを拡張する(S240)。クエリ拡張部120は、選択したすべての機械学習モデルを用いてクエリを拡張したかを判定し(S250)、未使用の機械学習モデルがある場合には(S250:NO)、すべての機械学習モデルを用いてクエリを拡張するまでステップS240、S250の処理を繰り返し実施する。そして、選択したすべての機械学習モデルを用いてクエリを拡張すると(S250:YES)、クエリ拡張部120は、拡張したクエリを検索部140へ出力する。また、クエリ拡張部120は、拡張したクエリを出力装置20に表示させるために、出力部150へ出力してもよい。ステップS230-S250の処理は、図2のステップS120-S140と同様に実行すればよい。
(S260-S280:文書検索)
検索部140は、クエリ拡張部120により拡張されたクエリに基づき、文書サーバ300に記録された複数の文書データから、拡張されたクエリのうち少なくともいずれか1つを含む文書データを検索する(S260)。検索部140は、指定されたすべての検索対象ドメインについて文書検索を行ったかを判定し(S270)、検索していない検索対象ドメインがある場合には(S270:NO)、すべての検索対象ドメインについて文書検索を行うまでステップS260、S270の処理を繰り返し実施する。そして、指定されたすべての検索対象ドメインについて文書検索を終えると(S270:YES)、検索部140は、文書検索結果を出力部150へ出力する。その後、出力部150は、文書検索結果を出力装置20へ出力する(S280)。ステップS260-S280の処理は、図2のステップS120-S140と同様に実行すればよい。
検索部140は、クエリ拡張部120により拡張されたクエリに基づき、文書サーバ300に記録された複数の文書データから、拡張されたクエリのうち少なくともいずれか1つを含む文書データを検索する(S260)。検索部140は、指定されたすべての検索対象ドメインについて文書検索を行ったかを判定し(S270)、検索していない検索対象ドメインがある場合には(S270:NO)、すべての検索対象ドメインについて文書検索を行うまでステップS260、S270の処理を繰り返し実施する。そして、指定されたすべての検索対象ドメインについて文書検索を終えると(S270:YES)、検索部140は、文書検索結果を出力部150へ出力する。その後、出力部150は、文書検索結果を出力装置20へ出力する(S280)。ステップS260-S280の処理は、図2のステップS120-S140と同様に実行すればよい。
このように、ユーザが文書データを指定して当該文書データと関連性の高い文書データを検索する場合にも、ドメインによって異なるクエリの関連語句を適切に拡張することができ、ユーザの意図にあった検索を実施することができる。
[4.機械学習モデルの生成]
検索装置100にてクエリを拡張する機械学習モデルは、モデル生成装置を用いて予め生成する。以下、図7及び図8に基づいて機械学習モデルを生成するモデル生成装置500と、モデル生成装置500によるモデル生成処理について説明する。図7は、モデル生成装置500の一構成例を示すブロック図である。図8は、モデル生成処理の一例を示すフローチャートである。
検索装置100にてクエリを拡張する機械学習モデルは、モデル生成装置を用いて予め生成する。以下、図7及び図8に基づいて機械学習モデルを生成するモデル生成装置500と、モデル生成装置500によるモデル生成処理について説明する。図7は、モデル生成装置500の一構成例を示すブロック図である。図8は、モデル生成処理の一例を示すフローチャートである。
[4-1.モデル生成装置]
モデル生成装置500は、図7に示すように、単語取得部510と、モデル生成部520とを備える。
モデル生成装置500は、図7に示すように、単語取得部510と、モデル生成部520とを備える。
単語取得部510は、複数のドメインのうちの少なくともいずれかに関連付けられている複数の文書データから、同一ドメインに関連付けられている文書データに含まれる複数の単語を取得する。
例えば、単語取得部510は、形態素解析により、文書サーバ300に記録されている複数の文書データそれぞれについて、文書データ内の文章を区切り、単語を取得する。この際、単語取得部510は、取得した単語それぞれに対して、当該単語を取得した文書データのドメインを関連付ける。なお、単語取得部510による単語取得処理では、同一の単語が複数回得られることもある。また、同一の単語が複数の異なるドメインの文書データに含まれることもあり得る。
なお、単語取得部510は、機械学習モデルの生成に用いる単語を、大量の文書データから予め取得された単語が格納されたデータベースから取得してもよい。データベースに格納されている単語は、例えば、文書サーバ300あるいは外部の文書データを記憶するサーバ等に記録されている文書データについて、各文書データ内の文章を区切って生成された単語であってもよい。この場合にも、当該データベースには、同一の単語が複数回格納されることもある。文書データから生成された単語には、それぞれ、当該単語を取得した文書データのドメインが関連付けられる。同一の単語に複数の異なるドメインが関連付けられることもあり得る。単語取得部510は、ドメインが同一である複数の単語を取得し、モデル生成部520へ出力する。
モデル生成部520は、単語取得部510により取得された複数の単語を用いて、入力された単語から当該単語の関連語句を出力する機械学習モデルを生成する。モデル生成部520は、例えばWord2Vec、BERT等の手法により単語をベクトルにそれぞれ変換し、指定された単語と他の単語との距離を算出して、距離の小さいものを指定された単語の関連語句として出力する機械学習モデルを生成する。モデル生成部520は、各ドメインについて、それぞれ機械学習モデルを生成する。モデル生成部520は、生成した機械学習モデルを、モデル記憶部200に記録する。
[4-2.モデル生成処理]
モデル生成装置500によるモデル生成処理の一例として、図8に基づき、文書サーバ300に記録されている複数の文書データを用いて機械学習モデルを生成する場合を説明する。
モデル生成装置500によるモデル生成処理の一例として、図8に基づき、文書サーバ300に記録されている複数の文書データを用いて機械学習モデルを生成する場合を説明する。
図8に示すように、まず、単語取得部510は、文書サーバ300に記録されている複数の文書データそれぞれについて、文書データ内の文章を区切り、単語を取得する。この際、単語取得部510は、取得した単語それぞれに対して、当該単語を取得した文書データのドメインを関連付ける(S300)。例えば、単語取得部510は、形態素解析により、文書サーバ300に記録されている複数の文書データそれぞれについて、文書データ内の文章を区切り、単語を取得する。この際、単語取得部510は、取得した単語それぞれに対して、当該単語を取得した文書データのドメインを関連付ける。
次いで、単語取得部510は、ステップS300にて取得した大量の単語群から同一ドメインの複数の単語を取得する(S310)。単語取得部510は、単語と関連付けたすべての文書データのドメインそれぞれについて、1つずつ機械学習モデルを生成する。単語取得部510は、文書データのある1つのドメインについて、同一ドメインの単語を取得する。そして、モデル生成部520は、単語取得部510により取得された同一ドメインの複数の単語を用いて、入力された単語から当該単語の関連語句を出力する機械学習モデルを生成する(S320)。
モデル生成部520は、1つのドメインについて機械学習モデルを生成すると、すべてのドメインについて機械学習モデルを生成したか判定する(S330)。機械学習モデルを生成していないドメインがある場合には(S330:NO)、すべてのドメインについて機械学習モデルを生成するまでステップS310~S330の処理を繰り返し実施する。そして、すべてのドメインについて機械学習モデルが生成されると(S330:YES)、モデル生成部520は、生成した機械学習モデルをモデル記憶部200に記録する(S340)。このとき、モデル生成部520は、機械学習モデルとそのドメインとを関連付けてモデル記憶部200に記録する。これにより、検索装置100は、検索対象ドメインから機械学習モデルを選択することができる。
なお、モデル生成装置500の機能を、検索装置100に持たせ、1つの装置として構成することも可能である。
[5.ハードウェア構成]
図9に基づいて、本実施形態に係る検索装置100及びモデル生成装置500のハードウェア構成について説明する。図9は、本実施形態に係る検索装置100またはモデル生成装置500として機能する情報処理装置900のハードウェア構成の一例を示すブロック図である。
図9に基づいて、本実施形態に係る検索装置100及びモデル生成装置500のハードウェア構成について説明する。図9は、本実施形態に係る検索装置100またはモデル生成装置500として機能する情報処理装置900のハードウェア構成の一例を示すブロック図である。
情報処理装置900は、CPU(Central Processing Unit)901等の1または複数のハードウェアプロセッサ、RAM(Random Access Memory)905、ROM(Read Only Memory)903等の1または複数のメモリを具備し、メモリに格納される1または複数のプログラムが1または複数のハードウェアプロセッサにより実行されることで各種の演算を実行する。また、情報処理装置900は、バス907と、入力I/F909と、出力I/F911と、ストレージ装置913と、ドライブ915と、接続ポート917と、通信装置919とを含む。
例えば、CPU901は、演算処理装置及び制御装置として機能する。CPU901は、ROM903、RAM905、ストレージ装置913、またはリムーバブル記録媒体925に記録された各種プログラムに従って、情報処理装置900内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムあるいは演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラム、あるいは、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるバス907により相互に接続されている。バス907は、ブリッジを介して、PCI(Peripheral Component Interconnect/Interface)バス、PCI Express(登録商標)などの外部バスに接続されている。
なお、演算処理装置及び制御装置は、CPU901以外に、PLC(Programmable Logic Controller)によって実現してもよいし、ASIC(Application Specific Integrated Circuit)等の専用のハードウェアによって実現してもよい。
入力I/F909は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等の、ユーザが操作する操作手段である入力装置921からの入力を受け付けるインタフェースである。入力I/F909は、例えば、ユーザが入力装置921を用いて入力した情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路等として構成されている。入力装置921は、例えば、赤外線あるいはその他の電波を利用したリモートコントロール装置、あるいは、情報処理装置900の操作に対応したPDA等の外部機器927であってもよい。情報処理装置900のユーザは、入力装置921を操作し、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力I/F911は、入力された情報を、ユーザに対して視覚的または聴覚的に通知可能な出力装置923へ出力するインタフェースである。出力装置923は、例えば、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置およびランプ等の表示装置であってもよい。あるいは、出力装置923は、スピーカ及びヘッドホン等の音声出力装置や、プリンター、移動通信端末、ファクシミリ等であってもよい。出力I/F911は、出力装置923に対して、例えば、情報処理装置900により実行された各種処理にて得られた処理結果を出力するよう指示する。具体的には、出力I/F911は、表示装置に対して情報処理装置900による処理結果を、テキストまたはイメージで表示するよう指示する。また、出力I/F911は、音声出力装置に対し、再生指示を受けた音声データ等のオーディオ信号をアナログ信号に変換して出力するよう指示する。
ストレージ装置913は、情報処理装置900の記憶部の1つであり、データ格納用の装置である。ストレージ装置913は、例えば、HDD(Hard Disk Drive)等の磁気記憶デバイス、SSD(Solid State Drive)等の半導体記憶デバイス、光記憶デバイスまたは光磁気記憶デバイス等により構成される。ストレージ装置913は、CPU901が実行するプログラム、プログラムの実行により生成された各種データ、及び、外部から取得した各種データ等を格納する。
ドライブ915は、記録媒体用リーダライタであり、情報処理装置900に内蔵あるいは外付けされる。ドライブ915は、装着されているリムーバブル記録媒体925に記録されている情報を読み出し、RAM905に出力する。また、ドライブ915は、装着されているリムーバブル記録媒体925に情報を書き込むことも可能である。リムーバブル記録媒体925は、例えば、磁気ディスク、光ディスク、光磁気ディスクまたは半導体メモリ等である。具体的には、リムーバブル記録媒体925は、CDメディア、DVDメディア、Blu-ray(登録商標)メディア、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ、SDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体925は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)または電子機器等であってもよい。
接続ポート917は、機器を情報処理装置900に直接接続するためのポートである。接続ポート917は、例えば、USB(Universal Serial Bus)ポート、eSATA(external Serial Advanced Technology Attachment)、SAS(Serial Attached SCSI(Small Computer System Interface))ポート等である。情報処理装置900は、接続ポート917に接続された外部機器927から、直接各種データを取得したり外部機器927に各種データを提供したりすることができる。例えば接続ポート917を介して、アラーム情報を通知するための回転灯等のアラーム通知装置を接続してもよい。また、外部機器927として、NAS(Network Attached Storage)を接続し、記憶装置として用いてもよい。
通信装置919は、例えば、通信網929に接続するための通信デバイス等で構成された通信インタフェースである。通信装置919は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)またはWUSB(Wireless USB)用の通信カード等である。また、通信装置919は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデム等であってもよい。通信装置919は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。例えば、通信装置919を介して、情報処理装置900を操作するためのコンピュータを接続することもできる。また、通信装置919に接続される通信網929は、有線または無線によって接続されたネットワーク等により構成されている。例えば、通信網929は、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信等である。
以上、情報処理装置900のハードウェア構成の一例を示した。上述の各構成要素は、汎用的な部材を用いて構成されてもよく、各構成要素の機能に特化したハードウェアにより構成されてもよい。情報処理装置900のハードウェア構成は、本実施形態を実施する時々の技術レベルに応じて適宜変更可能である。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10 入力装置
20 出力装置
100 検索装置
110 入力部
120 クエリ拡張部
130 モデル選択部
140 検索部
150 出力部
160 クエリ抽出部
200 モデル記憶部
300 文書サーバ
310、320、330 文書データベース
400 文書検索画面
410 クエリ入力エリア
411 クエリ入力欄
415 検索ボタン
420 ドメイン選択エリア
430 クエリ拡張結果表示エリア
431a、431b 拡張クエリ
435a、435b 削除ボタン
450 検索結果エリア
451、452、453 文書内容欄
500 モデル生成装置
510 単語取得部
520 モデル生成部
900 情報処理装置
20 出力装置
100 検索装置
110 入力部
120 クエリ拡張部
130 モデル選択部
140 検索部
150 出力部
160 クエリ抽出部
200 モデル記憶部
300 文書サーバ
310、320、330 文書データベース
400 文書検索画面
410 クエリ入力エリア
411 クエリ入力欄
415 検索ボタン
420 ドメイン選択エリア
430 クエリ拡張結果表示エリア
431a、431b 拡張クエリ
435a、435b 削除ボタン
450 検索結果エリア
451、452、453 文書内容欄
500 モデル生成装置
510 単語取得部
520 モデル生成部
900 情報処理装置
Claims (9)
- 文書データの検索に用いるクエリが入力される入力部と、
文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択部と、
選択された前記機械学習モデルを用いて、指定されたクエリを拡張するクエリ拡張部と、
拡張された前記クエリに基づいて、複数の文書データの中から前記検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索部と、
前記検索部による検索結果を出力する出力部と、
を備える、検索装置。 - 前記モデル選択部は、ユーザが指定したドメインを前記検索対象ドメインとして、機械学習モデルを選択する、請求項1に記載の検索装置。
- 前記モデル選択部は、ユーザが入力したクエリに基づいて特定されたドメインを前記検索対象ドメインとして、機械学習モデルを選択する、請求項1に記載の検索装置。
- 前記出力部は、複数の検索対象ドメインの文書データを検索範囲として検索された場合に、各検索結果を統合して出力する、請求項1~3のいずれか1項に記載の検索装置。
- 入力された文書データからクエリを抽出するクエリ抽出部をさらに備え、
前記クエリ拡張部は、前記クエリ抽出部により抽出されたクエリに基づいてクエリを拡張する、請求項1~3のいずれか1項に記載の検索装置。 - 前記出力部は、前記クエリ拡張部によるクエリ拡張結果を出力し、
前記検索部は、前記クエリ拡張結果に基づきユーザが修正したクエリに基づいて、文書データを再検索する、請求項1~3のいずれか1項に記載の検索装置。 - 文書データの検索に用いるクエリを入力するクエリ入力ステップと、
文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択ステップと、
選択された前記機械学習モデルを用いて、クエリを拡張するクエリ拡張ステップと、
拡張された前記クエリに基づいて、複数の文書データの中から前記検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索ステップと、
検索結果を出力する出力ステップと、
を含む、検索方法。 - コンピュータを、
文書データの検索に用いるクエリが入力される入力部と、
文書データのドメイン毎に生成された、クエリを拡張する複数の機械学習モデルの中から、指定された検索対象ドメインに対応する機械学習モデルを選択するモデル選択部と、
選択された前記機械学習モデルを用いて、クエリを拡張するクエリ拡張部と、
拡張された前記クエリに基づいて、複数の文書データの中から前記検索対象ドメインの文書データを検索範囲として、対象とする文書データを検索する検索部と、
前記検索部による検索結果を出力する出力部と、
を備える、検索装置として機能させる、コンピュータプログラム。 - 複数のドメインのうちの少なくともいずれかに関連付けられている複数の文書データから、同一ドメインに関連付けられている文書データに含まれる複数の単語を取得する単語取得部と、
前記単語取得部により取得された前記複数の単語を用いて、入力された単語から当該単語の関連語句を出力する機械学習モデルを生成するモデル生成部と、
を備える、モデル生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022117949A JP2024015704A (ja) | 2022-07-25 | 2022-07-25 | 検索装置、検索方法、コンピュータプログラム及びモデル生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022117949A JP2024015704A (ja) | 2022-07-25 | 2022-07-25 | 検索装置、検索方法、コンピュータプログラム及びモデル生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024015704A true JP2024015704A (ja) | 2024-02-06 |
Family
ID=89772785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022117949A Pending JP2024015704A (ja) | 2022-07-25 | 2022-07-25 | 検索装置、検索方法、コンピュータプログラム及びモデル生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024015704A (ja) |
-
2022
- 2022-07-25 JP JP2022117949A patent/JP2024015704A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
JP6413256B2 (ja) | 会議支援装置、会議支援装置の制御方法、及びプログラム | |
KR102170206B1 (ko) | 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법 | |
KR102348084B1 (ko) | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 | |
US10242033B2 (en) | Extrapolative search techniques | |
EP3115907A1 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
JP6064629B2 (ja) | 音声入出力データベース検索方法、プログラム、及び装置 | |
KR20230148561A (ko) | 문서 요약 방법 및 시스템 | |
JP4699909B2 (ja) | キーワード対応関係分析装置及び分析方法 | |
JP2024015704A (ja) | 検索装置、検索方法、コンピュータプログラム及びモデル生成装置 | |
JP2002251412A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
JP2019096148A (ja) | 提供装置、提供方法及び提供プログラム | |
JP6765696B1 (ja) | 学術文献に記載された技術の新規性の判断を支援するための方法、プログラム、およびシステム | |
JP6687078B2 (ja) | 会議支援装置、会議支援装置の制御方法、及びプログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2004220226A (ja) | 検索文書のための文書分類方法及び装置 | |
JP2002251401A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
JPWO2014102992A1 (ja) | データ加工システムおよびデータ加工方法 | |
JP5998779B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP7548569B2 (ja) | 文書処理プログラム、情報処理装置及び文書処理方法 | |
US20240004909A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2003006216A (ja) | 情報処理装置および情報処理方法、記録媒体、プログラム、並びに電子出版用データ提供システム |