JP2020091607A

JP2020091607A - 検索システム、及び検索方法

Info

Publication number: JP2020091607A
Application number: JP2018227615A
Authority: JP
Inventors: 聡大谷; Satoshi Otani; 井上　直樹; Naoki Inoue; 直樹井上; 友樹石田; Tomoki Ishida
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2020-06-11

Abstract

【課題】各ユーザにとって有益な検索結果を確実に提供する。【解決手段】検索システムにおいて検索サーバ１００は、単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得部１１１と、ユーザからの検索語の入力を受け付ける検索語受信部１１３と、入力された検索語が含まれる第１の文章を、取得したテキスト情報から生成された所定のインデックスデータ１５０に基づき検索する全文検索部１１９と、入力された検索語との類似度が所定の閾値以上である第２の文章を、前記取得したテキスト情報から生成された所定の学習済みモデル１６０に基づき検索する類似検索部１２１と、を備える。【選択図】図２

Description

本発明は、検索システム、及び検索方法に関する。

近年の機械学習や人工知能（AI: Artificial Intelligence）の技術の発展により、検
索システム（インターネット検索や文章検索）にも大きな進歩が見られる。例えば、従来の全文検索（検索語と完全に一致する語を含む文章の検索）と異なり、入力された検索語とは異なる類似語を特定してこれを検索対象とすることにより、検索語が表す意味又は内容と類似する単語又は文章を検索できるようになってきている（類似検索）。これにより、例えば、問い合わせ業務における問い合わせ履歴の検索システムでは、特定の用語がわからない業務初心者であっても過去の類似する問い合わせに関する結果を見つけることができる。

例えば、特許文献１には、機械学習を用いて文書を検索する技術として、特定の領域内の隣接する単語を連結して単語列を生成し、特定の領域において、単語列又は単語が共に存在すること、すなわち、共起を、対象となる文書の素性として用いることが開示されている。

特開２０１６−２２４８４７号公報

しかし、初心者ではなく、業務用語に精通し従来の全文検索に慣れている経験者が、文章の類似度をベースとした機械学習及びAIを用いた類似検索システムを使用した場合、検索結果がかえって期待と異なることがある。これは、機械学習及びAIを用いた類似検索は、入力された検索語と、その検索語から類似検索された文章の内容との類似性を用いて検索結果を得るため、検索語が含まれない文章も検索結果としてヒットしてしまうことがあるためである。また、検索語が明確な場合や、その検索語を確実に含む文章を検索したい場合は、従来の全文検索のほうがより的確な文章を探すことができる場合もある。

本発明はこのような現状に鑑みてなされたものであり、その目的は、各ユーザにとって有益な検索結果を確実に提供することが可能な検索システム、及び検索方法を提供することにある。

以上の課題を解決するための本発明の一つは、検索システムであって、単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得部と、ユーザからの検索語の入力を受け付ける検索語入力部と、前記入力された検索語が含まれる第１の文章を、前記取得したテキスト情報から生成された所定のインデックスデータに基づき検索する全文検索部と、前記入力された検索語との類似度が所定の閾値以上である第２の文章を、前記取得したテキスト情報から生成された所定の学習済みモデルに基づき検索する類似検索部と、を備える。

本発明によれば、各ユーザにとって有益な検索結果を確実に提供することができる。

図１は、本実施形態における検索システムの構成の一例を示す図である。図２は、検索サーバ１００が備える構成及び機能の一例を説明する図である。図３は、端末２００が備える構成及び機能の一例を説明する図である。図４は、検索システム１が行う検索処理である組み合わせ検索処理の一例を説明するフロー図である。図５は、検索データ作成処理の一例を説明する図である。図６は、検索処理の一例を説明する図である。図７は、検索結果画面情報に基づき端末２００に表示される、検索結果画面５００の一例を示す図である。図８は、特徴語画面情報に基づき端末２００に表示される、特徴語画面６００の一例を示す図である。図９は、特徴語一覧画面情報に基づき端末２００に表示される、特徴語一覧画面７００の一例を示す図である。

本実施形態の検索システムについて図面を参照しつつ説明する。
＜＜検索システムの構成＞＞
図１は、本実施形態における検索システムの構成の一例を示す図である。検索システム１は、自身が記憶している情報又は通信ネットワーク４を介して接続されている他の情報処理装置５から収集した情報に基づき、単語又は文章の検索処理を実行する検索サーバ１００と、検索サーバ１００と通信ネットワーク７を介して通信可能に接続され、検索サーバ１００に対して、単語又は文章の検索を要求する１又は２以上の端末２００とを含んで構成される。なお、通信ネットワーク４、７は、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、専用線等の有線又は無線の通信ネッ
トワークである。

＜検索サーバ＞
図２は、検索サーバ１００が備える構成及び機能の一例を説明する図である。検索サーバ１００は、ハードウェアとして、ＣＰＵ（Central Processing Unit）などのプロセッ
サ１０１と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等の主記憶装置１０２と、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の補助記憶装置１０３と、キーボード、マウス、タッチパネルなどからなる入力装置１０４と、モニタ（ディスプレイ）等からなる、画面表示を行う出力装置１０５と、各装置と通信を行う通信装置１０６とを備える。

また、検索サーバ１００は、テキスト情報取得部１１１、検索語受信部１１３、インデックスデータ記憶部１１５、学習済みモデル記憶部１１７、全文検索部１１９、類似検索部１２１、第１特徴語特定部１２３、第２特徴語特定部１２５、検索結果画面生成部１２７、特徴語画面生成部１２９、及び特徴語一覧画面生成部１３１の各機能を備える。

テキスト情報取得部１１１は、単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得する。なお、以下では、テキスト情報における単語（語句を含む）若しくは文章又はこれらの組み合わせのそれぞれを「テキスト」ともいう。

検索語受信部１１３は、後述する検索語を端末２００から受信する。

インデックスデータ記憶部１１５は、テキスト情報における単語又は文章のリストを含
むデータを、インデックスデータとして生成して記憶する。なお、インデックスデータは、全文検索インデックス１５０に記憶される。全文検索インデックス１５０は、例えば、テキスト、テキストのカテゴリ、テキストを含むファイルの所在（例えば、ＵＲＬ等）の情報を含むデータベースである。

学習済みモデル記憶部１１７は、テキスト情報における単語又は文章と、他の単語又は文章との間の類似度を算出するモデルを、学習済みモデル１６０として生成して記憶する。なお、学習済みモデル１６０は、所定の関数の他、例えば、各テキストの特定情報（文字列等）、各テキストの特徴量（ベクトル等）、テキストの情報を含んでいるファイルの特定情報（ファイル名等）、及びそのファイルの所在情報（ＵＲＬ等）を含んで構成されている。

全文検索部１１９は、検索語受信部１１３から受信した検索語が含まれる第１の文章を、テキスト情報取得部１１１が前記取得したテキスト情報から生成されたインデックスデータ（全文検索インデックス１５０）に基づき検索する。

類似検索部１２１は、検索語受信部１１３から受信した検索語との類似度が所定の閾値以上である第２の文章を、テキスト情報取得部１１１が前記取得したテキスト情報から生成された学習済みモデル１６０に基づき検索する。

第１特徴語特定部１２３は、類似検索部１２１が前記検索した第１の文章との類似度が所定の閾値以上の単語である第１特徴語を、学習済みモデル１６０に基づき特定する。
具体的には、例えば、第１特徴語特定部１２３は、学習済みモデル１６０に基づき、類似検索部１２１が前記検索した第１の文章を含む１又は２以上のファイルである第１ファイル中の単語又は文章から算出される、前記第１の文章との類似度が所定の閾値以上の単語を前記第１特徴語として特定する。

第２特徴語特定部１２５は、類似検索部１２１が前記検索した第２の文章との類似度が所定の閾値以上の単語である第２特徴語を、前記学習済みモデル１６０に基づき特定する。
具体的には、例えば、第２特徴語特定部１２５は、学習済みモデル１６０に基づき、類似検索部１２１が前記検索した第２の文章を含む１又は２以上のファイルである第２ファイル中の単語又は文章から算出される、前記第２の文章との類似度が所定の閾値以上の単語を前記第２特徴語として特定する。

検索結果画面生成部１２７は、後述する、端末２００に表示する検索結果画面を生成する。

特徴語画面生成部１２９は、後述する、端末２００に表示する特徴語画面を生成する。

特徴語一覧画面生成部１３１は、後述する、端末２００に表示する特徴語一覧画面を生成する。

＜端末＞
図３は、端末２００が備える構成及び機能の一例を説明する図である。端末２００は、検索サーバ１００と同様に、ハードウェアとして、ＣＰＵ（Central Processing Unit）
などのプロセッサ２０１と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等の主記憶装置２０２と、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の補助記憶装置２０３と、キーボード、マウス、タッチパネルなどからなる入力装置２０４と、モニタ（ディスプレイ）等からなる出力装置２０５と、各装置と通信を行う通
信装置２０６とを備える。端末２００は、例えば、所定のサーバ、パーソナルコンピュータ、スマートフォン等の各種の情報処理装置である。

端末２００は、検索語入力部２１１、検索結果画面表示部２１３、特徴語画面表示部２１５、及び特徴語一覧画面表示部２１７の各機能を備える。

検索語入力部２１１は、ユーザからの検索語の入力を受け付ける。

検索結果画面表示部２１３は、前記検索した第１の文章の一覧を表示する第１表示欄と、前記検索した第２の文章の一覧を表示する第２表示欄とを備える検索結果画面を表示する。

特徴語画面表示部２１５は、前記第１ファイルと前記第１特徴語との対応関係を表す表示部と、前記第２ファイルと前記第２特徴語との対応関係を表す表示部とを有する特徴語画面を表示する。

特徴語一覧画面表示部２１７は、検索サーバ１００の第１特徴語特定部１２３が前記特定した第１特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示し、検索サーバ１００の第２特徴語特定部１２５が前記特定した第２特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示する特徴語一覧画面を表示する。

以上に説明した検索サーバ１００及び端末２００の機能は、それぞれのハードウェアにより、もしくは、それぞれプロセッサが、主記憶装置や補助記憶装置に記憶されている各プログラムを読み出して実行することにより実現される。

また、これらのプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤなどの記憶デバイス、又は、ＩＣカード、ＳＤカード、ＤＶＤなどの、情報処理装置で読み取り可能な非一時的データ記憶媒体に格納される。

＜＜検索システムによる処理＞＞
次に、検索システム１が行う処理について説明する。
＜組み合わせ検索処理＞
図４は、検索システム１が行う検索処理である組み合わせ検索処理の一例を説明するフロー図である。

まず、検索サーバ１００は、組み合わせ検索処理に必要なデータを生成する処理である検索用データ生成処理を実行する（ｓ１）。検索用データ生成処理の詳細は後述する。

他方、端末２００は、入力装置２０４を介して、ユーザから検索語の入力を受け付ける（ｓ３）。なお、検索語は、単語、語句、又は文章のいずれの場合であってもよい。

端末２００は、ｓ３で入力された検索語を検索サーバ１００に送信し、検索サーバ１００は、この検索語を受信する（ｓ５）。

検索サーバ１００は、受信した検索語に基づき、所定の検索処理を行う（ｓ７）。具体的には、検索サーバ１００は、検索語を含む文章を検索する（全文検索）と共に検索語に類似する内容を有する文章を検索し（類似検索）、これらの各検索により得られた文章における特徴語（第１特徴語、第２特徴語）を検索する（特徴語検索）。なお、これらの検索処理の詳細は後述する。

検索サーバ１００は、ｓ７の検索結果に関する画面の情報（検索結果画面情報及び特徴語画面情報）を生成する画面情報生成処理を実行し（ｓ９）、生成した画面情報を、検索語を送信してきた端末２００に送信して処理を終了する（ｓ１１）。

他方、画面情報を受信した端末２００は、受信した画面情報に基づき、入力された検索語に対する検索結果の画面を表示し（ｓ１３）、処理を終了する（ｓ１５）。
以下、組み合わせ検索処理における各処理の詳細を説明する。

＜検索用データ作成処理＞
図５は、検索用データ作成処理の一例を説明する図である。まず、検索サーバ１００は、外部の情報処理装置（例えば、通信ネットワーク４を介して検索サーバ１００と接続している他の情報処理装置５）から、テキスト情報３００を受信する（ｓ２１）。この処理は、例えば、Ｗｅｂクローリング（Ｗｅｂスクレイピング）等の手法を用いて行われる。

そして、検索サーバ１００は、ｓ２１で受信したテキスト情報３００に基づき、テキスト間の類似性の算出方法を機械学習により学習する（人工知能（AI: Artificial Intelligence）を生成する）（ｓ２３）。具体的には、例えば、検索サーバ１００は、受信した
テキスト情報３００における各単語の特徴量（例えば、特徴ベクトル）を特定することにより、単語間、単語と文章の間、又は文章間等の、各テキスト間の類似性（特徴量の類似性）を算出する処理を学習し、これを学習済みモデル１６０として記憶する。

また、検索サーバ１００は、ｓ２１で受信したテキスト情報３００に基づき、テキストのインデックスデータを作成する（ｓ２５）。具体的には、例えば、検索サーバ１００は、受信したテキスト情報３００における各テキストを、所定のカテゴリごとにリスト化し、これらを全文検索インデックス１５０として記憶する。
以上で検索用データ作成処理は終了する。

＜検索処理＞
次に、図６は、検索処理の一例を説明する図である。
検索サーバ１００は、ｓ５で受信した検索語に基づき、当該検索語についての全文検索処理を行う（ｓ３５、ｓ３７）。すなわち、まず、検索サーバ１００は、全文検索インデックス１５０を参照することにより、ｓ５で受信した検索語が含まれている全ファイル（第１ファイル）及びその所在（ＵＲＬ等）を特定する（ｓ３５）。

そして、検索サーバ１００は、ｓ３５で特定した第１ファイルに含まれている文章（以下、文章群Ａという）を特定する（ｓ３７）。例えば、検索サーバ１００は、ｓ３５で特定した第１ファイルにおける全文を取得し、これらを複数の文章に分割する。

また、検索サーバ１００は、ｓ５で受信した検索語に基づき、当該検索語についての類似検索処理を行う（ｓ３１、ｓ３３）。すなわち、まず、検索サーバ１００は、学習済みモデル１６０に、ｓ５で受信した検索語を入力することにより、当該検索語と類似性の高い文章を含む全ファイル（第２ファイル）及びその所在を特定する（ｓ３１）。

そして、検索サーバ１００は、ｓ３１で特定した第２ファイルに含まれている文章（以下、文章群Ｂという）を特定する（ｓ３３）。例えば、検索サーバ１００は、ｓ３１で特定した第２ファイルにおける全文を取得し、これらを複数の文章に分割する。

検索サーバ１００は、以上のようにして文章群Ａ及び文章群Ｂを特定すると、それぞれに対して特徴語検索処理を実行する（ｓ３９−ｓ４７）。

具体的には、まず、検索サーバ１００は、文章群Ａに対する特徴語検索処理を実行する（ｓ３９、ｓ４５、ｓ４７）。すなわち、検索サーバ１００は、学習済みモデル１６０に、ｓ３７で取得した文章群Ａを入力することにより、文章群Ａを構成する各文章を特定すると共に、特定した文章を特徴付ける単語（第１特徴語）を抽出する。例えば、検索サーバ１００は、特定した全文章を学習済みモデル１６０に入力することにより、当該全文章に対する類似度が高い単語（類似度が所定の閾値以上の単語）を全て抽出する。なお、第１特徴語は、当該文章内に存在する語でなくてもよい。

また、検索サーバ１００は、文章群Ｂに対する特徴語検索処理を実行する（ｓ３９、ｓ４１、ｓ４３）。すなわち、検索サーバ１００は、学習済みモデル１６０に、ｓ３９で取得した文章群Ｂを入力することにより、文章群Ｂを構成する各文章を特定すると共に、特定した文章を特徴付ける単語（第２特徴語）を抽出する。例えば、検索サーバ１００は、特定した全文章を学習済みモデル１６０に入力することにより、当該全文章に対する類似度が高い単語（類似度が所定の閾値以上の単語）を全て抽出する。なお、第２特徴語は、当該文章内に存在する語でなくてもよい。
以上で検索処理は終了する。

＜＜画面説明＞＞
次に、端末２００に表示される画面について説明する。
＜検索結果画面＞
図７は、検索結果画面情報に基づき端末２００に表示される、検索結果画面５００の一例を示す図である。検索結果画面５００には、検索語の表示欄５０２が設けられる他、全文検索の結果表示欄５１０と、類似検索の結果表示欄５２０とがそれぞれ別枠で設けられる。

全文検索の結果表示欄５１０には、検索された各ファイル（第１ファイル）の名称５１２（例えば、Ｗｅｂページの名称）と、各ファイルの所在情報（例えば、ＵＲＬ）へのリンク５１４と、各ファイルの内容の一部５１６（スニペット表示）とが一覧表示される。また、各ファイルの内容の一部５１６における検索語に対応する部分には強調表示５１８（ハイライト表示）がなされる。

類似検索の結果表示欄５２０には、検索された各ファイル（第２ファイル）の名称５２２（例えば、Ｗｅｂページの名称）と、各ファイルの所在情報（例えば、ＵＲＬ）へのリンク５２４と、各ファイルの内容の一部５２６（スニペット表示）とが一覧表示される。また、各ファイルの内容の一部５２６における検索語に対応する部分には強調表示５２８（ハイライト表示）がなされる。

なお、各ファイルの一覧の表示順は、検索語との類似度が高いファイルの順となっている。ただし、表示順はこれに限られるものではなく、例えば、検索語（又は検索語と類似する語）の出現回数が多かったファイルの順としてもよい。

なお、ユーザによってリンク５１４、５２４が指定されると、このリンク５１４、５２４に対応するＷｅｂページ等の全体が別途画面に表示されるようにしてもよい（不図示）。

このような検索結果画面５００により、ユーザは、実際に検索結果のファイルを開かなくても、検索結果の概要を容易に知ることができる。

なお、ここで示した検索結果画面５００は、全文検索の結果表示欄５１０と類似検索の結果表示欄５２０とが同時に並列して表示されるものであるが、検索結果画面５００に設
けられた所定のタブによりこれらの画面を随時切り替えて表示できるようにしてもよい。

次に、特徴語画面について説明する。
＜特徴語画面＞
図８は、特徴語画面情報に基づき端末２００に表示される、特徴語画面６００の一例を示す図である。特徴語画面６００は、第２特徴語に関するマッピングを行った画面となっており、具体的には、検索語を示す検索語表示部６０２（所定のアイコン又は図形）と、検索語を類似検索して得られた第２ファイルの表示部６０４（所定のアイコン又は図形）とが設けられる。そして、検索語表示部６０２と第２ファイルの表示部６０４との間は、所定の結合線６０６によって接続されている。

これにより、ユーザは、検索語と類似するテキスト内容のファイルの存在を容易に確認することができる。

なお、結合線６０６の長さは、検索語と第２ファイル（におけるテキスト）との間の類似度の大きさに応じて設定されてもよい。

また、各第２ファイルの表示部６０４の周囲には、当該第２ファイルに対応する特徴語（第２特徴語）を示す特徴語表示部６０８（所定のアイコン又は図形）が設けられる。特徴語表示部６０８の大きさは、例えば、第２特徴語の検索によりヒットしたファイルの件数の総数に応じて設定される。

また、第２ファイルの表示部６０４と各特徴語表示部６０８との間は、所定の結合線６１０によって接続されている。なお、結合線６１０の長さは、例えば、第２特徴語とこれに対応する第２ファイルとの間の類似度の大きさに応じて設定されてもよい。

このような特徴語画面６００により、ユーザは、第２ファイルが概ねどのような情報（特徴語）を有しているかを確認し、また、その情報がどの程度重要であるかを判断することができる。

なお、図８で示した特徴語画面６００は、類似検索に対する特徴語（第２特徴語）に関する画面であるが、全文検索に対する特徴語（第１特徴語）に関する画面も同様である。

図９は、特徴語一覧画面情報に基づき端末２００に表示される、特徴語一覧画面７００の一例を示す図である。特徴語一覧画面７００には、検索された第１特徴語７１２のそれぞれを、検索語との類似度７１４の順に上から一覧表示した第１表示欄７１０と、検索された第２特徴語７２２のそれぞれを、検索語との類似度７２４の順に上から一覧表示した第２表示欄７２０とが並列して表示される。

このような特徴語一覧画面７００の構成により、ユーザは、全文検索及び類似検索により特定された第１特徴語及び第２特徴語のそれぞれについて、検索語との関連性の強さを確認することができる。

なお、図８では、特徴語一覧画面７００には第１表示欄７１０及び第２表示欄７２０が同時に表示されているが、所定のタブ等により両者を切り替えて表示するようにしてもよい。

以上のように、本実施形態の検索システム１は、ユーザから入力された検索語が含まれる第１の文章を、テキスト情報３００から生成された所定のインデックスデータに基づき検索し（全文検索）、また、検索語との類似度が所定の閾値以上である第２の文章を、テ
キスト情報から生成された所定の学習済みモデルに基づき検索する（類似検索）ことで、検索語と一致する語を含む文章と、検索語に類似する語に関する文章とを同時に検索することができる。これにより、検索に熟達しているユーザに対しては、全文検索により必要な検索結果を的確に提供することができると共に、検索に熟達していないユーザに対しても、類似検索により期待する検索結果を提供することができる。
特に、本実施形態の検索システム１は、テキスト情報３００から、全文検索に用いるインデックスデータ及び、類似検索に用いる学習済みモデルの双方を生成するため、検索処理における情報収集や情報生成に係る各情報処理装置の処理負荷を大きく減らすことができる。
このように、本実施形態の検索システム１によれば、全文検索及び類似検索のそれぞれの優位な点を活かしつつ、各ユーザにとって有益な検索結果を確実に提供することができる。

以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。

例えば、本実施形態では、検索システム１は、検索サーバ１００及び端末２００を別々の装置として備えるシステムとしたが、検索サーバ１００及び端末２００を一体的に構成したものとしてもよい。

また、本実施形態では、テキスト情報及び検索される各ファイルはインターネット上にあることを想定したが、そのようなネットワーク上にはないローカルファイルであってもよい。

以上の本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の検索システムにおいては、前記検索した第１の文章の一覧を表示する第１表示欄と、前記検索した第２の文章の一覧を表示する第２表示欄とを備える検索結果画面を表示する検索結果画面表示部を備える、としてもよい。

このように、第１の文章及び第２の文章の一覧を表示する表示欄をそれぞれ別個に設けることで、ユーザは、それぞれの検索の特徴（全文検索又は類似検索）を念頭に入れた上で検索結果を正しく評価することができる。

また、本実施形態の検索システムにおいては、前記検索した第１の文章との類似度が所定の閾値以上の単語である第１特徴語を、前記学習済みモデルに基づき特定する第１特徴語特定部と、前記検索した第２の文章との類似度が所定の閾値以上の単語である第２特徴語を、前記学習済みモデルに基づき特定する第２特徴語特定部と、を備える、としてもよい。

このように、第１の文章との類似度が高い第１特徴語を学習済みモデルに基づき特定すると共に、第２の文章との類似度が高い第２特徴語を当該学習済みモデルに基づき特定することで、ユーザは、第１の文章及び第２の文章のそれぞれについて、その内容の特徴を容易かつ迅速に把握することができる。

また、本実施形態の検索システムにおいては、前記第１特徴語特定部は、前記学習済みモデルに基づき、前記検索した第１の文章を含む１又は２以上のファイルである第１ファイル中の単語又は文章から算出される、前記第１の文章との類似度が所定の閾値以上の単語を前記第１特徴語として特定し、前記第２特徴語特定部は、前記学習済みモデルに基づき、前記検索した第２の文章を含む１又は２以上のファイルである第２ファイル中の単語
又は文章から算出される、前記第２の文章との類似度が所定の閾値以上の単語を前記第２特徴語として特定する、としてもよい。

このように、学習済みモデルに基づき、第１の文章を含む第１ファイル中の単語又は文章から算出される、第１の文章との類似度が高い単語を第１特徴語として特定すると共に、学習済みモデルに基づき、第２の文章を含む第２ファイル中の単語又は文章から算出される、第２の文章との類似度が高い単語を第２特徴語として特定することで、ユーザは、各ファイル（例えば、インターネット上のファイル）の内容の特徴を迅速に把握することができる。例えば、ユーザは、各ファイルの全文を参照することなく、その内容を把握することができる。

また、本実施形態の検索システムにおいては、前記第１ファイルと前記第１特徴語との対応関係を示す表示部と、前記第２ファイルと前記第２特徴語との対応関係を示す表示部とを有する特徴語画面を表示する特徴語画面表示部を備える、としてもよい。

このように、第１ファイルと第１特徴語との対応関係を表す表示部（例えば、結合線）と、第２ファイルと第２特徴語との対応関係を表す表示部（例えば、結合線）とを表示するようにすることで、ユーザは、各ファイルにどのような特徴の情報が含まれているかを俯瞰し、より効率よく検索結果の確認を行うことができる。

また、本実施形態の検索システムにおいては、前記特定した第１特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示し、前記特定した第２特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示する特徴語一覧画面を表示する特徴語一覧画面表示部を備える、としてもよい。

このように、検索語との類似度が高い順に各第１、第２特徴語を表示することで、ユーザは、各特徴語と検索語の関係性の強さを容易に把握し、検索結果を検証することができる。

１検索システム、１００検索サーバ、１１１テキスト情報取得部、１１９全文検索部、１２１類似検索部、１５０全文検索インデックス、１６０学習済みモデル、２１１検索語入力部、３００テキスト情報

Claims

単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得部と、
ユーザからの検索語の入力を受け付ける検索語入力部と、
前記入力された検索語が含まれる第１の文章を、前記取得したテキスト情報から生成された所定のインデックスデータに基づき検索する全文検索部と、
前記入力された検索語との類似度が所定の閾値以上である第２の文章を、前記取得したテキスト情報から生成された所定の学習済みモデルに基づき検索する類似検索部と、
を備える、検索システム。
前記検索した第１の文章の一覧を表示する第１表示欄と、前記検索した第２の文章の一覧を表示する第２表示欄とを備える検索結果画面を表示する検索結果画面表示部を備える、請求項１に記載の検索システム。
前記検索した第１の文章との類似度が所定の閾値以上の単語である第１特徴語を、前記学習済みモデルに基づき特定する第１特徴語特定部と、
前記検索した第２の文章との類似度が所定の閾値以上の単語である第２特徴語を、前記学習済みモデルに基づき特定する第２特徴語特定部と、
を備える、請求項１に記載の検索システム。
前記第１特徴語特定部は、前記学習済みモデルに基づき、前記検索した第１の文章を含む１又は２以上のファイルである第１ファイル中の単語又は文章から算出される、前記第１の文章との類似度が所定の閾値以上の単語を前記第１特徴語として特定し、
前記第２特徴語特定部は、前記学習済みモデルに基づき、前記検索した第２の文章を含む１又は２以上のファイルである第２ファイル中の単語又は文章から算出される、前記第２の文章との類似度が所定の閾値以上の単語を前記第２特徴語として特定する、
請求項３に記載の検索システム。
前記第１ファイルと前記第１特徴語との対応関係を示す表示部と、前記第２ファイルと前記第２特徴語との対応関係を示す表示部とを有する特徴語画面を表示する特徴語画面表示部を備える、請求項４に記載の検索システム。
前記特定した第１特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示し、前記特定した第２特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示する特徴語一覧画面を表示する特徴語一覧画面表示部を備える、請求項３に記載の検索システム。
検索システムが、
単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得処理と、
ユーザからの検索語の入力を受け付ける検索語入力処理と、
前記入力された検索語が含まれる第１の文章を、前記取得したテキスト情報から生成された所定のインデックスデータに基づき検索する全文検索処理と、
前記入力された検索語との類似度が所定の閾値以上である第２の文章を、前記取得したテキスト情報から生成された所定の学習済みモデルに基づき検索する類似検索処理と、
を実行する、検索方法。