JP2020091607A - 検索システム、及び検索方法 - Google Patents

検索システム、及び検索方法 Download PDF

Info

Publication number
JP2020091607A
JP2020091607A JP2018227615A JP2018227615A JP2020091607A JP 2020091607 A JP2020091607 A JP 2020091607A JP 2018227615 A JP2018227615 A JP 2018227615A JP 2018227615 A JP2018227615 A JP 2018227615A JP 2020091607 A JP2020091607 A JP 2020091607A
Authority
JP
Japan
Prior art keywords
search
word
sentence
characteristic
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018227615A
Other languages
English (en)
Inventor
聡 大谷
Satoshi Otani
聡 大谷
井上 直樹
Naoki Inoue
直樹 井上
友樹 石田
Tomoki Ishida
友樹 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2018227615A priority Critical patent/JP2020091607A/ja
Publication of JP2020091607A publication Critical patent/JP2020091607A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】各ユーザにとって有益な検索結果を確実に提供する。【解決手段】検索システムにおいて検索サーバ100は、単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得部111と、ユーザからの検索語の入力を受け付ける検索語受信部113と、入力された検索語が含まれる第1の文章を、取得したテキスト情報から生成された所定のインデックスデータ150に基づき検索する全文検索部119と、入力された検索語との類似度が所定の閾値以上である第2の文章を、前記取得したテキスト情報から生成された所定の学習済みモデル160に基づき検索する類似検索部121と、を備える。【選択図】図2

Description

本発明は、検索システム、及び検索方法に関する。
近年の機械学習や人工知能(AI: Artificial Intelligence)の技術の発展により、検
索システム(インターネット検索や文章検索)にも大きな進歩が見られる。例えば、従来の全文検索(検索語と完全に一致する語を含む文章の検索)と異なり、入力された検索語とは異なる類似語を特定してこれを検索対象とすることにより、検索語が表す意味又は内容と類似する単語又は文章を検索できるようになってきている(類似検索)。これにより、例えば、問い合わせ業務における問い合わせ履歴の検索システムでは、特定の用語がわからない業務初心者であっても過去の類似する問い合わせに関する結果を見つけることができる。
例えば、特許文献1には、機械学習を用いて文書を検索する技術として、特定の領域内の隣接する単語を連結して単語列を生成し、特定の領域において、単語列又は単語が共に存在すること、すなわち、共起を、対象となる文書の素性として用いることが開示されている。
特開2016−224847号公報
しかし、初心者ではなく、業務用語に精通し従来の全文検索に慣れている経験者が、文章の類似度をベースとした機械学習及びAIを用いた類似検索システムを使用した場合、検索結果がかえって期待と異なることがある。これは、機械学習及びAIを用いた類似検索は、入力された検索語と、その検索語から類似検索された文章の内容との類似性を用いて検索結果を得るため、検索語が含まれない文章も検索結果としてヒットしてしまうことがあるためである。また、検索語が明確な場合や、その検索語を確実に含む文章を検索したい場合は、従来の全文検索のほうがより的確な文章を探すことができる場合もある。
本発明はこのような現状に鑑みてなされたものであり、その目的は、各ユーザにとって有益な検索結果を確実に提供することが可能な検索システム、及び検索方法を提供することにある。
以上の課題を解決するための本発明の一つは、検索システムであって、単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得部と、ユーザからの検索語の入力を受け付ける検索語入力部と、前記入力された検索語が含まれる第1の文章を、前記取得したテキスト情報から生成された所定のインデックスデータに基づき検索する全文検索部と、前記入力された検索語との類似度が所定の閾値以上である第2の文章を、前記取得したテキスト情報から生成された所定の学習済みモデルに基づき検索する類似検索部と、を備える。
本発明によれば、各ユーザにとって有益な検索結果を確実に提供することができる。
図1は、本実施形態における検索システムの構成の一例を示す図である。 図2は、検索サーバ100が備える構成及び機能の一例を説明する図である。 図3は、端末200が備える構成及び機能の一例を説明する図である。 図4は、検索システム1が行う検索処理である組み合わせ検索処理の一例を説明するフロー図である。 図5は、検索データ作成処理の一例を説明する図である。 図6は、検索処理の一例を説明する図である。 図7は、検索結果画面情報に基づき端末200に表示される、検索結果画面500の一例を示す図である。 図8は、特徴語画面情報に基づき端末200に表示される、特徴語画面600の一例を示す図である。 図9は、特徴語一覧画面情報に基づき端末200に表示される、特徴語一覧画面700の一例を示す図である。
本実施形態の検索システムについて図面を参照しつつ説明する。
<<検索システムの構成>>
図1は、本実施形態における検索システムの構成の一例を示す図である。検索システム1は、自身が記憶している情報又は通信ネットワーク4を介して接続されている他の情報処理装置5から収集した情報に基づき、単語又は文章の検索処理を実行する検索サーバ100と、検索サーバ100と通信ネットワーク7を介して通信可能に接続され、検索サーバ100に対して、単語又は文章の検索を要求する1又は2以上の端末200とを含んで構成される。なお、通信ネットワーク4、7は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、専用線等の有線又は無線の通信ネッ
トワークである。
<検索サーバ>
図2は、検索サーバ100が備える構成及び機能の一例を説明する図である。検索サーバ100は、ハードウェアとして、CPU(Central Processing Unit)などのプロセッ
サ101と、RAM(Random Access Memory)、ROM(Read Only Memory)等の主記憶装置102と、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の補助記憶装置103と、キーボード、マウス、タッチパネルなどからなる入力装置104と、モニタ(ディスプレイ)等からなる、画面表示を行う出力装置105と、各装置と通信を行う通信装置106とを備える。
また、検索サーバ100は、テキスト情報取得部111、検索語受信部113、インデックスデータ記憶部115、学習済みモデル記憶部117、全文検索部119、類似検索部121、第1特徴語特定部123、第2特徴語特定部125、検索結果画面生成部127、特徴語画面生成部129、及び特徴語一覧画面生成部131の各機能を備える。
テキスト情報取得部111は、単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得する。なお、以下では、テキスト情報における単語(語句を含む)若しくは文章又はこれらの組み合わせのそれぞれを「テキスト」ともいう。
検索語受信部113は、後述する検索語を端末200から受信する。
インデックスデータ記憶部115は、テキスト情報における単語又は文章のリストを含
むデータを、インデックスデータとして生成して記憶する。なお、インデックスデータは、全文検索インデックス150に記憶される。全文検索インデックス150は、例えば、テキスト、テキストのカテゴリ、テキストを含むファイルの所在(例えば、URL等)の情報を含むデータベースである。
学習済みモデル記憶部117は、テキスト情報における単語又は文章と、他の単語又は文章との間の類似度を算出するモデルを、学習済みモデル160として生成して記憶する。なお、学習済みモデル160は、所定の関数の他、例えば、各テキストの特定情報(文字列等)、各テキストの特徴量(ベクトル等)、テキストの情報を含んでいるファイルの特定情報(ファイル名等)、及びそのファイルの所在情報(URL等)を含んで構成されている。
全文検索部119は、検索語受信部113から受信した検索語が含まれる第1の文章を、テキスト情報取得部111が前記取得したテキスト情報から生成されたインデックスデータ(全文検索インデックス150)に基づき検索する。
類似検索部121は、検索語受信部113から受信した検索語との類似度が所定の閾値以上である第2の文章を、テキスト情報取得部111が前記取得したテキスト情報から生成された学習済みモデル160に基づき検索する。
第1特徴語特定部123は、類似検索部121が前記検索した第1の文章との類似度が所定の閾値以上の単語である第1特徴語を、学習済みモデル160に基づき特定する。
具体的には、例えば、第1特徴語特定部123は、学習済みモデル160に基づき、類似検索部121が前記検索した第1の文章を含む1又は2以上のファイルである第1ファイル中の単語又は文章から算出される、前記第1の文章との類似度が所定の閾値以上の単語を前記第1特徴語として特定する。
第2特徴語特定部125は、類似検索部121が前記検索した第2の文章との類似度が所定の閾値以上の単語である第2特徴語を、前記学習済みモデル160に基づき特定する。
具体的には、例えば、第2特徴語特定部125は、学習済みモデル160に基づき、類似検索部121が前記検索した第2の文章を含む1又は2以上のファイルである第2ファイル中の単語又は文章から算出される、前記第2の文章との類似度が所定の閾値以上の単語を前記第2特徴語として特定する。
検索結果画面生成部127は、後述する、端末200に表示する検索結果画面を生成する。
特徴語画面生成部129は、後述する、端末200に表示する特徴語画面を生成する。
特徴語一覧画面生成部131は、後述する、端末200に表示する特徴語一覧画面を生成する。
<端末>
図3は、端末200が備える構成及び機能の一例を説明する図である。端末200は、検索サーバ100と同様に、ハードウェアとして、CPU(Central Processing Unit)
などのプロセッサ201と、RAM(Random Access Memory)、ROM(Read Only Memory)等の主記憶装置202と、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の補助記憶装置203と、キーボード、マウス、タッチパネルなどからなる入力装置204と、モニタ(ディスプレイ)等からなる出力装置205と、各装置と通信を行う通
信装置206とを備える。端末200は、例えば、所定のサーバ、パーソナルコンピュータ、スマートフォン等の各種の情報処理装置である。
端末200は、検索語入力部211、検索結果画面表示部213、特徴語画面表示部215、及び特徴語一覧画面表示部217の各機能を備える。
検索語入力部211は、ユーザからの検索語の入力を受け付ける。
検索結果画面表示部213は、前記検索した第1の文章の一覧を表示する第1表示欄と、前記検索した第2の文章の一覧を表示する第2表示欄とを備える検索結果画面を表示する。
特徴語画面表示部215は、前記第1ファイルと前記第1特徴語との対応関係を表す表示部と、前記第2ファイルと前記第2特徴語との対応関係を表す表示部とを有する特徴語画面を表示する。
特徴語一覧画面表示部217は、検索サーバ100の第1特徴語特定部123が前記特定した第1特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示し、検索サーバ100の第2特徴語特定部125が前記特定した第2特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示する特徴語一覧画面を表示する。
以上に説明した検索サーバ100及び端末200の機能は、それぞれのハードウェアにより、もしくは、それぞれプロセッサが、主記憶装置や補助記憶装置に記憶されている各プログラムを読み出して実行することにより実現される。
また、これらのプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、SSDなどの記憶デバイス、又は、ICカード、SDカード、DVDなどの、情報処理装置で読み取り可能な非一時的データ記憶媒体に格納される。
<<検索システムによる処理>>
次に、検索システム1が行う処理について説明する。
<組み合わせ検索処理>
図4は、検索システム1が行う検索処理である組み合わせ検索処理の一例を説明するフロー図である。
まず、検索サーバ100は、組み合わせ検索処理に必要なデータを生成する処理である検索用データ生成処理を実行する(s1)。検索用データ生成処理の詳細は後述する。
他方、端末200は、入力装置204を介して、ユーザから検索語の入力を受け付ける(s3)。なお、検索語は、単語、語句、又は文章のいずれの場合であってもよい。
端末200は、s3で入力された検索語を検索サーバ100に送信し、検索サーバ100は、この検索語を受信する(s5)。
検索サーバ100は、受信した検索語に基づき、所定の検索処理を行う(s7)。具体的には、検索サーバ100は、検索語を含む文章を検索する(全文検索)と共に検索語に類似する内容を有する文章を検索し(類似検索)、これらの各検索により得られた文章における特徴語(第1特徴語、第2特徴語)を検索する(特徴語検索)。なお、これらの検索処理の詳細は後述する。
検索サーバ100は、s7の検索結果に関する画面の情報(検索結果画面情報及び特徴語画面情報)を生成する画面情報生成処理を実行し(s9)、生成した画面情報を、検索語を送信してきた端末200に送信して処理を終了する(s11)。
他方、画面情報を受信した端末200は、受信した画面情報に基づき、入力された検索語に対する検索結果の画面を表示し(s13)、処理を終了する(s15)。
以下、組み合わせ検索処理における各処理の詳細を説明する。
<検索用データ作成処理>
図5は、検索用データ作成処理の一例を説明する図である。まず、検索サーバ100は、外部の情報処理装置(例えば、通信ネットワーク4を介して検索サーバ100と接続している他の情報処理装置5)から、テキスト情報300を受信する(s21)。この処理は、例えば、Webクローリング(Webスクレイピング)等の手法を用いて行われる。
そして、検索サーバ100は、s21で受信したテキスト情報300に基づき、テキスト間の類似性の算出方法を機械学習により学習する(人工知能(AI: Artificial Intelligence)を生成する)(s23)。具体的には、例えば、検索サーバ100は、受信した
テキスト情報300における各単語の特徴量(例えば、特徴ベクトル)を特定することにより、単語間、単語と文章の間、又は文章間等の、各テキスト間の類似性(特徴量の類似性)を算出する処理を学習し、これを学習済みモデル160として記憶する。
また、検索サーバ100は、s21で受信したテキスト情報300に基づき、テキストのインデックスデータを作成する(s25)。具体的には、例えば、検索サーバ100は、受信したテキスト情報300における各テキストを、所定のカテゴリごとにリスト化し、これらを全文検索インデックス150として記憶する。
以上で検索用データ作成処理は終了する。
<検索処理>
次に、図6は、検索処理の一例を説明する図である。
検索サーバ100は、s5で受信した検索語に基づき、当該検索語についての全文検索処理を行う(s35、s37)。すなわち、まず、検索サーバ100は、全文検索インデックス150を参照することにより、s5で受信した検索語が含まれている全ファイル(第1ファイル)及びその所在(URL等)を特定する(s35)。
そして、検索サーバ100は、s35で特定した第1ファイルに含まれている文章(以下、文章群Aという)を特定する(s37)。例えば、検索サーバ100は、s35で特定した第1ファイルにおける全文を取得し、これらを複数の文章に分割する。
また、検索サーバ100は、s5で受信した検索語に基づき、当該検索語についての類似検索処理を行う(s31、s33)。すなわち、まず、検索サーバ100は、学習済みモデル160に、s5で受信した検索語を入力することにより、当該検索語と類似性の高い文章を含む全ファイル(第2ファイル)及びその所在を特定する(s31)。
そして、検索サーバ100は、s31で特定した第2ファイルに含まれている文章(以下、文章群Bという)を特定する(s33)。例えば、検索サーバ100は、s31で特定した第2ファイルにおける全文を取得し、これらを複数の文章に分割する。
検索サーバ100は、以上のようにして文章群A及び文章群Bを特定すると、それぞれに対して特徴語検索処理を実行する(s39−s47)。
具体的には、まず、検索サーバ100は、文章群Aに対する特徴語検索処理を実行する(s39、s45、s47)。すなわち、検索サーバ100は、学習済みモデル160に、s37で取得した文章群Aを入力することにより、文章群Aを構成する各文章を特定すると共に、特定した文章を特徴付ける単語(第1特徴語)を抽出する。例えば、検索サーバ100は、特定した全文章を学習済みモデル160に入力することにより、当該全文章に対する類似度が高い単語(類似度が所定の閾値以上の単語)を全て抽出する。なお、第1特徴語は、当該文章内に存在する語でなくてもよい。
また、検索サーバ100は、文章群Bに対する特徴語検索処理を実行する(s39、s41、s43)。すなわち、検索サーバ100は、学習済みモデル160に、s39で取得した文章群Bを入力することにより、文章群Bを構成する各文章を特定すると共に、特定した文章を特徴付ける単語(第2特徴語)を抽出する。例えば、検索サーバ100は、特定した全文章を学習済みモデル160に入力することにより、当該全文章に対する類似度が高い単語(類似度が所定の閾値以上の単語)を全て抽出する。なお、第2特徴語は、当該文章内に存在する語でなくてもよい。
以上で検索処理は終了する。
<<画面説明>>
次に、端末200に表示される画面について説明する。
<検索結果画面>
図7は、検索結果画面情報に基づき端末200に表示される、検索結果画面500の一例を示す図である。検索結果画面500には、検索語の表示欄502が設けられる他、全文検索の結果表示欄510と、類似検索の結果表示欄520とがそれぞれ別枠で設けられる。
全文検索の結果表示欄510には、検索された各ファイル(第1ファイル)の名称512(例えば、Webページの名称)と、各ファイルの所在情報(例えば、URL)へのリンク514と、各ファイルの内容の一部516(スニペット表示)とが一覧表示される。また、各ファイルの内容の一部516における検索語に対応する部分には強調表示518(ハイライト表示)がなされる。
類似検索の結果表示欄520には、検索された各ファイル(第2ファイル)の名称522(例えば、Webページの名称)と、各ファイルの所在情報(例えば、URL)へのリンク524と、各ファイルの内容の一部526(スニペット表示)とが一覧表示される。また、各ファイルの内容の一部526における検索語に対応する部分には強調表示528(ハイライト表示)がなされる。
なお、各ファイルの一覧の表示順は、検索語との類似度が高いファイルの順となっている。ただし、表示順はこれに限られるものではなく、例えば、検索語(又は検索語と類似する語)の出現回数が多かったファイルの順としてもよい。
なお、ユーザによってリンク514、524が指定されると、このリンク514、524に対応するWebページ等の全体が別途画面に表示されるようにしてもよい(不図示)。
このような検索結果画面500により、ユーザは、実際に検索結果のファイルを開かなくても、検索結果の概要を容易に知ることができる。
なお、ここで示した検索結果画面500は、全文検索の結果表示欄510と類似検索の結果表示欄520とが同時に並列して表示されるものであるが、検索結果画面500に設
けられた所定のタブによりこれらの画面を随時切り替えて表示できるようにしてもよい。
次に、特徴語画面について説明する。
<特徴語画面>
図8は、特徴語画面情報に基づき端末200に表示される、特徴語画面600の一例を示す図である。特徴語画面600は、第2特徴語に関するマッピングを行った画面となっており、具体的には、検索語を示す検索語表示部602(所定のアイコン又は図形)と、検索語を類似検索して得られた第2ファイルの表示部604(所定のアイコン又は図形)とが設けられる。そして、検索語表示部602と第2ファイルの表示部604との間は、所定の結合線606によって接続されている。
これにより、ユーザは、検索語と類似するテキスト内容のファイルの存在を容易に確認することができる。
なお、結合線606の長さは、検索語と第2ファイル(におけるテキスト)との間の類似度の大きさに応じて設定されてもよい。
また、各第2ファイルの表示部604の周囲には、当該第2ファイルに対応する特徴語(第2特徴語)を示す特徴語表示部608(所定のアイコン又は図形)が設けられる。特徴語表示部608の大きさは、例えば、第2特徴語の検索によりヒットしたファイルの件数の総数に応じて設定される。
また、第2ファイルの表示部604と各特徴語表示部608との間は、所定の結合線610によって接続されている。なお、結合線610の長さは、例えば、第2特徴語とこれに対応する第2ファイルとの間の類似度の大きさに応じて設定されてもよい。
このような特徴語画面600により、ユーザは、第2ファイルが概ねどのような情報(特徴語)を有しているかを確認し、また、その情報がどの程度重要であるかを判断することができる。
なお、図8で示した特徴語画面600は、類似検索に対する特徴語(第2特徴語)に関する画面であるが、全文検索に対する特徴語(第1特徴語)に関する画面も同様である。
図9は、特徴語一覧画面情報に基づき端末200に表示される、特徴語一覧画面700の一例を示す図である。特徴語一覧画面700には、検索された第1特徴語712のそれぞれを、検索語との類似度714の順に上から一覧表示した第1表示欄710と、検索された第2特徴語722のそれぞれを、検索語との類似度724の順に上から一覧表示した第2表示欄720とが並列して表示される。
このような特徴語一覧画面700の構成により、ユーザは、全文検索及び類似検索により特定された第1特徴語及び第2特徴語のそれぞれについて、検索語との関連性の強さを確認することができる。
なお、図8では、特徴語一覧画面700には第1表示欄710及び第2表示欄720が同時に表示されているが、所定のタブ等により両者を切り替えて表示するようにしてもよい。
以上のように、本実施形態の検索システム1は、ユーザから入力された検索語が含まれる第1の文章を、テキスト情報300から生成された所定のインデックスデータに基づき検索し(全文検索)、また、検索語との類似度が所定の閾値以上である第2の文章を、テ
キスト情報から生成された所定の学習済みモデルに基づき検索する(類似検索)ことで、検索語と一致する語を含む文章と、検索語に類似する語に関する文章とを同時に検索することができる。これにより、検索に熟達しているユーザに対しては、全文検索により必要な検索結果を的確に提供することができると共に、検索に熟達していないユーザに対しても、類似検索により期待する検索結果を提供することができる。
特に、本実施形態の検索システム1は、テキスト情報300から、全文検索に用いるインデックスデータ及び、類似検索に用いる学習済みモデルの双方を生成するため、検索処理における情報収集や情報生成に係る各情報処理装置の処理負荷を大きく減らすことができる。
このように、本実施形態の検索システム1によれば、全文検索及び類似検索のそれぞれの優位な点を活かしつつ、各ユーザにとって有益な検索結果を確実に提供することができる。
以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。
例えば、本実施形態では、検索システム1は、検索サーバ100及び端末200を別々の装置として備えるシステムとしたが、検索サーバ100及び端末200を一体的に構成したものとしてもよい。
また、本実施形態では、テキスト情報及び検索される各ファイルはインターネット上にあることを想定したが、そのようなネットワーク上にはないローカルファイルであってもよい。
以上の本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の検索システムにおいては、前記検索した第1の文章の一覧を表示する第1表示欄と、前記検索した第2の文章の一覧を表示する第2表示欄とを備える検索結果画面を表示する検索結果画面表示部を備える、としてもよい。
このように、第1の文章及び第2の文章の一覧を表示する表示欄をそれぞれ別個に設けることで、ユーザは、それぞれの検索の特徴(全文検索又は類似検索)を念頭に入れた上で検索結果を正しく評価することができる。
また、本実施形態の検索システムにおいては、前記検索した第1の文章との類似度が所定の閾値以上の単語である第1特徴語を、前記学習済みモデルに基づき特定する第1特徴語特定部と、前記検索した第2の文章との類似度が所定の閾値以上の単語である第2特徴語を、前記学習済みモデルに基づき特定する第2特徴語特定部と、を備える、としてもよい。
このように、第1の文章との類似度が高い第1特徴語を学習済みモデルに基づき特定すると共に、第2の文章との類似度が高い第2特徴語を当該学習済みモデルに基づき特定することで、ユーザは、第1の文章及び第2の文章のそれぞれについて、その内容の特徴を容易かつ迅速に把握することができる。
また、本実施形態の検索システムにおいては、前記第1特徴語特定部は、前記学習済みモデルに基づき、前記検索した第1の文章を含む1又は2以上のファイルである第1ファイル中の単語又は文章から算出される、前記第1の文章との類似度が所定の閾値以上の単語を前記第1特徴語として特定し、前記第2特徴語特定部は、前記学習済みモデルに基づき、前記検索した第2の文章を含む1又は2以上のファイルである第2ファイル中の単語
又は文章から算出される、前記第2の文章との類似度が所定の閾値以上の単語を前記第2特徴語として特定する、としてもよい。
このように、学習済みモデルに基づき、第1の文章を含む第1ファイル中の単語又は文章から算出される、第1の文章との類似度が高い単語を第1特徴語として特定すると共に、学習済みモデルに基づき、第2の文章を含む第2ファイル中の単語又は文章から算出される、第2の文章との類似度が高い単語を第2特徴語として特定することで、ユーザは、各ファイル(例えば、インターネット上のファイル)の内容の特徴を迅速に把握することができる。例えば、ユーザは、各ファイルの全文を参照することなく、その内容を把握することができる。
また、本実施形態の検索システムにおいては、前記第1ファイルと前記第1特徴語との対応関係を示す表示部と、前記第2ファイルと前記第2特徴語との対応関係を示す表示部とを有する特徴語画面を表示する特徴語画面表示部を備える、としてもよい。
このように、第1ファイルと第1特徴語との対応関係を表す表示部(例えば、結合線)と、第2ファイルと第2特徴語との対応関係を表す表示部(例えば、結合線)とを表示するようにすることで、ユーザは、各ファイルにどのような特徴の情報が含まれているかを俯瞰し、より効率よく検索結果の確認を行うことができる。
また、本実施形態の検索システムにおいては、前記特定した第1特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示し、前記特定した第2特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示する特徴語一覧画面を表示する特徴語一覧画面表示部を備える、としてもよい。
このように、検索語との類似度が高い順に各第1、第2特徴語を表示することで、ユーザは、各特徴語と検索語の関係性の強さを容易に把握し、検索結果を検証することができる。
1 検索システム、100 検索サーバ、111 テキスト情報取得部、119 全文検索部、121 類似検索部、150 全文検索インデックス、160 学習済みモデル、211 検索語入力部、300 テキスト情報

Claims (7)

  1. 単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得部と、
    ユーザからの検索語の入力を受け付ける検索語入力部と、
    前記入力された検索語が含まれる第1の文章を、前記取得したテキスト情報から生成された所定のインデックスデータに基づき検索する全文検索部と、
    前記入力された検索語との類似度が所定の閾値以上である第2の文章を、前記取得したテキスト情報から生成された所定の学習済みモデルに基づき検索する類似検索部と、
    を備える、検索システム。
  2. 前記検索した第1の文章の一覧を表示する第1表示欄と、前記検索した第2の文章の一覧を表示する第2表示欄とを備える検索結果画面を表示する検索結果画面表示部を備える、請求項1に記載の検索システム。
  3. 前記検索した第1の文章との類似度が所定の閾値以上の単語である第1特徴語を、前記学習済みモデルに基づき特定する第1特徴語特定部と、
    前記検索した第2の文章との類似度が所定の閾値以上の単語である第2特徴語を、前記学習済みモデルに基づき特定する第2特徴語特定部と、
    を備える、請求項1に記載の検索システム。
  4. 前記第1特徴語特定部は、前記学習済みモデルに基づき、前記検索した第1の文章を含む1又は2以上のファイルである第1ファイル中の単語又は文章から算出される、前記第1の文章との類似度が所定の閾値以上の単語を前記第1特徴語として特定し、
    前記第2特徴語特定部は、前記学習済みモデルに基づき、前記検索した第2の文章を含む1又は2以上のファイルである第2ファイル中の単語又は文章から算出される、前記第2の文章との類似度が所定の閾値以上の単語を前記第2特徴語として特定する、
    請求項3に記載の検索システム。
  5. 前記第1ファイルと前記第1特徴語との対応関係を示す表示部と、前記第2ファイルと前記第2特徴語との対応関係を示す表示部とを有する特徴語画面を表示する特徴語画面表示部を備える、請求項4に記載の検索システム。
  6. 前記特定した第1特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示し、前記特定した第2特徴語のそれぞれを、前記検索語との類似度が高い順に優先的に表示する特徴語一覧画面を表示する特徴語一覧画面表示部を備える、請求項3に記載の検索システム。
  7. 検索システムが、
    単語若しくは文章又はこれらの組み合わせを含む情報であるテキスト情報を取得するテキスト情報取得処理と、
    ユーザからの検索語の入力を受け付ける検索語入力処理と、
    前記入力された検索語が含まれる第1の文章を、前記取得したテキスト情報から生成された所定のインデックスデータに基づき検索する全文検索処理と、
    前記入力された検索語との類似度が所定の閾値以上である第2の文章を、前記取得したテキスト情報から生成された所定の学習済みモデルに基づき検索する類似検索処理と、
    を実行する、検索方法。
JP2018227615A 2018-12-04 2018-12-04 検索システム、及び検索方法 Pending JP2020091607A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018227615A JP2020091607A (ja) 2018-12-04 2018-12-04 検索システム、及び検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018227615A JP2020091607A (ja) 2018-12-04 2018-12-04 検索システム、及び検索方法

Publications (1)

Publication Number Publication Date
JP2020091607A true JP2020091607A (ja) 2020-06-11

Family

ID=71012847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018227615A Pending JP2020091607A (ja) 2018-12-04 2018-12-04 検索システム、及び検索方法

Country Status (1)

Country Link
JP (1) JP2020091607A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022068101A (ja) * 2020-10-21 2022-05-09 ネイバー コーポレーション 検索クエリの意図を反映した検索結果提供の方法及びシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022068101A (ja) * 2020-10-21 2022-05-09 ネイバー コーポレーション 検索クエリの意図を反映した検索結果提供の方法及びシステム

Similar Documents

Publication Publication Date Title
US9075873B2 (en) Generation of context-informative co-citation graphs
CA2702651C (en) System and method for searching for documents
JP2009026195A (ja) 商品分類装置、商品分類方法及びプログラム
US9542474B2 (en) Forensic system, forensic method, and forensic program
US11520835B2 (en) Learning system, learning method, and program
JP2015144011A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
CN112818111A (zh) 文档推荐方法、装置、电子设备和介质
KR20230057114A (ko) 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치
CN105653553B (zh) 词权重生成方法和装置
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
WO2016099422A2 (en) Content sensitive document ranking method by analyzing the citation contexts
JP2020091607A (ja) 検索システム、及び検索方法
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP6810352B2 (ja) 障害解析プログラム、障害解析装置及び障害解析方法
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP6916136B2 (ja) 検索支援装置、検索支援方法、及び検索支援プログラム
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
KR101078966B1 (ko) 문서 분석 시스템
KR20110094562A (ko) 관련어가 표시되는 관계도를 이용한 효과적인 인터넷 검색 방법
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム