JP7234078B2 - 検索支援システム、学習システム、検索支援方法、及びプログラム - Google Patents
検索支援システム、学習システム、検索支援方法、及びプログラム Download PDFInfo
- Publication number
- JP7234078B2 JP7234078B2 JP2019158247A JP2019158247A JP7234078B2 JP 7234078 B2 JP7234078 B2 JP 7234078B2 JP 2019158247 A JP2019158247 A JP 2019158247A JP 2019158247 A JP2019158247 A JP 2019158247A JP 7234078 B2 JP7234078 B2 JP 7234078B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- vocabulary
- document
- content
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 20
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000000605 extraction Methods 0.000 claims description 31
- 239000000284 extract Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、実施形態について説明する。
検索支援システム1は、検索者により入力されたキーワード(以下、入力キーワード)に基づいて、検索対象とする文書(以下、検索対象文書)から該当する文書を検索するシステムである。
以下では、検索対象文書が、保険業や金融業など、各業界において各種の手続きを扱う会社の内部文書である場合について説明する。すなわち、内部文書は「検索対象文書」の一例である。
この場合、検索対象文書は、外部インターネットを介して任意に取得することができないクローズドな環境にて管理されている文書、例えば、アクセス権限をもつユーザ(関連する業務を担当する部署の社員など)にのみ閲覧可能な文書群である。検索対象文書は、例えば、各種の手続きに関連する規定文書、事務基準、検査基準、お知らせ、書式集、マニュアル集、内部統制文書等である。
検索支援システム1には、検索対象文書に記載されている語彙が、検索可能なキーワード(以下、検索キーワード)として予め登録されている。検索支援システム1は、検索キーワードに基づいて、その検索キーワードが記載されている文書を、検索結果として提示する。
学習段階において、検索支援システム1は、入力キーワードから、入力キーワードに関係する検索キーワードを推定するための学習を行う。これにより、入力キーワードから検索キーワードを推定する学習済みモデルを生成する。
実行段階において、検索支援システム1は、学習段階で生成した学習済みモデルを用いて、入力キーワードから検索キーワードを推定する処理を行う。
しかしながら、これに限定されることはない。検索支援システム1は、少なくとも検索対象文書とは異なる文書から得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習すればよい。
学習サーバ20は、学習済みモデルを生成するパーソナルコンピュータ、サーバ装置等である。学習済みモデルは、入力キーワード及び学習した内容に基づいて、その入力キーワードに関係する検索キーワードを推定し、推定結果を出力するモデルである。
学習サーバ20は、外部インターネットを介して、Webサーバ30から、特定のウェブサイトに掲載されたコンテンツに関する情報(以下、コンテンツ情報)を取得する。特定のウェブサイトは、少なくとも、検索対象文書が関係する業界や分野についての情報が記載されたコンテンツが掲載されるサイトであればよく、検索対象文書の内容に応じて任意に設定されてよい。
学習サーバ20は、検索サーバ50から検索対象文書に関する情報(以下、検索対象文書情報)を取得する。
学習サーバ20は、コンテンツ情報と検索対象文書情報とに基づいて、コンテンツから得られる語彙と、検索対象文書に記載されている語彙との対応関係を学習した学習済みモデルを生成する。
検索サーバ50は、検索を行うパーソナルコンピュータ、サーバ装置等である。検索サーバ50は、検索対象文書情報を記憶し、学習段階において、学習サーバ20に検索対象文書情報を学習サーバ20に出力する。
検索端末10は、検索者が検索を行う際に利用されるパーソナルコンピュータ、タブレット端末等である。検索端末10は、検索者のキーボード操作等により入力された入力キーワードを取得する。検索端末10は、取得した入力キーワードを推定サーバ40に出力する。この応答として、検索端末10は、推定サーバ40から、入力キーワードに関係する検索キーワードを推定した推定結果を取得する。
検索端末10は、推定結果を表示し、検索者に入力キーワードに代えて検索キーワードでの検索を行う旨の確認を促す。検索端末10は、検索者より確認された結果を取得する。検索端末10は、検索者より確認(確定)された検索キーワードを、検索サーバ50に出力する。この応答として、検索端末10は、検索サーバ50から、検索キーワードに応じた文書を、検索結果として取得する。検索端末10は、取得した検索結果を表示する。
推定サーバ40は、入力キーワードに関係する検索キーワードを推定するパーソナルコンピュータ、サーバ装置等である。推定サーバ40は、検索端末10から入力キーワードを取得する。推定サーバ40は、学習サーバ20から学習済みモデルを取得する。推定サーバ40は、取得した入力キーワード、及び学習済みモデルを用いて、入力キーワードに関係する検索キーワードを推定する。推定サーバ40は、推定結果を、検索端末10に出力する。
検索サーバ50は、検索端末10から、検索キーワードを取得する。検索サーバ50は、検索対象文書から、検索キーワードに基づいて検索した文書を示す情報を、検索結果として、検索端末10に出力する。
推定結果取得部12は、入力キーワードを推定サーバ40に出力し、その応答として、入力キーワードに関係する検索キーワードを推定した推定結果を取得する。
検索結果取得部13は、検索者により確認された検索キーワードを、検索サーバ50に出力する。その応答として、検索結果取得部13は、検索サーバ50から検索結果を取得する。
表示部14は、推定結果取得部12により取得された推定結果を表示する。表示部14は、検索結果取得部13により取得された検索結果を表示する。
図2に示すように、学習サーバ20は、例えば、Webコンテンツ情報取得部21と、文書情報取得部22と、語彙抽出部23と、特徴量抽出部24と、学習済みモデル生成部25と、コンテンツ語彙情報記憶部26と、文書語彙情報記憶部27とを備える。ここで、語彙抽出部23は、「コンテンツ語彙抽出部」の一例である。また、語彙抽出部23は、「文書語彙抽出部」の一例である。
図3に示すように、Webサーバ30は、例えば、コンテンツ取得部31と、コンテンツ配信部32と、コンテンツ記憶部33とを備える。
コンテンツ取得部31は、コンテンツを示す情報を取得する。コンテンツを示す情報は、Webサイトにコンテンツを掲載するための情報であって、例えば、HTML言語やJavaScript(登録商標)言語で記述されたHTML文書である。
コンテンツ配信部32は、コンテンツ取得部31により取得されたコンテンツを示す情報を配信する。これにより、Webブラウザ機能を有するパーソナルコンピュータ、スマートフォン等が、Webサーバ30のサイトにアクセスすると、コンテンツを閲覧することができる。
コンテンツ記憶部33は、コンテンツ取得部31により取得されたコンテンツを示す情報を記憶する。
図4に示すように、推定サーバ40は、例えば、入力キーワード取得部41と、入力キーワード判定部42と、検索キーワード推定部43と、推定結果出力部44と、学習済みモデル記憶部45とを備える。ここで、検索キーワード推定部43は、「推定部」の一例である。
入力キーワード取得部41は、検索端末10から、検索者により入力された入力キーワードを取得し、取得した入力キーワードを入力キーワード判定部42に出力する。
一方、入力キーワード判定部42は、入力キーワードが、検索キーワードの何れかと一致していない(乖離している)場合、検索キーワードを推定させると判定する。
一方、入力キーワード判定部42は、検索キーワードを推定させると判定した場合、入力キーワード取得部41から取得した入力キーワードを検索キーワード推定部43に出力する。
検索キーワード推定部43は、入力キーワードに相当する語彙に類似する語彙(以下、類似語彙という)であって、検索対象文書に記載されている語彙を、入力キーワードに関連する検索キーワードとして推定する。検索キーワード推定部43は、学習済みモデルを用いて、ベクトル空間において、入力キーワードに相当する語彙との距離が所定の閾値より小さい語彙を、類似語彙として抽出する。検索キーワード推定部43は、抽出した類似語彙から、検索対象文書に記載されている語彙を選択する。検索キーワード推定部43は、選択した語彙を、入力キーワードに関連する検索キーワードを推定した推定結果とする。
一方、推定結果出力部44は、検索キーワード推定部43による推定が行われなかった場合、入力キーワード判定部42から取得した入力キーワードを、検索端末10に出力する。
図5に示すように、検索サーバ50は、例えば、検索キーワード取得部51と、検索部52と、検索結果出力部53と、検索対象文書情報記憶部54とを備える。
検索対象文書情報記憶部54は、検索対象文書情報を記憶する。検索対象文書情報は、検索対象文書に関する情報であって、例えば、検索対象文書を一意に識別する文書IDと、検索対象文書のタイトル、ページ数、及び記載された内容等の属性情報とが対応付けられた情報である。
図8は、学習段階の処理の流れ示すシーケンス図である。
図9は、実行段階の処理の流れ示すシーケンス図である。
学習サーバ20は、ステップS100(ステップS11~S14)に示す処理を繰り返し行うことにより、所定のWebサイトに掲載されたコンテンツのそれぞれから、語彙とその語彙の特徴量を抽出し、所定数の語彙についてその特徴量を取得する。
推定サーバ40は、検索端末10から入力キーワードを取得し、取得したキーワードに基づいて、検索キーワードを推定するか否かを判定する(ステップS32)。推定サーバ40は、検索キーワードを推定する場合、入力キーワード、及び学習済みモデルに基づいて、検索キーワードを推定する(ステップS33)。一方、推定サーバ40は、検索キーワードを推定しない場合、入力キーワードを検索キーワードとする。推定サーバ40は、推定した検索キーワード(又は、入力キーワードと同じ検索キーワード)を検索端末10に出力する(ステップS34)。
この場合、推定サーバ40は、前回とは異なる方法にて検索キーワードを推定する。例えば、推定サーバ40は、前回推定した第1ベクトル空間とは異なる特徴量の組合せにより構成した第2のベクトル空間における語彙同士の距離に基づいて、再度、類似語彙を抽出する。検索キーワード推定部43は、抽出した類似語彙のうち、検索対象文書に記載されている語彙を、推定結果とする。
検索端末10は、検索サーバ50から検索結果を取得し(ステップS37)、取得した検索結果を表示する。
10…検索端末
11…入力部
12…推定結果取得部
13…検索結果取得部
14…表示部
20…学習サーバ
21…Webコンテンツ情報取得部
22…文書情報取得部
23…語彙抽出部
24…特徴量抽出部
25…学習済みモデル生成部
30…Webサーバ
31…コンテンツ取得部
32…コンテンツ配信部
33…コンテンツ記憶部
40…推定サーバ
41…入力キーワード取得部
42…入力キーワード判定部
43…検索キーワード推定部
44…推定結果出力部
45…学習済みモデル記憶部
50…検索サーバ
51…検索キーワード取得部
52…検索部
53…検索結果出力部
54…検索対象文書情報記憶部
Claims (5)
- 検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、
前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、
前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、
前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得する入力キーワード取得部と、
前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定する推定部と、
前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う検索部と、
を備える検索支援システム。 - 前記コンテンツ語彙抽出部は、外部インターネットを介して任意に取得可能な前記文書コンテンツに記載された前記コンテンツ語彙を抽出し、
前記文書語彙抽出部は、前記外部インターネットを介して任意に取得することができない環境にて管理されている前記検索対象文書の文書語彙を抽出する、
請求項1に記載の検索支援システム。 - 検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出するコンテンツ語彙抽出部と、
前記検索対象文書に記載された語彙である文書語彙を抽出する文書語彙抽出部と、
前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成する学習済みモデル生成部と、
を備える学習システム。 - コンテンツ語彙抽出部が、検索の対象とする文書である検索対象文書とは異なる文書コンテンツに記載された語彙であるコンテンツ語彙を抽出し、
文書語彙抽出部が、前記検索対象文書に記載された語彙である文書語彙を抽出し、
学習済みモデル生成部が、前記コンテンツ語彙と、前記文書語彙との類似度合いを学習した学習済みモデルを生成し、
入力キーワード取得部が、前記検索対象文書を検索する検索ユーザにより入力された入力キーワードを取得し、
推定部が、前記入力キーワード、及び前記学習済みモデルを用いて、前記入力キーワードに対応する前記文書語彙を、検索に用いる検索キーワードとして推定し、
検索部が、前記推定部により推定された前記検索キーワードに基づいて、前記検索対象文書から該当する文書の検索を行う、
検索支援方法。 - コンピュータを、請求項3に記載の学習システムとして動作させるためのプログラムであって、前記コンピュータを前記学習システムが備える各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019158247A JP7234078B2 (ja) | 2019-08-30 | 2019-08-30 | 検索支援システム、学習システム、検索支援方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019158247A JP7234078B2 (ja) | 2019-08-30 | 2019-08-30 | 検索支援システム、学習システム、検索支援方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021036408A JP2021036408A (ja) | 2021-03-04 |
JP7234078B2 true JP7234078B2 (ja) | 2023-03-07 |
Family
ID=74716693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019158247A Active JP7234078B2 (ja) | 2019-08-30 | 2019-08-30 | 検索支援システム、学習システム、検索支援方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7234078B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063185A (ja) | 2003-08-13 | 2005-03-10 | Toshiba Corp | 文書検索システム、質問応答システム、文書検索方法 |
JP2007133688A (ja) | 2005-11-10 | 2007-05-31 | Nec Corp | 文書検索装置、文書検索プログラムおよび文書検索方法 |
JP2019121392A (ja) | 2018-01-05 | 2019-07-22 | Jfeスチール株式会社 | 情報検索システム |
-
2019
- 2019-08-30 JP JP2019158247A patent/JP7234078B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063185A (ja) | 2003-08-13 | 2005-03-10 | Toshiba Corp | 文書検索システム、質問応答システム、文書検索方法 |
JP2007133688A (ja) | 2005-11-10 | 2007-05-31 | Nec Corp | 文書検索装置、文書検索プログラムおよび文書検索方法 |
JP2019121392A (ja) | 2018-01-05 | 2019-07-22 | Jfeスチール株式会社 | 情報検索システム |
Also Published As
Publication number | Publication date |
---|---|
JP2021036408A (ja) | 2021-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021120627A1 (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
KR101751113B1 (ko) | 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치 | |
US20240004884A1 (en) | Personalized profile-modified search for dialog concepts | |
US20060179039A1 (en) | Method and system for performing secondary search actions based on primary search result attributes | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
CN110909120B (zh) | 简历搜索/投递方法、装置、系统及电子设备 | |
GB2569858A (en) | Constructing content based on multi-sentence compression of source content | |
JP2015197722A (ja) | 文書検索装置、文書検索方法、プログラム、及び、文書検索システム | |
Swaminathan et al. | Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow | |
JP5125558B2 (ja) | 推薦情報提供装置、推薦情報提供方法、推薦情報提供システムおよび推薦情報提供プログラム | |
JP6550628B1 (ja) | 対話管理サーバ、対話管理方法、及びプログラム | |
JP2006099754A (ja) | キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
US20200293581A1 (en) | Systems and methods for crawling web pages and parsing relevant information stored in web pages | |
CN116991977B (zh) | 一种基于大语言模型的领域向量知识精准检索方法及装置 | |
CN107315735B (zh) | 用于笔记整理的方法及设备 | |
JP7234078B2 (ja) | 検索支援システム、学習システム、検索支援方法、及びプログラム | |
JP7188879B2 (ja) | 提供装置、提供方法及び提供プログラム | |
JP2020204971A (ja) | 対話管理サーバ、対話管理方法、及びプログラム | |
Hurtado Martín et al. | An exploratory study on content-based filtering of call for papers | |
JP4795452B2 (ja) | 検索システム及び検索プログラム | |
JP7234079B2 (ja) | 検索支援システム、検索支援方法、及びプログラム | |
JP7234077B2 (ja) | 検索支援システム、学習システム、検索支援方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7234078 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |