JP7122853B2 - 検索装置、検索方法、及び検索プログラム - Google Patents
検索装置、検索方法、及び検索プログラム Download PDFInfo
- Publication number
- JP7122853B2 JP7122853B2 JP2018080723A JP2018080723A JP7122853B2 JP 7122853 B2 JP7122853 B2 JP 7122853B2 JP 2018080723 A JP2018080723 A JP 2018080723A JP 2018080723 A JP2018080723 A JP 2018080723A JP 7122853 B2 JP7122853 B2 JP 7122853B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search result
- classification
- search
- correction value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本発明の第1の実施形態について図面を参照しながら説明する。
図1は、第1の実施形態に係る検索システム100のシステム構成の一例を示す図である。
実施形態に係る管理コンピュータ200は、例えば一般的なコンピュータ500を用いて実現することができる。図2は、コンピュータ500の構成の一例を示す図である。
外部I/F505は、外部装置とのインタフェースである。外部装置には、例えば、記録媒体509等がある。コンピュータ500は、外部I/F505を介して、記録媒体509の読取り、書き込みを行うことができる。記録媒体509には、例えば、光学ディスク、磁気ディスク、メモリカード、USB(Universal Serial Bus)メモリ等が含まれる。
次に、図3~5を用いて、記憶装置300が記憶するテーブルについて説明する。
図3に示す記憶装置300の参照データ記憶部310が記憶する参照データ管理テーブル600は、予め規定された文書の特徴ベクトルと、当該文書の分類特徴量とを関連付けて記憶するテーブルである。第1の実施形態では、図3の1行目に示すように、予め規定された文書の各々について、文書の番号、文書の内容、文書の特徴ベクトル、及び文書の分類特徴量が格納されている。
図4は、第1の実施形態に係る特徴ベクトルの算出処理の具体例を示す説明図である。
図4を用いて特徴ベクトルの算出処理について説明する。
図4の上部に示すように、例えば、文書A1に含まれる文章「私は朝ごはんを食べる」を、文の構成要素毎に「私」、「は」、「朝ごはん」、「を」、「食べ」、「る」と分割することができる。同様に、文書B1に含まれる文章「僕は夕ごはんを食べない」を、文の構成要素毎に「僕」、「は」、「夕ごはん」、「を」、「食べ」、「ない」と分割することができる。文章A1及びB1に含まれる異なる各構成要素を各々、W1~W9とすると、図4の下部の表Tに示すように、文書A1は、構成要素W1~W6を1ずつ有し(各個数が1)、構成要素W7~W9をいずれも有さない(各個数が0)。従って、各構成要素を有する数を特徴ベクトルの要素として、例えば、W1の数を特徴ベクトルの1番目の要素、W2の数を特徴ベクトルの2番目の要素、・・・等と規定することにより、文書A1の特徴ベクトルを(1、1、1、1、1、1、0、0、0)と表すことができる。
図3に示すように、分類特徴量は予め規定された文書の各々について予め求められ、参照データ記憶部310に記憶されている。
図3に示すように、他の文書2、3、4、・・・についても同様にして、人間の判断により得られた分類特徴量が各々、格納されている。
図6は、第1の実施形態に係る検索システム100の動作を示すフローチャートである。図7は、第1の実施形態に係る検索システム100の機能と情報の流れを示すシステム図である。図6及び7を用いて第1の実施形態に係る検索システム100の処理フローを説明する。
文書検索部210は、文書データベース410から製品トピックに関する対象情報を含む文書を検索し、検索結果文書(情報i2)を得る(ステップS101)。文書検索部210は、取得した検索結果文書(情報i2)を文書分類部220に入力する。
図8は、第1の実施形態に係る検索結果文書(情報i2)の分類処理の具体例を示す説明図である。図8を用いて、ステップS102の処理を具体的に説明する。
図9を用いて補正値の特定処理について説明する。
図9に示す例では、分類2のクラスキーワードは、例えば、「生産終了」、「販売終了」、及び「製造中止」である。また、分類3のクラスキーワードは、例えば、「仕様」、「スペック」、「内寸」、及び「規格」である。また、分類4のクラスキーワードは、例えば、「ログイン」、及び「カートに入れる」である。なお、分類1については、製品の製造元メーカーが製造中止を公式に案内するWebページ(文書)であるかを人間が総合的に判断する為、クラスキーワードを設定していない。また、分類2~4のクラスキーワードは、図9に例示した以外のキーワードであってもよい。
図9に示す例では、分類2の補正係数は、検索結果文書がクラスキーワードを含む場合にはα1であり、検索結果文書がクラスキーワードを含まない場合にはα2である。また、分類3の補正係数は、検索結果文書がクラスキーワードを含む場合にはβ1であり、検索結果文書がクラスキーワードを含まない場合にはβ2である。また、分類4の補正係数は、検索結果文書がクラスキーワードを含む場合にはγ1であり、検索結果文書がクラスキーワードを含まない場合にはγ2である。
補正値特定部230は、特定した補正値(情報i5)を特徴量補正部240に出力する。
以上で、図6に示す処理フローは終了する。
以上の通り、第1の実施形態に係る検索システム100が備える検索装置200は、製品のトピックに関する対象情報を含む文書を検索する検索装置であって、予め規定された文書の特徴ベクトルと、対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部220と、分類別に規定されたクラスキーワードが検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部230と、分類された検索結果文書の分類特徴量を、特定された補正値で補正する特徴量補正部240と、補正された分類特徴量に基づいて検索結果文書が対象情報を含むか否かを判定する文書判定部250と、を備える。
このような構成によれば、検索で得られた検索結果文書が製品のトピックに関する対象情報を含むか否かについて判定する際に、クラスキーワードを利用した機械的な判断結果を考慮することで、製品のトピックに関する対象情報を含む文書をより正確に検索できる。特に、文書の特徴ベクトルを利用しての人間の判断結果からの類推的な判断結果(分類結果)と、クラスキーワードを利用した機械的な判断結果とを併用することで、単純な判断ルールでは判断することが難しい文書に対しても、検索で得られた検索結果文書が製品のトピックに関する対象情報を含むか否かについて非常に正確に判定することができる。
このような構成によれば、検索結果文書が対象情報を含むか否かを明確に判定することができる。これにより、ユーザは、検索で得られた検索結果文書が所望の検索結果であるか否かを容易に判断できる。さらに、必要に応じて所定値を変更することで、判断基準を容易に変更することができる。
このような構成によれば、検索結果文書が対象情報を含む可能性が高いと思われる情報だけでなく、検索結果文書が対象情報を含まない可能性が高いと思われる情報に基づいて、検索結果文書が対象情報を含むか否かを総合的に判定するので、非常に正確に判定することができる。また、例えば、検索結果文書に肯定的なクラスキーワードが多数含まれている場合であっても、重要な否定的なクラスキーワードが1つでも含まれている場合には、検索結果文書が対象情報を含まないと判定することが可能になる。
次に、第2の実施形態に係る検索システム100及び検索装置200について、図10及び図11を参照しながら説明する。
図10は、第2の実施形態に係る検索システム100の動作を示すフローチャートである。図11は、第2の実施形態に係る検索システム100の機能と情報の流れを示すシステム図である。
第2の実施形態に係る検索システム100(検索装置200)は、補正値特定部230の機能及び動作が異なる点だけで第1の実施形態に係る検索システム100と相違する。従って、第2の実施形態に係る検索システム100の各構成要素は、特に言及する場合を除き、第1の実施形態に係る検索システム100の各構成要素と同様に構成され、機能する。
以上の通り、第2の実施形態に係る検索システム100が備える検索装置200において、補正値特定部230は、検索結果文書が表構造を含む場合に、クラスキーワードが検索結果文書に含まれているか否かに応じた補正値に代えて、予め規定された表構造用補正値を補正値として特定する。
以上のような構成によれば、表構造を含む検索結果文書について表構造用補正値を予め規定しておくことにより、機械学習を利用した文書分類部220による分類が難しい表構造を含む検索結果文書に対しては、例外的な処理を行うことができる。例えば、表構造を含む検索結果文書については分類用の最終スコアが必ず所定値未満となるように表構造用補正値を予め規定しておくことにより、文書判定部250によって検索結果文書が対象情報を含まないと必ず判定させることができる。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、管理コンピュータ200は、1台のコンピュータで構成されていても良いし、通信可能に接続された複数のコンピュータで構成されていてもよい。
200 管理コンピュータ(検索装置)
210 文書検索部
211 文書検索機能
220 文書分類部
221 文書分類機能
230 補正値特定部
231 補正値特定機能
232 構造確認機能
240 特徴量補正部
241 特徴量補正機能
250 文書判定部
251 文書判定機能
300 記憶装置
310 参照データ記憶部
400 端末
410 文書データベース
500 一般的なコンピュータ
501 CPU
502 RAM
503 ROM
504 ストレージ装置
505 外部I/F
506 入力装置
507 出力装置
508 通信I/F
509 記録媒体
600 参照データ管理テーブル
A1、B1 文書
B バス
i1~i7 情報
N ネットワーク
T 表
W1~W6 構成要素
α1、α2、β1、β2、γ1、γ2 補正係数(補正値)
Claims (6)
- 製品のトピックに関する対象情報を含む文書を検索する検索装置であって、
予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部と、
分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部と、
分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正する特徴量補正部と、
補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定する文書判定部と、
を備える検索装置。 - 前記文書判定部は、補正された前記分類特徴量が所定値以上である場合に前記検索結果文書が前記対象情報を含むと判定し、補正された前記分類特徴量が所定値未満である場合に前記検索結果文書が前記対象情報を含まないと判定する
請求項1に記載の検索装置。 - 前記補正値特定部は、前記検索結果文書が前記対象情報を含むことを示す肯定的な前記クラスキーワードについては前記補正値として正の値を特定し、前記検索結果文書が前記対象情報を含まないことを示す否定的な前記クラスキーワードについては前記補正値として負の値を特定する
請求項1又は請求項2に記載の検索装置。 - 前記補正値特定部は、前記検索結果文書が表構造を含む場合に、前記クラスキーワードが前記検索結果文書に含まれているか否かに応じた前記補正値に代えて、予め規定された表構造用補正値を前記補正値として特定する
請求項1から請求項3のいずれか一項に記載の検索装置。 - 検索装置によって製品のトピックに関する対象情報を含む文書を検索する検索方法であって、
前記検索装置の文書分類部が、予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類するステップと、
前記検索装置の補正値特定部が、分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定するステップと、
前記検索装置の特徴量補正部が、分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正するステップと、
前記検索装置の文書判定部が、補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定するステップと、
を備える検索方法。 - 製品のトピックに関する対象情報を含む文書を検索する検索プログラムであって、
コンピュータを、
予め規定された文書の特徴ベクトルと、前記対象情報を含むか否かを示す分類特徴量との関連付けに基づいて、検索で得られた検索結果文書を分類する文書分類部、
分類別に規定されたクラスキーワードが前記検索結果文書に含まれているか否かに応じて補正値を特定する補正値特定部、
分類された前記検索結果文書の前記分類特徴量を、特定された前記補正値で補正する特徴量補正部、
補正された前記分類特徴量に基づいて前記検索結果文書が前記対象情報を含むか否かを判定する文書判定部、
として機能させるための検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018080723A JP7122853B2 (ja) | 2018-04-19 | 2018-04-19 | 検索装置、検索方法、及び検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018080723A JP7122853B2 (ja) | 2018-04-19 | 2018-04-19 | 検索装置、検索方法、及び検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019191695A JP2019191695A (ja) | 2019-10-31 |
JP7122853B2 true JP7122853B2 (ja) | 2022-08-22 |
Family
ID=68390342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018080723A Active JP7122853B2 (ja) | 2018-04-19 | 2018-04-19 | 検索装置、検索方法、及び検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7122853B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017068742A (ja) | 2015-10-01 | 2017-04-06 | 日本電信電話株式会社 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
-
2018
- 2018-04-19 JP JP2018080723A patent/JP7122853B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017068742A (ja) | 2015-10-01 | 2017-04-06 | 日本電信電話株式会社 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
戸田 智子,ブログ記事からのトピック別評判情報変遷パタンの抽出手法について,情報処理学会研究報告 Vol.2007 No.65,日本,社団法人情報処理学会,2007年07月02日 |
石神健 ,重み付きキーワード統計スコアによる日本語対話の話題認識,日本音響学会研究発表会議講演論文集 ,社団法人日本音響学会,2000年03月15日,第179-180頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2019191695A (ja) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5350472B2 (ja) | トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム | |
JP4694215B2 (ja) | 検索を容易にするシステム及び焦点を絞った検索を行う方法 | |
CN106844341B (zh) | 基于人工智能的新闻摘要提取方法及装置 | |
US10922346B2 (en) | Generating a summary based on readability | |
US20130282704A1 (en) | Search system with query refinement | |
JP6640395B1 (ja) | 情報処理システム及び情報処理方法 | |
US20110202533A1 (en) | Dynamic Search Interaction | |
JP2007317194A (ja) | コンピュータ・アプリケーションにおけるヘルプ・リソース選択を強化するための装置、システムおよび方法 | |
JP6400178B2 (ja) | 検索推薦方法及び装置 | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
US20210133390A1 (en) | Conceptual graph processing apparatus and non-transitory computer readable medium | |
JP6984142B2 (ja) | 機械学習結果の編集プログラム、機械学習結果の編集方法および情報処理装置 | |
US20200278989A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN111782946A (zh) | 书友推荐方法、计算设备及计算机存储介质 | |
JP6841394B1 (ja) | 情報処理システム | |
JP6832606B2 (ja) | コンテンツマッチングシステム | |
Cui et al. | A semantic-based approach for exploring consumer health questions using UMLS | |
Kang et al. | The utility of nursing notes among Medicare patients with heart failure to predict 30-day rehospitalization: a pilot study | |
JP7122853B2 (ja) | 検索装置、検索方法、及び検索プログラム | |
JP5193669B2 (ja) | 検索システム | |
JP5139883B2 (ja) | 検索システム | |
JP7188879B2 (ja) | 提供装置、提供方法及び提供プログラム | |
JP7033646B1 (ja) | 評価装置、評価方法、および、評価プログラム | |
KR20200109515A (ko) | 빅데이터를 이용한 교육 콘텐츠 생성 방법 | |
US20150074092A1 (en) | Method of Ranking Place Names, System of Ranking Place Names, and Non-Transitory Computer-Readable Storage Medium Thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7122853 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |