JP2012173794A - ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム - Google Patents
ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム Download PDFInfo
- Publication number
- JP2012173794A JP2012173794A JP2011032317A JP2011032317A JP2012173794A JP 2012173794 A JP2012173794 A JP 2012173794A JP 2011032317 A JP2011032317 A JP 2011032317A JP 2011032317 A JP2011032317 A JP 2011032317A JP 2012173794 A JP2012173794 A JP 2012173794A
- Authority
- JP
- Japan
- Prior art keywords
- query
- database
- model
- optimal
- ranking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】クエリ間の検索評価指標値(MAP値)から、クエリ間の類似度が高くなる変換行列を作成し、最大類似度を持つクエリのランキングモデルを、クエリに対する最適モデルとして最適モデルDB106に格納しておく。入力された検索クエリに対応する最適モデルを前記DB106から取得し、該最適モデルのクエリに対応する、ランキングモデルDB103内のスコア要因重みと、クエリ処理部150により算出された、検索結果集合とスコア要因を要素とするスコア要因値行列とを検索スコア計算部160で積算し、該算出された検索スコアの降順に入力検索クエリに対応する検索結果を提示する。
【選択図】図1
Description
ランキング関数生成部110は、訓練データDB102を入力として受け取り、ランキングモデルDB103を生成する。ランキング関数生成部110には、例えば非特許文献3の技術を用いることができる。ランキングモデルDB103のデータ構造の例を表2に示す。
訓練時最適モデル選択部120は、訓練データDB102とランキングモデルDB103を入力として受け取り、図4のステップS121〜S124に示す処理を行って訓練時最適モデルDB104を出力する。
距離学習部130では、クエリ表現DB101と訓練時最適モデルDB104を入力として受け取り、変換行列DB105を出力する。クエリ表現DB101のデータ構造例を表5、変換行列DB105のデータ構造例を表6に示す。
最適モデルDB作成部140は、図3の変換行列生成装置115によって生成された変換行列DB105と、クエリ表現DB101、ランキングモデルDB103を各々入力とし、図5のステップS141〜S146に示す処理を行なって最適モデルDB106を出力する。
クエリ処理部150は、検索クエリを入力として受け取り、該検索クエリを含む検索結果集合(文書)を文書インデクスDB107から取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出する(ステップS150)。
検索スコア計算部160は、クエリ処理部150が出力したスコア要因値行列D、ランキングモデルDB103のデータ、最適モデルDB106のデータ、および入力された検索クエリqinputを各々入力として受け取る。
検索結果提示部170は、検索スコアベクトルsを受け取り、検索スコアsiの降順に、クエリに対する検索結果を提示する(表示、又はデータとして出力する)(ステップS170)。
101…クエリ表現DB
102…訓練データDB
103…ランキングモデルDB
104…訓練時最適モデルDB
105…変換行列DB
106…最適モデルDB
107…文書インデクスDB
110…ランキング関数生成部
120…訓練時最適モデル選択部
130…距離学習部
140…最適モデルDB作成部
150…クエリ処理部
160…検索スコア計算部
170…検索結果提示部
Claims (3)
- N個のクエリ各々に対してM次元の特徴で表現したクエリ表現データが格納されたクエリ表現データベースと、
N個のクエリに対する文書の検索結果の適合度と、M次元のベクトルで表される特徴表現とを有した訓練データが格納された訓練データデータベースと、
前記訓練データを入力とし、各クエリの前記特徴表現に対する重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成手段と、
前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択手段と、
前記クエリ表現データベースと訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習手段と、
前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成手段と、
予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースと、
入力された検索クエリに対する検索結果集合を前記文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理手段と、
前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算手段と、
前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示手段と、
を備えたことを特徴とするランキングモデル選択機能を有する文書検索装置。 - ランキング関数生成手段が、N個のクエリに対する文書の検索結果の適合度と、M次元のベクトルで表される特徴表現とを有した訓練データが格納された訓練データデータベース内の訓練データを入力とし、各クエリの前記特徴表現に対する重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成ステップと、
訓練時最適モデル選択手段が、前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択ステップと、
距離学習手段が、N個のクエリ各々に対してM次元の特徴で表現したクエリ表現データが格納されたクエリ表現データベースと前記訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習ステップと、
最適モデルデータベース作成手段が、前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成ステップと、
クエリ処理手段が、入力された検索クエリに対する検索結果集合を、予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理ステップと、
検索スコア計算手段が、前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算ステップと、
検索結果提示手段が、前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示ステップと、
を備えたことを特徴とするランキングモデル選択機能を有する文書検索方法。 - コンピュータを請求項1に記載の各手段として機能させるランキングモデル選択機能を有する文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032317A JP5432936B2 (ja) | 2011-02-17 | 2011-02-17 | ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032317A JP5432936B2 (ja) | 2011-02-17 | 2011-02-17 | ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173794A true JP2012173794A (ja) | 2012-09-10 |
JP5432936B2 JP5432936B2 (ja) | 2014-03-05 |
Family
ID=46976678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032317A Expired - Fee Related JP5432936B2 (ja) | 2011-02-17 | 2011-02-17 | ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5432936B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015039106A (ja) * | 2013-08-19 | 2015-02-26 | 株式会社日立製作所 | 生体署名システム |
JP2017225194A (ja) * | 2017-09-25 | 2017-12-21 | 株式会社日立製作所 | ベクトル変換システム及びベクトル変換方法 |
JP2021071957A (ja) * | 2019-10-31 | 2021-05-06 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
CN114547251A (zh) * | 2022-02-28 | 2022-05-27 | 陕西师范大学 | 基于bert的两阶段民间故事检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006301920A (ja) * | 2005-04-20 | 2006-11-02 | Fujitsu Ltd | 文書分類プログラム、文書分類方法および文書分類装置 |
JP2007018389A (ja) * | 2005-07-08 | 2007-01-25 | Just Syst Corp | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 |
JP2009528627A (ja) * | 2006-02-27 | 2009-08-06 | マイクロソフト コーポレーション | 伝搬されるドキュメントの関連性を用いたランキング機能のトレーニング |
JP2010033377A (ja) * | 2008-07-29 | 2010-02-12 | Yahoo Japan Corp | Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム |
JP2010061420A (ja) * | 2008-09-04 | 2010-03-18 | Yahoo Japan Corp | 商品情報検索装置、方法及びシステム |
-
2011
- 2011-02-17 JP JP2011032317A patent/JP5432936B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006301920A (ja) * | 2005-04-20 | 2006-11-02 | Fujitsu Ltd | 文書分類プログラム、文書分類方法および文書分類装置 |
JP2007018389A (ja) * | 2005-07-08 | 2007-01-25 | Just Syst Corp | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 |
JP2009528627A (ja) * | 2006-02-27 | 2009-08-06 | マイクロソフト コーポレーション | 伝搬されるドキュメントの関連性を用いたランキング機能のトレーニング |
JP2010033377A (ja) * | 2008-07-29 | 2010-02-12 | Yahoo Japan Corp | Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム |
JP2010061420A (ja) * | 2008-09-04 | 2010-03-18 | Yahoo Japan Corp | 商品情報検索装置、方法及びシステム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015039106A (ja) * | 2013-08-19 | 2015-02-26 | 株式会社日立製作所 | 生体署名システム |
JP2017225194A (ja) * | 2017-09-25 | 2017-12-21 | 株式会社日立製作所 | ベクトル変換システム及びベクトル変換方法 |
JP2021071957A (ja) * | 2019-10-31 | 2021-05-06 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
JP7464814B2 (ja) | 2019-10-31 | 2024-04-10 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
CN114547251A (zh) * | 2022-02-28 | 2022-05-27 | 陕西师范大学 | 基于bert的两阶段民间故事检索方法 |
CN114547251B (zh) * | 2022-02-28 | 2024-03-01 | 陕西师范大学 | 基于bert的两阶段民间故事检索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5432936B2 (ja) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8761512B1 (en) | Query by image | |
Smirnova et al. | A user-oriented model for expert finding | |
KR101426765B1 (ko) | 협업 파트너 검색 서비스를 제공하는 시스템 및 방법 | |
Sheth | Semantic Services, Interoperability and Web Applications: Emerging Concepts: Emerging Concepts | |
EP2774061A1 (en) | Method and apparatus of ranking search results, and search method and apparatus | |
JP5432936B2 (ja) | ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム | |
JP6308708B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
JP6123143B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
CN108986872B (zh) | 用于大数据电子病历约简的多粒度属性权重Spark方法 | |
JP4711761B2 (ja) | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP5497105B2 (ja) | 文書検索装置および方法 | |
CN110046713A (zh) | 基于多目标粒子群优化的鲁棒性排序学习方法及其应用 | |
JP2020091857A (ja) | 電子文書の分類 | |
JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
JP4931111B2 (ja) | 文書分類装置及びプログラム | |
CN116932730A (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
Chen et al. | Overview of the NTCIR-16 session search (SS) task | |
JP6976178B2 (ja) | 抽出装置、抽出方法、及び抽出プログラム | |
Tran et al. | Dense retrieval with entity views | |
JP2005092442A (ja) | 多次元空間モデル表現装置および多次元空間モデル表現方法 | |
JP5486667B2 (ja) | クエリ結果を多様化するための方法および装置 | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
JP5284761B2 (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
JP5820784B2 (ja) | 検索結果出力装置、検索結果出力方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5432936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |