JP6521931B2 - モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム - Google Patents
モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6521931B2 JP6521931B2 JP2016231743A JP2016231743A JP6521931B2 JP 6521931 B2 JP6521931 B2 JP 6521931B2 JP 2016231743 A JP2016231743 A JP 2016231743A JP 2016231743 A JP2016231743 A JP 2016231743A JP 6521931 B2 JP6521931 B2 JP 6521931B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- concept
- pair
- vector
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施の形態で対象とするクリックログは、検索システムにおいて蓄積されるものである。図1は、検索システムの画面例であり、検索窓にクエリを入力すると、検索結果の文書群が提示される。一般にユーザは、クエリに関連すると思った文書をクリックする。図1で、D5の文書をクリックすると、その後のシステムの挙動として、例えば図2のように、文書D5の詳細情報が展開表示される。システムによっては、文書の内容が役に立ったか、あるいは、役に立たなかったかを選択するボタンが提示される。ユーザは、そのボタンを押さない場合もあれば、いずれかのボタンを押す場合もある。図2では、D5の詳細情報が、同一画面上に展開されているが、システムによっては、別ウィンドウが出現して、その中にD5の詳細情報が表示される。
・対象対が正解である場合、近傍内の他の対の数が多い。
・対象対が不正解である場合、近傍内の他の対の数が少ない。
・対象対が正解である場合、近傍内の他の対に紐づくユーザの異なりの数が多い。
・対象対が不正解である場合、近傍内の他の対に紐づくユーザの異なりの数が少ない。
本発明の実施の形態に係るモデル生成装置の構成について説明する。図5は、第1の発明の実施の形態に係るモデル生成装置の構成例である。図5に示すように、本発明の実施の形態に係るモデル生成装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル生成装置100は、機能的には図5に示すように入力手段10と、演算手段20とを備えている。
(2)近傍内の他の対のクエリIDを構成するユーザIDの異なりの数
(4)(2)の数の、[クリックログ中のクエリIDを構成するユーザIDの異なりの数]に占める割合
(6)対象対が「役に立たなかった」に該当するか否か
(7)近傍内の他の対で、「役に立った」に該当する対の数
(8)近傍内の他の対で、「役に立たなかった」に該当する対の数
(9)近傍内の他の対で、「役に立った」に該当する対のクエリIDを構成するユーザIDの異なりの数
(10)近傍内の他の対で、「役に立たなかった」に該当する対のクエリIDを構成するユーザIDの異なりの数
(11)(7)の数の、[クリックログ中のクエリIDの異なりの数]×[検索対象の文書IDの数]に占める割合
(12)(8)の数の、[クリックログ中のクエリIDの異なりの数]×[検索対象の文書IDの数]に占める割合
(13)(9)の数の、[クリックログ中のクエリIDを構成するユーザIDの異なりの数]に占める割合
(14)(10)の数の、[クリックログ中のクエリIDを構成するユーザIDの異なりの数]に占める割合
・クエリIDが対象クエリIDと異なり、文書IDが対象文書IDと同一の対
・クエリIDが対象クエリIDと異なり、文書IDが対象文書IDと異なる対
次に、本発明の実施の形態に係るクリックログ正解尤度算出装置の構成について説明する。図13は、第2又は第3の発明の実施の形態に係るクリックログ正解尤度算出装置の構成例である。図13に示すように、本発明の実施の形態に係るクリックログ正解尤度算出装置200は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。クリックログ正解尤度算出装置200は、モデル生成装置100の検索対象文書群とは必ずしも同一とは限らない検索対象文書群を検索対象とした文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出する。このクリックログ正解尤度算出装置200は、機能的には図13に示すように入力手段40と、演算手段50とを備えている。
次に、本発明の実施の形態に係る文書検索装置の構成について説明する。図16は、第4の発明の実施の形態に係る文書検索装置の構成例である。図16に示すように、本発明の実施の形態に係る文書検索装置300は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この文書検索装置300は、機能的には図16に示すように入力手段70と、演算手段80と、出力手段90とを備えている。
20,50,80 演算手段
22,52,82 単語概念ベース
24,54,84 概念ベクトル生成手段
26,56 素性ベクトル生成手段
28 分類モデル生成手段
30,60 分類モデル記憶部
62 正解尤度推定手段
64 検索対象文書群記憶部
66 文書概念ベース生成手段
68,86 文書概念ベース
88 類似度算出手段
90 出力手段
100 モデル生成装置
200 クリックログ正解尤度算出装置
300 文書検索装置
Claims (8)
- クエリと文書との対の集合であるクリックログであって、所属する各対に正解であるか否かのラベルが付与されているクリックログを入力とし、
単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、
クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する概念ベクトル生成手段と、
クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する素性ベクトル生成手段と、
クリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成する分類モデル生成手段と、
を含むことを特徴とするモデル生成装置。 - 文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出するためのクリックログ正解尤度算出装置であって、
クリックログを入力とし、
単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、
任意の素性ベクトルの正解尤度を算出するための分類モデルと、
クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成する概念ベクトル生成手段と、
クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成する素性ベクトル生成手段と、
クリックログ中の任意の対に対し、該対の素性ベクトルと、該分類モデルにより、該対の正解尤度を推定する正解尤度推定手段と、
を含むことを特徴とするクリックログ正解尤度算出装置。 - 検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベースを生成する文書概念ベース生成手段をさらに含むことを特徴とする請求項2記載のクリックログ正解尤度算出装置。
- クエリを入力とし、
単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベースと、
請求項3に記載のクリックログ正解尤度算出装置によって生成された、文書と、該文書の概念を表す概念ベクトルとの組の集合である文書概念ベースと、
該クエリ中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該クエリの概念ベクトルを生成する概念ベクトル生成手段と、
文書概念ベース中の各文書に対し、該クエリの概念ベクトルと、該文書の概念ベクトルとの類似度を算出する類似度算出手段と、
を含むことを特徴とする文書検索装置。 - 単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベース、概念ベクトル生成手段、素性ベクトル生成手段、及び分類モデル生成手段を含むモデル生成装置におけるモデル生成方法であって、
クエリと文書との対の集合であるクリックログであって、所属する各対に正解であるか否かのラベルが付与されているクリックログを入力とし、
概念ベクトル生成手段が、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成するステップと、
素性ベクトル生成手段が、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成するステップと、
分類モデル生成手段が、クリックログ中の任意の対の素性ベクトルとラベルとの組の集合から、任意の素性ベクトルの正解尤度を算出するための分類モデルを生成するステップと、
を含むことを特徴とするモデル生成方法。 - 単語と、該単語の概念を表す概念ベクトルとの組の集合である単語概念ベース、任意の素性ベクトルの正解尤度を算出するための分類モデル、概念ベクトル生成手段、素性ベクトル生成手段、及び正解尤度推定手段を含み、文書検索システムにおいて、ユーザが入力したクエリと、該クエリに対する検索結果文書群の中でユーザがクリックした文書との対の集合であるクリックログを対象とし、該クリックログ中の対に対し、該対の文書が、該対のクエリの検索結果として正解である度合いである正解尤度を算出するためのクリックログ正解尤度算出装置におけるクリックログ正解尤度算出方法であって、
クリックログを入力とし、
概念ベクトル生成手段が、クリックログ中の各クエリ及び各文書のテキストに対し、該テキスト中の単語の該単語概念ベース中の概念ベクトルを合成することにより、該テキストの概念ベクトルを生成するステップと、
素性ベクトル生成手段が、クリックログ中の任意の対に対し、該対のクエリの概念ベクトルの近傍内に、クエリの概念ベクトルが存在し、該対の文書の概念ベクトルの近傍内に、文書の概念ベクトルが存在するような、クリックログ中の対を近傍内対としたとき、近傍内対の数あるいは近傍内対に紐づく異なりユーザ数を含む素性を抽出することにより、該対の素性ベクトルを生成するステップと、
正解尤度推定手段が、クリックログ中の任意の対に対し、該対の素性ベクトルと、該分類モデルにより、該対の正解尤度を推定するステップと、
を含むことを特徴とするクリックログ正解尤度算出方法。 - 文書概念ベース生成手段が、検索対象の各文書に対し、該文書のテキストの重みを1とし、クリックログ中の該文書に対応する各クエリのテキストの重みを、該文書と該クエリの対の正解尤度とし、重みがある閾値以下のクエリのテキストは除外した上で、各テキストに含まれる単語の前記単語概念ベース中の概念ベクトルに、該単語の所属するテキストの重みを乗じた概念ベクトルを、各テキストの各単語にわたって加算し正規化した概念ベクトルを生成し、文書と該文書の概念ベクトルとの組の集合である文書概念ベースを生成するステップをさらに含むことを特徴とする請求項6記載のクリックログ正解尤度算出方法。
- コンピュータを、請求項1記載のモデル生成装置、請求項2若しくは請求項3記載のクリックログ正解尤度算出装置、又は請求項4記載の文書検索装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016231743A JP6521931B2 (ja) | 2016-11-29 | 2016-11-29 | モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016231743A JP6521931B2 (ja) | 2016-11-29 | 2016-11-29 | モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018088182A JP2018088182A (ja) | 2018-06-07 |
JP6521931B2 true JP6521931B2 (ja) | 2019-05-29 |
Family
ID=62494557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016231743A Active JP6521931B2 (ja) | 2016-11-29 | 2016-11-29 | モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6521931B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11816565B2 (en) | 2019-10-16 | 2023-11-14 | Apple Inc. | Semantic coherence analysis of deep neural networks |
CN111159413A (zh) * | 2019-12-31 | 2020-05-15 | 深信服科技股份有限公司 | 日志聚类方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5143182B2 (ja) * | 2010-04-28 | 2013-02-13 | 株式会社エヌ・ティ・ティ・ドコモ | 機械学習方法および機械学習システム |
JP5426526B2 (ja) * | 2010-12-21 | 2014-02-26 | 日本電信電話株式会社 | 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム |
CN102708104B (zh) * | 2011-03-28 | 2015-03-11 | 日电(中国)有限公司 | 对文档排序的方法和设备 |
CN103034665B (zh) * | 2011-10-10 | 2016-01-06 | 阿里巴巴集团控股有限公司 | 信息查询方法和装置 |
-
2016
- 2016-11-29 JP JP2016231743A patent/JP6521931B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018088182A (ja) | 2018-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102092691B1 (ko) | 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
US12026194B1 (en) | Query modification based on non-textual resource context | |
CN111046221B (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
CN107911448B (zh) | 一种内容推送方法及装置 | |
US20140172415A1 (en) | Apparatus, system, and method of providing sentiment analysis result based on text | |
US20140229476A1 (en) | System for Information Discovery & Organization | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
US20100185623A1 (en) | Topical ranking in information retrieval | |
WO2020056977A1 (zh) | 知识点推送方法、装置及计算机可读存储介质 | |
CN107783976B (zh) | 用户信息挖掘方法及装置 | |
CN110390106B (zh) | 基于双向关联的语义消歧方法、装置、设备及存储介质 | |
CN112633000B (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CA3059929A1 (en) | Text searching method, apparatus, and non-transitory computer-readable storage medium | |
CN104199898A (zh) | 一种属性信息的获取方法及装置、推送方法及装置 | |
CN110008396B (zh) | 对象信息推送方法、装置、设备及计算机可读存储介质 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
JP6521931B2 (ja) | モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム | |
Blanco et al. | Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task. | |
CN111737523B (zh) | 一种视频标签、搜索内容的生成方法及服务器 | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
JP7188879B2 (ja) | 提供装置、提供方法及び提供プログラム | |
Geiß et al. | With a little help from my neighbors: person name linking using the Wikipedia social network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6521931 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |