JP5903372B2 - キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム - Google Patents
キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム Download PDFInfo
- Publication number
- JP5903372B2 JP5903372B2 JP2012253295A JP2012253295A JP5903372B2 JP 5903372 B2 JP5903372 B2 JP 5903372B2 JP 2012253295 A JP2012253295 A JP 2012253295A JP 2012253295 A JP2012253295 A JP 2012253295A JP 5903372 B2 JP5903372 B2 JP 5903372B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- combination
- score
- keywords
- relevance score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 title claims description 42
- 238000000034 method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 7
- 229920003266 Leaf® Polymers 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記キーワード集合から、2つのキーワードの組み合わせの集合を取得し、キーワード組み合わせ格納手段に格納する組み合わせ取得手段と、
文字列をノードのラベルとする既存の階層構造を表すデータを格納する階層構造格納手段を参照することにより、前記キーワード組み合わせ格納手段に格納された前記キーワードの組み合わせのそれぞれについて、前記既存の階層構造における前記キーワードの組み合わせに対応する2つのノード間の関係に基づいて、当該組み合わせに係るキーワード間の関連度スコアを算出するスコア算出手段とを備えることを特徴とするキーワード関連度スコア算出装置として構成される。
図1は、本発明の実施の形態に係るキーワード関連度スコア算出装置100の構成図である。なお、図1には、キーワード関連度スコア算出装置100と通信を行うユーザ端末200(例:PC、スマートフォン等)も示されている。
情報取得部10は、ユーザが指定する条件と検索対象DB20のデータを入力として、ユーザが指定する条件と関連があるキーワード集合を出力する(ステップS110)。すなわち、情報取得部10は、ユーザ端末200から受信するユーザが指定した条件に対応して検索対象DB20に格納されているキーワード集合を検索対象DB20から取得し、出力する。
情報格納部30は、情報取得部10が出力するキーワード集合を入力として、N(Nは自然数)個のキーワードの全ての組み合わせ(kw1, kw2)を生成し、当該組み合わせをキーワード組み合わせDB40に格納する(図2のステップS120)。すなわち、情報格納部30は、N(N−1)/2個の組み合わせを生成し、キーワード組み合わせDB40に格納する。
スコア算出部50は、情報格納部30により出力したキーワード組み合わせDB40のデータと参照DB60のデータとをそれぞれ読み出して入力とし、score1(kw1, kw2)とscore2(kw1, kw2)を算出し、算出した値をキーワード組み合わせスコアDB70に出力する(ステップS130)。図2に示すとおり、ステップS130のスコア算出処理は、ステップS120で取得したキーワード組み合わせのそれぞれに対して行われる。
kw1とkw2が直系の関係であるかどうかを調べ、直系の関係である場合、score1(kw1, kw2)を以下の式により算出する(ステップS230)。
kw1とkw2が直系の関係になく、kw1とkw2に共通の最若祖先がいる場合、score2(kw1, kw2)を以下の式により算出する(ステップS250)。
間接スコア算出部80は、キーワード組み合わせスコアDB70のデータを入力として、score1(kw1, kw2)とscore2(kw1, kw2)を更新する(図2のステップS140)。以下では、ステップS140の間接スコア算出処理について、図9のフローチャートに従って詳細に説明する。ただし、スコアの算出方法については以下の方法に限るものではない。
本実施の形態に係る技術によれば、キーワード間の関連性を検索対象全体からは直接的には測ることができない場合でも高精度に求めることが可能となる。これにより、キーワードのクラスタリングの精度を向上させることが可能となり、関連性が高いクラスタやキーワードを近くに配置することが可能となる。また、これにより、ユーザはクラスタ間やキーワード間の関連性を把握することが容易になり、システムから提示された選択肢を効率よく選択することが可能となり、ユーザの検索効率が向上する。
20 検索対象DB
30 情報格納部
40 キーワード組み合わせDB
50 スコア算出部
60 参照DB
70 キーワード組み合わせスコアDB
80 間接スコア算出部
100 キーワード関連度スコア算出装置
200 ユーザ端末
Claims (3)
- ユーザにより指定される条件に対応するキーワード集合におけるキーワード間の関連度スコアを算出するキーワード関連度スコア算出装置であって、
前記キーワード集合から、2つのキーワードの組み合わせの集合を取得し、キーワード組み合わせ格納手段に格納する組み合わせ取得手段と、
文字列をノードのラベルとする既存の階層構造を表すデータを格納する階層構造格納手段を参照することにより、前記キーワード組み合わせ格納手段に格納された前記キーワードの組み合わせのそれぞれについて、前記既存の階層構造における前記キーワードの組み合わせに対応する2つのノード間の関係に基づいて、当該組み合わせに係るキーワード間の関連度スコアを算出するスコア算出手段とを備え、
前記スコア算出手段は、
前記キーワードの組み合わせに対応する2つのノード間の関係が親子関係である可能性を示す第1の推定値と、前記キーワードの組み合わせに対応する2つのノード間の関係が兄弟関係である可能性を示す第2の推定値とを2つの関連度スコアとして算出し、
前記キーワードの組み合わせのそれぞれについて、前記2つの関連度スコアをキーワード組み合わせスコア格納手段に格納し、
前記キーワード組み合わせスコア格納手段に格納された情報に基づいて、キーワードの組み合わせにおける第1のキーワードと第2のキーワード以外の他キーワードと前記第1のキーワードの組み合わせの関連度スコア、及び当該他キーワードと前記第2のキーワードの組み合わせの関連度スコアに基づいて、前記第1のキーワードと前記第2のキーワードの組み合わせに対応する関連度スコアを更新する
ことを特徴とするキーワード関連度スコア算出装置。 - ユーザにより指定される条件に対応するキーワード集合におけるキーワード間の関連度スコアを算出するキーワード関連度スコア算出装置が実行するキーワード関連度スコア算出方法であって、
前記キーワード集合から、2つのキーワードの組み合わせの集合を取得し、キーワード組み合わせ格納手段に格納する組み合わせ取得ステップと、
文字列をノードのラベルとする既存の階層構造を表すデータを格納する階層構造格納手段を参照することにより、前記キーワード組み合わせ格納手段に格納された前記キーワードの組み合わせのそれぞれについて、前記既存の階層構造における前記キーワードの組み合わせに対応する2つのノード間の関係に基づいて、当該組み合わせに係るキーワード間の関連度スコアを算出するスコア算出ステップとを備え、
前記スコア算出ステップにおいて、前記キーワード関連度スコア算出装置は、
前記キーワードの組み合わせに対応する2つのノード間の関係が親子関係である可能性を示す第1の推定値と、前記キーワードの組み合わせに対応する2つのノード間の関係が兄弟関係である可能性を示す第2の推定値とを2つの関連度スコアとして算出し、
前記キーワードの組み合わせのそれぞれについて、前記2つの関連度スコアをキーワード組み合わせスコア格納手段に格納し、
前記キーワード組み合わせスコア格納手段に格納された情報に基づいて、キーワードの組み合わせにおける第1のキーワードと第2のキーワード以外の他キーワードと前記第1のキーワードの組み合わせの関連度スコア、及び当該他キーワードと前記第2のキーワードの組み合わせの関連度スコアに基づいて、前記第1のキーワードと前記第2のキーワードの組み合わせに対応する関連度スコアを更新する
ことを特徴とするキーワード関連度スコア算出方法。 - コンピュータを、請求項1に記載のキーワード関連度スコア算出装置における組み合わせ取得手段、及びスコア算出手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012253295A JP5903372B2 (ja) | 2012-11-19 | 2012-11-19 | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012253295A JP5903372B2 (ja) | 2012-11-19 | 2012-11-19 | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014102624A JP2014102624A (ja) | 2014-06-05 |
JP5903372B2 true JP5903372B2 (ja) | 2016-04-13 |
Family
ID=51025091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012253295A Expired - Fee Related JP5903372B2 (ja) | 2012-11-19 | 2012-11-19 | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5903372B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599890B (zh) * | 2022-11-29 | 2023-03-21 | 深圳市人马互动科技有限公司 | 产品推荐方法及相关装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265802A (ja) * | 2000-03-17 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | シソーラスにおける単語の類似度計算装置と方法および記録媒体 |
WO2007119567A1 (ja) * | 2006-03-31 | 2007-10-25 | Justsystems Corporation | 文書処理装置および文書処理方法 |
JP2008165303A (ja) * | 2006-12-27 | 2008-07-17 | Fujifilm Corp | コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム |
-
2012
- 2012-11-19 JP JP2012253295A patent/JP5903372B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014102624A (ja) | 2014-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11126647B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US20220327137A1 (en) | Modifying field definitions to include post-processing instructions | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
US10579661B2 (en) | System and method for machine learning and classifying data | |
JP6434542B2 (ja) | 検索のためのテーブルの理解 | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
US8630972B2 (en) | Providing context for web articles | |
CN109886294A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
JP4878624B2 (ja) | 文書処理装置および文書処理方法 | |
Song et al. | Exploring author name disambiguation on PubMed-scale | |
US8954438B1 (en) | Structured metadata extraction | |
CN109062876A (zh) | 一种基于dom网页剪枝的相似网页查找方法及系统 | |
US8862586B2 (en) | Document analysis system | |
JP2008198237A (ja) | 構造化文書管理システム | |
CN106777140B (zh) | 用于非结构化文档搜索的方法及装置 | |
JP5903372B2 (ja) | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム | |
CN115982390A (zh) | 一种产业链构建和迭代扩充开发方法 | |
CN115796146A (zh) | 一种文件对比方法及装置 | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
CN110543467B (zh) | 时间序列数据库的模式转换方法及装置 | |
JP6557959B2 (ja) | 情報提示プログラム、情報提示方法及び情報提示装置 | |
CN103995849B (zh) | 一种事件跟踪方法及系统 | |
JP5399988B2 (ja) | 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム | |
JP5701830B2 (ja) | 文書構造解析装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5903372 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |