JP2020140467A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2020140467A JP2020140467A JP2019035780A JP2019035780A JP2020140467A JP 2020140467 A JP2020140467 A JP 2020140467A JP 2019035780 A JP2019035780 A JP 2019035780A JP 2019035780 A JP2019035780 A JP 2019035780A JP 2020140467 A JP2020140467 A JP 2020140467A
- Authority
- JP
- Japan
- Prior art keywords
- concept
- route
- content
- information processing
- concepts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 80
- 235000008694 Humulus lupulus Nutrition 0.000 claims abstract description 57
- 238000009795 derivation Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 30
- 101150030152 Tmub1 gene Proteins 0.000 abstract 2
- 238000011156 evaluation Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000037361 pathway Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】コンテンツの検索を行う際に、コンテンツに関連付けられた概念を一律に評価する場合と比較して、検索結果にユーザの意図を適切に反映させることができる情報処理装置及びプログラムを提供する。【解決手段】情報処理装置10は、ユーザからクエリの入力を受け付ける受付部30と、検索対象のコンテンツ毎に、コンテンツの概念を表すノードの情報と概念同士の関係を表したナレッジグラフから、クエリに対応する複数のノードを取得する取得部32と、取得された複数のノードから、互いに関連するノードを含む経路を探索する探索部34と、少なくとも1つのコンテンツの経路に対して、クエリに含まれる概念を表すノードとコンテンツとの間に含まれるノードの数として表されるホップ数、コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いてスコアを導出する導出部36と、を備える。【選択図】図3
Description
本発明は、情報処理装置及びプログラムに関する。
例えば、特許文献1には、文書検索時に語句間の概念関係を記述した概念辞書を利用してキーワードを拡張する文書検索装置が記載されている。この文書検索装置は、検索キーワード入力部から入力された検索キーワードに対して概念ネットワーク内での位置を確定する。この文書検索装置は、確定された語句から関連付けられている語句をキーワード拡張部で検索して、追加キーワードとして採用し、このキーワードに対して概念ネットワーク内に蓄積された関連度の大小によりキーワードの優先順位をキーワード優先順位付与部で付与する。この文書検索装置は、優先度を付与されたキーワードを用いて検索対象文書を検索し、各キーワード毎に検索対象文書内の単語と一致する回数を検索実行部で算出し、この一致回数を基に文書を文書得点化部で得点化する。この文書検索装置は、各キーワードに関して得点化された文書を全キーワードの優先順位に基づき集計した上でキーワードの精度を文書順位化部で順位化する。
ところで、文書等のコンテンツを検索する手法として、ユーザの意図を理解して、検索結果を出力するセマンティック検索が利用されている。このセマンティック検索では、コンテンツに関連付けられた概念が一律に評価されるため、同じような概念を含むコンテンツが多いとき等では、検索結果にユーザの意図を適切に反映させることが困難な場合がある。
本発明は、コンテンツの検索を行う際に、コンテンツに関連付けられた概念を一律に評価する場合と比較して、検索結果にユーザの意図を適切に反映させることができる情報処理装置及びプログラムを提供することを目的とする。
上記目的を達成するために、第1態様に係る情報処理装置は、クエリの入力を受け付ける受付部と、検索対象のコンテンツ毎に、コンテンツの概念を表すノードの情報と概念同士の関係を表したデータから、前記クエリに対応する複数のノードを取得する取得部と、前記取得部により取得された複数のノードから、互いに関連するノードを含む経路を探索する探索部と、前記探索部により探索された、少なくとも1つのコンテンツの経路に対して、前記クエリに含まれる概念を表すノードと前記コンテンツとの間に含まれるノードの数として表されるホップ数、前記コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いてスコアを導出する導出部と、を備えている。
第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記導出部が、前記経路の数が複数である場合、前記複数の経路の各々に対するスコアを導出し、導出したスコアを合計することにより、前記コンテンツのスコアを導出する。
第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記導出部が、前記経路の数が同一となるコンテンツのみを対象として、前記コンテンツのスコアを導出する。
第4態様に係る情報処理装置は、第1態様〜第3態様のいずれか1の態様に係る情報処理装置において、前記取得部が、前記クエリに含まれる概念の数と同一の数の概念が関連付けられたコンテンツを検索対象とする。
第5態様に係る情報処理装置は、第1態様〜第4態様のいずれか1の態様に係る情報処理装置において、前記導出部が、前記コンテンツに特定の重要な概念が関連付けられている場合、前記経路に対するスコアを導出し、前記コンテンツに前記特定の重要な概念が関連付けられていない場合、前記経路に対するスコアを導出しない。
第6態様に係る情報処理装置は、第1態様〜第5態様のいずれか1の態様に係る情報処理装置において、前記概念間の関係性の種類が、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含んでいる。
第7態様に係る情報処理装置は、第6態様に係る情報処理装置において、前記経路が、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路であり、前記探索部が、前記抽象化経路の前記ホップ数に上限を設定する。
第8態様に係る情報処理装置は、第6態様に係る情報処理装置において、前記経路が、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路であり、前記探索部が、前記具体化経路の前記ホップ数に上限を設定しない。
第9態様に係る情報処理装置は、第6態様に係る情報処理装置において、前記経路が、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路及び前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路の両方を含む混合経路であり、前記探索部が、前記混合経路のうち前記抽象化経路の前記ホップ数にのみ上限を設定する。
第10態様に係る情報処理装置は、第6態様に係る情報処理装置において、前記経路が、前記第2種類の関係性を含む関連経路であり、前記探索部が、前記関連経路の前記ホップ数に上限を設定する。
第11態様に係る情報処理装置は、第1態様〜第5態様のいずれか1の態様において、前記導出部が、前記経路に対するスコアを、前記概念間の関係性の種類に応じて定められる概念間の距離を用いて導出し、前記概念間の関係性の種類が、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含み、前記概念間の距離が、前記第1種類の関係性を含む経路と、前記第2種類の関係性を含む関連経路とで異なる距離が定められる。
第12態様に係る情報処理装置は、第11態様に係る情報処理装置において、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路における前記概念間の距離が、前記関連経路における前記概念間の距離よりも長い。
第13態様に係る情報処理装置は、第11態様又は第12態様に係る情報処理装置において、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路における前記概念間の距離が、前記関連経路における前記概念間の距離よりも短い。
第14態様に係る情報処理装置は、第1態様〜第13態様のいずれか1の態様において、前記導出部が、前記クエリ側の概念が前記コンテンツ側の複数の概念に分岐する分岐経路を含む経路と、前記クエリ側の複数の概念が前記コンテンツ側の概念に合流する合流経路を含む経路とで異なる方法を用いてスコアを導出する。
第15態様に係る情報処理装置は、第14態様に係る情報処理装置おいて、前記導出部が、前記分岐経路を含む経路の場合、前記分岐経路毎のスコアを合計することにより、前記経路に対するスコアを導出する。
第16態様に係る情報処理装置は、第14態様又は第15態様に係る情報処理装置において、前記導出部が、前記合流経路を含む経路の場合、前記合流経路毎のスコアのうち最も高いスコアを、前記経路に対するスコアとする。
第17態様に係る情報処理装置は、第1態様〜第16態様のいずれか1の態様に係る情報処理装置において、前記概念の重要度が、TF−IDF法を用いて算出される。
第18態様に係る情報処理装置は、第17態様に係る情報処理装置において、前記コンテンツがキャプションを有する場合、前記キャプションに含まれる概念の重要度が、前記キャプションに含まれない概念の重要度よりも高く算出される。
更に、上記目的を達成するために、第19態様に係るプログラムは、コンピュータを、第1態様〜第18態様のいずれか1の態様に係る情報処理装置が備える各部として機能させる。
第1態様及び第19態様によれば、コンテンツの検索を行う際に、コンテンツに関連付けられた概念を一律に評価する場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第2態様によれば、複数の経路を考慮しない場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第3態様によれば、経路数が異なるコンテンツを対象とする場合と比較して、経路評価のばらつきを抑制することができる、という効果を有する。
第4態様によれば、クエリに含まれる概念の数と異なる数の概念が関連付けられたコンテンツを検索対象とする場合と比較して、ユーザの意図が反映されている可能性が高いコンテンツのみを検索対象とすることができる、という効果を有する。
第5態様によれば、コンテンツに関連する特定の重要な概念を考慮しない場合と比較して、適切な経路評価を効率的に行うことができる、という効果を有する。
第6態様によれば、概念間の関係性の種類として、上位概念及び下位概念の関係性を示す種類と、それ以外の種類とを考慮しない場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第7態様によれば、抽象化経路のホップ数に上限を設定しない場合と比較して、適切な経路を得ることができる、という効果を有する。
第8態様によれば、具体化経路のホップ数に上限を設定する場合と比較して、適切な経路を得ることができる、という効果を有する。
第9態様によれば、混合経路のうち抽象化経路のホップ数に上限を設定しない場合と比較して、適切な経路を得ることができる、という効果を有する。
第10態様によれば、関連経路のホップ数に上限を設定しない場合と比較して、適切な経路を得ることができる、という効果を有する。
第11態様によれば、経路に対するスコアを導出する際に概念間の距離を考慮しない場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第12態様によれば、抽象化経路における概念間の距離を、関連経路における概念間の距離よりも短くする場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第13態様によれば、具体化経路における概念間の距離を、関連経路における概念間の距離よりも長くする場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第14態様によれば、分岐経路と合流経路とで同一の方法を用いてスコアを導出する場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第15態様によれば、分岐経路毎のスコアの合計を考慮しない場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第16態様によれば、合流経路毎のスコアのうち最も高いスコアを考慮しない場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第17態様によれば、概念の重要度の算出にTF−IDF法を用いない場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第18態様によれば、キャプションに含まれる概念の重要度を考慮しない場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
図1は、本実施形態に係るネットワークシステム90の構成の一例を示す図である。
図1に示すように、本実施形態に係るネットワークシステム90は、情報処理装置10と、端末装置50と、を備えている。なお、本実施形態に係る情報処理装置10には、一例として、サーバコンピュータや、パーソナルコンピュータ(PC:Personal Computer)等の汎用的なコンピュータ装置が適用される。
図1に示すように、本実施形態に係るネットワークシステム90は、情報処理装置10と、端末装置50と、を備えている。なお、本実施形態に係る情報処理装置10には、一例として、サーバコンピュータや、パーソナルコンピュータ(PC:Personal Computer)等の汎用的なコンピュータ装置が適用される。
本実施形態に係る情報処理装置10は、ネットワークNを介して、端末装置50と接続されている。なお、ネットワークNには、一例として、インターネットや、LAN(Local Area Network)、WAN(Wide Area Network)等が適用される。本実施形態に係る端末装置50には、一例として、パーソナルコンピュータ(PC)等の汎用的なコンピュータ装置や、スマートフォン、タブレット端末等の携帯可能なコンピュータ装置等が適用される。
本実施形態に係る情報処理装置10は、端末装置50から入力されるクエリに応じて、検索対象のコンテンツ群の中から、クエリに関連するコンテンツを取得し、取得したコンテンツにランク付けして検索結果として出力するセマンティック検索機能を備えている。
図2は、本実施形態に係る情報処理装置10の電気的な構成の一例を示すブロック図である。
図2に示すように、本実施形態に係る情報処理装置10は、制御部12と、記憶部14と、表示部16と、操作部18と、通信部20と、を備えている。
図2に示すように、本実施形態に係る情報処理装置10は、制御部12と、記憶部14と、表示部16と、操作部18と、通信部20と、を備えている。
制御部12は、CPU(Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、及び入出力インターフェース(I/O)12Dを備えており、これら各部がバスを介して各々接続されている。
I/O12Dには、記憶部14と、表示部16と、操作部18と、通信部20と、を含む各機能部が接続されている。これらの各機能部は、I/O12Dを介して、CPU12Aと相互に通信可能とされる。
制御部12は、情報処理装置10の一部の動作を制御するサブ制御部として構成されてもよいし、情報処理装置10の全体の動作を制御するメイン制御部の一部として構成されてもよい。制御部12の各ブロックの一部又は全部には、例えば、LSI(Large Scale Integration)等の集積回路又はIC(Integrated Circuit)チップセットが用いられる。上記各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。上記各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、上記各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。制御部12の集積化には、LSIに限らず、専用回路又は汎用プロセッサを用いてもよい。
記憶部14としては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等が用いられる。記憶部14には、本実施形態に係る経路評価処理を実現するための経路評価処理プログラム14Aが記憶される。なお、この経路評価処理プログラム14Aは、ROM12Bに記憶されていてもよい。
経路評価処理プログラム14Aは、例えば、情報処理装置10に予めインストールされていてもよい。経路評価処理プログラム14Aは、不揮発性の記憶媒体に記憶して、又はネットワークNを介して配布して、情報処理装置10に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
表示部16には、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等が用いられる。表示部16は、タッチパネルを一体的に有していてもよい。操作部18には、例えば、キーボードやマウス等の操作入力用のデバイスが設けられている。表示部16及び操作部18は、情報処理装置10のユーザから各種の指示を受け付ける。表示部16は、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報を表示する。
通信部20は、インターネットや、LAN、WAN等のネットワークNに接続されており、端末装置50との間でネットワークNを介して通信が可能とされる。
ところで、上述したように、セマンティック検索では、コンテンツに関連付けられた概念が一律に評価されるため、同じような概念を含むコンテンツが多い場合等では、検索結果にユーザの意図を適切に反映させることが困難な場合がある。
このため、本実施形態に係る情報処理装置10のCPU12Aは、記憶部14に記憶されている経路評価処理プログラム14AをRAM12Cに書き込んで実行することにより、図3に示す各部として機能する。
図3は、本実施形態に係る情報処理装置10の機能的な構成の一例を示すブロック図である。
図3に示すように、本実施形態に係る情報処理装置10のCPU12Aは、受付部30、取得部32、探索部34、導出部36、及び表示制御部38として機能する。
図3に示すように、本実施形態に係る情報処理装置10のCPU12Aは、受付部30、取得部32、探索部34、導出部36、及び表示制御部38として機能する。
本実施形態に係る記憶部14には、ナレッジグラフが格納されている。このナレッジグラフは、検索対象となるコンテンツの概念を表すノードの情報と概念同士の関係を表したデータの一例であり、オントロジーとも呼ばれる。このナレッジグラフは、検索対象となるコンテンツ毎に予め定義され、かつ、概念と概念とが階層構造で表現されている。なお、ここでいうコンテンツには、例えば、文書、画像(動画含む。)、及び音声等が含まれる。
ナレッジグラフは、一例として、セマンティック・ウェブにおけるOWL(Web Ontology Language)等を用いて定義される。ナレッジグラフに関連する概念(「クラス」とも呼ばれる。)は、一例として、OWLがベースとするRDF(Resource Description Framework)で規定されている。このナレッジグラフは、有向グラフでもよいし、無向グラフでもよく、各ノードに、物理的あるいは仮想的な存在を表す概念を割り当て、概念間の関係を関係の種類ごとに異なるラベルを持つエッジで結びつけることによって、物や事柄の存在を表現する。2つの概念(ノード)とそれら両者間の関係(エッジ)からなる三者は、「トリプル」と呼ばれる。
利用するナレッジグラフは、概念同士の上位・下位関係の他に、概念同士の「プロパティ」関係の情報を含んでいてもよい。上位・下位関係は、上位の概念が下位の概念に該当するエンティティをすべて包含するという特定の関係を表すものである。これに対して、プロパティ関係は、上位・下位関係以外で自由に定義可能な関係を表すものである。また、プロパティには、ドメイン(domain:定義域)及びレンジ(range:値域)が定義される。プロパティのドメイン及びレンジは、そのプロパティとトリプルを構成し得る2つのノード同士の関係において、その関係の始点と終点として取り得る値の範囲を制約する。
本実施形態に係る受付部30は、ユーザが使用する端末装置50から、クエリの入力を受け付ける。ここでいうクエリとは、コンテンツの検索を行う際に、ユーザにより入力される情報を意味する。
本実施形態に係る取得部32は、検索対象のコンテンツ毎に、一例として、図4に示すように、記憶部14に格納されているナレッジグラフから、クエリに対応する複数のノードを取得する。
図4は、本実施形態に係るクエリ及びナレッジグラフの説明に供する図である。
図4に示す例では、クエリとして、「賃貸マンションを経営していますが、マンションの貸付には消費税は課税されますか。」がユーザから入力される。このクエリには、「賃貸マンション」、「経営」、「マンション」、「貸付」、「消費税」、及び「課税されますか」の6個の概念が含まれている。
図4に示す例では、クエリとして、「賃貸マンションを経営していますが、マンションの貸付には消費税は課税されますか。」がユーザから入力される。このクエリには、「賃貸マンション」、「経営」、「マンション」、「貸付」、「消費税」、及び「課税されますか」の6個の概念が含まれている。
また、図4に示すナレッジグラフは、あるコンテンツに関連付けられた「賃貸マンション」、「経営」、「マンション」、「貸付」、「消費税」、及び「課税判定」の6個の概念ノードを有している。概念ノードには、1つ以上のラベルが付与されており、このラベルがクエリ中に含まれる場合に、当該概念ノードが取得される。なお、「rdfs:label」とは、概念ノードがラベルを有していることを示し、一例として、概念ノード「賃貸マンション」は「賃貸マンション」というラベルを有していることを示している。また、概念ノード間には、1種類以上の関係性が定義されており、関係性が定義されていない概念ノードは結合されない。なお、「subClassOf」とは、概念ノード間に上位概念及び下位概念の関係があることを示し、一例として、概念ノード「マンション」は概念ノード「賃貸マンション」の上位概念であることを示している。
図4に示す例の場合、クエリに対応する複数のノードとして、「賃貸マンション」、「経営」、「マンション」、「貸付」、「消費税」、及び「課税判定」の6個の概念ノードが取得される。
ここで、取得部32は、クエリに含まれる概念の数と同一の数の概念ノードが関連付けられたコンテンツを検索対象としてもよい。これにより、無数にあるコンテンツの中から、ユーザの意図が反映されている可能性の高いコンテンツのみが検索対象とされる。
本実施形態に係る探索部34は、取得部32により取得された複数のノードから、エッジにより互いに関連するノードを含む経路を探索する。この経路の探索には、例えば、最短経路問題を解くための公知のアルゴリズムが用いられる。この最短経路問題とは、重み付きグラフで与えられた2つのノード間を結ぶ経路の中で、重みが最小の経路を求める最適化問題である。最短経路問題を解くためのアルゴリズムとしては、一例として、ダイクストラ法や、ベルマン-フォード法、ワーシャル-フロイド法等が用いられる。
本実施形態に係る導出部36は、探索部34により探索された、少なくとも1つのコンテンツの経路に対して、一例として、図5に示すように、スコアを導出する。このスコアは、ホップ数、コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いて導出される。ここでいうホップ数とは、クエリに含まれる概念を表すノードとコンテンツとの間に含まれるノードの数又はエッジの数として表される。導出部36は、経路の数が複数である場合、複数の経路の各々に対するスコアを導出し、導出したスコアを合計することにより、コンテンツのスコアを導出する。
図5は、本実施形態に係る経路探索及び経路評価の説明に供する図である。
図5に示す例では、入力クエリに対して、あるコンテンツのナレッジグラフから、第1経路〜第3経路の3つの経路が探索されている。第1経路は、概念ノードA1、A2、A3を含む経路、第2経路は、概念ノードBを含む経路、第3経路は、概念ノードC1、C2を含む経路である。
図5に示す例では、入力クエリに対して、あるコンテンツのナレッジグラフから、第1経路〜第3経路の3つの経路が探索されている。第1経路は、概念ノードA1、A2、A3を含む経路、第2経路は、概念ノードBを含む経路、第3経路は、概念ノードC1、C2を含む経路である。
図5において、概念ノードA1は、クエリに含まれる概念であり、概念ノードA3は、コンテンツに含まれる概念である。概念ノードBは、クエリ及びコンテンツのどちらにも含まれる概念である。概念ノードC1は、クエリに含まれる概念であり、概念ノードC2は、コンテンツに含まれる概念である。「fxs:link」は、概念ノード間にリンクが存在することを示している。また、「fxs:word」は、コンテンツに含まれる単語が概念ノードに対応していることを示している。また、「fxs:tfidf」は、コンテンツにおける概念の重要度が設定されていることを示している。また、「fxs:ファイル名に関連」は、概念ノードがコンテンツのファイル名に関連していることを示している。また、「fxs:コンテンツ内容に関連」は、概念ノードがコンテンツの内容に関連していることを示している。また、「fxs:dataType」は、コンテンツのデータタイプを示している。
ここで、コンテンツに含まれる単語に対応する概念ノード(図5に示す例では、概念ノードA3、B、C2)と、コンテンツとの間には、コンテンツにおける概念ノードの重要度が設定される。この重要度は、一例として、TF(Term Frequency)−IDF(Inverse Document Frequency)法を用いて算出される。TFは概念(又は単語)の出現頻度を示し、IDFは逆文書頻度を示す。この重要度は、TFとIDFとの積(TF*IDF)として表される。TF*IDFは、ある文書における特定の単語の出現頻度が高いほどTFが高くなり、他の文書にもよく出現する単語であるほどIDFが低くなることから、ある単語が当該文書を特徴付ける単語であることを表す指標となる。上述したように、ナレッジグラフの概念ノードでは、複数の言語表層をラベルとして割り当てることができるため、単語の表層ではなく、概念単位でTF*IDFを算出することとしている。
このとき、概念ノードtiの文書jにおける重要度Tijは、一例として、以下に示す式(1)により算出される。但し、nijは文書jにおける概念ノードtiに割り当てられる言語表層の出現回数、Σknkjは文書jにおける全概念ノードに割り当てられる言語表層の出現回数、|D|は検索対象の文書数、|{d:d∋ti}|は概念ノードtiを含む文書数を示す。
そして、コンテンツに対するスコアSjは、一例として、ホップ数d及び重要度Tijを用いて、以下に示す式(2)により算出される。但し、Rは経路数、kt、kdはスコア調整用のパラメータ(定数)を示す。
具体的に、図5に示す第1経路の場合、ホップ数d=2、重要度Tij=1.0、パラメータkt=1、パラメータkd=1であることから、第1経路のスコアS1=(1.0+1)/(2+1)≒0.67、と算出される。同様に、第2経路の場合、ホップ数d=0、重要度Tij=0.58、パラメータkt=1、パラメータkd=1であることから、第2経路のスコアS2=(0.58+1)/(0+1)=1.58、と算出される。第3経路の場合、ホップ数d=1、重要度Tij=0.26、パラメータkt=1、パラメータkd=1であることから、第3経路のスコアS3=(0.26+1)/(1+1)=0.63、と算出される。これより、コンテンツのスコアSj=S1+S2+S3=0.67+1.58+0.63=2.88点、と算出される。上記の式(2)を用いた場合、1経路当たりのホップ数が少なく、コンテンツに含まれる経路数が多いほど、コンテンツのスコアが高く算出される。つまり、ホップ数が少なく、経路数が多いコンテンツほど、ユーザの意図が反映された検索結果である可能性が高くなる。
なお、コンテンツがキャプションを有する場合、キャプションに含まれる概念ノードの重要度が、キャプションに含まれない概念ノードの重要度よりも高く算出されるようにしてもよい。ここでいうキャプションとは、コンテンツについての説明文や見出し等を意味する。つまり、キャプションに含まれる概念ノードは、コンテンツにおいて重要であるため、この概念ノードの重要度を高くすることが望ましい。また、コンテンツの後半部分には、結論やまとめ等が記述されていることが多いため、コンテンツの後半部分に含まれる概念ノードの重要度を、コンテンツの後半部分以外に含まれる概念ノードの重要度よりも高く算出するようにしてもよい。
また、ホップ数の上限は、一例として、ユーザにより指定可能とされている。ホップ数の上限が小さいほど、ノイズは減少するが、経路数も減少する。一方、ホップ数の上限が大きいほど、経路数は増加するが、ノイズも増加する。つまり、ユーザはノイズの減少を優先させたい場合、ホップ数の上限を小さ目に指定すればよいし、経路数の増加を優先させたい場合、ホップ数の上限を大き目に指定すればよい。また、ユーザはノイズを減少させつつ、経路数をある程度確保したい場合には、ホップ数の上限を小さ目と大き目との中間に指定すればよい。
上記の例では、経路に対するスコアの導出にホップ数及び重要度を用いたが、これらに限定されるものではない。ホップ数のみを用いて経路に対するスコアを導出してもよいし、重要度のみを用いて経路に対するスコアを導出してもよい。
ここで、導出部36は、経路数が同一となるコンテンツのみを対象として、コンテンツのスコアを導出するようにしてもよい。この場合、経路数が例えば3つのコンテンツに対してのみスコアが導出されるため、経路評価のばらつきが抑制される。
また、導出部36は、コンテンツに特定の重要な概念が関連付けられている場合、経路に対するスコアを導出し、コンテンツに特定の重要な概念が関連付けられていない場合、経路に対するスコアを導出しないようにしてもよい。ここでいう特定の重要な概念とは、例えば、専門用語等である。つまり、コンテンツに専門用語等が関連付けられている場合には、検索結果として適切なコンテンツであると考えられるため、経路数に係わらず経路評価を行うことが望ましい。
次に、概念間の関係性の種類を考慮して経路探索を行う場合について説明する。ここでいう概念間の関係性の種類とは、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含んでいる。なお、本実施形態では、第1種類は、「subClassOf」として表され、第2種類は、「relation」として表される。この場合、探索部34は、一例として、図6(A)〜図6(D)に示すように、概念間の関係性の種類に応じてホップ数の上限を制限することにより、探索する経路を制限する。
図6(A)は、本実施形態に係る抽象化経路の一例を示す図である。
図6(A)に示す抽象化経路は、「subClassOf」を含み、かつ、コンテンツ側の概念ノード(コンテンツノード)がクエリ側の概念ノード(クエリノード)よりも上位概念となる経路である。なお、図の右端の黒丸はクエリノードを示し、図の左端の黒丸はコンテンツノードを示す。図の矢印の向きは、下位概念から上位概念に向かうことを示す。この場合、抽象化し過ぎるとクエリから離れてしまうため、抽象化経路のホップ数には上限を設定する。ホップ数が上限を超える抽象化経路は、探索結果から除外される。
図6(A)に示す抽象化経路は、「subClassOf」を含み、かつ、コンテンツ側の概念ノード(コンテンツノード)がクエリ側の概念ノード(クエリノード)よりも上位概念となる経路である。なお、図の右端の黒丸はクエリノードを示し、図の左端の黒丸はコンテンツノードを示す。図の矢印の向きは、下位概念から上位概念に向かうことを示す。この場合、抽象化し過ぎるとクエリから離れてしまうため、抽象化経路のホップ数には上限を設定する。ホップ数が上限を超える抽象化経路は、探索結果から除外される。
図6(B)は、本実施形態に係る具体化経路の一例を示す図である。
図6(B)に示す具体化経路は、「subClassOf」を含み、かつ、コンテンツ側の概念ノードがクエリ側の概念ノードよりも下位概念となる経路である。この場合、所望のコンテンツがより具体的に記述されていても問題はないため、具体化経路のホップ数には上限を設定しない。
図6(B)に示す具体化経路は、「subClassOf」を含み、かつ、コンテンツ側の概念ノードがクエリ側の概念ノードよりも下位概念となる経路である。この場合、所望のコンテンツがより具体的に記述されていても問題はないため、具体化経路のホップ数には上限を設定しない。
なお、具体化経路のホップ数に上限を設定してもよいが、この場合、具体化経路のホップ数の上限を、抽象化経路のホップ数の上限よりも大きくすることが望ましい。つまり、抽象化経路のホップ数よりも具体化経路のホップ数が多くなることで、より適切な探索結果が得られる。
図6(C)は、本実施形態に係る抽象化経路及び具体化経路を含む混合経路の一例を示す図である。
図6(C)に示す混合経路は、「subClassOf」を含み、かつ、抽象化経路及び具体化経路の両方を含む経路である。この場合、混合経路のうち抽象化経路のホップ数にのみ上限を設定する。ホップ数が上限を超える抽象化経路を含む混合経路は、探索結果から除外される。
図6(C)に示す混合経路は、「subClassOf」を含み、かつ、抽象化経路及び具体化経路の両方を含む経路である。この場合、混合経路のうち抽象化経路のホップ数にのみ上限を設定する。ホップ数が上限を超える抽象化経路を含む混合経路は、探索結果から除外される。
図6(D)は、本実施形態に係る関連経路の一例を示す図である。
図6(D)に示す関連経路は、「relation」を含む経路である。この場合、関連経路のホップ数に上限を設定する。ホップ数が上限を超える関連経路は、探索結果から除外される。
図6(D)に示す関連経路は、「relation」を含む経路である。この場合、関連経路のホップ数に上限を設定する。ホップ数が上限を超える関連経路は、探索結果から除外される。
なお、ホップ数が増えすぎると処理負荷が増大するため、上記の関係性に係わらず1経路当たりのホップ数の合計には制限を設けることが望ましい。
次に、概念間の関係性の種類を考慮してスコアの導出を行う場合について説明する。この場合、導出部36は、一例として、図7(A)〜図7(C)に示すように、経路に対するスコアを、概念間の関係性の種類に応じて定められる概念間の距離を用いて導出する。具体的には、上述の式(2)におけるホップ数dを、経路距離dで置き換えて導出する。
図7(A)は、本実施形態に係る抽象化経路の場合のスコア導出方法の説明に供する図である。
図7(A)に示す抽象化経路の場合、概念間の距離(1ホップ当たりの距離)を例えば1.2とする。
図7(A)に示す抽象化経路の場合、概念間の距離(1ホップ当たりの距離)を例えば1.2とする。
図7(A)に示す抽象化経路では、経路距離d=1.2×2=2.4、となる。また、一例として、重要度Tij=0.5、パラメータkt=1、パラメータkd=1であることから、上述の式(2)を用いて、この抽象化経路のスコアS=(0.5+1)/(2.4+1)≒0.44、と算出される。
図7(B)は、本実施形態に係る具体化経路の場合のスコア導出方法の説明に供する図である。
図7(B)に示す具体化経路の場合、概念間の距離を例えば0.8とする。
図7(B)に示す具体化経路の場合、概念間の距離を例えば0.8とする。
図7(B)に示す具体化経路では、経路距離d=0.8×2=1.6、となる。また、一例として、重要度Tij=0.5、パラメータkt=1、パラメータkd=1であることから、上述の式(2)を用いて、この具体化経路のスコアS=(0.5+1)/(1.6+1)≒0.58、と算出される。
図7(C)は、本実施形態に係る関連経路の場合のスコア導出方法の説明に供する図である。
図7(C)に示す関連経路の場合、概念間の距離を例えば1.0とする。
図7(C)に示す関連経路の場合、概念間の距離を例えば1.0とする。
図7(C)に示す関連経路では、経路距離d=1.0×2=2.0、となる。また、一例として、重要度Tij=0.5、パラメータkt=1、パラメータkd=1であることから、上述の式(2)を用いて、この関連経路のスコアS=(0.5+1)/(2.0+1)=0.5、と算出される。
すなわち、上述の概念間の距離は、「subClassOf」を含む経路と、「relation」を含む経路とで異なる距離が定められる。具体的に、図7(A)に示す「subClassOf」を含む抽象化経路における概念間の距離は、図7(C)に示す「relation」を含む関連経路における概念間の距離よりも長い。また、図7(B)に示す「subClassOf」を含む具体化経路における概念間の距離は、図7(C)に示す「relation」を含む関連経路における概念間の距離よりも短い。
なお、上述の図6(A)〜図6(D)に示す例と同様に、ホップ数が増えすぎると処理負荷が増大するため、上記の関係性に係わらず1経路当たりのホップ数の合計には制限を設けることが望ましい。
次に、経路の分岐や合流を考慮してスコアの導出を行う場合について説明する。この場合、導出部36は、一例として、図8(A)及び図8(B)に示すように、分岐経路を含む経路と、合流経路を含む経路とで異なる方法を用いてスコアを導出する。
図8(A)は、本実施形態に係る分岐経路の場合のスコア導出方法の説明に供する図である。
図8(A)に示す分岐経路は、クエリ側の概念ノードがコンテンツ側の複数の概念ノードに分岐する経路である。この場合、クエリ側の概念ノードを説明する記載部分が多く含まれている可能性が高いため、分岐経路毎のスコアを合計することにより、分岐経路を含む経路に対するスコアが導出される。
図8(A)に示す分岐経路は、クエリ側の概念ノードがコンテンツ側の複数の概念ノードに分岐する経路である。この場合、クエリ側の概念ノードを説明する記載部分が多く含まれている可能性が高いため、分岐経路毎のスコアを合計することにより、分岐経路を含む経路に対するスコアが導出される。
図8(A)において、上段側の分岐経路では、一例として、ホップ数d=2、重要度Tij=0.5、パラメータkt=1、パラメータkd=1であることから、この分岐経路のスコアは、上述の式(2)を用いて、(0.5+1)/(2+1)=0.5、と算出される。同様に、下段側の分岐経路では、一例として、ホップ数d=3、重要度Tij=0.3、パラメータkt=1、パラメータkd=1であることから、この分岐経路のスコアは、上述の式(2)を用いて、(0.3+1)/(3+1)≒0.33、と算出される。これより、これら2つの分岐経路を含む経路のスコアS=0.5+0.33=0.83、と算出される。
図8(B)は、本実施形態に係る合流経路の場合のスコア導出方法の説明に供する図である。
図8(B)に示す合流経路は、クエリ側の複数の概念ノードがコンテンツ側の概念ノードに合流する経路である。この場合、クエリが冗長である可能性が高いため、合流経路毎のスコアのうち最も高いスコアが、合流経路を含む経路に対するスコアとされる。
図8(B)に示す合流経路は、クエリ側の複数の概念ノードがコンテンツ側の概念ノードに合流する経路である。この場合、クエリが冗長である可能性が高いため、合流経路毎のスコアのうち最も高いスコアが、合流経路を含む経路に対するスコアとされる。
図8(B)において、上段側の合流経路では、一例として、ホップ数d=2、重要度Tij=0.5、パラメータkt=1、パラメータkd=1であることから、この合流経路のスコアは、上述の式(2)を用いて、(0.5+1)/(2+1)=0.5、と算出される。同様に、下段側の合流経路では、一例として、ホップ数d=2、重要度Tij=0.5、パラメータkt=1、パラメータkd=1であることから、この合流経路のスコアは、上述の式(2)を用いて、(0.5+1)/(2+1)=0.5、と算出される。この例では、2つの合流経路のスコアは同一であり、最大スコアは0.5となる。これより、これら2つの合流経路を含む経路のスコアS=0.5、となる。
そして、導出部36は、上記により導出されたコンテンツ毎のスコアに基づいて、スコアの高い順にコンテンツをランク付けしてコンテンツリストを生成する。
本実施形態に係る表示制御部38は、導出部36により生成されたコンテンツリストを、一例として、後述の図10に示す検索結果画面として、端末装置50に表示させる制御を行う。
次に、図9を参照して、本実施形態に係る情報処理装置10の作用を説明する。
図9は、本実施形態に係る経路評価処理プログラム14Aによる処理の流れの一例を示すフローチャートである。
まず、情報処理装置10に対して、経路評価処理プログラム14Aの起動が指示されると、以下の各ステップを実行する。
図9のステップ100では、受付部30が、ユーザが使用する端末装置50から、一例として、上述の図4に示すクエリの入力を受け付ける。
ステップ102では、取得部32が、検索対象のコンテンツ毎に、一例として、上述の図4に示すナレッジグラフから、クエリに対応する複数のノードを取得する。
ステップ104では、探索部34が、ステップ102で取得された複数のノードから、一例として、上述の図5に示すように、エッジにより互いに関連するノードを含む経路を探索する。
ステップ106では、導出部36が、ステップ104で探索された経路に対して、ホップ数、コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いてスコアを導出する。このスコアは、一例として、上述の式(1)及び式(2)を用いて導出される。
ステップ108では、導出部36が、コンテンツの全経路についてスコアを導出したか否かを判定する。コンテンツの全経路についてスコアを導出したと判定した場合(肯定判定の場合)、ステップ110に移行する。一方、コンテンツの全経路についてスコアを導出していないと判定した場合(否定判定の場合)、ステップ106に戻り処理を繰り返す。
ステップ110では、導出部36が、一例として、上述の式(2)を用いて、コンテンツのスコアを導出する。
ステップ112では、導出部36が、検索対象の全てのコンテンツについてスコアを導出したか否かを判定する。検索対象の全てのコンテンツについてスコアを導出したと判定した場合(肯定判定の場合)、ステップ114に移行する。一方、検索対象の全てのコンテンツについてスコアを導出していないと判定した場合(否定判定の場合)、ステップ102に戻り処理を繰り返す。
ステップ114では、導出部36が、ステップ110で導出されたコンテンツ毎のスコアに基づいて、スコアの高い順にコンテンツをランク付けしてコンテンツリストを生成する。
ステップ116では、表示制御部38が、ステップ114で生成されたコンテンツリストを、一例として、図10に示す検索結果画面として、端末装置50に表示させる制御を行い、本経路評価処理プログラム14Aによる一連の処理を終了する。
図10は、本実施形態に係る検索結果画面の一例を示す正面図である。
図10に示す検索結果画面は、検索結果として得られた複数のコンテンツがスコアの高い順にランク付けされたコンテンツリストの画面である。この検索結果画面は、端末装置50に表示される。
図10に示す検索結果画面は、検索結果として得られた複数のコンテンツがスコアの高い順にランク付けされたコンテンツリストの画面である。この検索結果画面は、端末装置50に表示される。
このように本実施形態によれば、コンテンツの経路評価に際し、ホップ数、コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いることにより、入力クエリに対して、比較的近い概念を持つコンテンツがランク付けされる。これにより、ユーザは自身の意図が反映された検索結果を得ることが可能とされる。
以上、実施形態に係る情報処理装置を例示して説明した。実施形態は、情報処理装置が備える各部の機能をコンピュータに実行させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明した情報処理装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 情報処理装置
12 制御部
12A CPU
12B ROM
12C RAM
12D I/O
14 記憶部
14A 経路評価処理プログラム
16 表示部
18 操作部
20 通信部
30 受付部
32 取得部
34 探索部
36 導出部
38 表示制御部
12 制御部
12A CPU
12B ROM
12C RAM
12D I/O
14 記憶部
14A 経路評価処理プログラム
16 表示部
18 操作部
20 通信部
30 受付部
32 取得部
34 探索部
36 導出部
38 表示制御部
Claims (19)
- クエリの入力を受け付ける受付部と、
検索対象のコンテンツ毎に、コンテンツの概念を表すノードの情報と概念同士の関係を表したデータから、前記クエリに対応する複数のノードを取得する取得部と、
前記取得部により取得された複数のノードから、互いに関連するノードを含む経路を探索する探索部と、
前記探索部により探索された、少なくとも1つのコンテンツの経路に対して、前記クエリに含まれる概念を表すノードと前記コンテンツとの間に含まれるノードの数として表されるホップ数、前記コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いてスコアを導出する導出部と、
を備えた情報処理装置。 - 前記導出部は、前記経路の数が複数である場合、前記複数の経路の各々に対するスコアを導出し、導出したスコアを合計することにより、前記コンテンツのスコアを導出する請求項1に記載の情報処理装置。
- 前記導出部は、前記経路の数が同一となるコンテンツのみを対象として、前記コンテンツのスコアを導出する請求項2に記載の情報処理装置。
- 前記取得部は、前記クエリに含まれる概念の数と同一の数の概念が関連付けられたコンテンツを検索対象とする請求項1〜3のいずれか1項に記載の情報処理装置。
- 前記導出部は、
前記コンテンツに特定の重要な概念が関連付けられている場合、前記経路に対するスコアを導出し、
前記コンテンツに前記特定の重要な概念が関連付けられていない場合、前記経路に対するスコアを導出しない請求項1〜4のいずれか1項に記載の情報処理装置。 - 前記概念間の関係性の種類は、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含む請求項1〜5のいずれか1項に記載の情報処理装置。
- 前記経路は、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路であり、
前記探索部は、前記抽象化経路の前記ホップ数に上限を設定する請求項6に記載の情報処理装置。 - 前記経路は、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路であり、
前記探索部は、前記具体化経路の前記ホップ数に上限を設定しない請求項6に記載の情報処理装置。 - 前記経路は、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路及び前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路の両方を含む混合経路であり、
前記探索部は、前記混合経路のうち前記抽象化経路の前記ホップ数にのみ上限を設定する請求項6に記載の情報処理装置。 - 前記経路は、前記第2種類の関係性を含む関連経路であり、
前記探索部は、前記関連経路の前記ホップ数に上限を設定する請求項6に記載の情報処理装置。 - 前記導出部は、前記経路に対するスコアを、前記概念間の関係性の種類に応じて定められる概念間の距離を用いて導出し、
前記概念間の関係性の種類は、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含み、
前記概念間の距離は、前記第1種類の関係性を含む経路と、前記第2種類の関係性を含む関連経路とで異なる距離が定められる請求項1〜5のいずれか1項に記載の情報処理装置。 - 前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路における前記概念間の距離は、前記関連経路における前記概念間の距離よりも長い請求項11に記載の情報処理装置。
- 前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路における前記概念間の距離は、前記関連経路における前記概念間の距離よりも短い請求項11又は12に記載の情報処理装置。
- 前記導出部は、前記クエリ側の概念が前記コンテンツ側の複数の概念に分岐する分岐経路を含む経路と、前記クエリ側の複数の概念が前記コンテンツ側の概念に合流する合流経路を含む経路とで異なる方法を用いてスコアを導出する請求項1〜13のいずれか1項に記載の情報処理装置。
- 前記導出部は、前記分岐経路を含む経路の場合、前記分岐経路毎のスコアを合計することにより、前記経路に対するスコアを導出する請求項14に記載の情報処理装置。
- 前記導出部は、前記合流経路を含む経路の場合、前記合流経路毎のスコアのうち最も高いスコアを、前記経路に対するスコアとする請求項14又は15に記載の情報処理装置。
- 前記概念の重要度は、TF−IDF法を用いて算出される請求項1〜16のいずれか1項に記載の情報処理装置。
- 前記コンテンツがキャプションを有する場合、前記キャプションに含まれる概念の重要度が、前記キャプションに含まれない概念の重要度よりも高く算出される請求項17に記載の情報処理装置。
- コンピュータを、請求項1〜18のいずれか1項に記載の情報処理装置が備える各部として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019035780A JP2020140467A (ja) | 2019-02-28 | 2019-02-28 | 情報処理装置及びプログラム |
US16/507,404 US20200278989A1 (en) | 2019-02-28 | 2019-07-10 | Information processing apparatus and non-transitory computer readable medium |
CN201910826361.4A CN111625630A (zh) | 2019-02-28 | 2019-09-03 | 信息处理装置、信息处理方法和计算机可读记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019035780A JP2020140467A (ja) | 2019-02-28 | 2019-02-28 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020140467A true JP2020140467A (ja) | 2020-09-03 |
Family
ID=72237130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019035780A Pending JP2020140467A (ja) | 2019-02-28 | 2019-02-28 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200278989A1 (ja) |
JP (1) | JP2020140467A (ja) |
CN (1) | CN111625630A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022050011A (ja) * | 2020-09-17 | 2022-03-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN112765288A (zh) * | 2021-02-05 | 2021-05-07 | 新华智云科技有限公司 | 知识图谱的构建方法及系统、信息查询方法及系统 |
CN113392227B (zh) * | 2021-05-31 | 2024-04-19 | 交控科技股份有限公司 | 面向轨道交通领域的元数据知识图谱引擎系统 |
CN115544106B (zh) * | 2022-12-01 | 2023-02-28 | 云南电网有限责任公司信息中心 | 呼叫中心平台的内部事件检索方法、系统及计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157823A (ja) * | 2003-11-27 | 2005-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム |
JP2005157887A (ja) * | 2003-11-27 | 2005-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置および文書分類方法ならびに文書分類プログラム |
JP2006227808A (ja) * | 2005-02-16 | 2006-08-31 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索装置および方法 |
US20080086465A1 (en) * | 2006-10-09 | 2008-04-10 | Fontenot Nathan D | Establishing document relevance by semantic network density |
JP2013054640A (ja) * | 2011-09-06 | 2013-03-21 | Fuji Xerox Co Ltd | 検索装置及びプログラム |
JP2015005174A (ja) * | 2013-06-21 | 2015-01-08 | 日本放送協会 | コンテンツ検索装置、方法及びプログラム |
JP2017224204A (ja) * | 2016-06-16 | 2017-12-21 | パナソニックIpマネジメント株式会社 | 対話処理方法、対話処理システム、及びプログラム |
WO2018083777A1 (ja) * | 2016-11-04 | 2018-05-11 | 三菱電機株式会社 | 情報処理装置および情報処理方法 |
US20190108286A1 (en) * | 2017-10-05 | 2019-04-11 | Wayblazer, Inc. | Concept networks and systems and methods for the creation, update and use of same to select images, including the selection of images corresponding to destinations in artificial intelligence systems |
-
2019
- 2019-02-28 JP JP2019035780A patent/JP2020140467A/ja active Pending
- 2019-07-10 US US16/507,404 patent/US20200278989A1/en not_active Abandoned
- 2019-09-03 CN CN201910826361.4A patent/CN111625630A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157823A (ja) * | 2003-11-27 | 2005-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム |
JP2005157887A (ja) * | 2003-11-27 | 2005-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置および文書分類方法ならびに文書分類プログラム |
JP2006227808A (ja) * | 2005-02-16 | 2006-08-31 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索装置および方法 |
US20080086465A1 (en) * | 2006-10-09 | 2008-04-10 | Fontenot Nathan D | Establishing document relevance by semantic network density |
JP2013054640A (ja) * | 2011-09-06 | 2013-03-21 | Fuji Xerox Co Ltd | 検索装置及びプログラム |
JP2015005174A (ja) * | 2013-06-21 | 2015-01-08 | 日本放送協会 | コンテンツ検索装置、方法及びプログラム |
JP2017224204A (ja) * | 2016-06-16 | 2017-12-21 | パナソニックIpマネジメント株式会社 | 対話処理方法、対話処理システム、及びプログラム |
WO2018083777A1 (ja) * | 2016-11-04 | 2018-05-11 | 三菱電機株式会社 | 情報処理装置および情報処理方法 |
US20190108286A1 (en) * | 2017-10-05 | 2019-04-11 | Wayblazer, Inc. | Concept networks and systems and methods for the creation, update and use of same to select images, including the selection of images corresponding to destinations in artificial intelligence systems |
Also Published As
Publication number | Publication date |
---|---|
US20200278989A1 (en) | 2020-09-03 |
CN111625630A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9904727B2 (en) | Document retrieval/identification using topics | |
US20170116200A1 (en) | Trust propagation through both explicit and implicit social networks | |
JP2020140467A (ja) | 情報処理装置及びプログラム | |
CN107291792B (zh) | 用于确定相关实体的方法和系统 | |
US8321409B1 (en) | Document ranking using word relationships | |
US20170308792A1 (en) | Knowledge To User Mapping in Knowledge Automation System | |
US9798820B1 (en) | Classification of keywords | |
US8041705B2 (en) | Microhubs and its applications | |
EP3178013A2 (en) | Knowledge automation system | |
US20200142938A1 (en) | Unbiasing search results | |
US20180053235A1 (en) | Unbiased search and user feedback analytics | |
US10891340B2 (en) | Method of and system for updating search index database | |
JP2010536086A (ja) | ユーザ中心の情報探索方法およびシステム | |
CN109952571A (zh) | 基于上下文的图像搜索结果 | |
US20210056131A1 (en) | Methods and systems for generating timelines for entities | |
CN110291515B (zh) | 计算系统中的分布式索引搜索 | |
JP2020140468A (ja) | 情報処理装置及びプログラム | |
US9342586B2 (en) | Managing and using shareable search lists | |
Adamu et al. | A framework for enhancing the retrieval of UML diagrams | |
US9864767B1 (en) | Storing term substitution information in an index | |
US11449516B2 (en) | Ranking of documents belonging to different domains based on comparison of descriptors thereof | |
US11960820B2 (en) | Analysis and restructuring of web pages of a web site | |
Haris et al. | Framework of blog data based multi-criteria weighted points of interest graph for trip planning | |
JP2021149580A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2008305078A (ja) | 関連語抽出支援装置および関連語抽出支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230704 |