JP2020140468A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2020140468A
JP2020140468A JP2019035781A JP2019035781A JP2020140468A JP 2020140468 A JP2020140468 A JP 2020140468A JP 2019035781 A JP2019035781 A JP 2019035781A JP 2019035781 A JP2019035781 A JP 2019035781A JP 2020140468 A JP2020140468 A JP 2020140468A
Authority
JP
Japan
Prior art keywords
node
concept
query
information processing
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019035781A
Other languages
English (en)
Inventor
山本 隆之
Takayuki Yamamoto
隆之 山本
裕輝 田川
Yuki Tagawa
裕輝 田川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019035781A priority Critical patent/JP2020140468A/ja
Priority to US16/507,016 priority patent/US20200279000A1/en
Priority to CN201910814929.0A priority patent/CN111625642A/zh
Publication of JP2020140468A publication Critical patent/JP2020140468A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】クエリから特定される単一の概念を表すノードのみを用いて、クエリに含まれる単語に関連するコンテンツを検索する場合と比較して、検索結果にユーザの意図や目的を適切に反映させることができる情報処理装置及びプログラムを提供する。【解決手段】情報処理装置10は、クエリの入力を受け付ける受付部30と、クエリに含まれる複数の単語から、単語の組み合わせを生成する生成部32と、単一的な概念を表す第1ノード、複合的な概念を表す第2ノード、及び概念同士の関係を表したデータから、クエリの単語の組み合わせ毎に、各単語の組み合わせに対応するノードを取得する取得部34と、取得部34により取得されたノードに対応するコンテンツを特定する特定部36と、を備える。【選択図】図3

Description

本発明は、情報処理装置及びプログラムに関する。
例えば、特許文献1には、文を解析して2つの単語の関係性を生成する言語処理装置が記載されている。この言語処理装置は、入力された文に含まれる複数の単語を抽出して文の意味を解析した解析結果に基づき、複数の単語の夫々について、単語を含み一つの意味を成す句があるか否かを判定し、ある場合には句を出力する句判定部を有する。また、この言語処理装置は、文の形態素解析を行い、形態素解析に基づき、文の形態素同士の関係から文の構文解析を行い、構文解析の結果に基づき、複数の単語のうちの互いに関係する2つの単語同士の意味上の関係、及び、複数の単語の夫々と句判定部より出力された句において主たる意味を保持する単語との意味上の関係を示す関係情報を生成する解析部を有する。また、この言語処理装置は、関係情報に基づき、単語または句を前後の単語または句とつなげた別の句として表示させるか否かの判別を、関係情報と別の句として表示させることの可否との関係が予め定義されている拡張情報に従って行う拡張部を有する。また、この言語処理装置は、別の句として表示させると判別された単語または句を一つの句としてまとめる表示処理部を有する。また、この言語処理装置は、文の意味を解析した解析結果及び表示処理部での処理の結果に基づき、文の中心概念として解析された語句、表示処理部によってまとめられた句、及び、語句と該句との意味上の関係を表す関係情報を表示する表示部を有する。
また、特許文献2には、複雑な知識表現を生成する方法が記載されている。この方法は、プロセッサが、要求コンテキストを示す入力を受領する段階を含む。また、この方法は、プロセッサが、少なくとも一つの要素的概念、少なくとも一つの要素的概念関係または少なくとも一つの要素的概念および少なくとも一つの要素的概念関係を表す要素的データ構造に、一つまたは複数の規則を適用する段階を含む。また、この方法は、プロセッサが、一つまたは複数の規則の適用に基づいて、要求コンテキストに従って、一つまたは複数の追加的概念、一つまたは複数の追加的概念関係または一つまたは複数の追加的概念および一つまたは複数の追加的概念関係を合成する段階を含む。また、この方法は、プロセッサが、追加的概念の少なくとも一つ、追加的概念関係の少なくとも一つまたは追加的概念の少なくとも一つおよび追加的概念関係の少なくとも一つを使って、要求コンテキストに従って複雑な知識表現を生成する段階を含む。
特許第6075042号公報 特許第5798624号公報
ところで、文書等のコンテンツを検索する手法として、ユーザの意図を理解して、検索結果を出力するセマンティック検索が利用されている。このセマンティック検索では、クエリから特定される単一的な概念を表すノードのみを用いて、クエリに含まれる単語に関連するコンテンツが検索される。このため、検索結果にユーザの意図を適切に反映させることが困難な場合がある。
本発明は、クエリから特定される単一的な概念を表すノードのみを用いて、クエリに含まれる単語に関連するコンテンツを検索する場合と比較して、検索結果にユーザの意図を適切に反映させることができる情報処理装置及びプログラムを提供することを目的とする。
上記目的を達成するために、第1態様に係る情報処理装置は、クエリの入力を受け付ける受付部と、前記クエリに含まれる複数の単語から、単語の組み合わせを生成する生成部と、単一的な概念を表す第1ノード、複合的な概念を表す第2ノード、及び概念同士の関係を表したデータから、前記クエリの単語の組み合わせ毎に、各単語の組み合わせに対応するノードを取得する取得部と、前記取得部により取得されたノードに対応するコンテンツを特定する特定部と、を備えている。
また、第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記クエリの単語の組み合わせが、前記クエリの連続する文節に含まれる単語の組み合わせとされている。
また、第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記取得部が、前記クエリの単語の組み合わせにおける各単語と、前記第2ノードにより表される各概念とが一致し、かつ、前記各単語の並び順と、前記各概念の並び順とが一致する場合に、前記第2ノードを取得する。
また、第4態様に係る情報処理装置は、第2態様又は第3態様に係る情報処理装置において、前記取得部が、前記クエリの単語の組み合わせが特定の単語の組み合わせである場合、前記第2ノードのみを取得する。
また、第5態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記クエリの単語の組み合わせが、前記クエリの係り受け関係にある文節に含まれる単語の組み合わせとされている。
また、第6態様に係る情報処理装置は、第5態様に係る情報処理装置において、前記取得部が、前記クエリの単語の組み合わせにおける各単語と、前記第2ノードにより表される各概念とが一致する場合に、前記第2ノードを取得する。
また、第7態様に係る情報処理装置は、第1態様〜第6態様のいずれか1の態様に係る情報処理装置において、前記特定部により特定されたコンテンツに対応する複数のノードから、互いに関連するノードを含む経路を探索する探索部と、前記探索部により探索された、少なくとも1つのコンテンツの経路に対して、前記クエリに含まれる概念を表すノードと前記コンテンツとの間に含まれるノードの数として表されるホップ数、前記コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いてスコアを導出する導出部と、を更に備えている。
また、第8態様に係る情報処理装置は、第7態様に係る情報処理装置において、前記導出部が、前記経路の数が複数である場合、前記複数の経路の各々に対するスコアを導出し、導出したスコアを合計することにより、前記コンテンツのスコアを導出する。
また、第9態様に係る情報処理装置は、第7態様又は第8態様に係る情報処理装置において、前記概念の重要度が、TF−IDF法を用いて算出される。
また、第10態様に係る情報処理装置は、第7態様〜第9態様のいずれか1の態様に係る情報処理装置において、前記第2ノードにより表される概念の重要度が、前記第1ノードにより表される概念の重要度よりも高く算出される。
また、第11態様に係る情報処理装置は、第10態様に係る情報処理装置において、前記第1ノードを含む経路における前記第2ノードにより表される概念の重要度が、前記第1ノードを含まない経路における前記第2ノードにより表される概念の重要度よりも低く算出される。
また、第12態様に係る情報処理装置は、第10態様又は第11態様に係る情報処理装置において、前記クエリに繰り返し含まれる単語に対応して取得された前記第2ノードにより表される概念の重要度が、前記クエリに1つのみ含まれる単語に対応して取得された前記第2ノードにより表される概念の重要度よりも高く算出される。
また、第13態様に係る情報処理装置は、第7態様〜第12態様のいずれか1の態様に係る情報処理装置において、前記概念間の関係性の種類が、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含み、前記第2ノードにより表される概念の重要度が、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路と、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路と、前記第2種類の関係性を含む関連経路との間で異なる。
また、第14態様に係る情報処理装置は、第13態様に係る情報処理装置において、前記抽象化経路における前記第2ノードにより表される概念の重要度が、前記関連経路における前記第2ノードにより表される概念の重要度よりも低く算出され、前記具体化経路における前記第2ノードにより表される概念の重要度が、前記関連経路における前記第2ノードにより表される概念の重要度よりも高く算出される。
更に、上記目的を達成するために、第15態様に係るプログラムは、コンピュータを、第1態様〜第14態様のいずれか1の態様に係る情報処理装置が備える各部として機能させる。
第1態様及び第15態様によれば、クエリから特定される単一的な概念を表すノードのみを用いて、クエリに含まれる単語に関連するコンテンツを検索する場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第2態様によれば、クエリの連続する文節を考慮しない場合と比較して、適切な単語の組み合わせを生成することができる、という効果を有する。
第3態様によれば、クエリの単語と第2ノードの概念とが一致せず、かつ、単語の並び順を考慮しない場合と比較して、適切な第2ノードを取得することができる、という効果を有する。
第4態様によれば、特定の単語の組み合わせを考慮しない場合と比較して、適切な第2ノードを取得することができる、という効果を有する。
第5態様によれば、クエリの係り受け関係にある文節を考慮しない場合と比較して、適切な単語の組み合わせを生成することができる、という効果を有する。
第6態様によれば、クエリの単語と第2ノードの概念とが一致しない場合と比較して、適切な第2ノードを取得することができる、という効果を有する。
第7態様によれば、コンテンツの検索を行う際に、コンテンツに関連付けられた概念を一律に評価する場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第8態様によれば、複数の経路を考慮しない場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第9態様によれば、概念の重要度の算出にTF−IDF法を用いない場合と比較して、検索結果にユーザの意図を適切に反映させることができる、という効果を有する。
第10態様によれば、第2ノードの概念の重要度を、第1ノードの概念の重要度よりも低くする場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第11態様によれば、第1ノードを含む経路における第2ノードの概念の重要度を、第1ノードを含まない経路における第2ノードの概念の重要度よりも高くする場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第12態様によれば、クエリに繰り返し含まれる単語に対応する第2ノードの概念の重要度を、クエリに1つのみ含まれる単語に対応すう第2ノードの概念の重要度よりも低くする場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第13態様によれば、概念間の関係性の種類として、上位概念及び下位概念の関係性を示す種類と、それ以外の種類とを考慮せずに、第2ノードの概念の重要度を算出する場合と比較して、適切な経路評価を行うことができる、という効果を有する。
第14態様によれば、抽象化経路、具体化経路、及び関連経路の各々における第2ノードの概念の重要度の高低関係を考慮しない場合と比較して、適切な経路評価を行うことができる、という効果を有する。
実施形態に係るネットワークシステムの構成の一例を示す図である。 実施形態に係る情報処理装置の電気的な構成の一例を示すブロック図である。 実施形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。 実施形態に係るクエリ及びナレッジグラフの説明に供する図である。 実施形態に係る別のクエリ及びナレッジグラフの説明に供する図である。 実施形態に係る経路探索及び経路評価の説明に供する図である。 実施形態に係るトピックスノードの重要度及び単語ノードの重要度の一例を示す図である。 (A)は、実施形態に係る抽象化経路の一例を示す図である。(B)は、実施形態に係る具体化経路の一例を示す図である。(C)は、実施形態に係る抽象化経路及び具体化経路を含む混合経路の一例を示す図である。(D)は、実施形態に係る関連経路の一例を示す図である。 (A)は、実施形態に係る抽象化経路の場合のスコア導出方法の説明に供する図である。(B)は、実施形態に係る具体化経路の場合のスコア導出方法の説明に供する図である。(C)は、実施形態に係る関連経路の場合のスコア導出方法の説明に供する図である。 実施形態に係る経路評価処理プログラムによる処理の流れの一例を示すフローチャートである。 実施形態に係る検索結果画面の一例を示す正面図である。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
図1は、本実施形態に係るネットワークシステム90の構成の一例を示す図である。
図1に示すように、本実施形態に係るネットワークシステム90は、情報処理装置10と、端末装置50と、を備えている。なお、本実施形態に係る情報処理装置10には、一例として、サーバコンピュータや、パーソナルコンピュータ(PC:Personal Computer)等の汎用的なコンピュータ装置が適用される。
本実施形態に係る情報処理装置10は、ネットワークNを介して、端末装置50と接続されている。なお、ネットワークNには、一例として、インターネットや、LAN(Local Area Network)、WAN(Wide Area Network)等が適用される。本実施形態に係る端末装置50には、一例として、パーソナルコンピュータ(PC)等の汎用的なコンピュータ装置や、スマートフォン、タブレット端末等の携帯可能なコンピュータ装置等が適用される。
本実施形態に係る情報処理装置10は、端末装置50から入力されるクエリに応じて、検索対象のコンテンツ群の中から、クエリに関連するコンテンツを取得し、取得したコンテンツにランク付けして検索結果として出力するセマンティック検索機能を備えている。
図2は、本実施形態に係る情報処理装置10の電気的な構成の一例を示すブロック図である。
図2に示すように、本実施形態に係る情報処理装置10は、制御部12と、記憶部14と、表示部16と、操作部18と、通信部20と、を備えている。
制御部12は、CPU(Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、及び入出力インターフェース(I/O)12Dを備えており、これら各部がバスを介して各々接続されている。
I/O12Dには、記憶部14と、表示部16と、操作部18と、通信部20と、を含む各機能部が接続されている。これらの各機能部は、I/O12Dを介して、CPU12Aと相互に通信可能とされる。
制御部12は、情報処理装置10の一部の動作を制御するサブ制御部として構成されてもよいし、情報処理装置10の全体の動作を制御するメイン制御部の一部として構成されてもよい。制御部12の各ブロックの一部又は全部には、例えば、LSI(Large Scale Integration)等の集積回路又はIC(Integrated Circuit)チップセットが用いられる。上記各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。上記各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、上記各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。制御部12の集積化には、LSIに限らず、専用回路又は汎用プロセッサを用いてもよい。
記憶部14としては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等が用いられる。記憶部14には、本実施形態に係る経路評価処理を実現するための経路評価処理プログラム14Aが記憶される。なお、この経路評価処理プログラム14Aは、ROM12Bに記憶されていてもよい。
経路評価処理プログラム14Aは、例えば、情報処理装置10に予めインストールされていてもよい。経路評価処理プログラム14Aは、不揮発性の記憶媒体に記憶して、又はネットワークNを介して配布して、情報処理装置10に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
表示部16には、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等が用いられる。表示部16は、タッチパネルを一体的に有していてもよい。操作部18には、例えば、キーボードやマウス等の操作入力用のデバイスが設けられている。表示部16及び操作部18は、情報処理装置10のユーザから各種の指示を受け付ける。表示部16は、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報を表示する。
通信部20は、インターネットや、LAN、WAN等のネットワークNに接続されており、端末装置50との間でネットワークNを介して通信が可能とされる。
ところで、上述したように、セマンティック検索では、クエリから特定される単一的な概念を表すノードのみを用いて、クエリに含まれる単語に関連するコンテンツが検索されるため、検索結果にユーザの意図を適切に反映させることが困難な場合がある。
このため、本実施形態に係る情報処理装置10のCPU12Aは、記憶部14に記憶されている経路評価処理プログラム14AをRAM12Cに書き込んで実行することにより、図3に示す各部として機能する。
図3は、本実施形態に係る情報処理装置10の機能的な構成の一例を示すブロック図である。
図3に示すように、本実施形態に係る情報処理装置10のCPU12Aは、受付部30、生成部32、取得部34、特定部36、探索部38、導出部40、及び表示制御部42として機能する。
本実施形態に係る記憶部14には、ナレッジグラフが格納されている。このナレッジグラフは、一例として、後述の図4に示すように、入力されたクエリに含まれる単語のうち一つの単語とエッジで結ばれている、単一的な概念を表す第1ノード(一例として単語ノード)、そして、複数の第1ノードとエッジで結ばれている、複合的な概念を表す第2ノード(一例としてトピックスノード)、及び、エッジを含むデータの一例である。なお、エッジとは、概念を表す複数のノードのうち、概念上関係のあるノード同士を関連付けるものである。このナレッジグラフは、オントロジーとも呼ばれる。このナレッジグラフは、検索対象となるコンテンツ毎に予め定義され、かつ、概念と概念とが階層構造で表現されている。なお、ここでいうコンテンツには、例えば、文書、画像(動画含む。)、及び音声等が含まれる。
ナレッジグラフは、一例として、セマンティック・ウェブにおけるOWL(Web Ontology Language)等を用いて定義される。ナレッジグラフに関連する概念(「クラス」とも呼ばれる。)は、一例として、OWLがベースとするRDF(Resource Description Framework)で規定されている。このナレッジグラフは、有向グラフでもよいし、無向グラフでもよく、各ノードに、物理的あるいは仮想的な存在を表す概念を割り当て、概念間の関係を関係の種類ごとに異なるラベルを持つエッジで結びつけることによって、物や事柄の存在を表現する。2つの概念(ノード)とそれら両者間の関係(エッジ)からなる三者は、「トリプル」と呼ばれる。
利用するナレッジグラフは、概念同士の上位・下位関係の他に、概念同士の「プロパティ」関係の情報を含んでいてもよい。上位・下位関係は、上位の概念が下位の概念に該当するエンティティをすべて包含するという特定の関係を表すものである。これに対して、プロパティ関係は、上位・下位関係以外で自由に定義可能な関係を表すものである。また、プロパティには、ドメイン(domain:定義域)及びレンジ(range:値域)が定義される。プロパティのドメイン及びレンジは、そのプロパティとトリプルを構成し得る2つのノード同士の関係において、その関係の始点と終点として取り得る値の範囲を制約する。
本実施形態に係る受付部30は、ユーザが使用する端末装置50から、クエリの入力を受け付ける。ここでいうクエリとは、コンテンツの検索を行う際に、ユーザにより入力される情報を意味する。
本実施形態に係る生成部32は、一例として、図4に示すように、クエリに含まれる複数の単語から、単語の組み合わせを生成する。
図4は、本実施形態に係るクエリ及びナレッジグラフの説明に供する図である。
図4に示す例では、クエリとして、「賃貸マンションを経営していますが、マンションの貸付には消費税は課税されますか。」がユーザから入力される。このクエリには、「賃貸マンション」、「経営」、「マンション」、「貸付」、「消費税」、及び「課税」の6個の単語が含まれている。
図4に示す例の場合、クエリの単語の組み合わせは、クエリの連続する文節に含まれる単語の組み合わせとされている。具体的には、クエリの連続する文節に含まれる「賃貸マンション」及び「経営」から、組み合わせ(賃貸マンション、経営)が生成される。同様に、「経営」及び「マンション」から、組み合わせ(経営、マンション)が生成される。また、「マンション」及び「貸付」から、組み合わせ(マンション、貸付)が生成される。また、「貸付」及び「消費税」から、組み合わせ(貸付、消費税)が生成される。また、「消費税」及び「課税」から、組み合わせ(消費税、課税)が生成される。すなわち、図4に示す例では、クエリから5組の組み合わせが生成される。
本実施形態に係る取得部34は、一例として、図4に示すように、記憶部14に格納されているナレッジグラフから、クエリの単語の組み合わせ毎に、各単語の組み合わせに対応するノードを取得する。
図4に示すナレッジグラフは、「賃貸マンション」、「経営」、「マンション」、「貸付」、「消費税」、及び「課税」の6個の単語ノードを有している。単語ノードには、1つ以上のラベルが付与される。このラベルがクエリ中に含まれる場合に、当該単語ノードが取得される。なお、ラベルが付与された単語ノードには「rdfs:label」が付与される。また、単語ノード間には、1種類以上の関係性が定義されており、関係性が定義されていない単語ノードは結合されない。なお、単語ノード間に上位概念及び下位概念の関係がある場合、単語ノード間に「subClassOf」が付与される。また、単語ノード間に上位概念及び下位概念以外の関係がある場合、単語ノード間に「relation」が付与される。
また、図4に示すナレッジグラフは、(マンション、経営)及び(マンション、貸付)の2個のトピックスノードを有している。トピックスノード(マンション、経営)は、コンテンツ「マンション経営における消費税」に予め関連付けられており、トピックスノード(マンション、貸付)は、コンテンツ「マンションの貸付と課税関係」に予め関連付けられている。トピックスノードにも、単語ノードと同様に1つ以上のラベルが付与される。なお、本実施形態では、2つの単語ノードが結合したトピックスノードを例に説明するが、3つ以上の単語ノードが結合したトピックスノードでも同様に適用可能である。
クエリの単語の組み合わせは、上述したように、(賃貸マンション、経営)、(経営、マンション)、(マンション、貸付)、(貸付、消費税)、及び(消費税、課税)の5個である。各単語の並び順を考慮しない場合、クエリの単語の組み合わせ(経営、マンション)に対応して、トピックスノード(マンション、経営)が取得され、クエリの単語の組み合わせ(マンション、貸付)に対応して、トピックスノード(マンション、貸付)が取得される。ここで、トピックスノードは単語を組み合わせたノードであるため、単語ノードと比べて、クエリとの関連性がより高いノードである。従って、トピックスノードに関連付けられたコンテンツは、ユーザの意図が反映された検索結果である可能性が高い。
なお、各単語の並び順を考慮してもよい。この場合、クエリの単語の組み合わせ(経営、マンション)に対応して、トピックスノード(マンション、経営)は取得されず、クエリの単語の組み合わせ(マンション、貸付)に対応するトピックスノード(マンション、貸付)のみが取得される。つまり、クエリの単語の組み合わせにおける各単語と、トピックスノードにより表される各概念とが一致し、かつ、各単語の並び順と、各概念の並び順とが一致する場合に、トピックスノードが取得される。これにより、より関連性の高いトピックスノードが取得される。
ここで、取得部34は、トピックスノードのみを取得してもよいし、単語ノード及びトピックスノードの両方を取得してもよい。また、クエリの単語の組み合わせが特定の単語の組み合わせである場合、トピックスノードのみを取得してもよい。例えば、クエリには(賃貸マンション、経営)という単語の組み合わせが含まれる。この組み合わせ(賃貸マンション、経営)に対して、関連する単語ノード「マンション」を取得することなく、トピックスノード(マンション、経営)のみを取得する。ここでいう特定の単語とは、トピックスノードの概念よりも下位概念となる単語を意味する。これにより、単語ノードよりも関連性の高いトピックスノードが取得される。
本実施形態に係る特定部36は、取得部34により取得されたノードに対応するコンテンツを特定する。図4に示す例では、トピックスノード(マンション、経営)に対応するコンテンツ「マンション経営における消費税」が特定され、トピックスノード(マンション、貸付)に対応するコンテンツ「マンションの貸付と課税関係」が特定される。
次に、図5を参照して、クエリの単語の組み合わせがクエリの係り受け関係にある文節に含まれる単語の組み合わせである場合について説明する。
図5は、本実施形態に係る別のクエリ及びナレッジグラフの説明に供する図である。
図5に示す例では、クエリとして、上述の図4に示す例と同様に、「賃貸マンションを経営していますが、マンションの貸付には消費税は課税されますか。」がユーザから入力される。このクエリには、「賃貸マンション」、「経営」、「マンション」、「貸付」、「消費税」、及び「課税」の6個の単語が含まれている。
図5に示す例の場合、クエリの単語の組み合わせは、クエリの係り受け関係にある文節に含まれる単語の組み合わせとされている。具体的には、クエリの係り受け関係にある文節に含まれる「賃貸マンション」及び「経営」から、組み合わせ(賃貸マンション、経営)が生成される。同様に、「経営」及び「課税」から、組み合わせ(経営、課税)が生成される。また、「マンション」及び「貸付」から、組み合わせ(マンション、貸付)が生成される。また、「貸付」及び「課税」から、組み合わせ(貸付、課税)が生成される。また、「消費税」及び「課税」から、組み合わせ(消費税、課税)が生成される。すなわち、図5に示す例では、クエリから5組の組み合わせが生成される。なお、係り受け関係は、一例として、CaboChaと呼ばれる日本語係り受け解析器を用いて解析される。
取得部34は、一例として、図5に示すように、記憶部14に格納されているナレッジグラフから、クエリの単語の組み合わせ毎に、各単語の組み合わせに対応するノードを取得する。例えば、クエリの単語の組み合わせにおける各単語と、トピックスノードにより表される各概念とが一致する場合に、トピックスノードが取得される。なお、トピックスノード間を関連付けるようにしてもよい。図5に示す例では、トピックスノード(マンション、経営)とトピックスノード(マンション、貸付)とが関連付けられている。
図5に示すナレッジグラフは、(マンション、経営)、(マンション、貸付)、及び(貸付、課税)の3個のトピックスノードを有している。トピックスノード(マンション、経営)は、コンテンツ「マンション経営における消費税」に予め関連付けられており、トピックスノード(マンション、貸付)は、コンテンツ「マンションの貸付と課税関係」に予め関連付けられており、トピックスノード(貸付、課税)は、コンテンツ「土地の貸付における課税関係」に予め関連付けられている。クエリの単語の組み合わせは、上述したように、(賃貸マンション、経営)、(経営、課税)、(マンション、貸付)、(貸付、課税)、及び(消費税、課税)の5個である。クエリの単語の組み合わせ(賃貸マンション、経営)に対応して、トピックスノード(マンション、経営)が取得される。これは、「賃貸マンション」と「マンション」とが関連するノードであるためである。同様に、クエリの単語の組み合わせ(マンション、貸付)に対応して、トピックスノード(マンション、貸付)が取得され、クエリの単語の組み合わせ(貸付、課税)に対応して、トピックスノード(貸付、課税)が取得される。
特定部36は、取得部34により取得されたノードに対応するコンテンツを特定する。図5に示す例では、トピックスノード(マンション、経営)に対応するコンテンツ「マンション経営における消費税」が特定され、トピックスノード(マンション、貸付)に対応するコンテンツ「マンションの貸付と課税関係」が特定され、トピックスノード(貸付、課税)に対応するコンテンツ「土地の貸付における課税関係」が特定される。
本実施形態に係る探索部38は、特定部36により特定されたコンテンツに対応する複数のノードから、エッジにより互いに関連するノードを含む経路を探索する。この経路の探索には、例えば、最短経路問題を解くための公知のアルゴリズムが用いられる。この最短経路問題とは、重み付きグラフで与えられた2つのノード間を結ぶ経路の中で、重みが最小の経路を求める最適化問題である。最短経路問題を解くためのアルゴリズムとしては、一例として、ダイクストラ法や、ベルマン-フォード法、ワーシャル-フロイド法等が用いられる。
本実施形態に係る導出部40は、探索部38により探索された、少なくとも1つのコンテンツの経路に対して、一例として、図6に示すように、スコアを導出する。このスコアは、ホップ数、コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いて導出される。ここでいうホップ数とは、クエリに含まれる概念を表すノードとコンテンツとの間に含まれるノードの数又はエッジの数として表される。ここでいうクエリに含まれる概念とは、クエリに含まれる単語又は単語の組み合わせを意味する。導出部40は、経路の数が複数である場合、複数の経路の各々に対するスコアを導出し、導出したスコアを合計することにより、コンテンツのスコアを導出する。
図6は、本実施形態に係る経路探索及び経路評価の説明に供する図である。
図6に示す例では、入力クエリに対して、あるコンテンツのナレッジグラフから、第1経路〜第3経路の3つの経路が探索されている。第1経路は、概念ノードA1、A2、A3を含む経路、第2経路は、概念ノードBを含む経路、第3経路は、概念ノードC1、C2を含む経路である。なお、ここでいう概念ノードとは、上述の単語ノード又はトピックスノードを意味する。
図6において、概念ノードA1は、クエリに含まれる概念であり、概念ノードA3は、コンテンツに含まれる概念である。概念ノードBは、クエリ及びコンテンツのどちらにも含まれる概念である。概念ノードC1は、クエリに含まれる概念であり、概念ノードC2は、コンテンツに含まれる概念である。「fxs:link」は、概念ノード間にリンクが存在することを示している。また、「fxs:word」は、コンテンツに含まれる単語が概念ノードに対応していることを示している。また、「fxs:tfidf」は、コンテンツにおける概念の重要度が設定されていることを示している。また、「fxs:ファイル名に関連」は、概念ノードがコンテンツのファイル名に関連していることを示している。また、「fxs:コンテンツ内容に関連」は、概念ノードがコンテンツの内容に関連していることを示している。また、「fxs:dataType」は、コンテンツのデータタイプを示している。
ここで、コンテンツに含まれる単語又は単語の組み合わせに対応する概念ノード(図6に示す例では、概念ノードA3、B、C2)と、コンテンツとの間には、コンテンツにおける概念ノードの重要度が設定される。この重要度は、一例として、TF(Term Frequency)−IDF(Inverse Document Frequency)法を用いて算出される。TFは概念(又は単語)の出現頻度を示し、IDFは逆文書頻度を示す。この重要度は、TFとIDFとの積(TF*IDF)として表される。TF*IDFは、ある文書における特定の単語の出現頻度が高いほどTFが高くなり、他の文書にもよく出現する単語であるほどIDFが低くなることから、ある単語が当該文書を特徴付ける単語であることを表す指標となる。上述したように、ナレッジグラフの概念ノードでは、複数の言語表層をラベルとして割り当てることができるため、単語の表層ではなく、概念単位でTF*IDFを算出することとしている。
このとき、概念ノードtの文書jにおける重要度Tijは、一例として、以下に示す式(1)により算出される。但し、nijは文書jにおける概念ノードtに割り当てられる言語表層の出現回数、Σkjは文書jにおける全概念ノードに割り当てられる言語表層の出現回数、|D|は検索対象の文書数、|{d:d∋t}|は概念ノードtを含む文書数を示す。
そして、コンテンツに対するスコアSは、一例として、ホップ数d及び重要度Tijを用いて、以下に示す式(2)により算出される。但し、Rは経路数、k、kはスコア調整用のパラメータ(定数)を示す。
具体的に、図6に示す第1経路の場合、ホップ数d=2、重要度Tij=1.0、パラメータk=1、パラメータk=1であることから、第1経路のスコアS=(1.0+1)/(2+1)≒0.67、と算出される。同様に、第2経路の場合、ホップ数d=0、重要度Tij=0.58、パラメータk=1、パラメータk=1であることから、第2経路のスコアS=(0.58+1)/(0+1)=1.58、と算出される。第3経路の場合、ホップ数d=1、重要度Tij=0.26、パラメータk=1、パラメータk=1であることから、第3経路のスコアS=(0.26+1)/(1+1)=0.63、と算出される。これより、コンテンツのスコアS=S+S+S=0.67+1.58+0.63=2.88点、と算出される。上記の式(2)を用いた場合、1経路当たりのホップ数が少なく、コンテンツに含まれる経路数が多いほど、コンテンツのスコアが高く算出される。つまり、ホップ数が少なく、経路数が多いコンテンツほど、ユーザの意図が反映された検索結果である可能性が高くなる。
また、ホップ数の上限は、一例として、ユーザにより指定可能とされている。ホップ数の上限が小さいほど、ノイズは減少するが、経路数も減少する。一方、ホップ数の上限が大きいほど、経路数は増加するが、ノイズも増加する。つまり、ユーザはノイズの減少を優先させたい場合、ホップ数の上限を小さ目に指定すればよいし、経路数の増加を優先させたい場合、ホップ数の上限を大き目に指定すればよい。また、ユーザはノイズを減少させつつ、経路数をある程度確保したい場合には、ホップ数の上限を小さ目と大き目との中間に指定すればよい。
上記の例では、経路に対するスコアの導出にホップ数及び重要度を用いたが、これらに限定されるものではない。ホップ数のみを用いて経路に対するスコアを導出してもよいし、重要度のみを用いて経路に対するスコアを導出してもよい。
ここで、トピックスノードにより表される概念の重要度は、一例として、図7に示すように、単語ノードにより表される概念の重要度よりも高く算出される。
図7は、本実施形態に係るトピックスノードの重要度及び単語ノードの重要度の一例を示す図である。
図7に示す例では、トピックスノードの重要度は0.5と算出され、単語ノードの重要度は0.2と算出されている。これにより、トピックスノードを多く含むコンテンツほどスコアが高くなり、ユーザの意図が反映された検索結果である可能性が高くなる。
また、単語ノードを含む経路におけるトピックスノードにより表される概念の重要度は、単語ノードを含まない経路におけるトピックスノードにより表される概念の重要度よりも低く算出されるようにしてもよい。具体的に、図7に示す例において、単語ノード「賃貸マンション」から、単語ノード「マンション」を介して、トピックスノード(マンション、経営)に至る経路と、単語ノード「賃貸マンション」から直接トピックスノード(マンション、経営)に至る経路とを想定した場合に、単語ノード「マンション」を含むトピックスノード(マンション、経営)の重要度が、単語ノード「マンション」を含まないトピックスノード(マンション、経営)の重要度よりも低く算出される。これにより、単語ノードを介さずに直接トピックスノードに至る経路を含むコンテンツほどスコアが高くなり、ユーザの意図が反映された検索結果である可能性が高くなる。
また、クエリに繰り返し含まれる単語に対応して取得されたトピックスノードにより表される概念の重要度は、クエリに1つのみ含まれる単語に対応して取得されたトピックスノードにより表される概念の重要度よりも高く算出されるようにしてもよい。具体的に、図7に示す例において、「マンション」という単語がクエリに繰り返し含まれる。このため、トピックスノード(マンション、経営)又はトピックスノード(マンション、貸付)の重要度は、トピックスノード(貸付、課税)の重要度よりも高く算出される。
次に、概念間の関係性の種類を考慮して経路探索を行う場合について説明する。ここでいう概念間の関係性の種類とは、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含んでいる。なお、本実施形態では、第1種類は、「subClassOf」として表され、第2種類は、「relation」として表される。
図8(A)は、本実施形態に係る抽象化経路の一例を示す図である。
図8(A)に示す抽象化経路は、「subClassOf」を含み、かつ、コンテンツ側のトピックスノード(ここでは「コンテンツノード」という。)がクエリ側の単語ノード(ここでは「クエリノード」という。)よりも上位概念となる経路である。なお、図の右端の黒丸はクエリノードを示し、図の左端の黒丸はコンテンツノードを示す。図の矢印の向きは、下位概念から上位概念に向かうことを示す。
図8(B)は、本実施形態に係る具体化経路の一例を示す図である。
図8(B)に示す具体化経路は、「subClassOf」を含み、かつ、コンテンツノードがクエリノードよりも下位概念となる経路である。
図8(C)は、本実施形態に係る抽象化経路及び具体化経路を含む混合経路の一例を示す図である。
図8(C)に示す混合経路は、「subClassOf」を含み、かつ、抽象化経路及び具体化経路の両方を含む経路である。
図8(D)は、本実施形態に係る関連経路の一例を示す図である。
図8(D)に示す関連経路は、「relation」を含む経路である。
次に、概念間の関係性の種類を考慮してスコアの導出を行う場合について説明する。この場合、一例として、図9(A)〜図9(C)に示すように、コンテンツノード(トピックスノード)により表される概念の重要度を、抽象化経路と、具体化経路と、関連経路との間で異ならせる。なお、各経路のスコアは、上述の式(2)を用いて算出される。
図9(A)は、本実施形態に係る抽象化経路の場合のスコア導出方法の説明に供する図である。
図9(A)に示す抽象化経路では、一例として、ホップ数d=2、重要度Tij=0.1、パラメータk=1、パラメータk=1であることから、上述の式(2)を用いて、この抽象化経路のスコアS=(0.1+1)/(2+1)≒0.37、と算出される。
図9(B)は、本実施形態に係る具体化経路の場合のスコア導出方法の説明に供する図である。
図9(B)に示す具体化経路では、一例として、ホップ数d=2、重要度Tij=0.5、パラメータk=1、パラメータk=1であることから、上述の式(2)を用いて、この具体化経路のスコアS=(0.5+1)/(2+1)=0.5、と算出される。
図9(C)は、本実施形態に係る関連経路の場合のスコア導出方法の説明に供する図である。
図9(C)に示す関連経路では、一例として、ホップ数d=2、重要度Tij=0.3、パラメータk=1、パラメータk=1であることから、上述の式(2)を用いて、この関連経路のスコアS=(0.3+1)/(2+1)≒0.43、と算出される。
すなわち、図9(A)に示す「subClassOf」を含む抽象化経路におけるトピックスノードにより表される概念の重要度は、図9(C)に示す「relation」を含む関連経路におけるトピックスノードにより表される概念の重要度よりも低く算出されている。また、図9(B)に示す「subClassOf」を含む具体化経路におけるトピックスノードにより表される概念の重要度は、図9(C)に示す「relation」を含む関連経路におけるトピックスノードにより表される概念の重要度よりも高く算出されている。
なお、ホップ数が増えすぎると処理負荷が増大するため、上記の関係性に係わらず1経路当たりのホップ数の合計には制限を設けることが望ましい。
そして、導出部40は、上記により導出されたコンテンツ毎のスコアに基づいて、スコアの高い順にコンテンツをランク付けしてコンテンツリストを生成する。
本実施形態に係る表示制御部42は、導出部40により生成されたコンテンツリストを、一例として、後述の図11に示す検索結果画面として、端末装置50に表示させる制御を行う。
次に、図10を参照して、本実施形態に係る情報処理装置10の作用を説明する。
図10は、本実施形態に係る経路評価処理プログラム14Aによる処理の流れの一例を示すフローチャートである。
まず、情報処理装置10に対して、経路評価処理プログラム14Aの起動が指示されると、以下の各ステップを実行する。
図10のステップ100では、受付部30が、ユーザが使用する端末装置50から、一例として、上述の図4又は図5に示すクエリの入力を受け付ける。
ステップ102では、生成部32が、クエリに含まれる複数の単語から、一例として、上述の図4又は図5に示すように、単語の組み合わせを生成する。
ステップ104では、取得部34が、一例として、上述の図4又は図5に示すナレッジグラフから、クエリの単語の組み合わせ毎に、各単語の組み合わせに対応するノードを取得する。
ステップ106では、特定部36が、一例として、上述の図4又は図5に示すように、ステップ104で取得されたノードに対応するコンテンツを特定する。
ステップ108では、探索部38が、ステップ106で特定されたコンテンツに対応する複数のノードから、一例として、上述の図6に示すように、エッジにより互いに関連するノードを含む経路を探索する。
ステップ110では、導出部40が、ステップ108で探索された経路に対して、ホップ数、コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いてスコアを導出する。このスコアは、一例として、上述の式(1)及び式(2)を用いて導出される。
ステップ112では、導出部40が、コンテンツの全経路についてスコアを導出したか否かを判定する。コンテンツの全経路についてスコアを導出したと判定した場合(肯定判定の場合)、ステップ114に移行する。一方、コンテンツの全経路についてスコアを導出していないと判定した場合(否定判定の場合)、ステップ110に戻り処理を繰り返す。
ステップ114では、導出部40が、一例として、上述の式(2)を用いて、コンテンツのスコアを導出する。
ステップ116では、導出部40が、検索対象の全てのコンテンツについてスコアを導出したか否かを判定する。検索対象の全てのコンテンツについてスコアを導出したと判定した場合(肯定判定の場合)、ステップ118に移行する。一方、検索対象の全てのコンテンツについてスコアを導出していないと判定した場合(否定判定の場合)、ステップ104に戻り処理を繰り返す。
ステップ118では、導出部40が、ステップ114で導出されたコンテンツ毎のスコアに基づいて、スコアの高い順にコンテンツをランク付けしてコンテンツリストを生成する。
ステップ120では、表示制御部42が、ステップ118で生成されたコンテンツリストを、一例として、図11に示す検索結果画面として、端末装置50に表示させる制御を行い、本経路評価処理プログラム14Aによる一連の処理を終了する。
図11は、本実施形態に係る検索結果画面の一例を示す正面図である。
図11に示す検索結果画面は、検索結果として得られた複数のコンテンツがスコアの高い順にランク付けされたコンテンツリストの画面である。この検索結果画面は、端末装置50に表示される。
このように本実施形態によれば、クエリから特定される複合的な概念を表すトピックスノードを用いて、クエリに含まれる単語に関連するコンテンツが検索される。これにより、ユーザは自身の意図が反映された検索結果を得ることが可能とされる。
以上、実施形態に係る情報処理装置を例示して説明した。実施形態は、情報処理装置が備える各部の機能をコンピュータに実行させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明した情報処理装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 情報処理装置
12 制御部
12A CPU
12B ROM
12C RAM
12D I/O
14 記憶部
14A 経路評価処理プログラム
16 表示部
18 操作部
20 通信部
30 受付部
32 生成部
34 取得部
36 特定部
38 探索部
40 導出部
42 表示制御部
50 端末装置
90 ネットワークシステム

Claims (15)

  1. クエリの入力を受け付ける受付部と、
    前記クエリに含まれる複数の単語から、単語の組み合わせを生成する生成部と、
    単一的な概念を表す第1ノード、複合的な概念を表す第2ノード、及び概念同士の関係を表したデータから、前記クエリの単語の組み合わせ毎に、各単語の組み合わせに対応するノードを取得する取得部と、
    前記取得部により取得されたノードに対応するコンテンツを特定する特定部と、
    を備えた情報処理装置。
  2. 前記クエリの単語の組み合わせは、前記クエリの連続する文節に含まれる単語の組み合わせである請求項1に記載の情報処理装置。
  3. 前記取得部は、前記クエリの単語の組み合わせにおける各単語と、前記第2ノードにより表される各概念とが一致し、かつ、前記各単語の並び順と、前記各概念の並び順とが一致する場合に、前記第2ノードを取得する請求項2に記載の情報処理装置。
  4. 前記取得部は、前記クエリの単語の組み合わせが特定の単語の組み合わせである場合、前記第2ノードのみを取得する請求項2又は3に記載の情報処理装置。
  5. 前記クエリの単語の組み合わせは、前記クエリの係り受け関係にある文節に含まれる単語の組み合わせである請求項1に記載の情報処理装置。
  6. 前記取得部は、前記クエリの単語の組み合わせにおける各単語と、前記第2ノードにより表される各概念とが一致する場合に、前記第2ノードを取得する請求項5に記載の情報処理装置。
  7. 前記特定部により特定されたコンテンツに対応する複数のノードから、互いに関連するノードを含む経路を探索する探索部と、
    前記探索部により探索された、少なくとも1つのコンテンツの経路に対して、前記クエリに含まれる概念を表すノードと前記コンテンツとの間に含まれるノードの数として表されるホップ数、前記コンテンツにおける概念の重要度、及び概念間の関係性の種類の少なくとも1つを用いてスコアを導出する導出部と、
    を更に備えた請求項1〜6のいずれか1項に記載の情報処理装置。
  8. 前記導出部は、前記経路の数が複数である場合、前記複数の経路の各々に対するスコアを導出し、導出したスコアを合計することにより、前記コンテンツのスコアを導出する請求項7に記載の情報処理装置。
  9. 前記概念の重要度は、TF−IDF法を用いて算出される請求項7又は8に記載の情報処理装置。
  10. 前記第2ノードにより表される概念の重要度は、前記第1ノードにより表される概念の重要度よりも高く算出される請求項7〜9のいずれか1項に記載の情報処理装置。
  11. 前記第1ノードを含む経路における前記第2ノードにより表される概念の重要度は、前記第1ノードを含まない経路における前記第2ノードにより表される概念の重要度よりも低く算出される請求項10に記載の情報処理装置。
  12. 前記クエリに繰り返し含まれる単語に対応して取得された前記第2ノードにより表される概念の重要度は、前記クエリに1つのみ含まれる単語に対応して取得された前記第2ノードにより表される概念の重要度よりも高く算出される請求項10又は11に記載の情報処理装置。
  13. 前記概念間の関係性の種類は、上位概念及び下位概念の関係性を示す第1種類と、上位概念及び下位概念以外の関係性を示す第2種類とを含み、
    前記第2ノードにより表される概念の重要度は、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも上位概念である抽象化経路と、前記第1種類の関係性を含み、かつ、前記コンテンツ側の概念が前記クエリ側の概念よりも下位概念である具体化経路と、前記第2種類の関係性を含む関連経路との間で異なる請求項7〜12のいずれか1項に記載の情報処理装置。
  14. 前記抽象化経路における前記第2ノードにより表される概念の重要度は、前記関連経路における前記第2ノードにより表される概念の重要度よりも低く算出され、
    前記具体化経路における前記第2ノードにより表される概念の重要度は、前記関連経路における前記第2ノードにより表される概念の重要度よりも高く算出される請求項13に記載の情報処理装置。
  15. コンピュータを、請求項1〜14のいずれか1項に記載の情報処理装置が備える各部として機能させるためのプログラム。
JP2019035781A 2019-02-28 2019-02-28 情報処理装置及びプログラム Pending JP2020140468A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019035781A JP2020140468A (ja) 2019-02-28 2019-02-28 情報処理装置及びプログラム
US16/507,016 US20200279000A1 (en) 2019-02-28 2019-07-09 Information processing apparatus and non-transitory computer readable medium storing program
CN201910814929.0A CN111625642A (zh) 2019-02-28 2019-08-30 信息处理装置、存储介质及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019035781A JP2020140468A (ja) 2019-02-28 2019-02-28 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2020140468A true JP2020140468A (ja) 2020-09-03

Family

ID=72236687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019035781A Pending JP2020140468A (ja) 2019-02-28 2019-02-28 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US20200279000A1 (ja)
JP (1) JP2020140468A (ja)
CN (1) CN111625642A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988980B (zh) * 2021-05-12 2021-07-30 太平金融科技服务(上海)有限公司 目标产品查询方法、装置、计算机设备和存储介质
DE102021209612A1 (de) * 2021-09-01 2023-03-02 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157823A (ja) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム
JP2006227808A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置および方法
JP2015005174A (ja) * 2013-06-21 2015-01-08 日本放送協会 コンテンツ検索装置、方法及びプログラム
JP2015524107A (ja) * 2012-06-01 2015-08-20 コーニンクレッカ フィリップス エヌ ヴェ 患者情報を臨床基準にマッチングするシステム及び方法
JP2017224204A (ja) * 2016-06-16 2017-12-21 パナソニックIpマネジメント株式会社 対話処理方法、対話処理システム、及びプログラム
WO2018083777A1 (ja) * 2016-11-04 2018-05-11 三菱電機株式会社 情報処理装置および情報処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157823A (ja) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム
JP2006227808A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置および方法
JP2015524107A (ja) * 2012-06-01 2015-08-20 コーニンクレッカ フィリップス エヌ ヴェ 患者情報を臨床基準にマッチングするシステム及び方法
JP2015005174A (ja) * 2013-06-21 2015-01-08 日本放送協会 コンテンツ検索装置、方法及びプログラム
JP2017224204A (ja) * 2016-06-16 2017-12-21 パナソニックIpマネジメント株式会社 対話処理方法、対話処理システム、及びプログラム
WO2018083777A1 (ja) * 2016-11-04 2018-05-11 三菱電機株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
CN111625642A (zh) 2020-09-04
US20200279000A1 (en) 2020-09-03

Similar Documents

Publication Publication Date Title
US11392778B2 (en) Use of statistical flow data for machine translations between different languages
Zhu et al. Unsupervised tip-mining from customer reviews
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
US11281737B2 (en) Unbiasing search results
Rusyn et al. The virtual library system design and development
US9817823B2 (en) Active knowledge guidance based on deep document analysis
JP2020140467A (ja) 情報処理装置及びプログラム
US11416907B2 (en) Unbiased search and user feedback analytics
CN111274358A (zh) 文本处理方法、装置、电子设备及存储介质
US20160217200A1 (en) Dynamic creation of domain specific corpora
CN109952571A (zh) 基于上下文的图像搜索结果
US11275777B2 (en) Methods and systems for generating timelines for entities
Nawaz et al. A segregational approach for determining aspect sentiments in social media analysis
JP2020140468A (ja) 情報処理装置及びプログラム
Li et al. A case-based reasoning approach for task-driven spatial–temporally aware geospatial data discovery through geoportals
Li et al. Words analysis of online Chinese news headlines about trending events: a complex network perspective
Liu et al. LD connect: A linked data portal for IOS Press scientometrics
Dobrovolskyi et al. Probabilistic topic modelling for controlled snowball sampling in citation network collection
Zhuo Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets
US20170097987A1 (en) Hierarchical Target Centric Pattern Generation
Mitzig et al. SciELO suggester: An intelligent support tool for cataloging library resources
Hirchoua et al. Topic hierarchies for knowledge capitalization using hierarchical Dirichlet processes in big data context
Diosteanu et al. Natural language processing applied in itinerary recommender systems
Jun et al. An RDF metadata-based weighted semantic pagerank algorithm
Modani et al. Generating multiple diverse summaries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230704