JP6906419B2 - 情報提供装置、情報提供方法、およびプログラム - Google Patents

情報提供装置、情報提供方法、およびプログラム Download PDF

Info

Publication number
JP6906419B2
JP6906419B2 JP2017199336A JP2017199336A JP6906419B2 JP 6906419 B2 JP6906419 B2 JP 6906419B2 JP 2017199336 A JP2017199336 A JP 2017199336A JP 2017199336 A JP2017199336 A JP 2017199336A JP 6906419 B2 JP6906419 B2 JP 6906419B2
Authority
JP
Japan
Prior art keywords
query
information
word
terminal device
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017199336A
Other languages
English (en)
Other versions
JP2019074843A (ja
Inventor
野本 昌子
昌子 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017199336A priority Critical patent/JP6906419B2/ja
Publication of JP2019074843A publication Critical patent/JP2019074843A/ja
Application granted granted Critical
Publication of JP6906419B2 publication Critical patent/JP6906419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報提供装置、情報提供方法、およびプログラムに関する。
従来、検索対象のコンテンツと、そのコンテンツに含まれる語彙との関係性や、語彙同士の関係性に基づいて、ユーザが嗜好するコンテンツを、検索結果の一覧の上位に表示する技術が知られている(例えば、特許文献1参照)。
特開2005−259145号公報
しかしながら、従来の技術のように、文字ベースの検索では検索意図や元のコンテンツの文脈が失われる場合があった。この結果、ユーザの検索意図に合った情報を提供できない場合があった。
本発明は、上記の課題に鑑みてなされたものであって、検索時の文脈を考慮してユーザの検索意図に近い情報を提供することができる情報提供装置、情報提供方法、およびプログラムを提供することを目的としている。
本発明の一態様は、事物に関する情報及び事物間の意味的関係に関する情報を記述したナレッジグラフを参照して、ワード群の意味情報を抽出する抽出部と、少なくとも前記抽出部により抽出された前記ワード群の意味情報に基づくクエリの候補を、ユーザが使用する端末装置に提供する提供部とを備える情報提供装置である。
本発明の一態様によれば、検索時の文脈を考慮してユーザの検索意図に近い情報を提供することができる情報提供装置、情報提供方法、およびプログラムを提供することができる。
第1実施形態における情報提供装置200を含む情報提供システム1の一例を示す図である。 第1実施形態におけるグラフ生成装置100の一例を示す図である。 第1実施形態における情報提供装置200の一例を示す図である。 推薦クエリを含むコンテンツCTの一例を示す図である。 ナレッジグラフKGを模式的に示す図である。 推薦クエリによる検索結果の一例を示す図である。 第1実施形態における制御部210により実行される処理の一例を示すフローチャートである。 推薦クエリを含むコンテンツCTの一例を示す図である。 推薦クエリを含むコンテンツCTの他の例を示す図である。 ナレッジグラフKGを模式的に示す図である。 第3実施形態における制御部210により実行される処理の一例を示すフローチャートである。 新規にエンティティが追加されたナレッジグラフKGを模式的に示す図である。 関連エンティティまたはプロパティを抽出する方法の一例を説明するための図である。 類似エンティティのプロパティを抽出する方法の一例を説明するための図である。 複数のプロパティの其々に対応したワードを取捨選択する方法を説明するための図である。 端末装置10において表示されるコンテンツCTの一例を示す図である。 重要ワードである文字列に対応するエンティティと、その関連エンティティとを含むナレッジグラフKGの一例を示す図である。 プロパティを考慮した推薦クエリの一例を示す図である。 クエリに対応した検索結果を模式的に示す図である。 実施形態のグラフ生成装置100および情報提供装置200、200Aのハードウェア構成の一例を示す図である。
以下、本発明を適用した情報提供装置、情報提供方法、およびプログラムを、図面を参照して説明する。
[概要]
情報提供装置は、一以上のプロセッサによって実現される。情報提供装置は、ナレッジグラフを参照して、ワード群の意味情報を抽出し、少なくとも抽出したワード群の意味情報に基づくクエリの候補を、ユーザが使用する端末装置に提供する装置である。
ナレッジグラフとは、事物に関する情報および事物間の意味的関係に関する情報をグラフとして記述したデータベースである。ナレッジグラフにおける事物とは、例えば、「人間」、「機械」、「建物」、「組織」、「美」、「学問」、「旅行」といった抽象的な概念と、例えば特定の人間、特定の建物、特定の組織等の、それらの個体(以下、「インスタンス」)を含む。本実施形態では、事物のうち、ナレッジグラフで情報を記述する対象事物のことを、特に「エンティティ」と称して説明する。
エンティティは、例えば、ある対象事物のインスタンスの実体(例えば実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば実世界または仮想世界の中で定義された概念)を表していてもよい。例えば「建物」のように概念を表すエンティティもあれば、「○○タワー」のように「建物」という概念のインスタンスの実体を表すエンティティもある。
ナレッジグラフは、計算機による意味処理を可能とするため、オントロジーという語彙体系で定められたクラスとプロパティを用いて記述される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。クラスの性質や事物の性質は後述するプロパティにより記述される。
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスあるいはその下位のクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造をなし、上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名自体は必ずしもクラスの意味を表している必要はないが、以下の説明では簡単のためにクラスの意味を表すクラス名が与えられていることとする。
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名自体は必ずしもプロパティの意味を表している必要はないが、以下の説明では簡単のためにプロパティの意味を表すプロパティ名が与えられていることとする。
ナレッジグラフの基本的な単位は、ノード間を、ノード間の関係を表すラベル付きの方向性のあるエッジでつないだ3つ組であり、上述のエンティティはノード、プロパティはエッジであり、プロパティを用いて記述するエンティティの情報の値もノードで表現する。このような3つ組を組み合わせたグラフにより、エンティティに関する情報やエンティティ間の関係が明確に表現され、機械処理可能になる。
ワード群は、例えば、ニュース記事のようなコンテンツに含まれる複数のワードの集合である。また、ワード群は、コンテンツに含まれるワードに限られず、例えば、検索サイトに入力されたクエリやクエリの履歴として記録されたテキストに含まれる複数のワードの集合(すなわちクエリの集合)であってもよい。
情報提供装置は、ナレッジグラフから、ワード群の意味情報として、オントロジーにより定義されるクラスおよびプロパティの一方または双方を抽出し、抽出した情報に基づいて検索を推奨するクエリの候補を決定し、そのクエリの候補を端末装置に提供する。これによって、情報提供装置は、検索時の文脈を考慮してユーザの検索意図に近い情報を提供することができる。
<第1実施形態>
[全体構成]
図1は、第1実施形態における情報提供装置200を含む情報提供システム1の一例を示す図である。第1実施形態における情報提供システム1は、例えば、一以上の端末装置10と、グラフ生成装置100と、情報提供装置200とを備える。これらの装置は、ネットワークNWを介して接続される。なお、グラフ生成装置100および情報提供装置200は、一つの装置に集約されていてもよい。
図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、無線基地局、Wi‐Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。
端末装置10は、ユーザによって使用される装置である。端末装置10は、例えば、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータなどのコンピュータ装置である。
例えば、端末装置10は、ユーザから所定の操作を受け付けると、予めインストールされたアプリケーションを介して情報提供装置200と通信を行い、アプリケーション上で表示或いは再生するコンテンツを取得してよい。コンテンツは、例えば、動画データや、画像データ、音声データ、テキストデータなどである。例えば、アプリケーションは、検索サービスを享受可能なアプリケーション(以下、検索アプリと称する)であってもよいし、SNS(Social Networking Service)、メールサービス、情報提供サービス(例えばニュースや天気予報など)などを享受可能なアプリケーションであってもよい。
また、端末装置10は、所定のウェブブラウザを介して、情報提供装置200が提供するウェブサイトにアクセスしてもよい。例えば、情報提供装置200により提供されるウェブサイトでは、上述した各種アプリケーションにより提供されるサービスと同様のサービスが提供される。
グラフ生成装置100は、情報提供装置200により提供されるウェブサイトや他のウェブサーバにより提供されるウェブサイトを定期的にクロールし、ウェブサイト上のコンテンツを収集する装置である。グラフ生成装置100により収集されるコンテンツには、上述した動画データや、画像データ、音声データ、テキストデータの他に、ウェブサイトを構成するウェブページの元となるHTML(HyperText Markup Language)文書(テキストデータ)が含まれてよい。
そして、グラフ生成装置100は、収集したコンテンツに基づいて、ナレッジグラフを生成する。これについては後述する。
情報提供装置200は、例えば、アプリケーションが起動された端末装置10と通信を行って、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよいし、検索サイト等のウェブサイトを提供するウェブサーバ装置であってよい。
例えば、情報提供装置200は、グラフ生成装置100により生成されたナレッジグラフを用いて検索処理を行い、サービスを提供する。
[グラフ生成装置の構成]
以下、図を参照してグラフ生成装置100の構成について説明する。図2は、第1実施形態におけるグラフ生成装置100の一例を示す図である。図示のように、グラフ生成装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースやDMA(Direct Memory Access)コントローラを含む。通信部102は、ネットワークNWを介して、情報提供装置200や他のウェブサーバと通信する。
制御部110は、例えば、クロール処理部112と、グラフ生成部114とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェア(回路部;circuitry)により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより実現される。記憶部130は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、コンテンツCTやナレッジグラフKGを記憶する。これらの情報については後述する。
クロール処理部112は、通信部102を用いて、所定の周期で情報提供装置200や他のウェブサーバと通信を行い、これらの装置が提供するウェブサイトからコンテンツCTを収集し、これを記憶部130に記憶させる。
例えば、クロール処理部112は、コンテンツCTとして既に取得したHTML文書の新しいコピーを送信するように、ウェブサイトを提供する各装置にリクエストを送信する。そして、クロール処理部112は、各装置によりHTML文書のコピーが送信されると、このHTML文書に含まれる全てのハイパーリンクから、リンク先の別のウェブページのHTML文書を収集する。クロール処理部112は、収集の過程において、新たなHTML文書のウェブページにアクセスした場合、このウェブページのコンテンツCTを新たに記憶部130に記憶させる。リクエストの送信から一定時間経過するまでの間に各装置によりHTML文書のコピーが送信されない場合、クロール処理部112は、HTML文書に対応するウェブページが存在しないと判断して、このウェブページから収集したコンテンツCTを記憶部130から削除する。
グラフ生成部114は、クロール処理部112により収集されたコンテンツCTに基づいて、ナレッジグラフKGを生成し、これを記憶部130に記憶させる。例えば、グラフ生成部114は、コンテンツCTに含まれるHTML文書を参照し、このHTML文書からエンティティの情報を抽出し、抽出したエンティティの情報に基づいて、参照元のコンテンツCTを、ナレッジグラフKGにおいてどのエンティティに関連付けるのかを決定する。
例えば、HTML文書には、エンティティの情報として、構造化データと呼ばれるデータが所定の仕様(例えばschema.orgに基づく仕様)で記述されることがある。構造化データとは、HTMLで記述された情報、すなわちウェブページが何を意味するのかを、検索サイトを提供するウェブサーバやその他のクローラに理解させるためのデータである。HTML文書に構造化データが含まれている場合、グラフ生成部114は、HTML文書の意味を表す情報として構造化データを取得することで、HTML文書の意味を認識する。このとき、グラフ生成部114は、HTML文書が示すウェブページから収集された画像データなどの他のコンテンツCTの意味を、取得した構造化データによって表されるHTML文書の意味と同じものとして扱ってよい。
なお、グラフ生成部114は、ナレッジグラフKG生成時において、クロール処理部112により収集されたコンテンツCTの他に、例えば、ユーザのサービス利用ログ(例えば、検索ログなど)を用いてもよい。
また、グラフ生成部114は、HTML文書に構造化データが含まれていない場合、例えば、HTML文書の記述内容から、統計的な確率手法を用いて、そのHTML文書の意味を推測してよい。
そして、グラフ生成部114は、取得した構造化データを用いて特定したコンテンツCTの意味に対応したエンティティに、このコンテンツCTを関連付けることで、ナレッジグラフKGを生成する。
[情報提供装置の構成]
以下、図を参照して情報提供装置200の構成について説明する。図3は、第1実施形態における情報提供装置200の一例を示す図である。図示のように、情報提供装置200は、例えば、通信部202と、制御部210と、記憶部230とを備える。
通信部202は、例えば、NIC等の通信インターフェースやDMAコントローラを含む。通信部202は、ネットワークNWを介して、端末装置10やグラフ生成装置100と通信する。
制御部210は、例えば、取得部212と、情報提供部214と、意味分析処理部216とを備える。これらの構成要素は、例えば、CPUなどのプロセッサが記憶部230に格納されたプログラムを実行することにより実現される。また、制御部210の構成要素の一部または全部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。意味分析処理部216は、「抽出部」の一例である。
記憶部230は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、RAMなどにより実現される。記憶部230は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、ログ情報LGやナレッジグラフKGを記憶する。
取得部212は、通信部202を用いて、検索アプリなどのアプリケーションが起動された端末装置10、またはウェブブラウザを介して検索サイトが提供された端末装置10からクエリを取得する。クエリは、例えば、端末装置10を介して、ユーザが検索窓に入力したワード(語句)であってもよいし、検索窓に入力されたワードに応じてサジェストされた関連クエリのうち、ユーザにより選択された関連クエリであってもよい。また、クエリは、端末装置10が表示したテキスト上で、ユーザが範囲指定した領域に含まれるワードであってもよい。また、クエリは、例えば、マイクなどの音声入力デバイス(不図示)を用いて入力された音声から変換されたテキストの一部または全部であってもよい。
また、取得部212は、通信部202に、ナレッジグラフKGを送信するようにグラフ生成装置100にリクエストを送信させ、このリクエストに対するレスポンスとしてナレッジグラフKGを受信させることで、ナレッジグラフKGを取得する。取得したナレッジグラフKGは記憶部230に記憶される。
情報提供部214は、取得部212によりクエリが取得されると、このクエリに対応するコンテンツCTを決定する。例えば、情報提供部214は、クエリとして入力または選択されたワードを含むコンテンツCTを、サービスとして提供予定の複数のコンテンツの中から選択する。そして、情報提供部214は、通信部202を用いて、クエリに対応するコンテンツCTを、検索結果としてクエリの取得元である端末装置10に提供する。
この際、情報提供部214は、提供予定のコンテンツCTに含まれるワードを、検索を推奨するクエリの候補とし、このクエリの候補をクエリとしたときの検索結果へのリンク情報(例えばハイパーリンクなど)を、提供予定のコンテンツCTに含めてクエリの取得元である端末装置10に提供する。以下、検索を推奨するクエリの候補を「推薦クエリ」と称して説明する。
また、情報提供部214は、例えば、ハイパーリンクのHTTP(Hypertext Transfer Protocol)リクエストによって要求されたコンテンツCTを、そのリクエストの取得元である端末装置10に提供してもよい。この場合、情報提供部214は、提供予定のコンテンツCTに含まれるワードを推薦クエリに決定し、この推薦クエリによる検索結果へのリンク情報を、提供予定のコンテンツCTに含めてHTTPリクエストの取得元である端末装置10に提供する。
図4は、推薦クエリを含むコンテンツCTの一例を示す図である。図示の例では、提供予定のコンテンツCTとして、ニュース記事ARTを例示している。このニュース記事ARTは、「複数のワードを含むワード群」の一例である。また、ニュース記事のようなコンテンツCTを検索する際に入力等されたクエリの集合は、「複数のワードを含むワード群」の他の例である。上述したように提供予定のコンテンツCTは、ユーザが選択したハイパーリンクに関連付けられているコンテンツCTであってもよいし、クエリによる検索結果に含まれるコンテンツCTであってもよい。
例えば、情報提供部214は、ニュース記事ART内の文章を形態素解析により複数の形態素に分割し、分割した複数の形態素をTF(Term Frequency)‐IDF(Inverse Document Frequency)などで重み付けることにより、複数の形態素の中から、所定条件を満たす形態素を重要ワードとして抽出する。所定条件とは、例えば、重みが閾値以上であり、その重みの大きさが上位所定数以内であることを含む。
例えば、提供予定のコンテンツCTであるニュース記事ARTが、植物の「さくら」の開花に関連する記事である場合に、「さくら」に関するイベントとして「お花見」といったワードや、そのイベントの開催場所として「○○公園」などといったワードが重要ワードとして抽出され得る。この場合、情報提供部214は、抽出した重要ワードを推薦クエリに決定し、この推薦クエリで検索したときの検索結果へのリンク情報を、提供予定のニュース記事ARTと共に提供する。具体的には、情報提供部214は、提供予定のニュース記事ARTが掲載されたページに、重要ワードを推薦クエリとしたときの検索結果が掲載されたページへのURL(Uniform Resource Locator)を埋め込むことで、提供予定のニュース記事ARTと共に、このニュース記事ARTに関連する情報(すなわち重要ワードによる検索結果へのリンク)を端末装置10に提供する。
なお、上記の例では、ワード群がニュース記事ARTなどのコンテンツCTである場合に、その記事ARTに含まれるいずれかのワードが重要ワードとして抽出されるものとして説明したがこれに限られず、例えば、ワード群が検索時に入力または選択されたクエリの集合である場合、そのクエリの集合に含まれるいずれかのワードが重要ワードとして抽出されてよい。例えば、「桜_梅_松」というワードの組み合わせが、ある一つのクエリAとして入力され、「桜_花見」というワードの組み合わせが、ある一つのクエリBとして入力され、「梅_花見」というワードの組み合わせが、ある一つのクエリCとして入力された場合、これらのクエリA、B、Cの一部であるワードが重要ワードとして選択されてもよいし、クエリそのもの(クエリの全部)が重要ワードとして選択されてもよい。上述した例の場合、重要ワードは、「桜_梅_松」というワードの組み合わせであるクエリAそのものであってもよいし、クエリAに含まれる一部の「桜」や「梅」といったワードであってもよい。上記の「アンダーバー“_”」はスペースを表している。また、例えば、形態素解析の対象となるワードが「お花見」であれば、重要ワードには「お」などの接頭辞などの付属語が含まれなくてよい。
また、情報提供部214は、ニュース記事ARTなどのコンテンツCTに含まれる文章(ワード群)を形態素解析により複数の形態素に分割する際に辞書を利用してもよい。例えば、辞書には、重要ワードの候補となるワードとして、人名や組織名などの固有名詞が登録されてよい。情報提供部214は、形態素解析時に辞書を参照することで、複数の形態素(例えば「株式」と「会社」)であっても、これらの複数の形態素を一つの重要ワード(例えば「株式会社」)として抽出してよい。
このように、記事などのコンテンツCTから重要ワードが抽出される際に、重要ワードが同音異義語のように複数の意味を有する場合がある。この場合、その重要ワードを推薦クエリとして検索すると、各意味に応じた検索結果が混在した状態で情報が提供される場合がある。例えば、上述した「さくら」というワードには、植物のさくら、各市町村の名前、楽曲名、人名、その他の固有名詞など、複数の意味が含まれる。この結果、植物の「さくら」に関連する記事を閲覧したユーザに、ある特定の市町村に関する情報などの興味関心の低い情報が提供されてしまう場合がある。
意味分析処理部216は、上述したように重要ワードとして抽出されるワードが複数の意味を有する場合に備え、情報提供部214によりコンテンツCTが提供される際に、ナレッジグラフKGを利用して、重要ワードの意味を分析し、その分析結果を基に、重要ワードの曖昧性を解消する。
図5は、ナレッジグラフKGを模式的に示す図である。図示の例のように、ナレッジグラフKGは、各エンティティをノードとし、これらのノード同士がエッジで接続されたグラフ構造で表される。本図の例は、あくまでもナレッジグラフKGを模式的に示すものであり、簡易的に無向グラフとして例示しているが、上述したようにエンティティ同士の関係を示すプロパティが各エッジにラベル付けされた有向グラフとしてナレッジグラフKGが表されてよい。以下、ナレッジグラフKGを模式的に例示する場合、簡易的に無向グラフとして表すものとする。
例えば、意味分析処理部216は、情報提供部214による形態素解析によって抽出されたワードの其々に対応したエンティティのナレッジグラフKGにおける分布に基づいて、重要ワードの曖昧性を解消する。
例えば、情報提供部214により、「さくら」、「開花予想」、「お花見」というワードが形態素解析により抽出され、これらの複数のワードの中から「さくら」というワードが重要ワードに決定されたとする。この場合、意味分析処理部216は、「さくら」というワードに対応したエンティティをナレッジグラフKGから抽出する。「ワードに対応したエンティティ」とは、例えば、そのワードの文字列を表記のバリエーションの一つとして持つエンティティである。
「さくら」という重要ワードに対応したエンティティとして、「さくら(植物)」や「さくら(楽曲)」などのクラスの異なる複数のエンティティの候補が抽出される場合がある。言い換えれば、ナレッジグラフKG上において、ワードに対応するエンティティが複数存在し、そのワードの意味が曖昧な場合がある。このような場合、意味分析処理部216は、重要ワードに対応した複数のエンティティの候補の其々と、重要ワードと共に同じコンテンツCTから抽出された他のワードに対応したエンティティ(上記の例では「開花予想」または「お花見」などのワードに対応したエンティティ)とを互いに接続するエッジ数をカウントし、重要ワードに対応した複数のエンティティの候補のうち最もエッジ数が少ないエンティティの候補を、「さくら」という意味が曖昧な重要ワードに対応したエンティティに決定する。
なお、意味分析処理部216は、そのプロパティによって特徴等が記述されたエンティティを、ワードに対応したエンティティとして抽出してもよい。このとき、上記同様に、重要ワードに対応したエンティティとして、複数のエンティティの候補が抽出される場合がある。この場合、意味分析処理部216は、重要ワードに対応した複数のエンティティの候補の其々と、重要ワードと共に同じコンテンツCTから抽出された他のワードに対応したエンティティとを互いに接続するエッジ数をカウントし、重要ワードに対応した複数のエンティティの候補のうち最もエッジ数が少ないエンティティの候補を、重要ワードに対応したエンティティに決定する。
そして、意味分析処理部216は、意味が曖昧な重要ワードに対応する複数のエンティティの候補から決定(選択)したエンティティのクラスを、意味が曖昧な重要ワードが有する複数の意味のうち、ユーザが本来意図する意味として認識することで、重要ワードの曖昧性を解消する。エンティティのクラスは、コンテンツCTに含まれるワード群の「意味情報」の一例である。
意味分析処理部216によって重要ワードの曖昧性が解消された場合、情報提供部214は、曖昧性が解消された重要ワードを推薦クエリとしたときの検索結果へのリンク情報をコンテンツCTに加えて端末装置10に提供する。
図6は、推薦クエリによる検索結果の一例を示す図である。上述したように、例えば、コンテンツCTが記事ARTである場合に、その記事ARTから抽出された重要ワードをクエリとしたときの検索結果が提供される。
上述したように、例えば、「さくら」という曖昧性のある重要ワードに対応した複数のエンティティの中から、「開花予想」または「お花見」といった他のワードに対応した一つのエンティティとのエッジ数が最も少ないエンティティとして、「植物」というクラスに属するエンティティ「さくら(植物)」が選択され、その結果、「さくら」という曖昧性のある重要ワードが「植物」に関するものであると認識されることで、重要ワードの曖昧性が解消されたとする。この場合、情報提供部214は、図示のように、「さくら_植物」のような重要ワードを表す「さくら」と、重要ワードに対応したエンティティのクラスを表す「植物」とを組み合わせたワードの組を一つの推薦クエリに決定し、この推薦クエリによる検索結果へのリンク情報を、提供予定のコンテンツCTに加えて端末装置10に提供する。
一般的に、元の記事コンテンツ、クエリなどのワード群から抽出した重要ワードの意味に曖昧性がある場合に、重要ワードを単なるクエリ文字列として検索すると検索結果に複数の意味に関連する情報が混在する可能性がある。
これに対して、本実施形態では、元のワード群の意味により近い重要ワードの意味を特定するため、元のワード群の文脈をふまえた検索結果を提示することができる。この結果、よりユーザの興味関心の高い情報を提供することができる。
以下、フローチャートに即して、第1実施形態における制御部210による一連の処理について説明する。図7は、第1実施形態における制御部210により実行される処理の一例を示すフローチャートである。例えば、本フローチャートの処理は、所定の周期で繰り返し行われる。
まず、取得部212は、通信部202を用いて、検索アプリなどのアプリケーションが起動された端末装置10、またはウェブブラウザを介して検索サイトが提供された端末装置10からクエリを取得する(S100)。
次に、情報提供部214は、取得部212により取得されたクエリに対応するコンテンツCT(例えばニュース記事ARTなど)を決定する(S102)。
次に、情報提供部214は、形態素解析などの手法を用いて、コンテンツCTから重要ワードを抽出する(S104)。次に、意味分析処理部216は、ナレッジグラフKGを用いて、情報提供部214により抽出された重要ワードが複数の意味の候補を有するワードであるか否かを判定する(S106)。例えば、意味分析処理部216は、ナレッジグラフKGを検索し、重要ワードに対応した複数のエンティティが存在する場合、重要ワードが複数の意味の候補を有するワード(意味が曖昧なワード)であると判定する。
抽出された重要ワードが複数の意味の候補を有するワードである場合、意味分析処理部216は、形態素解析によって重要ワードと共に同じコンテンツCTから抽出された他のワードに対応したエンティティに基づいて、複数の意味の候補のそれぞれについて、重要ワードの意味とする際の優先度を決定する(S108)。優先度とは、重要ワードを推薦クエリとしたときに、その推薦クエリによる検索結果が、ユーザの意図する意味にどの程度近いのかを表す指標値である。
例えば、意味分析処理部216は、ナレッジグラフKG上において、意味が曖昧な重要ワードに対応した複数のエンティティの候補の其々と、重要ワードと共に同じコンテンツCTから抽出された他のワードに対応したエンティティとの距離を求め、他のワードに対応したエンティティとの距離が短いエンティティの候補ほど優先度を高くする。例えば、距離は、エッジを一律同じ長さとした場合、各エンティティの候補から、他のワードに対応したエンティティに至るまでの最短経路に含まれるエッジ数に比例してよい。
上述した図5の例では、「さくら」という重要ワードに対応したエンティティとして、ナレッジグラフKG上に、楽曲名の「さくら(楽曲)」、植物の「さくら(植物)」、市町村名の「さくら(市町村)」の3つのエンティティの候補が存在している。「開花予想」、「お花見」といった重要ワードと同じコンテンツから抽出された他のワードに対応したエンティティから、各エンティティの候補を見た場合、楽曲名の「さくら(楽曲)」や市町村名の「さくら(市町村)」などのエンティティの候補は、植物の「さくら(植物)」というエンティティの候補に比して、開花予想」、「お花見」といった他のワードに対応したエンティティに到達するのにより多くのエッジを辿る必要があり、距離が長くなる。これに対して、植物の「さくら(植物)」というエンティティの候補は、市町村名の「さくら」や楽曲名の「さくら」などのエンティティの候補に比して、「開花予想」、「お花見」といった他のワードに対応したエンティティに到達するまでに辿るエッジの数が少なくなる。従って、意味分析処理部216は、楽曲名の「さくら(楽曲)」や市町村名の「さくら(市町村)」などの意味に比して、植物の「さくら(植物)」の意味の優先度を大きくする。このように、意味分析処理部216は、重要ワードが複数の意味を持つ場合、候補となる複数のエンティティの意味の優先度を、重要ワードと同じコンテンツから抽出された他のワードに対応したエンティティとの距離に基づいて決定する。
次に、情報提供部214は、重要ワードのうち、対応するエンティティ候補が複数あるものは、意味分析処理部216により大きい優先度が付与されたエンティティ候補を選択して、推薦クエリを決定する(S110)。そして、情報提供部214は、通信部202を用いて、決定した推薦クエリを、取得部212により取得された本来のクエリ(S100の処理で取得されたクエリ)の検索結果であるコンテンツCTに加えて、クエリの取得元である端末装置10に提供する(S112)。
また、情報提供部214は、上述したように、ハイパーリンクのHTTPリクエストによって要求されたコンテンツCTを、そのリクエストの取得元である端末装置10に提供する際に、S110によって決定された推薦クエリを、HTTPリクエストに対応したコンテンツCTに加えて、HTTPリクエストの取得元である端末装置10に提供してもよい。これによって、本フローチャートの処理が終了する。
図8は、推薦クエリを含むコンテンツCTの一例を示す図である。図示の例では、重要ワードが複数の意味の候補を有する場合に、重要ワードの意味の候補毎に推薦クエリが提示されている。例えば、情報提供部214は、記事ARTから、「さくら」という重要ワードを抽出したときに、意味分析処理部216により、その重要ワードが複数の意味の候補を有するワードであると判定された場合、図示のように、植物の「さくら(植物)」という意味の推薦クエリや、市町村名などの地名を表す「さくら(市町村)」という意味の推薦クエリ、楽曲名の「さくら(楽曲)」という意味の推薦クエリなど、それぞれの意味の候補に対応した推薦クエリによる検索結果へのリンク情報を、コンテンツCTに加えて提供してよい。
また、情報提供部214は、重要ワードが複数の意味の候補を有する場合、重要ワードの意味の候補の優先度に応じて、その重要ワードを推薦クエリとしたときのリンク情報の表示態様を決定してよい。
図9は、推薦クエリを含むコンテンツCTの他の例を示す図である。図示のように、例えば、重要ワードを推薦クエリとした検索結果へのハイパーリンク上にマウスオンされた場合に、情報提供部214は、マウスオンされたハイパーリンク付近に、各意味の候補に応じた検索結果をポップアップ表示させてよい。このとき、情報提供部214は、ポップアップ表示させるハイパーリンクを示す文字や画像の表示態様(例えば、大きさ、フォント、色など)を、各意味の候補の優先度に応じて変更してよい。上述した例では、市町村名の「さくら(市町村)」や楽曲名の「さくら(楽曲)」などの検索結果の優先度に比べて、植物の「さくら(植物)」に関する検索結果の優先度が高くなる。この場合、図示の例のように、植物の「さくら(植物)」に関連する検索結果へのハイパーリンクの文字または画像が、他のハイパーリンクの文字または画像に比べて、より大きく表示されてよい。これによって、ユーザにより選択された推薦クエリに対応する検索結果を優先して提供することができるため、さらにユーザの興味関心の高い情報を提供することができる。
また、上述した実施形態では、意味分析処理部216は、提供予定のコンテンツCTに含まれるテキスト内のワード(形態素解析により得られたワード)と、ナレッジグラフKGのエンティティとに基づいて、重要ワードの曖昧性を解消したがこれに限られない。例えば、意味分析処理部216は、提供予定のコンテンツを含むウェブページのHTML文書からエンティティのクラスを特定するための情報(構造化データ)を抽出し、この抽出した情報に基づいて、ナレッジグラフKGから重要ワードに対応したエンティティを抽出することで、重要ワードの曖昧性を解消してもよい。
以上説明した第1実施形態によれば、事物に関する情報および事物間の意味的関係に関する情報がオントロジーによって記述されたナレッジグラフKGから、ワード群の意味情報を抽出する意味分析処理部216と、少なくとも意味分析処理部216により抽出された意味情報に基づく推薦クエリを、ユーザが使用する端末装置10に提供する情報提供部214と、を備えることにより、検索時の文脈を考慮してユーザの検索意図に近い情報を提供することができる。
また、上述した第1実施形態によれば、元のワード群の意味により近い重要ワードの意味を特定するため、元のワード群の文脈をふまえた検索結果を提示することができる。この結果、ユーザの検索意図により近い情報を提供することができる。
また、上述した第1実施形態によれば、クエリとなるワードに意味の候補が複数存在して、推薦クエリの意味が曖昧になる場合、提供する検索結果を意味毎に整理するため、情報提供装置200が提供する検索サービスの利便性を向上させることができる。
また、上述した第1実施形態によれば、クエリとなるワードに意味の候補が複数存在して、推薦クエリが曖昧になることを前提として、その曖昧性を優先度として提示することによって、ユーザが検索結果を選択する際に、どの検索結果を選ぶべきかの指針を提供することができる。
<第2実施形態>
以下、第2実施形態について説明する。上述した第1実施形態では、ナレッジグラフKGに、重要ワードに対応するエンティティが存在するものとして説明したが、第2実施形態では、ナレッジグラフKGに、重要ワードに対応するエンティティが存在しない場合、同種の別のエンティティについてナレッジグラフKGに記載された情報を用いて重要ワードを抽出する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
図10は、ナレッジグラフKGを模式的に示す図である。例えば、意味分析処理部216は、情報提供部214により重要ワードとして建物の「○○ツリー」というワードが抽出された場合に、この重要ワードに対応するエンティティをナレッジグラフKGから抽出する。このとき、図示のように、ナレッジグラフKG上に、「○○ツリー」というワードで名称が記述されたエンティティが存在しないことが想定される。
例えば、新規に建造された構造物(上述した例では「○○ツリー」)に関するウェブページが新たに作成された場合、クローラとして機能するグラフ生成装置100が、この新規ウェブページを参照してナレッジグラフKGを更新するよりも早いタイミングで、情報提供装置200が、クエリに対する検索結果として、新規ウェブページを公開する場合がある。この場合、新規に建造された構造物に関する記事から、構造物の名称などを重要ワードとして抽出すると、この重要ワードに対応したエンティティがナレッジグラフKGに存在しないことになる。この結果、推薦クエリを決定できない場合が生じる。
そのため、第2実施形態における意味分析処理部216は、重要ワードに対応したエンティティがナレッジグラフKG上に存在しない場合、ナレッジグラフKGから、重要ワードと共に同じコンテンツCTから抽出された他のワード(重要ワードでない他のワード)に対応するエンティティを抽出すると共に、更に、他のワードに対応するプロパティによって定義されたエンティティ(以下、類似エンティティと称する)を抽出する。類似エンティティは、「類似事物」の一例である。
例えば、意味分析処理部216は、情報提供部214により、「○○ツリー」という重要ワードと共に、「地上高さ」や「所在地」、「営業時間」といった他のワードが形態素解析により抽出された場合、これらの他のワードの其々に対応したプロパティを、ナレッジグラフKGから抽出する。そして、意味分析処理部216は、これらの「地上高さ」や「所在地」、「営業時間」といったワードに対応する各プロパティによって定義付けられたエンティティが属するクラスの性質の一部または全部を有する共通のクラスに属するエンティティを、類似エンティティとして抽出する。すなわち、意味分析処理部216は、ナレッジグラフKGにおいて、「地上高さ」や「所在地」、「営業時間」といったワードの其々に対応する各プロパティがエッジとして接続された他のエンティティを、類似エンティティとして抽出する。図示の例では、例えば、「△△タワー」というワードに対応したエンティティが類似エンティティとして抽出される。そして、意味分析処理部216は、類似エンティティとそのエンティティのプロパティに相当するワードを推薦クエリとして決定する。
なお、意味分析処理部216は、抽出した類似エンティティにエッジを介して接続されることで関連付けられた他のエンティティに対応したワードを推薦クエリに決定してもよい。例えば、上述した図10の例の場合、意味分析処理部216は、類似エンティティである「△△タワー」のエンティティに関連付けられた他のエンティティに対応した「建物」というワードを、推薦クエリに決定してよい。また、意味分析処理部216は、類似エンティティまたは類似エンティティに関連付けられた他のエンティティに対応したワードを推薦クエリとして決定する他に、重要ワードと共に同じコンテンツCTから抽出された他のワードそのものを推薦クエリとして決定してもよい。この場合、「地上高さ」や「建物」、「所在地」といったワードそのものが、推薦クエリとして決定される。
以上説明した第2実施形態によれば、重要ワードに対応するエンティティがナレッジグラフKGに存在しない場合に、同じコンテンツCTから抽出された他のワードに対応するエンティティを用いて、類似エンティティを抽出するため、重要ワードで検索した検索結果と類似する他の検索結果を推薦クエリとして提示することができる。これにより、例えば、記事内に登場するワードが、新しい語句であったり、新たに作られた造語であったりした場合、これらの未知のワードに関連する既存のワードをクエリとした検索結果を提供することができる。また、従来の意味と異なる新しい意味で使用され始めた語句などについても、新しい語句と見做すことで、新しい意味の方での類似検索結果を提供することができる。
<第3実施形態>
以下、第3実施形態について説明する。第3実施形態では、インターネット上において、ユーザが過去に検索した情報に関連する新しい情報が公開された場合、情報提供装置200が、この新たな情報を提供する点で上述した第1および第2実施形態と相違する。以下、第1および第2実施形態との相違点を中心に説明し、第1および第2実施形態と共通する点については説明を省略する。なお、第3実施形態の説明において、第1および第2実施形態と同じ部分については同一符号を付して説明する。
図11は、第3実施形態における制御部210により実行される処理の一例を示すフローチャートである。例えば、本フローチャートの処理は、所定の周期で繰り返し行われる。
まず、取得部212は、通信部202に、ナレッジグラフKGを送信するようにグラフ生成装置100に対してリクエストを送信させる(S200)。
次に、意味分析処理部216は、通信部202により、リクエストに対するレスポンスとしてナレッジグラフKGが受信されるまで待機し(S202)、通信部202によりナレッジグラフKGが受信されると、過去に受信して記憶部230に記憶させたナレッジグラフKGとの差分を求め、新たなエンティティが追加されているか否かを判定する(S204)。例えば、意味分析処理部216は、各エンティティに接続されたエッジのプロパティを参照し、このプロパティの値が更新されている場合には、新たなエンティティが追加されていると判定する。
新たなエンティティが追加されていないと判定した場合、制御部210は、本フローチャートの処理を終了する。
一方、意味分析処理部216は、新たなエンティティが追加されていると判定した場合、このエンティティをナレッジグラフKGから抽出する(S206)。
次に、意味分析処理部216は、通信部202を用いて、抽出したエンティティに対応したワードを推薦クエリに決定し、新たに決定した推薦クエリを過去に推薦クエリの提供先であった端末装置10に提供する(S208)。
図12は、新規にエンティティが追加されたナレッジグラフKGを模式的に示す図である。例えば、祭りなどの催し(事物)が毎年開催される場合、その催しの名称に対応するエンティティは、毎年追加されることになる。図示のように、例えば、2016年次に「2016年さくらまつり」という祭りが開催された場合、この名称に対応するエンティティが所定のタイミングでナレッジグラフKGに追加される。その後、「2016年さくらまつり」の後継にあたる「2017年さくらまつり」の開催を周知するようなニュース記事がインターネット上に公開された場合、グラフ生成装置100は、所定の更新タイミングでこの記事を参照して、「2017年さくらまつり」という名称に対応するエンティティをナレッジグラフKGに追加する。
また、グラフ生成装置100は、インターネット上に公開された情報として、SNSにおいて投稿されたワードや、掲示板などに書き込まれたワードなどを参照することで、新たなエンティティをナレッジグラフKGに追加してもよい。
情報提供部214は、上記のように新たなエンティティがナレッジグラフKGに追加された場合、所定の端末装置10に、この新規追加のエンティティに対応したワードを推薦クエリとした検索結果を提供する。所定の端末装置10とは、例えば、新規追加されたエンティティにエッジを介して接続されたエンティティに対応するワード(図の例では「お花見」というワード)が、検索時のクエリとして入力または選択された端末装置10である。
例えば、過去に、ユーザが「お花見」というワードをクエリとして検索窓に入力し、そのクエリに対する検索結果として提示された複数のコンテンツCTの中から、「2016年さくらまつり」に関するコンテンツCTを選択して閲覧したとする。この場合、情報提供部214は、この「お花見」というクエリの検索履歴を有するユーザの端末装置10に、「お花見」というワード対応したエンティティに新たに関連付けられた、「2017年さくらまつり」というエンティティに対応したワードを推薦クエリとして提供する。例えば、情報提供部214は、推薦クエリであるワードを、プッシュ通知などによって所定のユーザの端末装置10に提供する。
以上説明した第3実施形態によれば、新しい情報がインターネット上に公開されたことを受けて、ナレッジグラフKGに新たなエンティティが追加された場合に、新たに追加されたエンティティに対応したワードを、例えば推薦クエリとして提供するため、インターネット上での状況の変化に対応した情報提供を行うことができる。
<第4実施形態>
以下、第4実施形態について説明する。第4実施形態では、重要ワードと、この重要ワードに対応するエンティティに関連付けられた他のエンティティ(以下、関連エンティティと称する)に対応したワード、または重要ワードに対応するエンティティのプロパティに対応したワードとを組み合わせたワードの組を一つの推薦クエリとして提供する点で上述した第1から第3実施形態と相違する。「重要ワードに対応するエンティティに関連付けられた」とは、上述したように、重要ワードに対応するエンティティが属するクラスの性質の一部を有することをいう。以下、第1から第3実施形態との相違点を中心に説明し、第1から第3実施形態と共通する点については説明を省略する。なお、第4実施形態の説明において、第1から第3実施形態と同じ部分については同一符号を付して説明する。関連エンティティは、「関連事物」の一例である。
第4実施形態における意味分析処理部216は、例えば、ナレッジグラフKGにおいて、重要ワードに対応するエンティティに関連付けられたエンティティが存在する場合、そのエンティティを関連エンティティとして抽出する。そして、意味分析処理部216は、通信部202を用いて、重要ワードと、関連エンティティに対応したワードとを組み合わせたワードの組を一つの推薦クエリに決定し、この推薦クエリを本来のクエリによる検索結果のコンテンツCTに含めて端末装置10に提供する。
また、第4実施形態における意味分析処理部216は、例えば、重要ワードに対応するエンティティのプロパティに対応したワードと、重要ワードとを組み合わせたワードの組を一つの推薦クエリに決定し、この推薦クエリを本来のクエリによる検索結果のコンテンツCTに含めて端末装置10に提供してもよい。「プロパティに対応したワード」とは、例えば、プロパティの名称を記述した文字列と同じ文字列のワードである。
図13は、関連エンティティまたはプロパティを抽出する方法の一例を説明するための図である。例えば、図中(a)に示すように、ユーザが、あるバンド名をクエリ(図中では「ABCバンド」)として入力した場合、情報提供部214は、クエリの検索結果として、そのバンドに関する記事を提供予定のコンテンツCTに決定する。このとき、情報提供部214は、提供予定の記事から形態素解析により複数の重要ワードの候補となるワードを抽出する。例えば、情報提供部214が、抽出した複数のワードのうち、「△△フェスティバル」と、「ABCバンド」とを重要ワードとする場合、意味分析処理部216は、図中(b)に示すように、これらの重要ワードに対応するエンティティをナレッジグラフKG上で特定し、特定したエンティティにエッジを介して関連付けられたエンティティを、関連エンティティとして抽出する。また、意味分析処理部216は、重要ワードに対応するエンティティにエッジとして関連付けられたプロパティを抽出してもよい。図の例では、重要ワードである「△△フェスティバル」に対応するエンティティには、「スケジュール」、「チケット」、「会場」といったプロパティ(エッジ)が関連付けられている。そのため、情報提供部214は、「△△フェスティバル_スケジュール」といったワードの組や、「△△フェスティバル_チケット」といったワードの組、「△△フェスティバル_会場」といったワードの組を、推薦クエリとして端末装置10に提供する。なお、重要ワードは、上述したように、提供予定の記事に含まれるワードであってもよいし、検索時に入力または選択されたクエリそのものであってもよい。
以上説明した第4実施形態によれば、重要ワードと、関連エンティティに対応したワードまたはプロパティに対応したワードとを組み合わせたワードの組を一つの推薦クエリとし、この推薦クエリを本来のクエリの検索結果のコンテンツCTに含めて端末装置10に提供するため、提供予定のコンテンツCTと関連性の高い情報を提供することができる。
<第4実施形態の変形例>
以下、第4実施形態の変形例について説明する。第4実施形態の変形例では、意味分析処理部216は、ナレッジグラフKGに、重要ワードに対応するエンティティが存在しない場合に、重要ワードでない他のワードに対応するエンティティに関連付けられた類似エンティティを特定し、この類似エンティティにエッジとして関連付けられたプロパティを抽出する。そして、意味分析処理部216は、通信部202を用いて、重要ワードと、類似エンティティのプロパティに対応したワードとを組み合わせたワードの組を一つの推薦クエリに決定し、この推薦クエリを本来のクエリによる検索結果のコンテンツCTに含めて端末装置10に提供する。
図14は、類似エンティティのプロパティを抽出する方法の一例を説明するための図である。図示のように、例えば、重要ワードが「○○カーニバル」である場合に、その「○○カーニバル」という重要ワードに対応するエンティティがナレッジグラフKGに存在しない場合、意味分析処理部216は、例えば「○○カーニバル」というワードと近接する「音楽イベント」といったワードが同じコンテンツCTから抽出されていれば、「音楽イベント」に対応するエンティティに関連付けられた別のエンティティを類似エンティティとして特定する。図示の例では、「音楽イベント」に対応するエンティティに「△△フェスティバル」というエンティティが関連付けられているため、意味分析処理部216は、「△△フェスティバル」というエンティティを類似エンティティとして特定する。そして、意味分析処理部216は、「△△フェスティバル」というエンティティのプロパティに対応したワードとして、「スケジュール」や「チケット」、「会場」といったワードと、重要ワードである「○○カーニバル」とを組み合わせたワードの組を一つの推薦クエリに決定する。これを受けて、情報提供部214は、「○○カーニバル_スケジュール」といったワードの組や、「○○カーニバル_チケット」といったワードの組、「○○カーニバル_会場」といったワードの組を、推薦クエリとして端末装置10に提供する。
なお、「○○カーニバル」という重要ワードの他に「音楽イベント」などの他のワードが抽出されなかった場合、意味分析処理部216は、ノードについてのプロパティから「○○カーニバル」が音楽イベントであることを推定してもよい。
このように、重要ワードに対応するエンティティがナレッジグラフKGに存在しない場合であっても、他のエンティティに関連付けられたエンティティおよびプロパティで情報を補完することができるため、提供予定のコンテンツCTと関連性の高い情報を提供することができる。
<第5実施形態>
以下、第5実施形態について説明する。第5実施形態では、エンティティにエッジとして関連付けられた複数のプロパティの其々に対応したワードを推薦クエリとする際に、その推薦クエリによる検索結果を提供する予定のユーザの趣味嗜好などを考慮して、複数のプロパティの其々に対応したワードを取捨選択する点で上述した第1から第4実施形態と相違する。以下、第1から第4実施形態との相違点を中心に説明し、第1から第4実施形態と共通する点については説明を省略する。なお、第5実施形態の説明において、第1から第4実施形態と同じ部分については同一符号を付して説明する。
図15は、複数のプロパティの其々に対応したワードを取捨選択する方法を説明するための図である。例えば、図示のように、重要ワードが「ABCバンド」であった場合、「ABCバンド」に対応したエンティティには、「出演」や「リリース」、「交友関係」といったプロパティがエッジとして関連付けられている場合がある。この場合、意味分析処理部216は、重要ワードである「ABCバンド」以外の他のワードに対応したエンティティと、重要ワードに対応したエンティティとの距離に応じて、重要ワードに対応したエンティティ「ABCバンド」に関連付けられた一以上のプロパティの中から、推薦クエリとするプロパティを決定する。これによって、例えば、「交友関係」というプロパティを除き、「出演」および「リリース」というプロパティが推薦クエリに決定される。この結果、情報提供部214は、「ABCバンド_出演」や「ABCバンド_リリース」といったワードの組を推薦クエリとして端末装置10に提供することができる。
以上説明した第5実施形態によれば、エンティティにエッジとして関連付けられた複数のプロパティの其々に対応したワードを推薦クエリとする際に、その推薦クエリによる検索結果を提供する予定のユーザの趣味嗜好などを考慮するため、各ユーザに合わせた情報を提供することができる。例えば、純粋に音楽だけに興味関心があるユーザには、ゴシップネタなどの音楽に対する関係性の低い情報については提供せず、イベント出演情報や楽曲のリリース日などの情報のみを提供することができる。
<第6実施形態>
以下、第6実施形態について説明する。第6実施形態では、取得部212により取得されるクエリが、端末装置10を介してユーザにより範囲指定された文字列である点で上述した第1から第5実施形態と相違する。以下、第1から第5実施形態との相違点を中心に説明し、第1から第5実施形態と共通する点については説明を省略する。なお、第6実施形態の説明において、第1から第5実施形態と同じ部分については同一符号を付して説明する。
図16は、端末装置10において表示されるコンテンツCTの一例を示す図である。例えば、ユーザの操作により、コンテンツCTに含まれるテキストの文字列が範囲指定された場合、第6実施形態における取得部212は、テキスト上で範囲指定された領域(オーバーレイ領域)ROLに含まれる文字列をクエリとして取得する。第6実施形態における情報提供部214は、クエリである文字列(図示の例では「ブルーレイレコーダー」)を重要ワードとする。第6実施形態における意味分析処理部216は、この重要ワード(クエリとして指定された文字列)に対応するエンティティを、ナレッジグラフKGから抽出する。
図17は、重要ワードである文字列に対応するエンティティと、そのプロパティとを含むナレッジグラフKGの一例を示す図である。例えば、「ブルーレイレコーダー」という文字列を重要ワードとした場合、図に例示するように、「定義」や「製造元」、「人気製品」といったプロパティが抽出される。
図18は、プロパティを考慮した推薦クエリの一例を示す図である。図示のように、例えば、情報提供部214は、テキスト上で範囲指定された領域ROL付近に、重要ワード且つクエリである「ブルーレイレコーダー」の検索結果へのハイパーリンクHP1と、プロパティに対応したワード(「定義」、「製造元」、「人気製品」などのワード)を推薦クエリとした検索結果へのハイパーリンクHP2とを含む画面を表示させるように端末装置10を制御してよい。これによって、ユーザは、範囲指定した文字列の検索結果と共に、その範囲指定した文字列に関連した情報の検索結果を得ることができる。
以上説明した第6実施形態によれば、ユーザにより範囲指定された領域の文字列をクエリとすることで、上述した第1から第5実施形態と同様に、検索時の文脈を考慮してユーザの検索意図に近い情報を提供することができる。
<第7実施形態>
以下、第7実施形態について説明する。第7実施形態では、クエリの意味を認識した上で、このクエリによる検索結果を提供する際に、検索結果を示すページ上に、検索を推奨する推薦クエリを表示させる点で上述した第1から第6実施形態と相違する。以下、第1から第6実施形態との相違点を中心に説明し、第1から第6実施形態と共通する点については説明を省略する。なお、第7実施形態の説明において、第1から第6実施形態と同じ部分については同一符号を付して説明する。
図19は、クエリに対応した検索結果を模式的に示す図である。例えば、図示のように、「さくら」というクエリの意味が、植物のさくらであると認識された場合、端末装置10には、「さくら」というクエリの検索結果として、植物のさくらに関するコンテンツCTが一覧形式で表示されたページが提供される。このとき、検索結果を表すページの所定の領域Raには、例えば、推薦クエリを表す文字が表示されてよい。この推薦クエリを表す文字は、推薦クエリによる検索結果にアクセスするためのハイパーリンクであってよい。
以上説明した第7実施形態によれば、意味が統一された検索結果を提示することができると共に、よりユーザの興味関心の高い情報を提供することができる。
<ハードウェア構成>
上述した実施形態の情報提供システムに含まれる複数の装置のうち、少なくともグラフ生成装置100および情報提供装置200、200Aは、例えば、図20に示すようなハードウェア構成により実現される。図20は、実施形態のグラフ生成装置100および情報提供装置200、200Aのハードウェア構成の一例を示す図である。
グラフ生成装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
情報提供装置200、200Aは、NIC200−1、CPU200−2、RAM200−3、ROM200−4、フラッシュメモリやHDDなどの二次記憶装置200−5、およびドライブ装置200−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置200−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置200−5、またはドライブ装置200−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM200−3に展開され、CPU200−2によって実行されることで、制御部210が実現される。制御部210が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…情報提供システム、10…端末装置、100…グラフ生成装置、102…通信部、110…制御部、112…クロール処理部、114…グラフ生成部、130…記憶部、200、200A…情報提供装置、202…通信部、210…制御部、212…取得部、214…情報提供部、216…意味分析処理部、230…記憶部、CT…コンテンツ、KG…ナレッジグラフ、LG…ログ情報、NW…ネットワーク

Claims (19)

  1. 事物に関する情報及び事物間の意味的関係に関する情報を記述したナレッジグラフを参照して、ユーザにより入力又は選択されたクエリを含むコンテンツ、又は前記ユーザにより入力又は選択されたクエリの履歴に含まれるワード群の意味情報を抽出する抽出部と、
    少なくとも前記抽出部により抽出された前記ワード群の意味情報に基づくクエリの候補を、前記ユーザが使用する端末装置に提供する提供部と、
    を備える情報提供装置。
  2. 前記事物は、実世界または仮想世界における実体または抽象的概念を表す、
    請求項1に記載の情報提供装置。
  3. 前記ナレッジグラフにおいて、前記事物はノード、前記事物又は前記事物間の意味的関係に関する情報は情報の種類に対応するラベル付きのエッジであるプロパティにより記述される、
    請求項1または2に記載の情報提供装置。
  4. 前記抽出部は、前記ワード群に対応する前記ノードおよび前記プロパティと、前記ナレッジグラフにおける前記ノードの分布とを参照して、前記ワード群の意味情報を抽出する、
    請求項3に記載の情報提供装置。
  5. 前記ワード群は、前記端末装置に提供されるコンテンツに含まれ、
    前記提供部は、前記ワード群に含まれるワードと、前記抽出部により抽出された意味情報に基づくワードとを組み合わせたワードの組を、前記クエリの候補として前記端末装置に提供する、
    請求項1から4のうちいずれか1項に記載の情報提供装置。
  6. 前記端末装置からクエリを取得する取得部を更に備え、
    前記抽出部は、前記取得部により取得されたクエリに応じて検索されるコンテンツに含まれるワード群の意味情報を、前記ナレッジグラフから抽出し、
    前記提供部は、前記クエリに応じて検索されるコンテンツに加えて、前記抽出部により抽出された意味情報に基づくワードを、前記クエリの候補として前記端末装置に提供する、
    請求項1から5のうちいずれか1項に記載の情報提供装置。
  7. 前記抽出部は、
    前記提供部により前記端末装置に前記クエリの候補が提供される際に、前記ナレッジグラフから、前記クエリに応じて検索されるコンテンツに含まれるワード群の意味情報を抽出し、
    前記クエリに応じて検索されるコンテンツに含まれるワード群のワードが複数の意味の候補を有する場合、前記抽出した意味情報に基づいて、前記複数の意味の候補のそれぞれについて、前記ワードの意味とする際の優先度を決定し、
    前記提供部は、
    前記複数の意味の候補のそれぞれに優先度が決定されたワードを、前記クエリの候補として前記端末装置に提供する、
    請求項6に記載の情報提供装置。
  8. 前記抽出部は、
    前記提供部により前記端末装置に前記クエリの候補が提供される際に、前記ナレッジグラフから、前記クエリに応じて検索されるコンテンツに含まれるワード群の意味情報を抽出し、
    前記クエリに応じて検索されるコンテンツに含まれるワード群のワードが複数の意味の候補を有する場合、前記複数の意味の候補を有するワードの意味を、前記抽出した意味情報に基づいて限定し、
    前記提供部は、
    前記意味が限定されたワードを、前記クエリの候補として前記端末装置に提供する、
    請求項6または7に記載の情報提供装置。
  9. 前記提供部は、
    前記クエリに応じて検索されるコンテンツに含まれるワード群のワードが複数の意味の候補を有する場合、前記複数の意味の候補のそれぞれを表す各ワードを、前記クエリの候補として前記端末装置に提供する、
    請求項6から8のうちいずれか1項に記載の情報提供装置。
  10. 前記提供部は、
    前記クエリに応じて検索されるコンテンツに含まれるワード群のワードが複数の意味の候補を有する場合、前記事物間の意味的関係に関する情報に基づいて、前記複数の意味の候補のそれぞれを表すワードの中から、前記クエリの候補として提供するワードを決定する、
    請求項6から9のうちいずれか1項に記載の情報提供装置。
  11. 前記抽出部は、
    前記ナレッジグラフにおいて、前記ワード群のワードに対応した事物、または前記ワード群のワードに対応した事物に関連付けられた関連事物に対応する情報を、前記ワード群の意味情報として抽出する、
    請求項1から10のうちいずれか1項に記載の情報提供装置。
  12. 前記抽出部は、
    前記ナレッジグラフにおいて、前記ワード群のワードに対応した事物が存在しない場合、前記ワード群の他のワードに対応した類似事物、または前記類似事物に関連付けられた関連事物に対応する情報を、前記ワード群の意味情報として抽出する、
    請求項11に記載の情報提供装置。
  13. 前記抽出部は、
    前記ナレッジグラフにおいて、前記ワード群のワードに対応した事物に関連付けられた関連事物に対応する情報を、前記ワード群の意味情報として抽出する、
    請求項12に記載の情報提供装置。
  14. 前記抽出部は、
    前記ナレッジグラフにおいて、前記取得部により取得されたクエリの履歴に含まれる第1クエリに対応した事物が存在しない場合、前記クエリの履歴に含まれる第2クエリに対応した類似事物に対応する情報を、前記取得部により取得された第1クエリに応じて検索されるコンテンツに含まれるワード群の意味情報として抽出する、
    請求項6に記載の情報提供装置。
  15. 前記端末装置に入力されたクエリ、または前記端末装置により提示されたクエリのうちユーザにより選択されたクエリと、前記入力または選択されたクエリの履歴を示すワード群とを取得する取得部を更に備え、
    前記抽出部は、前記ナレッジグラフと、前記クエリの履歴とに基づいて、前記取得部により取得された前記ワード群の意味情報を抽出し、
    前記提供部は、前記抽出部により抽出された前記ワード群の意味情報に対応するワードを、前記クエリの候補として前記端末装置に提供する、
    請求項1から5のうちいずれか1項に記載の情報提供装置。
  16. 前記抽出部は、
    前記ナレッジグラフに新たな事物が追加された場合、前記提供部によって過去に提供されたクエリの候補に対応する事物が、前記新たな事物に関連付けられた事物であるか否かを判定し、
    過去に提供されたクエリの候補に対応する事物が、前記新たな事物に関連付けられた事物であると判定した場合、前記ナレッジグラフから、前記新たな事物に対応する情報を抽出し、
    前記提供部は、
    前記抽出部により抽出された前記新たな事物に対応する情報を、過去にクエリの候補の提供先であった端末装置に提供する、
    請求項1から15のうちいずれか1項に記載の情報提供装置。
  17. 前記端末装置を介して前記ユーザにより範囲指定された文字列を、クエリとして取得する取得部を更に備え、
    前記抽出部は、前記提供部により、前記取得部が取得した文字列に応じて検索されるコンテンツが前記端末装置に提供される際に、前記ナレッジグラフから、前記取得部により取得された文字列を含むワード群の意味情報を抽出し、
    前記提供部は、前記取得部が取得した文字列に応じて検索されるコンテンツに加えて、前記抽出部により抽出された前記ワード群の意味情報に基づくワードを、前記クエリの候補として前記端末装置に提供する、
    請求項1から16のうちいずれか1項に記載の情報提供装置。
  18. コンピュータが、
    事物に関する情報及び事物間の意味的関係に関する情報を記述したナレッジグラフを参照して、ユーザにより入力又は選択されたクエリを含むコンテンツ、又は前記ユーザにより入力又は選択されたクエリの履歴に含まれるワード群の意味情報を抽出し、
    少なくとも前記抽出したワード群の意味情報に基づくクエリの候補を、前記ユーザが使用する端末装置に提供する、
    情報提供方法。
  19. コンピュータに、
    事物に関する情報及び事物間の意味的関係に関する情報を記述したナレッジグラフを参照して、ユーザにより入力又は選択されたクエリを含むコンテンツ、又は前記ユーザにより入力又は選択されたクエリの履歴に含まれるワード群の意味情報を抽出させ、
    少なくとも前記抽出させたワード群の意味情報に基づくクエリの候補を、前記ユーザが使用する端末装置に提供させる、
    プログラム。
JP2017199336A 2017-10-13 2017-10-13 情報提供装置、情報提供方法、およびプログラム Active JP6906419B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017199336A JP6906419B2 (ja) 2017-10-13 2017-10-13 情報提供装置、情報提供方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017199336A JP6906419B2 (ja) 2017-10-13 2017-10-13 情報提供装置、情報提供方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019074843A JP2019074843A (ja) 2019-05-16
JP6906419B2 true JP6906419B2 (ja) 2021-07-21

Family

ID=66544087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017199336A Active JP6906419B2 (ja) 2017-10-13 2017-10-13 情報提供装置、情報提供方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6906419B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102079970B1 (ko) * 2019-04-30 2020-04-07 (주)에스투더블유랩 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램
JP7270188B2 (ja) * 2019-05-23 2023-05-10 本田技研工業株式会社 知識グラフ補完装置、および知識グラフ補完方法
CN110377891B (zh) * 2019-06-19 2023-01-06 北京百度网讯科技有限公司 事件分析文章的生成方法、装置、设备及计算机可读存储介质
CN111221984B (zh) * 2020-01-15 2024-03-01 北京百度网讯科技有限公司 多模态内容处理方法、装置、设备及存储介质
CN111341308B (zh) * 2020-02-12 2023-07-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111506623B (zh) * 2020-04-08 2024-03-22 北京百度网讯科技有限公司 数据扩充方法、装置、设备以及存储介质
CN111522994B (zh) 2020-04-15 2023-08-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111753198B (zh) * 2020-06-22 2024-01-12 北京百度网讯科技有限公司 信息推荐方法和装置、以及电子设备和可读存储介质
EP4318268A4 (en) 2021-03-31 2024-05-15 Fujitsu Limited INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING SYSTEM
JP6910692B1 (ja) * 2021-04-19 2021-07-28 株式会社Cloud−Innovation 情報処理装置、プログラム及び情報処理方法
JP7453199B2 (ja) * 2021-10-20 2024-03-19 Lineヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP2023076921A (ja) 2021-11-24 2023-06-05 富士通株式会社 情報処理プログラム、情報処理装置および情報処理方法
CN114186075B (zh) * 2021-12-14 2024-04-26 武汉数文科技有限公司 一种面向文化领域知识图谱的语义搜索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4935243B2 (ja) * 2006-08-25 2012-05-23 富士通株式会社 検索プログラム、情報検索装置及び情報検索方法
JP4969554B2 (ja) * 2008-11-14 2012-07-04 ヤフー株式会社 トピックグラフを利用したドキュメント検索サーバ及び方法
JP5271808B2 (ja) * 2009-05-28 2013-08-21 日本電信電話株式会社 共通クエリグラフパターン生成装置、共通クエリグラフパターン生成方法、および共通クエリグラフパターン生成用プログラム
US10664757B2 (en) * 2015-09-16 2020-05-26 International Business Machines Corporation Cognitive operations based on empirically constructed knowledge graphs

Also Published As

Publication number Publication date
JP2019074843A (ja) 2019-05-16

Similar Documents

Publication Publication Date Title
JP6906419B2 (ja) 情報提供装置、情報提供方法、およびプログラム
TWI570583B (zh) 於搜尋結果頁內提供已標定應用程式之系統與方法
US10430806B2 (en) Input/output interface for contextual analysis engine
US8321463B2 (en) Objective and subjective ranking of comments
JP5608286B2 (ja) 無限ブラウズ
US20150106157A1 (en) Text extraction module for contextual analysis engine
EP2557511B1 (en) Information processing device, information processing method, information processing programme, and recording medium
US11580177B2 (en) Identifying information using referenced text
KR20100068532A (ko) 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
JP7166116B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11392589B2 (en) Multi-vertical entity-based search system
JP2007219655A (ja) 施設情報管理システム、施設情報管理方法および施設情報管理プログラム
JP2011096078A (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
JP2019164424A (ja) 情報処理装置、情報処理方法、およびプログラム
WO2014027415A1 (ja) 情報提供装置、情報提供方法、及びプログラム
CN102521288A (zh) 一种互联网Web服务信息获取方法
CN104636398B (zh) 搜索用户生成内容的方法、装置、服务器和系统
JP4550939B1 (ja) 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP5565632B2 (ja) 地図情報出力装置、およびプログラム
JP2020046805A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2007102635A (ja) Blogコミュニティ推薦方法及びシステム及びプログラム
JP4607798B2 (ja) コミュニティ形成支援装置、コミュニティ形成支援方法およびコミュニティ形成支援プログラム
JP2019159404A (ja) 情報処理装置、情報処理方法、およびプログラム
JP7078569B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210629

R150 Certificate of patent or registration of utility model

Ref document number: 6906419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250