JP2016045908A - コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 - Google Patents

コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 Download PDF

Info

Publication number
JP2016045908A
JP2016045908A JP2014172125A JP2014172125A JP2016045908A JP 2016045908 A JP2016045908 A JP 2016045908A JP 2014172125 A JP2014172125 A JP 2014172125A JP 2014172125 A JP2014172125 A JP 2014172125A JP 2016045908 A JP2016045908 A JP 2016045908A
Authority
JP
Japan
Prior art keywords
content
identifier
numerical value
query
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014172125A
Other languages
English (en)
Other versions
JP6223301B2 (ja
Inventor
加藤 恒夫
Tsuneo Kato
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014172125A priority Critical patent/JP6223301B2/ja
Publication of JP2016045908A publication Critical patent/JP2016045908A/ja
Application granted granted Critical
Publication of JP6223301B2 publication Critical patent/JP6223301B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】大まかなストーリの流れに基づいて、クエリ文章に類似するコンテンツ文章を検索することができる検索プログラム及び装置を提供する。【解決手段】識別子毎に、先出及び後出の対象数値の関係と述語句とを対応付けて予め定義した述語句テーブル10と、コンテンツ文章から複数の対象数値を抽出する対象数値抽出部11と、コンテンツ文章毎に、述語句テーブルを用いて、先出及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出部12と、コンテンツ文章毎に、識別子の系列を対応付けて登録する登録データベース13と、クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出部14と、登録データベースを用いて、クエリ用の識別子の系列と同一の順序関係を持つ識別子の系列を対応付けたコンテンツ文章を検索する検索部15とを有する。【選択図】図1

Description

本発明は、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する技術に関する。
文書に対する全文検索の技術には、一般に「転置インデックス(Inverted index)」が用いられる。転置インデックスとは、検索対象の文書群から、単語の位置情報を格納するための索引構造をいう。例えば、以下のような2つの方法がある。
レコード単位転置インデックス(record level inverted index)
単語単位インデックス(word level inverted index)
レコード単位転置インデックスは、単語と、その単語を含む全ての文書とをリストとして備える。
単語単位インデックスは、単語を含む全ての文書の他に、その単語が文書中のどこに現れるかという位置情報まで含む。
これら転置インデックスの技術によれば、クエリ(検索キー)として複数のキーワードが指定され、各キーワードを含む文書リストの積集合を算出し、候補となる文書を特定する。例えば、Google(登録商標)検索におけるページランクには、転置インデックスの文書検索技術が用いられている。
従来、ニュース記事データベースに対するクエリとして、キーワードではなく、主語及び述語からなる述語項構造を用いて検索する技術がある(例えば非特許文献1参照)。この技術によれば、例えばスポーツ(例えば野球、サッカー、各種レースなど)のニュース記事を検索対象としている。述語項構造をクエリとすることによって、文脈やユーザの意図に合わせた検索結果を出力することができる。
吉野幸一郎、森信介、河原達也、「述語項の類似度に基づく情報抽出・推薦を行う音声対話システム」、情報処理学会論文誌、Vol.52, No.12, pp.3386--3397, 2011、[online]、[平成26年7月31日検索]、インターネット<URL:http://plata.ar.media.kyoto-u.ac.jp/mori/research/public/yoshino-IPSJ11Dec.pdf>
しかしながら、非特許文献1に記載の技術のような述語項構造を用いても、日々投稿される多数の試合のコンテンツ文章を蓄積したニュース記事データベースから、日時・場所などの条件指定無しに特定の試合を検索することは難しい。出現する単語の重なりが大きいために、特別な検索条件(例えばスコアデータ等)を必要とする。例えばスポーツのニュース記事のように、チーム名や選手名が重なり合う多数の試合の中で、特定の試合に関するコンテンツ文章を検索することは難しい。
スポーツのニュース記事の場合、必ず、順位や点数の変化のような、ストーリの流れを含んでいる。これに対し、本願の発明者らは、コンテンツ文章の中から、大まかなストーリの流れを断片的に抽出することができないか?と考えた。即ち、ユーザがクエリ文章として、大まかなストーリの流れを断片的に指定することによって、コンテンツ文章を検索することができないか?と考えた。例えば「Aは、順位を上げたが、結局、落ちた」のようか大まかなクエリ文章から、コンテンツ文章の検索対象を絞り込むことができれば、ユーザにとって簡易に検索することができる。
そこで、本発明は、大まかなストーリの流れに基づいて、クエリ文章に類似するコンテンツ文章を検索することができる検索プログラム及び装置を提供することを目的とする。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章及びクエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
所定対象として、第1の所定対象及び第2の所定対象を有し、
述語句テーブルは、識別子毎に、第1の所定対象における先出の対象数値及び後出の対象数値の関係と、第2の所定対象における先出の対象数値及び後出の対象数値の関係との組に対して、述語句を対応付けて予め定義しており、
コンテンツ用識別子抽出手段及び/又はクエリ用識別子抽出手段は、論理組に対して識別子の系列を抽出する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
対象数値抽出手段は、所定対象に基づく単語を含むパターンを照合することによって、文章から対象数値を抽出する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
対象数値は、点数、順位又は計測数値であり、
コンテンツ文章は、対象数値を含むスコアデータであり、
先出の対象数値及び後出の対象数値の関係は、大なり、小なり、等しいの論理関係である
ようにコンピュータを機能させることも好ましい。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章及びクエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
本発明のプログラム及び装置によれば、大まかなストーリの流れに基づいて、クエリ文章に類似するコンテンツ文章を検索することができる。
本発明における検索装置の第1の機能構成図である。 第1の機能構成に基づく具体的な文章処理を表す説明図である。 本発明における検索装置の第2の機能構成を表す説明図である。 第2の機能構成に基づく具体的な文章処理を表す説明図である。 本発明における検索装置の第3の機能構成を表す説明図である。 本発明における検索装置の第4の機能構成を表す説明図である。 述語句テーブルにおける他の例を表す説明図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における検索装置の第1の機能構成図である。
図1によれば、検索装置(又はサーバ)に搭載されたコンピュータを機能させるプログラムの構成が表されている。検索装置をサーバとして構成した場合、例えば、インターネットのようなネットワークに接続されたものであってもよい。インターネットには、マスメディアサーバや、ブログサーバ、SNS(Social Networking Service)サーバ等が接続されている。マスメディアサーバは、一定の質を保った文章を公開する。また、ブログサーバやSNSサーバは、ユーザ端末から発信された投稿文章を公開する。特に、個人によって投稿された文章は、様々な最新の時事文章である場合も多い。検索装置1は、これら外部サーバ3から、コンテンツ文章(テキストデータ)を収集することができる。勿論、検索サーバ1は、予め大量の文章をディスクに蓄積したものであってもよい。
検索装置1は、ユーザから「クエリ文章」を入力(又は受信)する。これに対し、検索装置1は、クエリ文章に類似する1つ以上の「コンテンツ文章」を出力(又は返信)する。図1によれば、検索装置1は、述語句テーブル10と、対象数値抽出部11と、コンテンツ用識別子抽出部12と、登録データベース13と、クエリ用識別子抽出部14と、検索部15とを有する。検索部15から出力された検索結果は、所定アプリケーションによって利用されるものであってもよいし、クエリ文書を入力したユーザへ明示されるものであってもよい。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
図2は、第1の機能構成に基づく具体的な文章処理を表す説明図である。以下では、図2を参照しつつ、図1における各機能構成部を説明する。
図1及び図2によれば、コンテンツ文章は、対象数値抽出部11を介してコンテンツ用識別子抽出部12へ入力され、クエリ文章は、クエリ用識別子抽出部14へ直接的に入力されている。
[述語句テーブル10]
述語句テーブル10は、「識別子」毎に、「先出の対象数値及び後出の対象数値の関係」と、所定対象に対する「述語句」とを対応付けて、有限種類のイベントとして予め定義したものである。述語句テーブル10は、コンテンツ用識別子抽出部12及びクエリ用識別子抽出部14から参照される。
「識別子」は、単なるID(IDentifier)や番号である。
「先出の対象数値及び後出の対象数値の関係」は、具体的には、大なり、小なり、等しいの論理関係である。
「述語句」は、対象数値の論理関係を、述語として表現した句である。
図2によれば、対象数値->「順位」として、例えば以下のような述語句テーブルが定義されている。
<識別子> [対象数値間の関係]<->[述語句]
1 Qa<Ra 「下げる」「落ちる」・・・
2 Qa=Ra 「変わらず」「維持」・・・
3 Qa>Ra 「上げる」「追い上げ」・・・
Qa:先出の対象数値
Ra:後出の対象数値
他の実施形態として、対象数値->「気温」として、例えば以下のような述語句テーブルを定義したものであってもよい。
<識別子> [対象数値間の関係]<->[述語句]
1 Qa<Ra 「上がる」「暑い」・・・
2 Qa=Ra 「変わらず」「維持」・・・
3 Qa>Ra 「下がる」「寒い」・・・
[対象数値抽出部11]
対象数値抽出部11は、コンテンツ文章及び/又はクエリ文章を入力する。本発明が対象とするコンテンツ文章及び/又はクエリ文章には、所定対象に対する複数の対象数値が含まれているとする。コンテンツ文章は、例えば野球やサッカー、マラソンのようなスポーツで記録された、対象数値を含むスコアデータであってもよい。
対象数値抽出部11は、コンテンツ文章及び/又はクエリ文章から、所定対象に対する複数の対象数値を抽出する。「所定対象の対象数値」とは、例えば点数、順位又は計測数値のようなものである。
また、これら対象数値は、コンテンツ文章及び/又はクエリ文章における文章の流れの中で変化するものであって、例えば以下のようなものがある。
野球の試合におけるチーム間の点数の変化
マラソンにおける個人の順位の変化
気温センサにおける気温の変化
図2によれば、例えば以下のようなコンテンツ文章が入力されている。
「Aの順位は、3番手のまま・・・Aが、現在1位になる・・・Aは、2位に落ちた」
対象数値抽出部11は、最初に、コンテンツ文章及び/又はクエリ文章から、形態素解析によって単語を抽出する。ここで、「形態素解析」とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文章を、意味のある形態素(Morpheme)に区切り、辞書を利用して品詞や内容を判別する技術をいう。
また、対象数値抽出部11は、対象数値部分をワイルドカード*として含むパターン(形態素列)を予め登録している。そして、対象数値抽出部11は、形態素解析された単語列と、予め登録した所定対象に基づく単語を含むパターンとを照合することによって、ワイルドカード*の部分を抽出する。
所定対象「順位」 パターン照合:”*番”、”*位”
同様に、パターン照合によって、対象数値のみならず、日時、場所、チーム名等の概要情報も抽出することができる。
前述の例によれば、対象数値抽出部11は、以下のような対象数値の系列を抽出することとなる。
所定対象「順位」:「3」->「1」->「2」
図1及び図2の第1の実施形態によれば、対象数値抽出部11によって抽出された対象数値の系列は、コンテンツ用識別子抽出部12へ出力される。
[コンテンツ用識別子抽出部12]
コンテンツ用識別子抽出部12は、コンテンツ文章毎に、述語句テーブル10を用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子を抽出する。
図2によれば、先出の対象数値及び後出の対象数値について、以下の関係となっている。
[先出の対象数値] [後出の対象数値]
3 > 1
1 < 2
これに対し、コンテンツ用識別子抽出部12は、この対象数値の関係に、述語句テーブル10を参照して、識別子を対応付ける。
<識別子> [先出の対象数値] [後出の対象数値]
3 3 > 1
1 1 < 2
そして、コンテンツ用識別子抽出部12は、コンテンツ文章に対する識別子の系列[3->1]を、登録データベース13へ出力する。
[登録データベース13]
登録データベース13は、コンテンツ文章毎に、コンテンツ用識別子抽出部12によって抽出された識別子の系列を対応付けて登録する。
図2によれば、コンテンツ文章1に対して、以下のように登録される。
[コンテンツ文章名] [識別子の系列]
コンテンツ文章1 : 3->1
[クエリ用識別子抽出部14]
クエリ用識別子抽出部14は、クエリ文章から、述語句テーブル10を用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出する。
図2によれば、例えば以下のようなクエリ文章が入力されている。
「Aは、順位を上げたが、結局、落ちた」
ここでは、述語句テーブル10を参照し、以下の識別子が導出される。
[述語句] <識別子>
「上げる」 3
「落ちる」 1
そして、クエリ用識別子抽出部14は、クエリ文章に対する識別子の系列[3->1]を、検索部15へ出力する。
[検索部15]
検索部15は、登録データベース11を用いて、クエリ用識別子抽出部14によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する。尚、識別子の系列の照合について、完全一致する必要はなく、順序関係が同一であればよい。即ち、識別子がスキップしていてもよい。
図2によれば、クエリ文章の識別子の系列[3->1]から、同一の順序関係を持つコンテンツ文章1が検索される。
図3は、本発明における検索装置の第2の機能構成を表す説明図である。
図4は、第2の機能構成に基づく具体的な文章処理を表す説明図である。
図3及び図4によれば、図1及び図2とは逆に、クエリ文章は、対象数値抽出部11を介してクエリ用識別子抽出部14へ入力され、コンテンツ文章は、コンテンツ用識別子抽出部12へ直接的に入力されている。
図4によれば、例えば以下のようなコンテンツ文章が入力されている。
「Aは、順位を上げたが、結局、落ちた」
コンテンツ用識別子抽出部12は、述語句テーブル10を参照し、以下の識別子の系列[3->1]を出力する。
[述語句] <識別子>
「上げる」 3
「落ちる」 1
登録データベース13は、コンテンツ文章1に対して、以下のように登録する。
[コンテンツ文章名] [識別子の系列]
コンテンツ文章1 : 3->1
また、図4によれば、例えば以下のようなコンテンツ文章が入力されている。
「Aの順位は、3番手のまま・・・Aが、現在1位になる・・・Aは、2位に落ちた」
対象数値抽出部11は、述語句テーブル10を参照し、以下の対象数値の系列を抽出する。
所定対象「順位」: 「3」->「1」->「2」
図4によれば、先出の対象数値及び後出の対象数値について、以下の関係となっている。
[先出の対象数値] [後出の対象数値]
3 > 1
1 < 2
これに対し、クエリ用識別子抽出部14は、この対象数値の関係に、述語句テーブル10を参照して、クエリ文章に対する識別子の系列[3->1]を出力する。
<識別子> [先出の対象数値] [後出の対象数値]
3 3 > 1
1 1 < 2
検索部15は、登録データベース11を用いて、クエリ用識別子抽出部14によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する。
図4によれば、クエリ文章の識別子の系列[3->1]から、同一の順序関係を持つコンテンツ文章1が、結果的に検索される。
図5は、本発明における検索装置の第3の機能構成を表す説明図である。
図5によれば、コンテンツ文章及びクエリ文章はそれぞれ、対象数値抽出部11を介してコンテンツ用識別子抽出部12及びクエリ用識別子抽出部14へ入力される。その他の機能構成部の動作は、前述した図1〜図4と全く同様である。
図6は、本発明における検索装置の第4の機能構成を表す説明図である。
図6によれば、コンテンツ文章及びクエリ文章はそれぞれ、コンテンツ用識別子抽出部12及びクエリ用識別子抽出部14へ直接的に入力される。その他の機能構成部の動作は、前述した図1〜図4と全く同様である。
図7は、述語句テーブルにおける他の例を表す説明図である。
図7(a)によれば、先出の対象数値(順位)Qaと、後出の対象数値(順位)Raとの関係のみならず、他の数値(例えば首位)1との関係についても区別して、述語句を対応付けて定義している。
図7(b)によれば、2つの所定対象について、更なる対象数値の関係によって区別している。例えば、第1の所定対象を「チームA」とし、第2の所定対象を「チームB」として定義する。述語句テーブルは、識別子毎に、第1の所定対象(チームA)における先出の対象数値Qa及び後出の対象数値Raの関係と、第2の所定対象(チームB)における先出の対象数値Qb及び後出の対象数値Rbの関係との組に対して述語句を対応付けて予め定義している。この場合、コンテンツ用識別子抽出部12及び/又はクエリ用識別子抽出部14は、対象数値の関係となる論理組に対して、識別子を抽出する。
以上、詳細に説明したように、本発明のプログラム及び装置によれば、大まかなストーリの流れに基づいて、クエリ文章に類似するコンテンツ文章を検索することができる。即ち、コンテンツ文章がスポーツであれば、ユーザはクエリ文章として、大まかな試合の流れを断片的な記憶から記述したものであっても、検索することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 検索装置、検索サーバ
10 述語句テーブル
11 対象数値抽出部
12 コンテンツ用識別子抽出部
13 登録データベース
14 クエリ用識別子抽出部
15 検索部
2 ユーザ端末
3 外部サーバ

Claims (11)

  1. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
    前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    してコンピュータを機能させることを特徴とするプログラム。
  2. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    してコンピュータを機能させることを特徴とするプログラム。
  3. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    してコンピュータを機能させることを特徴とするプログラム。
  4. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章及び前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
    前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    してコンピュータを機能させることを特徴とするプログラム。
  5. 前記所定対象として、第1の所定対象及び第2の所定対象を有し、
    前記述語句テーブルは、識別子毎に、第1の所定対象における先出の対象数値及び後出の対象数値の関係と、第2の所定対象における先出の対象数値及び後出の対象数値の関係との組に対して、述語句を対応付けて予め定義しており、
    前記コンテンツ用識別子抽出手段及び/又は前記クエリ用識別子抽出手段は、前記論理組に対して識別子の系列を抽出する
    ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
  6. 前記対象数値抽出手段は、所定対象に基づく単語を含むパターンを照合することによって、文章から対象数値を抽出する
    ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
  7. 前記対象数値は、点数、順位又は計測数値であり、
    前記コンテンツ文章は、前記対象数値を含むスコアデータであり、
    先出の対象数値及び後出の対象数値の関係は、大なり、小なり、等しいの論理関係である
    ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。
  8. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
    前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    を有することを特徴とする検索装置。
  9. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    を有することを特徴とする検索装置。
  10. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    を有することを特徴とする検索装置。
  11. 多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
    識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
    前記コンテンツ文章及び前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
    前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
    前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
    前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
    前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
    を有することを特徴とする検索装置。
JP2014172125A 2014-08-27 2014-08-27 コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 Active JP6223301B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014172125A JP6223301B2 (ja) 2014-08-27 2014-08-27 コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014172125A JP6223301B2 (ja) 2014-08-27 2014-08-27 コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置

Publications (2)

Publication Number Publication Date
JP2016045908A true JP2016045908A (ja) 2016-04-04
JP6223301B2 JP6223301B2 (ja) 2017-11-01

Family

ID=55636355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014172125A Active JP6223301B2 (ja) 2014-08-27 2014-08-27 コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置

Country Status (1)

Country Link
JP (1) JP6223301B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190461A1 (en) * 2005-02-18 2006-08-24 Schaefer Brian M Apparatus, system, and method for managing objects in a database according to a dynamic predicate representation of an explicit relationship between objects
JP2007304692A (ja) * 2006-05-09 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 事象検索装置、方法、およびプログラム
JP2010117797A (ja) * 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置
JP2013178633A (ja) * 2012-02-28 2013-09-09 Kddi Corp 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ
JP2013182580A (ja) * 2012-03-05 2013-09-12 Nippon Telegr & Teleph Corp <Ntt> 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190461A1 (en) * 2005-02-18 2006-08-24 Schaefer Brian M Apparatus, system, and method for managing objects in a database according to a dynamic predicate representation of an explicit relationship between objects
JP2007304692A (ja) * 2006-05-09 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 事象検索装置、方法、およびプログラム
JP2010117797A (ja) * 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置
JP2013178633A (ja) * 2012-02-28 2013-09-09 Kddi Corp 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ
JP2013182580A (ja) * 2012-03-05 2013-09-12 Nippon Telegr & Teleph Corp <Ntt> 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吉野 幸一郎 外2名: "述語項の類似度に基づく情報抽出・推薦を行う音声対話システム", 情報処理学会論文誌 論文誌ジャーナル VOL.52 NO.12 [CD−ROM], vol. 第52巻第12号, JPN6015012116, 15 December 2011 (2011-12-15), JP, pages 3386 - 3397, ISSN: 0003647431 *
山本和英、外1名: "要約事例を用例として模倣利用したニュース記事要約", 自然言語処理, vol. 第15巻、第3号, JPN6012025468, 10 July 2008 (2008-07-10), JP, pages 115 - 158, ISSN: 0003647433 *
秋葉 泰弘 ほか: "例からの学習技術の応用に向けて 1.基本技術とその応用上の課題", 情報処理, vol. 第39巻 第2号, JPN6009031769, 15 February 1998 (1998-02-15), JP, pages 145 - 151, ISSN: 0003647432 *
飯田 龍: "意見抽出を目的とした機械学習による属性−評価値対同定", 情報処理学会研究報告, vol. 2005, no. 1, JPN6010003061, 12 January 2005 (2005-01-12), JP, pages 21 - 28, ISSN: 0003647434 *

Also Published As

Publication number Publication date
JP6223301B2 (ja) 2017-11-01

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
Zhang et al. Entity linking leveraging automatically generated annotation
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
US9201880B2 (en) Processing a content item with regard to an event and a location
JP6466952B2 (ja) 文章生成システム
US8515731B1 (en) Synonym verification
CN103229223A (zh) 使用多个候选答案评分模型提供问题答案
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Mihaylova et al. DIPS at CheckThat! 2021: Verified Claim Retrieval.
Nikolov et al. Team alex at clef checkthat! 2020: Identifying check-worthy tweets with transformer models
Mizzaro et al. Short text categorization exploiting contextual enrichment and external knowledge
Mahmoud et al. Using twitter to monitor political sentiment for Arabic slang
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム
Paul et al. An affix removal stemmer for natural language text in nepali
JP6049201B2 (ja) 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ
JP5717297B2 (ja) 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ
Zou et al. Assessing software quality through web comment search and analysis
Fareed et al. Syntactic open domain Arabic question/answering system for factoid questions
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP6223301B2 (ja) コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置
Soo A non-learning approach to spelling correction in web queries
Yang et al. A new ontology-supported and hybrid recommending information system for scholars
CN106708808B (zh) 一种信息挖掘方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171003

R150 Certificate of patent or registration of utility model

Ref document number: 6223301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150