JP5717297B2 - 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ - Google Patents

時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ Download PDF

Info

Publication number
JP5717297B2
JP5717297B2 JP2012041524A JP2012041524A JP5717297B2 JP 5717297 B2 JP5717297 B2 JP 5717297B2 JP 2012041524 A JP2012041524 A JP 2012041524A JP 2012041524 A JP2012041524 A JP 2012041524A JP 5717297 B2 JP5717297 B2 JP 5717297B2
Authority
JP
Japan
Prior art keywords
query
predicate
sentence
search
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012041524A
Other languages
English (en)
Other versions
JP2013178633A (ja
Inventor
飛鳥 隅田
飛鳥 隅田
池田 和史
和史 池田
小野 智弘
智弘 小野
服部 元
元 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012041524A priority Critical patent/JP5717297B2/ja
Publication of JP2013178633A publication Critical patent/JP2013178633A/ja
Application granted granted Critical
Publication of JP5717297B2 publication Critical patent/JP5717297B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クエリに基づいて文章を検索する技術に関する。
従来、検索要求を自然言語の文で表現するクエリ(query)検索の技術がある。クエリとは、ユーザからの検索エンジンに対する問い合わせ(処理要求)をいう。検索の主流であるキーワード検索では、検索要求を数語のキーワードで表現するため、複雑な検索要求を表現することが難しい。一方、クエリ検索では、クエリに含まれる語と語との係り受け関係を利用するため、キーワード検索に比べて、複雑な検索要求を表現することができる。
自然言語の文で表現するクエリでは、複数の主要な表現が含まれるため、これらの組み合わせ方によっては、適切な検索結果が得られない場合がある。そこで、クエリに含まれる単語又は係り受け関係を、重要度に応じて利用する技術がある。重要度は、単語又は係り受け関係が検索結果中に必ず含まれていなければならない(必須)、含まれている方が好ましい(任意)、含まれていなくても構わない(不要)の3段階とする。この技術によって、単語のAND検索、OR検索又は重要度を重み付けする検索よりも、高い精度の検索結果を得ることができる(例えば非特許文献1参照)。
また、単語間の類似度を用いて文節間を対応付けることにより、含意又は対義のような文間の意味的な関係性を判定する技術がある。これにより、クエリとして与えられる文と対応する文を検索することができる(例えば非特許文献2参照)。
新里圭司、黒橋禎夫、「クエリの語句の重要度と係り受けを考慮した自然文検索」、第189回自然言語処理研究会,pp.113-120,2009 村上浩司、水野淳太、後藤隼人、大木環美、松吉俊、乾健太郎、松本裕治、「文間意味的関係認識による言論マップ生成」、言語処理学会第17回年次大会発表論文集,pp.559-562,2011
例えば、「シンデレラ」を検索するために、クエリ「クライマックスシーンは、靴があう女性を探して、最後は結婚したような?」を想定する。特許文献1及び2に記載された技術によれば、クエリ中から単語「靴、女性、探す、結婚」又は句「靴があう女性を探す」「女性と結婚する」を抽出して検索する。これらの単語又は句が文章中に含まれれば、「シンデレラ」以外の、例えば「白雪姫」のような文章も検索結果として出力される。
しかしながら、自然言語の文で表現された検索クエリには、時系列情報が含まれることが多い。例えば、クエリ「舞踏会に行って、靴を落とした」には、「舞踏会に行く」という出来事は、「靴を落とした」という出来事に対して、先に起きた出来事であるといえる。即ち、文の中から、出来事の時系列情報を読み取ることができる。
そこで、発明者らは、検索対象文章及びクエリから読み取った出来事の時系列情報を、検索に利用することによって高精度にクエリ検索を実行することができるのではないか、と考えた。
本発明は、検索対象文章及びクエリに含まれる時系列情報を考慮して検索することができる検索プログラム、装置、方法及びサーバを提供することを目的とする。
本発明によれば、クエリに基づいて文章を検索するようにコンピュータを機能させる検索プログラムにおいて、
文章識別子を付与された多数の文章を蓄積した文章集合蓄積手段と、
文章から、構成要素を抽出し、識別子を付与する構成要素抽出手段と、
述語項構造解析によって、文章から、格要素、格助詞及び述語からなる述語句を抽出する述語項構造解析手段と、
述語句について、構成要素と一致する格要素を、構成要素に対応する識別子に置換し、述語句に、文章中での述語句の出現順に昇順となる出現番号を付与する昇順述語句導出手段と、
出現番号と、述語と、文章識別子とを対応付けた述語テーブルを蓄積する検索インデックス蓄積手段と、
述語項構造解析によって、クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出するクエリ述語項構造解析手段と、
クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する識別子に置換し、クエリ述語句に、クエリ中でのクエリ述語句の出現順に昇順となるクエリ出現番号を付与する昇順クエリ述語句導出手段と、
クエリ述語について、クエリ出現番号順に述語テーブルに対して検索し、クエリ述語と一致する述語に対応する文章識別子及び出現番号からなる検索対を抽出する検索手段と、
検索対を抽出した順に整列した際に、検索対の出現番号が昇順になっていれば、文章識別子を出力する出現順照合手段と
してコンピュータを機能させることを特徴とする。
本発明の検索プログラムにおける他の実施形態によれば、文章中位置表現を蓄積した文章中位置表現蓄積手段を更に有し、
述語項構造解析手段は、更に、文章中に文章中位置表現があれば、その文章中位置表現を含む文又は句の前又は後で文章を分割し、分割した文章に文章中位置情報を付与し、
検索インデックス蓄積手段は、述語テーブルの述語に、更に文章中位置情報を対応付けて蓄積し、
クエリ述語項構造解析手段は、更に、クエリ中に文章中位置表現があれば、その文章中位置表現を含む文又は句の前又は後でクエリを分割し、分割したクエリ毎にクエリ中位置情報を付与し、
昇順クエリ述語句導出手段は、分割したクエリ毎に含まれるクエリ述語句に、クエリ中位置情報を更に付与し、
検索手段は、更に、クエリ中位置情報について、述語テーブルに対して検索し、クエリ中位置情報と一致する文章中位置情報に対応する文章識別子及び出現番号からなる検索対を抽出する
ようにコンピュータを機能させることも好ましい。
本発明の検索プログラムにおける他の実施形態によれば、評価に関する意味属性と対応付けられている評価語を蓄積した評価極性辞書蓄積手段と、
昇順述語句導出手段は、更に、述語について、評価極性辞書蓄積手段に対して検索し、述語と評価語が一致する場合、その評価語に対応付けられている意味属性を述語に付与し、
検索インデックス蓄積手段は、更に、出現番号と、意味属性と、文章中位置情報と、文章識別子とを対応付けた意味属性テーブルを蓄積し、
昇順クエリ述語句導出手段は、更に、クエリ述語について、評価極性辞書蓄積手段に対して検索し、クエリ述語と評価語が一致する場合、その評価語に対応付けられている意味属性をクエリ意味属性としてクエリ述語に付与し、
検索手段は、更に、クエリ意味属性及びクエリ中位置情報について、意味属性テーブルに対して検索し、クエリ意味属性及びクエリ中位置情報と一致する意味属性及び文章中位置情報に対応する文章識別子及び出現番号からなる検索対を抽出する
ようにコンピュータを機能させることも好ましい。
本発明の検索プログラムにおける他の実施形態によれば、検索インデックス蓄積手段は、更に、述語テーブル及び意味属性テーブル毎にスコアを有し、
検索手段は、更に、検索対にスコアを付与し、
出現順照合手段は、更に、スコアに基づいて、文章識別子毎に算出した文章識別子スコアを更に出力し、
文章識別子スコアを降順に整列したランキングを付与するランキング付与手段を更に有する
ようにコンピュータを機能させることも好ましい。
本発明の検索プログラムにおける他の実施形態によれば、構成要素抽出手段によって抽出された構成要素を蓄積する構成要素蓄積手段を更に有し、
構成要素は、昇順述語導出手段及び昇順クエリ述語導出手段によって参照される
ようにコンピュータを機能させることも好ましい。
本発明の検索プログラムにおける他の実施形態によれば、構成要素、格要素及びクエリ格要素は、名詞であり、
述語及びクエリ述語は、動詞、形容詞又はサ変動詞である
ようにコンピュータを機能させることも好ましい。
本発明によれば、クエリに基づいて文章を検索する検索装置において、
文章識別子を付与された多数の文章を蓄積した文章集合蓄積手段と、
文章から、構成要素を抽出し、識別子を付与する構成要素抽出手段と、
述語項構造解析によって、文章から、格要素、格助詞及び述語からなる述語句を抽出する述語項構造解析手段と、
述語句について、構成要素と一致する格要素を、構成要素に対応する識別子に置換し、述語句に、文章中での述語句の出現順に昇順となる出現番号を付与する昇順述語句導出手段と、
出現番号と、述語と、文章識別子とを対応付けた述語テーブルを蓄積する検索インデックス蓄積手段と、
述語項構造解析によって、クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出するクエリ述語項構造解析手段と、
クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する識別子に置換し、クエリ述語句に、クエリ中でのクエリ述語句の出現順に昇順となるクエリ出現番号を付与する昇順クエリ述語句導出手段と、
クエリ述語について、クエリ出現番号順に述語テーブルに対して検索し、クエリ述語と一致する述語に対応する文章識別子及び出現番号からなる検索対を抽出する検索手段と、
検索対を抽出した順に整列した際に、検索対の出現番号が昇順になっていれば、文章識別子を出力する出現順照合手段と
を有することを特徴とする。
本発明によれば、コンピュータを用いてクエリに基づいて文章を検索する検索方法において、
文章識別子を付与された多数の文章を蓄積した文章集合蓄積部と、
検索インデックスを蓄積する検索インデックス蓄積部とを有し、
文章から、構成要素を抽出し、識別子を付与する第1のステップと、
述語項構造解析によって、文章から、格要素、格助詞及び述語からなる述語句を抽出する第2のステップと、
述語句について、構成要素と一致する格要素を、構成要素に対応する識別子に置換し、述語句に、文章中での述語句の出現順に昇順となる出現番号を付与する第3のステップと、
出現番号と、述語と、文章識別子とを対応付けた述語テーブルを蓄積する第4のステップと、
述語項構造解析によって、クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出する第5のステップと、
クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する識別子に置換し、クエリ述語句に、クエリ中でのクエリ述語句の出現順に昇順となるクエリ出現番号を付与する第6のステップと、
クエリ述語について、クエリ出現番号順に述語テーブルに対して検索し、クエリ述語と一致する述語に対応する文章識別子及び出現番号からなる検索対を抽出する第7のステップと、
検索対を抽出した順に整列した際に、検索対の出現番号が昇順になっていれば、文章識別子を出力する第8のステップと
を有することを特徴とする。
本発明によれば、クエリに基づいて文章を検索する検索サーバにおいて、
端末から利用者の操作に応じて入力されたクエリを受信するクエリ受信手段と、
文章識別子を付与された多数の文章を蓄積した文章集合蓄積手段と、
文章から、構成要素を抽出し、識別子を付与する構成要素抽出手段と、
述語項構造解析によって、文章から、格要素、格助詞及び述語からなる述語句を抽出する述語項構造解析手段と、
述語句について、構成要素と一致する格要素を、構成要素に対応する識別子に置換し、述語句に、文章中での述語句の出現順に昇順となる出現番号を付与する昇順述語句導出手段と、
出現番号と、述語と、文章識別子とを対応付けた述語テーブルを蓄積する検索インデックス蓄積手段と、
述語項構造解析によって、クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出するクエリ述語項構造解析手段と、
クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する識別子に置換し、クエリ述語句に、クエリ中でのクエリ述語句の出現順に昇順となるクエリ出現番号を付与する昇順クエリ述語句導出手段と、
クエリ述語について、クエリ出現番号順に述語テーブルに対して検索し、クエリ述語と一致する述語に対応する文章識別子及び出現番号からなる検索対を抽出する検索手段と、
検索対を抽出した順に整列した際に、検索対の出現番号が昇順になっていれば、文章識別子を出力する出現順照合手段と
文章識別子を端末へ送信する文章識別子送信手段と
を有することを特徴とする。
本発明の検索プログラム、装置、方法及びサーバによれば、時系列情報を利用することによって、高精度なクエリ検索をすることができる。
本発明における検索プログラムの第1の機能構成図である。 本発明における検索インデックス作成の説明図である。 本発明におけるクエリに基づく検索の説明図である。 本発明における検索プログラムの第2の機能構成図である。 本発明における検索プログラムの第3の機能構成図である。 本発明におけるスコアに基づくランキング付与の第1の説明図である。 本発明におけるスコアに基づくランキング付与の第2の説明図である。 本発明における検索サーバのシステム構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における検索プログラムの第1の機能構成図である。
図2は、本発明における検索インデックス作成の説明図である。
図3は、本発明におけるクエリに基づく検索の説明図である。
図1によれば、検索プログラム1は、クエリに基づいて文章を検索するものであって、文章集合蓄積部10と、構成要素蓄積部111と、構成要素抽出部121と、述語項構造解析部122と、昇順述語句導出部123と、検索インデックス蓄積部124と、クエリ述語項構造解析部132と、昇順クエリ述語句導出部133と、検索部134と、出現順照合部135とを有する。文章集合蓄積部10を除くこれら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。尚、各機能部の処理の流れは、検索方法としても実行できる。
文章集合蓄積部10は、多数の文章を蓄積する。文章は、例えばWebサーバ上に公開されているコンテンツに関する文章であって、コンテンツに関するあらすじ又は登場人物情報のようなものである。蓄積されている文章には、それぞれ文章識別子が付与される。
構成要素抽出部121は、文章識別子を付与された文章を入力し、その文章から構成要素を抽出する。構成要素は、人、モノ又は場所のような「名詞」とする。また、構成要素は、固有名詞(人名、地名)、日付又は時間のような固有表現を固有表現解析器によって抽出されるものであってもよい。
ここでは、文章識別子「1」が付与された『シンデレラ』に関する以下の文章から、構成要素を抽出する(図2の文章集合蓄積部10参照)。
『シンデレラ』,文章識別子=1
シンデレラという名の女の子がいた
最初、シンデレラは、継母とその連れ子にいじめられていた
不思議な力の助けで、シンデレラは舞踏会に行く
シンデレラは、城で王子に見初められる
シンデレラは、階段に靴を落としてしまう
王子は、靴を手がかりにシンデレラを捜す
王子は、シンデレラを迎える
最後、シンデレラは、王子と結婚する
構成要素として、例えば、「シンデレラ」「女の子」「継母」等を抽出する。また、『シンデレラ』に関する文章として、例えば、映画データベース又はWikipedia(登録商標)のようなものがあれば、役名が記載されている箇条書き情報に基づいて登場人物名を抽出してもよい。更に、代名詞(例えば、彼、彼女、女の子)が抽出された場合、直前に出現した固有名詞と同一と認識してもよい。抽出された構成要素には、識別子が付与される。識別子は、例えば以下のように、文章中での出現順に付与されるものであってもよい。識別子を付与された構成要素は、構成要素蓄積部111へ出力される(図2の構成要素抽出部121及び構成要素蓄積部111参照)。
識別子 構成要素
(1) シンデレラ
(1) 女の子
(2) 継母
(3) 連れ子
: :
また、構成要素抽出部121は、構成要素として、二項関係を抽出するものであってもよい。二項関係には、例えば、以下に示すものがある。
同義関係 (例:人物名とその略称、愛称)
上位下位関係(例:人物名とその職業の関係)
部分全体関係(例:モノとそのモノを構成する物体)
所有関係 (例:人物名とその人物が所有する関係)
人物相関関係(例:人物間の親子関係、恋愛関係)
位置関係 (例:人物名とその人物が存在する場所)
述語項構造解析とは、文章中の述語に対して、主格、目的格のような格情報を特定し、文構造を捉える技術をいう。格情報は、格助詞によって特定される。格助詞とは、名詞又は名詞に準ずる語に付き、その語が他の語に対してどのような関係に立つかを示す助詞である。格助詞には、ガ、ヲ、ニ、ヘ、デ、ト、カラ等がある。
述語項構造解析部122は、述語項構造解析によって、文章集合蓄積部10に蓄積されている文章から、格要素、格助詞及び述語からなる述語句を抽出する。構成要素及び格要素は、名詞であってもよい。また、述語は、動詞、形容詞又はサ変動詞であってもよい。抽出された述語句は、昇順述語句導出部123へ出力される。
ここでは、『シンデレラ』に関する文章(図2の文章集合蓄積部10参照)から、以下の述語句を抽出する。
継母 ガ シンデレラ ヲ いじめる
不思議な力 ガ シンデレラ ヲ 助ける
シンデレラ ガ 舞踏会 ニ 行く
王子 ガ シンデレラ ヲ 城 デ 見初める
シンデレラ ガ 靴 ヲ 階段 ニ 落とす

シンデレラ ガ 王子 ト 結婚する
述語句は、格要素、格助詞及び述語から構成される。例えば、述語句「継母 ガ シンデレラ ヲ いじめる」は、以下のように構成される。抽出された述語句は、昇順述語句導出部123へ出力される(図2の述語項構造解析部122参照)。
継母 (格要素)
ガ (格助詞)
シンデレラ(格要素)
ヲ (格助詞)
いじめる (述語)
昇順述語句導出部123は、述語項構造解析部122から述語句を入力する。昇順述語句導出部123は、構成要素蓄積部111に蓄積されている構成要素と、述語句中の格要素とが一致する場合、述語句中の格要素を、構成要素に付与されている識別子に置換する。次に、述語句に対して、文章中での述語句の出現順に昇順となる出現番号を付与する。格要素を識別子に置換され、出現番号を付与された述語句は、検索インデックス蓄積部124へ出力される。
本発明では、時系列情報は、文章中の単語又は句の出現順序によって表されるものとする。例えば、「舞踏会に行って、靴を落とした」という文を時系列で見ると、「舞踏会に行く」という出来事が、「靴を落とした」という出来事よりも先に起こっている。この文を文中の単語又は句の出現順序で見ると、「舞踏会に行く」という句が、「靴を落とした」とうい句よりも前に出現している。これにより、述語句の出現順に付与された出現番号は、時系列を表すことになる。
ここでは、述語句「継母 ガ シンデレラ ヲ いじめる」を述語項構造解析部122から入力する。昇順述語句導出部123は、構成要素蓄積部111に蓄積されている構成要素と、述語句中の格要素を照合する。構成要素蓄積部111には、以下の構成要素が蓄積されている。
識別子 構成要素
(1) シンデレラ
(1) 女の子
(2) 継母
(3) 連れ子
(4) 舞踏会
(5) 王子
(6) 城
(7) 階段
(8) 靴
格要素「継母」は、識別子(2)を付与されている構成要素「継母」と一致するので、識別子(2)に置換される。同様に、格要素「シンデレラ」は、識別子(1)に置換される。述語句「継母 ガ シンデレラ ヲ いじめる」は、文章中で最初に出現している述語句なので、出現番号(1)が付与される。
尚、構成要素を識別番号に置換できない述語句は、除外してもよい。例えば、述語句「不思議な力 ガ シンデレラ ヲ 助ける」の格要素「不思議な力」は、構成要素蓄積部111の構成要素にないため、識別子に置換することができない。そのために、この述語句は、除外してもよい(図2の構成要素蓄積部111及び昇順述語句導出部123参照)。
検索インデックス蓄積部124は、出現番号を付与された述語句を入力する。検索インデックス蓄積部124は、出現番号と、述語句中の述語と、前記文章識別子とを対応付けた述語テーブルを蓄積する(図2の検索インデックス蓄積部124参照)。
クエリ述語項構造解析部132は、クエリを入力する。クエリ述語項構造解析部132は、述語項構造解析によって、入力したクエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出する。クエリ格要素は、名詞であってもよい。また、クエリ述語は、動詞、形容詞又はサ変動詞であってもよい。
ここでは、クエリ述語項構造解析部132は、クエリとして、「最初、いじめられていた女の子が、靴を落として、ラストシーンで、王子と結婚する話」を入力する。クエリ述語項構造解析部132は、入力されたクエリから、以下のクエリ述語句を抽出する。
女の子 ヲ いじめる
女の子 ガ 靴 ヲ 落とす
女の子 ガ 王子 ト 結婚する
クエリ述語句は、クエリ格要素、クエリ格助詞及びクエリ述語から構成される。例えば、述語句「女の子 ガ 靴 ヲ 落とす」は、以下のように構成される。抽出された述語句は、昇順クエリ述語句導出部133へ出力される(図3のクエリ述語項構造解析部132参照)。
女の子 (クエリ格要素)
ガ (クエリ格助詞)
王子 (クエリ格要素)
ト (クエリ格助詞)
結婚する (クエリ述語)
昇順クエリ述語句導出部133は、クエリ述語項構造解析部132からクエリ述語句を入力する。昇順クエリ述語句導出部133は、構成要素蓄積部111に蓄積されている構成要素と、クエリ述語句中のクエリ格要素とが一致する場合、クエリ述語句中の格要素を、構成要素に付与されている識別子に置換する。次に、クエリ述語句に対して、クエリ中でのクエリ述語句の出現順に昇順となるクエリ出現番号を付与する。クエリ出現番号を付与されたクエリ述語句は、検索部134へ出力される。
ここでは、昇順クエリ述語句導出部133は、クエリ述語句「女の子 ガ 王子 ト 結婚する」をクエリ述語項構造解析部132から入力する。昇順クエリ述語句導出部133は、構成要素蓄積部111に蓄積されている構成要素と、クエリ述語句中のクエリ格要素を照合する。クエリ格要素が構成要素と一致する場合、クエリ格要素は構成要素と対応付けられている識別子に置換される。クエリ格要素「女の子」は識別子(1)に、クエリ格要素「王子」は識別子(5)に置換される。また、クエリ述語句「女の子 ガ 王子 ト 結婚する」は、クエリ中で3番目に出現しているクエリ述語句なので、クエリ出現番号(3)が付与される(図3の昇順クエリ述語句導出部133参照)。
検索部134は、クエリ出現番号順に、入力されたクエリ述語について、検索インデックス蓄積部124に蓄積された述語テーブルを検索する。クエリ述語が、述語テーブルの述語と一致する場合、その述語に対応する文章識別子及び出現番号を検索対として抽出する。抽出された検索対は、出現順照合部135へ出力される。
ここでは、以下のクエリ述語句を入力する。
クエリ出現番号 クエリ述語句
1 女の子 ヲ いじめる
2 女の子 ガ 靴 ヲ 落とす
3 女の子 ガ 王子 ト 結婚する
また、検索インデックス蓄積部124には、以下の述語テーブルが蓄積されている。
出現番号 述語 文章識別子
1 いじめる 1
2 行く 1
3 見初める 1
4 落とす 1
5 捜す 1
6 迎える 1
7 結婚する 1
検索部134は、クエリ出現番号順「1」が付与されているクエリ述語句中のクエリ述語「いじめる」について、述語テーブルを検索する。クエリ述語「いじめる」は、述語テーブル中の述語「いじめる」と一致する。そこで、検索部134は、文章識別子「1」及び出現番号「1」からなる検索対を抽出する。同様にして、検索部134は、クエリ出現番号順に、以下の検索対を抽出する。抽出された検索対は、抽出された順に出現順照合部135へ出力される(図3の検索部134、検索インデックス蓄積部124参照)。
クエリ述語 文章識別子 出現番号
いじめる --> 1 1
落とす --> 1 4
結婚する --> 1 7
尚、検索部134は、オントロジ(ontology)を用いて、述語テーブルを検索するものであってもよい。オントロジとは、特定の分野における概念や用語について、概念自体若しくは用語自体、又は、概念間若しくは用語間の関係を定義する情報からなるデータベースをいう。ここで、特定の分野とは、工学、理学、法学又は経済学のような分野をいう。
また、検索部134は、シソーラス(thesaurus)を用いて、述語テーブルを検索するものであってもよい。シソーラスとは、単語を同義語、意味上の類似関係又は包含関係によって分類したデータベースをいう。
出現順照合部135は、検索対を、抽出された順に整列する。ここで、検索対の出現番号が昇順になっていれば、出現順照合部135は、検索対の文章識別子を出力する。
図4は、本発明における検索プログラムの第2の機能構成図である。
図4によれば、図1と比較して、文章中位置表現蓄積部112が、検索プログラム1に配置されている。
文章中位置表現蓄積部112は、話題の転換点を示す文章中位置表現を蓄積する。話題の転換点を示す表現には、例えば、接続詞の「そこで」「しかし」「すると」、文中の位置を示す語である「最初」「最後」「はじめに」「おわりに」「ラスト」及び順序を示す語である「次に」「それから」がある。
述語項構造解析部122は、文章中位置表現蓄積部112を参照し、文章集合蓄積部10から入力した文章中に文章中位置表現があれば、その文章中位置表現を含む文又は句の前又は後で文章を分割する。ここで、文とは、句点又は改行コードで区切られた文字列をいう。また、句とは、文の部分となるものであって、機能的に単語と等価ではあるが複数の単語からなるものをいう。文章は「先頭」「中央」「末尾」の3つに分割され、分割された文章には、「先頭」「中央」「末尾」のような文章中位置情報が付与付される。文章中位置表現によって文章を分割した結果、分割数が4以上になる場合は、最初の部分を「先頭」、最後の部分を「末尾」とし、その他の部分を「中央」とする。一方、分割数が3未満になる場合は、文又は句の単位に基づいて文章を「先頭」「中央」「末尾」に3分割する。
例えば、「最初、シンデレラは、継母とその連れ子にいじめられていた」という文には、文章中位置表現である「最初」が出現するので、その文の後で文章を分割する。また、「最後、シンデレラは、王子と結婚する」という文には、文章中位置表現である「最後」が出現するので、その文の前で文章を分割する。
先頭:シンデレラという名の女の子がいた
先頭:最初、シンデレラは、継母とその連れ子にいじめられていた
中央:不思議な力の助けで、シンデレラは舞踏会に行く
中央:シンデレラは、城で王子に見初められる
中央:シンデレラは、階段に靴を落としてしまう
中央:王子は、靴を手がかりにシンデレラを捜す
中央:王子は、シンデレラを迎える
末尾:最後、シンデレラは、王子と結婚する
述語項構造解析部122は、述語句に文章中位置情報を対応付けて、昇順述語句導出部123へ出力する。昇順述語句導出部123も、述語句に文章中位置情報を対応付けて、検索インデックス蓄積部124へ出力する。検索インデックス蓄積部124は、述語テーブルの述語に、更に文章中位置情報を対応付けて蓄積する。
クエリ述語項構造解析部132は、文章中位置表現蓄積部112を参照し、クエリ中に文章中位置表現があれば、その文章中位置表現の前又は後でクエリを分割する。分割されたクエリには、「先頭」「中央」「末尾」のような文章中位置情報が付与付される。
例えば、「最初、いじめられていた女の子が、靴を落として、ラストシーンで、王子と結婚する話」というクエリには、文章中位置表現である「最初」が出現するので、「最初」を含む句の後でクエリを分割する。また、このクエリには、文章中位置表現である「ラスト」も出現するので、「ラスト」を含む句の前でクエリを分割する。
先頭:最初、いじめられていた女の子が、
中央:靴を落として、
末尾:ラストシーンで、王子と結婚する話
クエリ述語項構造解析部132は、クエリ述語句に文章中位置情報を対応付けて、昇順クエリ述語句導出部133へ出力する。昇順クエリ述語句導出部133も、クエリ述語句に文章中位置情報を対応付けて、検索部134へ出力する。
検索部134は、クエリ中位置情報について、述語テーブルを検索し、クエリ中位置情報と一致する文章中位置情報に対応する文章識別子及び出現番号からなる検索対を抽出する。
また、検索部134は、クエリ中位置情報に基づき、文章を検索する順序を変更してもよい。例えば、「最初、いじめられていた女の子が、靴を落として、ラストシーンで、王子と結婚する話」というクエリには、クエリ中位置情報「ラスト」が含まれている。そこで、それ以降の「王子と結婚する」については、文章中位置情報「先頭」及び「中央」が付与されているものよりも先に、文章中位置情報「末尾」が付与されているものを検索してもよい。
図5は、本発明における検索プログラムの第3の機能構成図である。
図5によれば、図1と比較して、評価極性辞書蓄積部113が、検索プログラム1に配置されている。
評価極性辞書蓄積部113は、評価に関する意味属性と対応付けられている評価語を蓄積する。評価語は、例えば、以下のように肯定(ポジティブ)又は否定(ネガティブ)の意味属性と対応付けられているものであってもよい。
評価語 意味属性
いじめる ネガティブ
結婚する ポジティブ
貧乏だ ネガティブ
プレゼントする ポジティブ
よろこぶ ポジティブ
: :
昇順述語句導出部123は、予め文章中位置情報が付与されている述語句に含まれる述語について、評価極性辞書蓄積部113を検索する。述語が評価語と一致する場合、昇順述語句導出部123は、その評価語に対応付けられている意味属性を述語に付与する。
例えば、「(2) ガ (1) ヲ いじめる」という述語句に含まれる述語は、評価語「いじめる」と一致する。そこで、昇順述語句導出部123は、述語「いじめる」に意味属性として「ネガティブ」を付与する。尚、述語が一致する評価語がない場合は、以下のように、意味属性として「中立」を付与してもよい。昇順述語句導出部123は、出現番号と、述語句と、文章中位置情報と、意味属性とを検索インデックス蓄積部124へ出力する。
出現番号 述語句 (述語) 文章中位置 意味属性
1 (2) ガ (1) ヲ いじめる 先頭 ネガティブ
2 (1) ガ (4) ニ 行く 中央 中立
3 (5) ガ (1) ヲ (6) デ 見初める 中央 ポジティブ
4 (1) ガ (8) ヲ (7) ニ 落とす 中央 中立
5 (5) ガ (1) ヲ 捜す 中央 中立
6 (5) ガ (1) ヲ (6) ニ 迎える 中央 中立
7 (1) ガ (5) ト 結婚する 末尾 ポジティブ
検索インデックス蓄積部124は、出現番号と、文章中位置情報と、意味属性と、文章識別子とを対応付けた意味属性テーブルを蓄積する。例えば、以下に示す、意味属性テーブルを検索インデックス蓄積部124に蓄積する。
昇順クエリ述語句導出部133は、予めクエリ中位置情報が付与されているクエリ述語句に含まれるクエリ述語について、評価極性辞書蓄積部113を検索する。クエリ述語が評価語と一致する場合、昇順クエリ述語句導出部133は、以下のように、その評価語に対応付けられている意味属性をクエリ意味属性としてクエリ述語に付与する。クエリ出現番号と、クエリ中位置と、クエリ意味属性とを付与されたクエリ述語句は、検索部134へ出力される。
検索部134は、クエリ出現番号順に、クエリ意味属性及びクエリ中位置情報について、検索インデックス蓄積部124に蓄積された意味属性テーブルを検索する。クエリ意味属性及びクエリ中位置情報が、意味属性テーブルの意味属性及び文中位置と一致する場合、それらに対応する文章識別子及び出現番号を検索対として抽出する。抽出された検索対は、出現順照合部135へ出力される。
ここでは、以下のクエリ述語句を入力する。
クエリ出現番号 クエリ述語句 (述語) クエリ中位置情報 クエリ意味属性
1 (1)ヲ いじめる 先頭 ネガティブ
2 (1)ガ(8)ヲ 落とす 中央 中立
3 (1)ガ(5)ト 結婚する 末尾 ポジティブ
また、検索インデックス蓄積部124には、以下の意味属性テーブルが蓄積されている。
出現番号 意味属性 文章中位置情報 文章識別子
1 ネガティブ 先頭 1
2 ポジティブ 末尾 1
1 ネガティブ 先頭 2
2 ポジティブ 末尾 2
1 ネガティブ 先頭 3
2 ポジティブ 末尾 3
検索部134は、クエリ出現番号順「1」が付与されているクエリ述語句「(1)ヲいじめる」に付与されているクエリ中位置情報「先頭」及びクエリ意味属性「ネガティブ」について、意味属性テーブルを検索する。クエリ中位置情報「先頭」及びクエリ意味属性「ネガティブ」は、意味属性テーブル中の文章中位置情報「先頭」及び意味属性「ネガティブ」と一致する。そこで、検索部134は、文章識別子「1」及び出現番号「1」と、文章識別子「2」及び出現番号「1」と、文章識別子「3」及び出現番号「1」と、からなる検索対を抽出する。同様にして、検索部134は、クエリ出現番号順に、以下の検索対を抽出する。抽出された検索対は、抽出された順に出現順照合部135へ出力される。
クエリ中位置情報 クエリ意味属性 文章識別子 出現番号
先頭 ネガティブ --> 1 1
先頭 ネガティブ --> 2 1
先頭 ネガティブ --> 3 1
末尾 ポジティブ --> 1 2
末尾 ポジティブ --> 2 2
末尾 ポジティブ --> 3 2
図6は、本発明におけるスコアに基づくランキング付与の第1の説明図である。
図6によれば、文章集合蓄積部10には、文章識別子「1」が付与された『シンデレラ』に関する文章の他に、以下の文章識別子「2」が付与された『小人の靴屋』に関する文章及び文章識別子「3」が付与された『赤い靴』に関する文章が蓄積されている。
『小人の靴屋』,文章識別子=2
貧乏な靴屋がいた
靴屋は残り僅かな革を靴の形に切り寝てしまった
ところが、靴屋が目覚めると立派な靴ができていた
この靴をお金持ちが高額で買い取った
靴屋は繁盛する
そこで、靴屋が不思議に思い、夜中に見張っていると、裸の小人が靴を作っていた
靴屋は小人に服と靴をプレゼントする
小人は喜び靴屋から出て行く
その後も靴屋は繁盛した
『赤い靴』,文章識別子=3
貧しい少女カーレンは、病気の母親と暮らしていた
その後、母親は死んでしまった
カーレンは、老婦人に引き取られた
ある日、カーレンは赤い靴を衝動的に買ってしまう
老婦人が病気で倒れるが、カーレンはその靴を履いて舞踏会へ行く
カーレンの足は踊り続け、靴を脱ぐこともできなくなる
とうとうカーレンは、首斬り役人に両足を切断して貰う
カーレンは、頑張ってボランティアをした
その結果、カーレンは、天に召された
検索インデックス蓄積部124には、3つの文章に基づいて生成された述語テーブル及び意味テーブルが蓄積されている。述語テーブル及び意味属性テーブルには、それぞれスコアが設定されている。例えば、述語テーブルにはスコア0.5が、意味属性テーブルにはスコア0.3が設定されている。また、それぞれのテーブル内、出現番号は、文章識別子毎の通し番号をなっている。
<述語テーブル スコア=0.5>
出現番号 述語 文章識別子 文章中位置情報
1 いじめる 1 先頭
2 行く 1 中央
3 見初める 1 中央
: : :
1 貧乏だ 2 先頭
2 切る 2 先頭
: : :
11 喜ぶ 2 中央
12 繁盛する 2 末尾
: : :
1 暮らす 3 先頭
10 天に召される 3 末尾
: : :
<意味属性テーブル スコア=0.3>
出現番号 意味属性 文章中位置情報 文章識別子
1 ネガティブ 先頭 1
2 ポジティブ 末尾 1
1 ネガティブ 先頭 2
2 ポジティブ 末尾 2
1 ネガティブ 先頭 3
2 ポジティブ 末尾 3
図7は、本発明におけるスコアに基づくランキング付与の第2の説明図である。
図7によれば、図3と比較して、ランキング付与部136が配置されている。
検索部134は、抽出した検索対に対して、テーブル毎に設定されているスコアを付与し、出現順照合部135へ出力する。出現順照合部135は、検索対に付与されているスコアに基づいて、文章識別子毎に文章識別子スコアを算出する。文章識別子及び文章識別子スコアは、ランキング付与部136へ出力される。
例えば、述語テーブルに基づいて抽出された検索対のうち、文章識別子が「1」である検索対を抽出された順に整列すると、出現番号は昇順になる。同様に、意味属性テーブルに基づいて抽出された検索対のうち、文章識別子が「1」である検索対を抽出された順に整列すると、出現番号は昇順になる。そこで、出現順照合部135は、文章識別子「1」の文章識別子スコアとして、0.8(0.5+0.3)を算出する。出現順照合部135は、文章識別子「1」と共に文章識別子スコア「0.8」をランキング付与部136へ出力する。これに対して、文章識別子が「2」及び「3」である検索対は、意味属性テーブルに基づいて抽出されたものに限られる。これらの検索対は、抽出された順に整列すると、出現番号が昇順になる。そこで、出現順照合部135は、文章識別子「2」及び「3」の文章識別子スコアとして、0.3(0+0.3)を算出する。
ランキング付与部136は、文章識別子スコアを降順に整列したランキングを付与する。ここでは、文章識別子スコアが0.8となった文章識別子「1」が、最上位のランキングを付与される。
尚、検索対を抽出された順に整列した際に出現番号が昇順にならなければ、文章識別子スコアを算出する際に、テーブル毎に設定されているスコアの2倍を減算してもよい。
図8は、本発明における検索サーバのシステム構成図である。
図8によれば、検索サーバ2は、通信インタフェース部20と、クエリ受信部21と、文章識別子送信部22とを有する。検索サーバ2は、通信インタフェース部20を介してインターネットに接続する。また、検索サーバ2は、インターネット及び通信インタフェース部20を介して、ユーザ端末4から接続される。
また、図8によれば、検索サーバ2は、インターネットを介して、Webサーバ31と、ブログサーバ32と、SNS(Social Networking Service)サーバ33と通信することができる。また、ブログサーバ32は、ユーザ端末4から接続される。
Webサーバ31は、Web文書を公開する。検索サーバ2は、インターネットを介して、Webサーバ31から、そのWeb文書を文章集合蓄積部10に蓄積する文章として取得する。また、ブログサーバ32及びSNSサーバ33は、ユーザ端末4から受信した、投稿文章であるブログテキストをWeb文書として公開する。検索サーバ2は、インターネットを介して、ブログサーバ32及びSNSサーバ33から、そのWeb文書を文章集合蓄積部10に蓄積する文章として取得する。
クエリ受信部21は、通信インタフェース部20を介して、端末から利用者の操作に応じて入力されたクエリを受信する。入力されたクエリは、検索プログラム1へ出力される。検索プログラム1は、図1で詳述した機能構成部と同様に機能する。
文章識別子送信部22は、通信インタフェース部20を介して、文章識別子をユーザ端末4へ返信する。
本発明をこのようなシステムに適用することによって、他の用途として、例えばVOD(Video On Demand)検索又は書籍検索のような検索システムとして実現できる。
以上、詳細に説明したように、本発明の検索プログラム、装置、方法及びサーバによれば、検索対象文章及びクエリに含まれる時系列情報を考慮して検索することができる。また、本発明によれば、検索対象文章に対して、クエリの情報を補完することによって、検索の精度を高めていくこともできる。更に、時系列情報に基づいて文章を検索する順序を変更することにより、効率的な検索をすることができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 検索プログラム
10 文章集合蓄積部
111 構成要素蓄積部
112 文章中位置表現蓄積部
113 評価極性辞書蓄積部
121 構成要素抽出部
122 述語項構造解析部
123 昇順述語句導出部
124 検索インデックス蓄積部
132 クエリ述語項構造解析部
133 昇順クエリ述語句導出部
134 検索部
135 出現順照合部
136 ランキング付与部
2 検索サーバ
20 通信インタフェース部
21 クエリ受信部
22 文章識別子送信部
31 Webサーバ
32 ブログサーバ
33 SNSサーバ
4 ユーザ端末

Claims (9)

  1. クエリに基づいて文章を検索するようにコンピュータを機能させる検索プログラムにおいて、
    文章識別子を付与された多数の文章を蓄積した文章集合蓄積手段と、
    前記文章から、構成要素を抽出し、識別子を付与する構成要素抽出手段と、
    述語項構造解析によって、前記文章から、格要素、格助詞及び述語からなる述語句を抽出する述語項構造解析手段と、
    前記述語句について、構成要素と一致する格要素を、構成要素に対応する前記識別子に置換し、前記述語句に、前記文章中での述語句の出現順に昇順となる出現番号を付与する昇順述語句導出手段と、
    前記出現番号と、前記述語と、前記文章識別子とを対応付けた述語テーブルを蓄積する検索インデックス蓄積手段と、
    述語項構造解析によって、前記クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出するクエリ述語項構造解析手段と、
    前記クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する前記識別子に置換し、前記クエリ述語句に、前記クエリ中での前記クエリ述語句の出現順に昇順となるクエリ出現番号を付与する昇順クエリ述語句導出手段と、
    前記クエリ述語について、クエリ出現番号順に前記述語テーブルに対して検索し、前記クエリ述語と一致する前記述語に対応する前記文章識別子及び前記出現番号からなる検索対を抽出する検索手段と、
    前記検索対を抽出した順に整列した際に、前記検索対の前記出現番号が昇順になっていれば、前記文章識別子を出力する出現順照合手段と
    してコンピュータを機能させることを特徴とする検索プログラム。
  2. 文章中位置表現を蓄積した文章中位置表現蓄積手段を更に有し、
    前記述語項構造解析手段は、更に、前記文章中に前記文章中位置表現があれば、該文章中位置表現を含む文又は句の前又は後で前記文章を分割し、分割した文章に文章中位置情報を付与し、
    前記検索インデックス蓄積手段は、前記述語テーブルの前記述語に、更に前記文章中位置情報を対応付けて蓄積し、
    前記クエリ述語項構造解析手段は、更に、前記クエリ中に前記文章中位置表現があれば、該文章中位置表現を含む文又は句の前又は後で前記クエリを分割し、分割したクエリ毎にクエリ中位置情報を付与し、
    前記昇順クエリ述語句導出手段は、分割したクエリ毎に含まれる前記クエリ述語句に、前記クエリ中位置情報を更に付与し、
    前記検索手段は、更に、前記クエリ中位置情報について、前記述語テーブルに対して検索し、前記クエリ中位置情報と一致する前記文章中位置情報に対応する前記文章識別子及び前記出現番号からなる検索対を抽出する
    ようにコンピュータを機能させることを特徴とする請求項1に記載の検索プログラム。
  3. 評価に関する意味属性と対応付けられている評価語を蓄積した評価極性辞書蓄積手段と、
    前記昇順述語句導出手段は、更に、前記述語について、前記評価極性辞書蓄積手段に対して検索し、前記述語と前記評価語が一致する場合、該評価語に対応付けられている意味属性を前記述語に付与し、
    前記検索インデックス蓄積手段は、更に、前記出現番号と、前記意味属性と、前記文章中位置情報と、前記文章識別子とを対応付けた意味属性テーブルを蓄積し、
    前記昇順クエリ述語句導出手段は、更に、前記クエリ述語について、前記評価極性辞書蓄積手段に対して検索し、前記クエリ述語と前記評価語が一致する場合、該評価語に対応付けられている意味属性をクエリ意味属性としてクエリ述語に付与し、
    前記検索手段は、更に、前記クエリ意味属性及び前記クエリ中位置情報について、前記意味属性テーブルに対して検索し、前記クエリ意味属性及び前記クエリ中位置情報と一致する前記意味属性及び前記文章中位置情報に対応する前記文章識別子及び前記出現番号からなる検索対を抽出する
    ようにコンピュータを機能させることを特徴とする請求項2に記載の検索プログラム。
  4. 前記検索インデックス蓄積手段は、更に、述語テーブル及び意味属性テーブル毎にスコアを有し、
    前記検索手段は、更に、前記検索対に前記スコアを付与し、
    前記出現順照合手段は、更に、前記スコアに基づいて、前記文章識別子毎に算出した文章識別子スコアを更に出力し、
    前記文章識別子スコアを降順に整列したランキングを付与するランキング付与手段を更に有する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の検索プログラム。
  5. 前記構成要素抽出手段によって抽出された前記構成要素を蓄積する構成要素蓄積手段を更に有し、
    前記構成要素は、前記昇順述語導出手段及び前記昇順クエリ述語導出手段によって参照される
    ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載の検索プログラム。
  6. 前記構成要素、前記格要素及びクエリ格要素は、名詞であり、
    前記述語及び前記クエリ述語は、動詞、形容詞又はサ変動詞である
    ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載の検索プログラム。
  7. クエリに基づいて文章を検索する検索装置において、
    文章識別子を付与された多数の文章を蓄積した文章集合蓄積手段と、
    前記文章から、構成要素を抽出し、識別子を付与する構成要素抽出手段と、
    述語項構造解析によって、前記文章から、格要素、格助詞及び述語からなる述語句を抽出する述語項構造解析手段と、
    前記述語句について、構成要素と一致する格要素を、構成要素に対応する前記識別子に置換し、前記述語句に、前記文章中での述語句の出現順に昇順となる出現番号を付与する昇順述語句導出手段と、
    前記出現番号と、前記述語と、前記文章識別子とを対応付けた述語テーブルを蓄積する検索インデックス蓄積手段と、
    述語項構造解析によって、前記クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出するクエリ述語項構造解析手段と、
    前記クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する前記識別子に置換し、前記クエリ述語句に、前記クエリ中での前記クエリ述語句の出現順に昇順となるクエリ出現番号を付与する昇順クエリ述語句導出手段と、
    前記クエリ述語について、クエリ出現番号順に前記述語テーブルに対して検索し、前記クエリ述語と一致する前記述語に対応する前記文章識別子及び前記出現番号からなる検索対を抽出する検索手段と、
    前記検索対を抽出した順に整列した際に、前記検索対の前記出現番号が昇順になっていれば、前記文章識別子を出力する出現順照合手段と
    を有することを特徴とする検索装置。
  8. コンピュータを用いてクエリに基づいて文章を検索する検索方法において、
    文章識別子を付与された多数の文章を蓄積した文章集合蓄積部と、
    検索インデックスを蓄積する検索インデックス蓄積部とを有し、
    前記文章から、構成要素を抽出し、識別子を付与する第1のステップと、
    述語項構造解析によって、前記文章から、格要素、格助詞及び述語からなる述語句を抽出する第2のステップと、
    前記述語句について、構成要素と一致する格要素を、構成要素に対応する前記識別子に置換し、前記述語句に、前記文章中での述語句の出現順に昇順となる出現番号を付与する第3のステップと、
    前記出現番号と、前記述語と、前記文章識別子とを対応付けた述語テーブルを蓄積する第4のステップと、
    述語項構造解析によって、前記クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出する第5のステップと、
    前記クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する前記識別子に置換し、前記クエリ述語句に、前記クエリ中での前記クエリ述語句の出現順に昇順となるクエリ出現番号を付与する第6のステップと、
    前記クエリ述語について、クエリ出現番号順に前記述語テーブルに対して検索し、前記クエリ述語と一致する前記述語に対応する前記文章識別子及び前記出現番号からなる検索対を抽出する第7のステップと、
    前記検索対を抽出した順に整列した際に、前記検索対の前記出現番号が昇順になっていれば、前記文章識別子を出力する第8のステップと
    を有することを特徴とする検索方法。
  9. クエリに基づいて文章を検索する検索サーバにおいて、
    端末から利用者の操作に応じて入力されたクエリを受信するクエリ受信手段と、
    文章識別子を付与された多数の文章を蓄積した文章集合蓄積手段と、
    前記文章から、構成要素を抽出し、識別子を付与する構成要素抽出手段と、
    述語項構造解析によって、前記文章から、格要素、格助詞及び述語からなる述語句を抽出する述語項構造解析手段と、
    前記述語句について、構成要素と一致する格要素を、構成要素に対応する前記識別子に置換し、前記述語句に、前記文章中での述語句の出現順に昇順となる出現番号を付与する昇順述語句導出手段と、
    前記出現番号と、前記述語と、前記文章識別子とを対応付けた述語テーブルを蓄積する検索インデックス蓄積手段と、
    述語項構造解析によって、前記クエリから、クエリ格要素、クエリ格助詞及びクエリ述語からなるクエリ述語句を抽出するクエリ述語項構造解析手段と、
    前記クエリ述語句について、構成要素と一致するクエリ格要素を、構成要素に対応する前記識別子に置換し、前記クエリ述語句に、前記クエリ中での前記クエリ述語句の出現順に昇順となるクエリ出現番号を付与する昇順クエリ述語句導出手段と、
    前記クエリ述語について、クエリ出現番号順に前記述語テーブルに対して検索し、前記クエリ述語と一致する前記述語に対応する前記文章識別子及び前記出現番号からなる検索対を抽出する検索手段と、
    前記検索対を抽出した順に整列した際に、前記検索対の前記出現番号が昇順になっていれば、前記文章識別子を出力する出現順照合手段と
    前記文章識別子を前記端末へ送信する文章識別子送信手段と
    を有することを特徴とする検索サーバ。
JP2012041524A 2012-02-28 2012-02-28 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ Active JP5717297B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012041524A JP5717297B2 (ja) 2012-02-28 2012-02-28 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012041524A JP5717297B2 (ja) 2012-02-28 2012-02-28 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ

Publications (2)

Publication Number Publication Date
JP2013178633A JP2013178633A (ja) 2013-09-09
JP5717297B2 true JP5717297B2 (ja) 2015-05-13

Family

ID=49270215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012041524A Active JP5717297B2 (ja) 2012-02-28 2012-02-28 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ

Country Status (1)

Country Link
JP (1) JP5717297B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6165068B2 (ja) * 2014-01-17 2017-07-19 Kddi株式会社 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法
JP6223301B2 (ja) * 2014-08-27 2017-11-01 Kddi株式会社 コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置
JP6080137B1 (ja) * 2015-08-14 2017-02-15 Psソリューションズ株式会社 対話インターフェース
JP6646014B2 (ja) * 2017-06-26 2020-02-14 日本電信電話株式会社 類似文書検索装置、類似性計算装置、これらの方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JP2004206608A (ja) * 2002-12-26 2004-07-22 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法及び装置並びにプログラム
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム

Also Published As

Publication number Publication date
JP2013178633A (ja) 2013-09-09

Similar Documents

Publication Publication Date Title
JP6466952B2 (ja) 文章生成システム
KR101192439B1 (ko) 디지털 콘텐츠 검색 장치 및 방법
US20100205198A1 (en) Search query disambiguation
US10942977B2 (en) Systems and methods for targeting, reviewing, and presenting online social network data by evidence context
US11379518B2 (en) Detecting musical references in natural language search input
CN103229223A (zh) 使用多个候选答案评分模型提供问题答案
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Baeza Yates et al. Cassa: A context-aware synonym simplification algorithm
US10380125B2 (en) Information processing apparatus and information processing method
JP5717297B2 (ja) 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ
JP6165068B2 (ja) ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法
Mizzaro et al. Short text categorization exploiting contextual enrichment and external knowledge
JP5497105B2 (ja) 文書検索装置および方法
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Nguyen et al. Search like an expert: Reducing expertise disparity using a hybrid neural index for COVID-19 queries
CN106708808B (zh) 一种信息挖掘方法及装置
JP6223301B2 (ja) コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置
Chavan et al. Summarization of tweets and Named Entity Recognition from tweet segmentation
Teyeb et al. Towards an evaluation protocol for RDF semantic annotations (RDF SemAnnotEval protocol)
KR20120088632A (ko) 디지털 콘텐츠 검색 장치 및 방법
CN106021450B (zh) 一种面向事件的微博搜索方法
JP5749232B2 (ja) 情報検索装置およびその動作方法
Wang et al. Study on the Method of Precise Entity Search Based on Baidu’s Query
Tryfou et al. Using visual cues for the extraction of web image semantic information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150316

R150 Certificate of patent or registration of utility model

Ref document number: 5717297

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150