JP2012243129A - 話題語獲得装置、方法、及びプログラム - Google Patents

話題語獲得装置、方法、及びプログラム Download PDF

Info

Publication number
JP2012243129A
JP2012243129A JP2011113487A JP2011113487A JP2012243129A JP 2012243129 A JP2012243129 A JP 2012243129A JP 2011113487 A JP2011113487 A JP 2011113487A JP 2011113487 A JP2011113487 A JP 2011113487A JP 2012243129 A JP2012243129 A JP 2012243129A
Authority
JP
Japan
Prior art keywords
topic word
documents
document
topic
date
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011113487A
Other languages
English (en)
Other versions
JP5491446B2 (ja
Inventor
Nobuaki Hiroshima
伸章 廣嶋
Katsuto Bessho
克人 別所
Yoshimasa Koike
義昌 小池
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011113487A priority Critical patent/JP5491446B2/ja
Publication of JP2012243129A publication Critical patent/JP2012243129A/ja
Application granted granted Critical
Publication of JP5491446B2 publication Critical patent/JP5491446B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】日時及び場所の少なくとも一方で表される特定情報に関連するか否かを重要視した話題語を獲得する。
【解決手段】文書取得部12で、入力されたキーワード及び日時に関連する文書を文書インデックス20から検索して取得し、話題語候補抽出部14で、検索結果の文書を字句で分割し、各字句を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成し、生成された分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数に基づいて話題語候補を抽出する。日時関連話題語獲得部16で、文書インデックス20を検索して、話題語候補及び日時の両方を含む文書の数、話題語候補のみを含む文書の数、日時のみを含む文書の数、話題語候補及び日時の両方を含まない文書の数を求め、これらを用いて算出されたカイ2乗値が閾値以上となる話題語候補を、日時との関連度が高い話題語として獲得する。
【選択図】図1

Description

本発明は、話題語獲得装置、方法、及びプログラムに係り、特に、キーワードと日時及び場所の少なくとも一方を表す特定情報とに基づいて検索された文書の把握を支援するための話題語を獲得する話題語獲得装置、方法、及びプログラムに関する。
現在、入力されたキーワードに関連する文書を検索する文書検索システムが数多く存在する。このような文書検索システムにおいて、通常のキーワードに加えて特定の日時や場所を入力として文書を検索したい場合がある。例えば、20XX年1月20日にあるユーザが明日行われるイベントについて知りたい場合には、「イベント」というキーワードに加えて「20XX年1月21日」という日時を入力として、文書の検索を行うことが想定される。この場合、通常のキーワードのみを入力とした検索と同様に、キーワード及び日時や場所を入力とした検索においても、検索された文書の数が膨大となった場合には、ユーザが検索結果の概要を把握することが困難になる、という問題がある。
この問題に対して、検索結果に関連する関連語を獲得して、その関連語を提示することにより、ユーザが検索結果の概要を把握する作業を支援することが行われている。検索結果からの関連語の獲得に関する研究としては、検索結果をさらに絞り込むための絞り込み語を関連語として抽出して提示する研究や、検索された文書をクラスタリングし、クラスタの内容を表す語を関連語として提示する研究が行われている。例えば、TF−IDF(Term Frequency-Inverse Document Frequency)に加えて、絞り込み語の候補となる語が、多くの文書に分散して出現しているかどうかの指標を用いて絞り込み語を獲得する手法が提案されている(例えば、非特許文献1参照)。また、TF−IDFや語句の独立性に関する指標を用いた回帰分析により、関連語をランキング形式で提示する手法が提案されている(例えば、非特許文献2参照)。
酒井浩之、大竹清敬、増山繁、「絞り込み語の提示による検索支援の試み」、言語処理学会第6回年次大会(2000). Zeng, H .J., He, Q .C., Chen, Z.,Ma, W. Y. and Ma, J.「 Learning to cluster web search results」,Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR ’04), pp.210-217 (2006).
しかしながら、非特許文献1及び2の技術は、検索結果の文書集合から部分的な文書集合を選択するために必要となる語を獲得する手法であり、検索結果として得られた文書のほぼ全てが、獲得されたいずれかの語と対応づけられることを目的とした手法である。そのため、キーワードと日時や場所とを入力とした検索における関連語の獲得のためにこれらの手法を適用すると、関連語が検索結果の文書の全てと関連しているかどうかが重要視されてしまい、関連語が入力された日時や場所に関連するかどうかが重要視されない、という問題があった。
本発明は上記の問題点に鑑みてなされたものであって、キーワードと日時及び場所の少なくとも一方で表される特定情報とに基づいて検索された文書について、特定情報に関連するか否かを重要視した話題語を獲得することができる話題語獲得装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の話題語獲得装置は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得する取得手段と、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する抽出手段と、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する獲得手段と、を含んで構成されている。
本発明の話題語獲得装置によれば、取得手段が、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、抽出手段が、取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する。そして、獲得手段が、話題語候補及び特定情報の両方を含む予め記憶された文書内の文書の数、話題語候補のみを含む予め記憶された文書内の文書の数、特定情報のみを含む予め記憶された文書内の文書の数、並びに話題語候補及び特定情報の両方を含まない予め記憶された文書内の文書の数に基づいて、話題語候補毎に特定情報との関連度を算出し、抽出手段により抽出された話題語候補から、特定情報との関連度が高い話題語候補を話題語として獲得する。
このように、キーワードと日時及び場所の少なくとも一方で表される特定情報とに基づいて検索された文書について、抽出された話題語候補から、特定情報との関連度が高い話題語候補を話題語として獲得するため、特定情報に関連するか否かを重要視した話題語を獲得することができる。
また、前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出することができる。このように話題語候補を抽出することにより、任意の話題語候補を柔軟に抽出することができる。
また、本発明の話題語獲得方法は、取得手段と、抽出手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、前記取得手段は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、前記抽出手段は、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出し、前記獲得手段は、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する方法である。
また、本発明の話題語獲得方法において、前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出することができる。
また、本発明の話題語獲得プログラムは、コンピュータを、上記の話題語獲得装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の話題語獲得装置、方法、及びプログラムによれば、キーワードと日時及び場所の少なくとも一方で表される特定情報とに基づいて検索された文書について、抽出された話題語候補から、特定情報との関連度が高い話題語候補を話題語として獲得するため、特定情報に関連するか否かを重要視した話題語を獲得することができる、という効果が得られる。
本実施の形態の話題語獲得装置の機能的構成を示すブロック図である。 本実施の形態の話題語獲得装置における話題語獲得処理ルーチンの内容を示すフローチャートである。 文書取得部で取得された文書の一例を示す図である。 各単語から始まる分割成分の生成結果の一例を示す図である。 各分割成分を並び替えて配列し、先頭からの一致単語数を求めた一例を示す図である。 抽出された話題語候補の一例を示す図である。 各話題語候補について算出されたカイ2乗値の一例を示す図である。 獲得された話題語の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
本実施の形態に係る話題語獲得装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する話題語獲得処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、文書取得部12、話題語候補抽出部14、及び日時関連話題語獲得部16を含んだ構成で表すことができる。
文書取得部12は、キーボードやマウス等の入力装置により入力されたキーワード及び日時を受け付け、受け付けたキーワード及び日時をキーとして、大量の文書が記憶された検索インデックス20を検索して、検索結果となる文書の概要を表す概要文を取得する。例えば、入力されたキーワードの文字列を含み、文書中に含まれている日時を表す表現(「1月21日」「明日」など)が入力された日時を表している文書を検索する。なお、検索方法は、キーワード及び日時に関連した検索が行える方法であればこれに限定されるものではなく、キーワード及び日時の文字列を共に含む文書を検索するようにしてもよい。また、ここでは、検索結果として、文書の概要文を取得する場合について説明するが、文書の取得方法はこれに限定されるものではなく、上位の検索結果のみを取得したり、文書のテキスト全体を取得したり、文書タイトルを文書に含めたり、文書の先頭X個の文字、単語、文を文書として取得したりしてもよい。
話題語候補抽出部14は、文書取得部12で取得された文書から、ユーザによる検索結果の把握を支援するための話題語の候補となる話題語候補を抽出する。具体的には、検索結果の文書を字句(文字、単語、または句)で分割し、各字句を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成し、生成された分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数に基づいて話題語候補を抽出する。
より詳細には、まず、検索結果の文書の各字句から始まる分割成分を生成する。ここでは、字句として単語を用いることとする。なお、字句は単語に限定されるものではなく、文字でもよいし名詞句などの句でもよい。字句として単語を用いる場合には、文書に含まれる各文を単語に分割する必要があるため、従来既知の形態素解析技術を用いて、取得された文書に対して形態素解析を行って単語に分割する。そして、各単語を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成する。
次に、生成された各分割成分を、アルファベット順、五十音順による昇順または降順等の通常の並び替え手法により、字句の順(ここでは単語の順)に並び替えて配列する。配列した各分割成分に対して、1つ前の分割成分との比較を行い、先頭から一致する字句の数(ここでは単語数)をカウントする。この先頭からの一致単語数に基づいて、話題語候補の抽出を行う。例えば、頻度が閾値T以上の長さMの名詞句(単語数Mの名詞句)を話題語候補として抽出する場合には、配列した分割成分集合の先頭から長さMの名詞句が先頭に出現する分割成分を検索し、その分割成分以降の分割成分について、一致単語数がM以上の文が何個連続しているかをカウントする。一致単語数がM以上である文がN個連続した場合、その名詞句の頻度をN+1として求める。この頻度N+1が閾値T以上であれば、その名詞句を話題語候補として抽出する。
なお、話題語候補の抽出方法はこれに限定されるものではなく、頻度によらず全ての名詞句を話題語候補として抽出したり、抽出したい名詞句の長さMによって頻度の閾値Tを変化させたり、名詞句ではなく動詞句や形容詞句などを話題語候補として抽出したり、句ではなく単独の名詞や動詞や形容詞を話題語候補として抽出したりしてもよい。
日時関連話題語獲得部16は、話題語候補抽出部14で抽出された話題語候補が、入力された日時に関連しているか否かを判定し、日時に関連していると判定された話題語候補を話題語として獲得する。話題語候補と日時との関連性は、例えば、話題語候補を含み入力された日時を含む文書の数をA、話題語候補を含み入力された日時を含まない文書の数をB、話題語候補を含まず入力された日時を含む文書の数をC、話題語候補を含まず入力された日時を含まない文書の数をD、A+B+C+D=Nとし、カイ2乗値を下記(1)式により算出する。
χ=N(AD−BC)/(A+C)(B+D)(A+B)(C+D) (1)
このカイ2乗値が閾値T以上である話題語候補を入力された日時に関連があると判定し、話題語として獲得する。それぞれの文書の数は検索インデックス20を参照して検索を行うことにより取得する。なお、日時関連性判定の方法は、話題語候補及び日時の両方を含む文書の数、話題語候補のみを含む文書の数、日時のみを含む文書の数、話題語候補及び日時の両方とも含まない文書の数を用いるものであれば、これに限定されるものではなく、例えば、イエーツの修正を行ったり、フィッシャーの正確確率検定を用いたりしてもよい。
次に、本実施の形態の話題語獲得装置10の作用について説明する。キーワード及び日時が入力されると、話題語獲得装置10において、図2に示す話題語獲得処理ルーチンが実行される。ここでは、キーワードとして「イベント」が入力され、日時として「20XX年1月21日」が入力されたものとする。
ステップ100で、入力されたキーワード及び日時を受け付け、受け付けたキーワード及び日時をキーとして、大量の文書が記憶された検索インデックス20を検索して、検索結果となる文書の概要を表す概要文を取得する。取得された文書の例を図3に示す。
次に、ステップ102で、上記ステップ100で取得された文書に対して形態素解析を行って単語に分割し、各単語を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成する。図3の文書番号1の文書から生成した分割成分の一例を図4に示す。残りの文書に対しても同様にして、分割成分を生成する。
次に、ステップ104で、上記ステップ102で生成された各分割成分を、アルファベット順、五十音順による昇順または降順等の通常の並び替え手法により、単語の順に並び替えて配列し、配列した各分割成分に対して、1つ前の分割成分との比較を行い、先頭から一致する単語数をカウントする。図3の文書から生成された分割成分を並び替えて配列し、先頭からの一致単語数をカウントした結果を図5に示す。分割成分番号11の分割成分は、先頭からの一致単語数が4であり、1つ前の分割成分番号10の分割成分と比較すると、先頭から「AAA」「祭り」「と」「いう」の4単語が一致していることを表している。
次に、ステップ106で、長さMの名詞句の頻度を求める。例えば、図5において、「AAA祭り」という単語数2の名詞句の頻度を求める場合には、まず、分割成分番号10の分割成分において「AAA祭り」が出現するため、次の分割成分を調べる。分割成分番号11の分割成分は一致単語数が2以上であるため、その次の分割成分を調べる。これを繰り返すと、分割成分番号32までが一致単語数2以上となっており、一致単語数が2以上である分割成分が、分割成分番号10以降22個連続していることとなり、「AAA祭り」の頻度は23と求まる。
次に、ステップ108で、上記ステップ106で求めた名詞句の頻度が閾値T以上か否かを判定する。頻度が閾値T以上の場合には、ステップ110へ移行して、その名詞句を話題語候補として抽出して、ステップ112へ移行する。頻度が閾値Tより小さい場合には、その名詞句を話題語候補として抽出することなく、ステップ112へ移行する。頻度を求めた全ての名詞句について、本ステップの判定を行う。図3の文書に対して閾値T=20を満たす名詞句を抽出して得られた話題語候補の一例を図6に示す。
ステップ112では、上記ステップ110で抽出された各話題語候補について、話題語候補を含み入力された日時を含む文書の数A、話題語候補を含み入力された日時を含まない文書の数B、話題語候補を含まず入力された日時を含む文書の数C、話題語候補を含まず入力された日時を含まない文書の数Dを、検索インデックス20を参照して検索を行うことにより取得する。そして、(1)式に従って、話題語候補毎にカイ2乗値を算出する。図6の話題語候補に対してカイ2乗値を求めた結果の一例を図7に示す。
次に、ステップ114で、上記ステップ112で算出したカイ2乗値が閾値T以上か否かを判定する。カイ2乗値が閾値T以上の場合には、ステップ116へ移行して、その話題語候補を話題語として獲得する。カイ2乗値が閾値Tより小さい場合には、その話題語候補を話題語として獲得することなく、処理を終了する。全ての話題語候補について、本ステップの判定を行う。図7の話題語候補に対して、閾値T=100として話題語を獲得した結果を図8に示す。図8の結果より、入力の日時「20XX年1月21日」に行われるイベントの名称を表す話題語が獲得されていることがわかる。
以上説明したように、本実施の形態の話題語獲得装置によれば、入力されたキーワード及び日時に関連して検索された文書から得られる話題語候補が、入力された日時に関連するか否かを判定して、話題語として獲得するため、日時に関連するか否かを重要視した話題語を獲得することができる。また、検索結果の文書から生成した分割成分を字句の順に並び替えて配列し、隣接する分割成分の先頭から一致する字句の数に基づいて話題語候補を抽出するため、検索結果の文書から任意の語句を話題語候補として抽出することができる。
なお、上記の実施の形態では、キーワードと共に、特定情報として「日時」が入力された場合について説明したが、特定情報が「場所」であっても、本実施の形態の手法を適用することができる。この場合、入力されたキーワード及び場所に関連した文書を検索し、検索された文書から任意の話題語候補を抽出し、話題語候補が入力された場所に関連するか否かを判定すればよい。関連性の判定は、例えば、上記実施の形態と同様に、話題語候補を含み入力された場所を含む文書の数をA、話題語候補を含み入力された場所を含まない文書の数をB、話題語候補を含まず入力された場所を含む文書の数をC、話題語候補を含まず入力された場所を含まない文書の数をD、A+B+C+D=Nとし、(1)式により算出したカイ2乗値を閾値判定すればよい。
また、特定情報として、「日時」及び「場所」の両方が入力された場合にも、本実施の形態の手法を適用することができる。この場合、例えば、各話題語候補について、日時との関連性を示すカイ2乗値、及び場所との関連性を示すカイ2乗値を各々算出し、両方のカイ2乗値が閾値以上となる話題語候補を話題語として獲得するようにすればよい。
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の話題語獲得装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 話題語獲得装置
12 文書取得部
14 話題語候補抽出部
16 日時関連話題語獲得部
20 検索インデックス

Claims (5)

  1. 予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得する取得手段と、
    前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する抽出手段と、
    前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する獲得手段と、
    を含む話題語獲得装置。
  2. 前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項1記載の話題語獲得装置。
  3. 取得手段と、抽出手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、
    前記取得手段は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、
    前記抽出手段は、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出し、
    前記獲得手段は、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する
    話題語獲得方法。
  4. 前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項3記載の話題語獲得方法。
  5. コンピュータを、請求項1または請求項2記載の話題語獲得装置を構成する各手段として機能させるための話題語獲得プログラム。
JP2011113487A 2011-05-20 2011-05-20 話題語獲得装置、方法、及びプログラム Active JP5491446B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011113487A JP5491446B2 (ja) 2011-05-20 2011-05-20 話題語獲得装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011113487A JP5491446B2 (ja) 2011-05-20 2011-05-20 話題語獲得装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012243129A true JP2012243129A (ja) 2012-12-10
JP5491446B2 JP5491446B2 (ja) 2014-05-14

Family

ID=47464762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011113487A Active JP5491446B2 (ja) 2011-05-20 2011-05-20 話題語獲得装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5491446B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014119977A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> デイリーワード抽出装置、方法、及びプログラム
JP2015225492A (ja) * 2014-05-28 2015-12-14 日本電信電話株式会社 ローカル話題語抽出装置、ローカル話題語抽出方法及びローカル話題語抽出プログラム
US20210326535A1 (en) * 2020-04-15 2021-10-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, Device, Equipment, and Storage Medium for Mining Topic Concept

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288215A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2005258678A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 単語抽出方法、装置、およびプログラム
JP2006134183A (ja) * 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006139484A (ja) * 2004-11-11 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2010186370A (ja) * 2009-02-13 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> テキスト検索結果ランキング装置、テキスト検索結果ランキング方法、テキスト検索結果ランキングプログラムおよびそのプログラムを記録した記録媒体
JP2012128600A (ja) * 2010-12-14 2012-07-05 Hitachi Ltd 文書検索装置、文書検索方法及び文書検索プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288215A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2005258678A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 単語抽出方法、装置、およびプログラム
JP2006134183A (ja) * 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006139484A (ja) * 2004-11-11 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2010186370A (ja) * 2009-02-13 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> テキスト検索結果ランキング装置、テキスト検索結果ランキング方法、テキスト検索結果ランキングプログラムおよびそのプログラムを記録した記録媒体
JP2012128600A (ja) * 2010-12-14 2012-07-05 Hitachi Ltd 文書検索装置、文書検索方法及び文書検索プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900269137; 吉田 大我、外3名: 'Web検索結果におけるキーワード出現相関の可視化と対話的な質問変換' 電子情報通信学会 第18回データ工学ワークショップ論文集 , 20090709, p.1-8, 電子情報通信学会データ工学研究専門委員会 *
JPN6014007225; 吉田 大我、外3名: 'Web検索結果におけるキーワード出現相関の可視化と対話的な質問変換' 電子情報通信学会 第18回データ工学ワークショップ論文集 , 20090709, p.1-8, 電子情報通信学会データ工学研究専門委員会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014119977A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> デイリーワード抽出装置、方法、及びプログラム
JP2015225492A (ja) * 2014-05-28 2015-12-14 日本電信電話株式会社 ローカル話題語抽出装置、ローカル話題語抽出方法及びローカル話題語抽出プログラム
US20210326535A1 (en) * 2020-04-15 2021-10-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, Device, Equipment, and Storage Medium for Mining Topic Concept
KR20210128317A (ko) * 2020-04-15 2021-10-26 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 토픽 컨셉 마이닝 방법, 장치, 기기 및 저장 매체
US11651164B2 (en) * 2020-04-15 2023-05-16 Beijing Baidu Netcom Science Technology Co., Ltd. Method, device, equipment, and storage medium for mining topic concept
KR102557782B1 (ko) * 2020-04-15 2023-07-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 토픽 컨셉 마이닝 방법, 장치, 기기 및 저장 매체

Also Published As

Publication number Publication date
JP5491446B2 (ja) 2014-05-14

Similar Documents

Publication Publication Date Title
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
Imam et al. An ontology-based summarization system for arabic documents (ossad)
EP2831764A1 (en) Named entity extraction from a block of text
WO2016121048A1 (ja) 文章生成装置及び方法
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
Bahassine et al. Arabic text classification using new stemmer for feature selection and decision trees
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP5491446B2 (ja) 話題語獲得装置、方法、及びプログラム
Shah et al. DOM-based keyword extraction from web pages
Paul et al. An affix removal stemmer for natural language text in nepali
Pouliquen et al. Automatic construction of multilingual name dictionaries
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
WO2016024261A1 (en) Method and system for searching phrase concepts in documents
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
Ung et al. Combination of features for vietnamese news multi-document summarization
JP2014191777A (ja) 語義解析装置、及びプログラム
JP2012104051A (ja) 文書インデックス作成装置
El-Shishtawy et al. A lemma based evaluator for semitic language text summarization systems
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites
Shah et al. WebRank: Language-Independent Extraction of Keywords from Webpages
JP2018097606A (ja) 検索プログラム、検索装置、および検索方法
Malumba et al. AfriWeb: a web search engine for a marginalized language
JP2007233724A (ja) 文書検索システム、その方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140227

R150 Certificate of patent or registration of utility model

Ref document number: 5491446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150