JP4165426B2 - 話題抽出方法及び装置及びプログラム - Google Patents

話題抽出方法及び装置及びプログラム Download PDF

Info

Publication number
JP4165426B2
JP4165426B2 JP2004092285A JP2004092285A JP4165426B2 JP 4165426 B2 JP4165426 B2 JP 4165426B2 JP 2004092285 A JP2004092285 A JP 2004092285A JP 2004092285 A JP2004092285 A JP 2004092285A JP 4165426 B2 JP4165426 B2 JP 4165426B2
Authority
JP
Japan
Prior art keywords
time
phrase
word
topic
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004092285A
Other languages
English (en)
Other versions
JP2005276115A (ja
Inventor
吉秀 佐藤
伸治 安部
晴美 川島
二大 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004092285A priority Critical patent/JP4165426B2/ja
Publication of JP2005276115A publication Critical patent/JP2005276115A/ja
Application granted granted Critical
Publication of JP4165426B2 publication Critical patent/JP4165426B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、話題抽出方法及び装置及びプログラムに係り、特に、分野別に分類されたニュース記事などの新しい情報を含む文書を次々と入手しうる状況において、各分野の文書中から最近の話題となっている語句を自動的に抽出する話題抽出方法及び装置及びプログラムに関する。
新聞やテレビなどのメディアから入手できる情報は日々増加しているが、インターネットの普及による影響は特に著しく、ともすれば氾濫した情報にすぐに埋もれてしまう。このような状況の中、最近になって更新、追加された情報は現在の世間の流行や関心事、新着情報など、タイムリーな情報を含んでいる可能性が高い。したがって、作成時刻の新しい文書を数多く収集して解析すれば、最近のトレンドやタイムリーな出来事を把握することができる。
複数の文書情報から話題を表す語を抽出する技術は複数提案されている。
例えば、従来の第1の技術として、続々と送られる文字情報から、更新部分のみを選択して提示することでタイムリーな情報の継続的な入手を支援する技術がある(例えば、特許文献1参照)。
また、従来の第2の技術として、複数の話者の発言内容を文書化したデータから会話の主題を表す語を抽出する技術がある(例えば、特許文献2参照)。これは、会話内容の文書化データから形態素解析によって主に名詞を切り出し、会話の流れの中でのそれらの出現頻度や出現間隔に基づいて、語の重み(話題を表す可能性)を決定する技術である。この技術においては、1発言中での利用頻度が高い語や、しばらく利用されなかった後に利用された語を、重要度が高いとして評価を行う。
特開平8−161299号公報 特許第2931553号公報
上記の従来の第1の技術では、以前に受信した文書と新しく受信した文書の一部が重複しているような情報ソースを対象とする技術であるため、不特定多数が作成した文書データを対象とした話題お抽出には適用不可能である。
また、従来の第2の技術では、1発言中のある語の頻度とその話題性が結びつかない場合も多く、話題の抽出を精度よく行うのは難しい。また、比較的よく用いられる語が特に集中的に高頻度で利用された場合も話題を表していると言えるが、そのような語の抽出にも適さない。
本発明は、上記の点に鑑みなされたもので、次々と取得される文書データを解析し、話題を表す語や速報性の高い重要な語を抽出することが可能な話題抽出方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度を判定する装置における話題抽出方法において、
時刻情報受付手段が、所望する時刻における話題の抽出処理を行うために、外部から時刻情報の入力を受け付ける時刻情報受付ステップ(ステップ3)と、
解析時刻範囲決定手段が、時刻情報受付ステップ受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定ステップ(ステップ4)と、
語句話題度算出手段が、語句データと該語句データを集計した集計時刻に関する情報が蓄積された全語句蓄積データベースから、解析時刻範囲決定ステップで決定された集計時刻の範囲内の語句データを取得し、各語句の話題度を算出して出力する語句話題度算出ステップ(ステップ5)と、
からなり、
語句話題度算出ステップ(ステップ5)において、
区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
S(t)=S ×exp((−t)/T

L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)
とを用い、指定時刻をt としてS(t −t)−L(t −t)で表される曲線をインパクト曲線とし、集計時刻の範囲内の各時刻tにおいて各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、集計時刻の範囲内の全ての時刻について加算した値を該語句の話題度とする
また、本発明(請求項2)は、時刻情報受付ステップ(ステップ3)の前に、
文書解析手段が、作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析ステップ(ステップ1)と、
文書内出現語句集計手段が、一定期間中に作成された文書中に出現する語句を集計し、集計結果を前記集計時刻に関する情報と共に前記全語句蓄積データベースに記録する文書内出現語句集計ステップ(ステップ2)と、を更に行う。
本発明(請求項3)は、予め複数のカテゴリに分類された多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度をカテゴリ別に判定する装置における話題抽出方法において、
時刻情報受付手段が、所望する時刻における話題の抽出処理を行うために外部からの時刻情報の入力を受け付ける時刻情報受付ステップと、
解析時刻範囲決定手段が、時刻情報受付ステップで受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定ステップと、
語句話題度算出手段が、カテゴリ別の語句データと該語句データをカテゴリ別に集計した集計時刻に関する情報が蓄積された全語句蓄積データベースから、解析時刻範囲決定ステップにおいて決定された解析時刻範囲内のカテゴリ別に記録された語句データを抽出し、各語句のカテゴリ別話題度を算出して出力する語句話題度算出ステップと、
からなり、
語句話題度算出ステップにおいて、
区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
S(t)=S ×exp((−t)/T

L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)とを用い、指定時刻をt としてS(t ―t)−L(t −t)で表される曲線をインパクト曲線とし、各カテゴリ毎に、集計時刻の範囲内の各時刻tにおいて各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、集計時刻の範囲内の全ての時刻について加算した値を該各語句の話題度とし、全カテゴリの数を該各語句が出現するカテゴリの数で割った値の対数を、該各語句の話題度に乗じた値を該各語句のカテゴリ別話題度とする。
本発明(請求項4)は、時刻情報受付ステップの前に、
文書解析手段が、作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析ステップと、
文書内出現語句集計手段が、一定期間中に作成された文書中に出現する語句をカテゴリ別に集計し、集計結果を集計時刻情報とカテゴリ情報と共に全語句蓄積データベースに記録する文書内出現語句集計ステップと、を更に行う。
また、本発明(請求項5)は、語句話題度算出ステップにおいて、
前記インパクト曲線を直線で近似した近似インパクト曲線を用いる。
図2は、本発明の原理構成図である。
本発明(請求項6)は、多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度を判定する話題抽出装置であって、
所望する時刻における話題の抽出処理を行うために、外部から時刻情報の入力を受け付ける時刻情報受付手段15と、
時刻情報受付手段15が受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定手段16と、
語句データと該語句データを集計した集計時刻に関する情報が蓄積された全語句蓄積データベース14と、
全語句蓄積データベース14から、解析時刻範囲決定手段16で決定された集計時刻の範囲内の語句データを取得し、各語句の話題度を算出して出力する語句話題度算出手段17と、を有し、
語句話題度算出手段17は、
区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
S(t)=S ×exp((−t)/T

L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)
とを用い、指定時刻をt としてS(t −t)−L(t −t)で表される曲線をインパクト曲線とし、集計時刻の範囲内の各時刻tにおいて各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、集計時刻の範囲内の全ての時刻について加算した値を該語句の話題度とする手段を含む。
また、本発明(請求項7)は、作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析手段12と、
一定期間中に作成された文書中に出現する語句を集計し、集計結果を前記集計時刻に関する情報と共に前記全語句蓄積データベースに記録する文書内出現語句集計手段13と、を更に有する。
本発明(請求項8)は、予め複数のカテゴリに分類された多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度をカテゴリ別に判定する話題抽出装置であって、
所望する時刻における話題の抽出処理を行うために外部からの時刻情報の入力を受け付ける時刻情報受付手段15と、
時刻情報受付手段15で受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定手段16と、
カテゴリ別の語句データと該語句データとカテゴリ別に集計した集計時刻に関する情報が蓄積された全語句蓄積データベース14と、
全語句蓄積データベース14から、解析時刻範囲決定手段16において決定された解析時刻範囲内のカテゴリ別に記録された語句データを抽出し、各語句のカテゴリ別話題度を算出して出力する語句話題度算出手段17と、を有し、
語句話題度算出手段17は、
区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
S(t)=S ×exp((−t)/T

L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)とを用い、指定時刻をt としてS(t ―t)−L(t −t)で表される曲線をインパクト曲線とし、各カテゴリ毎に、集計時刻の範囲内の各時刻tにおいて各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、集計時刻の範囲内の全ての時刻について加算した値を該各語句の話題度とし、全カテゴリの数を該各語句が出現するカテゴリの数で割った値の対数を、該各語句の話題度に乗じた値を該各語句のカテゴリ別話題度とする手段を含む。
本発明(請求項9)は、作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析手段12と、
一定期間中に作成された文書中に出現する語句をカテゴリ別に集計し、集計結果を集計時刻情報とカテゴリ情報と共に前記全語句蓄積データベース14に記録する文書内出現語句集計手段13と、を更に有する。
また、本発明(請求項10)は、語句話題度算出手段17において、
前記インパクト曲線を直線で近似した近似インパクト曲線を用いる手段を含む。
本発明(請求項11)は、請求項6乃至10のいずれか1項に記載の話題抽出装置を構成する各手段としてコンピュータを機能させるための話題抽出プログラムである。
本発明によれば、ニュース記事などの速報性の高い多数の文書を対象として収集し、文書中の語句から話題性の高い語句を自動的に抽出することが可能となるため、各々の記事に目を通すことなく、話題性の高い語句のみを概観するだけで、最近の流行や話題を把握することが可能となる。
また、ある語句の、長期間にわたる出現量と直近短期間での出現量をそれぞれ調べ、それらの対比によって語句の持つ意外性を評価するため、一定の頻度で出現する語句であっても頻度があまり高くない語句であっても、集中的に出現することで出現量が大幅に増加する点を検出することができるため、効率的な話題抽出を行うことが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題抽出装置の構成を示す。
同図に示す話題抽出装置10は、本装置の入力となる文書データを蓄積する文書データバッファ11と、本装置が出力する語句とその特徴量を記録する出力語句記録装置18が接続されている。
話題抽出装置10は、文書解析部12、文書内出現語句集計部13、全語句蓄積データベース14、時刻情報受付部15、解析時刻範囲決定部16、及び、語句話題度算出部17から構成される。
文書データバッファ11には、新しく作成された文書に作成時刻情報を付加し、次々と入力して記録しておく。例えば、インターネット上のニュースサイトで公開されている記事のように、新しい情報を含む文書が逐次更新される情報源を対象とするのが望ましい。この場合には、サイト内の文書データの更新状況を監視し、更新された時刻を文書作成時刻と見做して収集するとよい。文書データバッファ11は、入力文書を一時的に蓄えるキューであり、ここに蓄積される文書データは、文書解析部12へ送出されるのを待つ。
文書解析部12は、文書データバッファ11に蓄積されている文書を1文書分ずつ取得し、テキスト解析を行う。入力された文章に対して形態素解析を行い、品詞毎に分解する。このとき、必要に応じて連続する名詞を連結して複合名詞とし、複合名詞を1個の名詞として扱ってもよい。話題を表す語句としては「歩く」「指示する」などの動詞や「青い」「高い」などの形容詞より名詞(または複合名詞)が適しているため、文書解析部12は、名詞(または複合名詞)のみを文書から切り出す。以後の説明では名詞(または、複合名詞)を総称して語句と呼ぶ。
文書解析部12が切り出した語句は、文書内出現語句集計部13内のバッファに記録する。
文書内出現語句集計部13は、バッファ内に保存された語句を一定期間毎に集計し、バッファ内の全語句について、語句w、及びwが出現した文書数D(w)を、集計した時刻の情報と共に全語句蓄積データベース14に記録する。つまり、全語句蓄積データベース14には、「集計時刻tでは全語句wを含む文書数がD(t,w)、語句wを含む文書数がD(t,w),…」、「集計時刻tでは、語句wを含む文書数がD(t,w),…」のように、集計時刻毎の語句の頻度情報が蓄積される。
時刻情報受付部15は、外部から入力される時刻情報を受け付ける。本発明の話題抽出装置10は、外部からの入力によって指定された時刻情報に基づき、指定時刻における話題語を出力する。時刻情報は利用者が希望する時刻をマウスやキーボード等の外部入力装置を用いて入力してもよく、最新の話題を常に抽出し続けられるよう、現在の時刻を定期的に発行して時刻情報受付部15に入力するタイマ装置を用いてもよい。いずれの場合においても、本発明の話題抽出装置10は、時刻情報受付部15への時刻情報の入力を契機として、全語句蓄積データベース14に蓄積されている情報を取得して話題の抽出処理を実行する。
解析時刻範囲決定部16は、外部から指定された時刻情報に基づいて、話題の抽出に使用するデータの範囲、即ち、何時から何時までに全語句蓄積データベース14に蓄積されたデータを解析に用いるかを決定する。当該解析時刻範囲決定部16の動作の詳細は後述する。
語句話題度算出部17は、時刻解析範囲決定部16から与えられる時刻範囲内の語句データを全語句蓄積データベース14から取得し、語句各々に対する話題度を算出した結果を出力語句記録装置18に記録する。ここで、語句wの話題度とは、時刻情報受付部15に入力した時刻において、世間で話題になっている事柄を表す語句として、語句wがどの程度適しているかを表す数値である。話題度が大きいほど話題性が高い。
語句話題度算出部17は、普段から定常的に用いられる語句は話題を表す語ではないとして排除し、出現しない期間がある程度続いた後に集中的に高頻度で出現した語句や、短期間に特に集中的に出現した語句を高く評価する機能を有するものとして、以下のような機能で構成されるのが望ましい。
図4に示すグラフは、人間が短期的に情報を忘却する様子をモデル化した例である。
現在時刻よりtだけ過去の時点(時刻−t)において知覚した情報は、現在時刻においてはS(t)だけ記憶されていることを表す。現在時刻での記憶量S(t)は、式(1)で表され、Sという量を持った情報が時間の推移と共に、Tの値によって決まる速度で忘却される現象を表す。
S(t)=S×exp(−t/T) (1)
一方、人間の脳に長期的な記憶として残留する記憶が長い時間を経て忘却される様子も全く同様に、図5及び式(2)によって表される。
L(t)=L×exp(−t/T) (2)
語句話題度算出部17は、「長期間保持される記憶が持つ情報量」と「直前の短期間に入手した情報量」との対比で語句の持つ話題性を決定する。即ち、図6における実線のグラフで表されるように、短期記憶S(t)から長期記憶L(t)を減じた値に基づいて決定する。これは、長期的に記憶する知識と比較して、最近得た知識がどの程度の話題性・意外性を持ったインパクトのある情報であるかを表すグラフと言え、以後は、「インパクト曲線」と呼ぶ。
例えば、普段から常に耳にするような知識Xは、その大部分が長期的な記憶として脳に残り、最近になって入手した同一の知識Xからは何らインパクトを与えない。一方、それまでは全く耳にしなかった知識、あるいは今までと比して耳にする機会が増えた知識は、話題性や意外性を持っており、与えるインパクトは大きい。
ここで、各々の忘却の速度を決めるT,Tは、どの程度の期間を対象にした話題抽出を行うかに応じて決定すればよい。Tを小さくすれば短期的な忘却の速度が増加するため、指定時刻に極めて近い時間帯のみを対象にした話題抽出を行うことになり、Tを大きくすれば、長期的な忘却の速度が減少するため、定期的に時々出現する語句が話題と見做されにくい傾向になる。
また、S及びLの値は、過去から現在までの短期記憶と長期記憶のグラフの積分値が等しくなるように決定しておく。これは、図6のインパクト曲線において正の値を持つ区間の面積と負の値を持つ区間の面積が等しくなることと同値である。
このことをさらに詳細に説明する。
図7は、図6のうちのインパクト曲線のみを描いた図であり、正の値をとる正区間Tplusと負の値をとる負区間Tminusに分けて示してある。正区間の面積“S+”と負区間の面積“S−”は等しい。現在時刻より直前の短期間(正区間)に出現した語句は新しい記憶であり、高頻度で出現していれば話題性を持っている可能性が高い。一方、それ以前(負区間)に出現していた語句は、長期的に記憶されている語句であり、話題性の低い既知の情報である可能性が高い。インパクト曲線は、最近出現した語句に正の効果を、過去に出現していた語句に負の効果を与えて集計することで、特に、最近になって高頻度で用いられる語句を話題として抽出する作用を持たせたものである。
“S+”と“S−”の面積が等しくなるようにするのは、定常的に出現し続ける語句は正の効果と負の効果を相殺させて話題性が全くない(話題性が0である)ものと評価するためである。
語句話題度算出部17が話題度を算出する際に扱う語句は、全語句蓄積データベース14に蓄積された時刻が、図7の正区間及び負区間のいずれかに含まれるような語句であり、それより過去に蓄積された語句は人間の記憶にも残らない程古い情報であるとして解析に用いない。
Figure 0004165426
解析時刻範囲決定部16が決定する時刻範囲とは、正区間と負区間を合わせた時刻範囲(Tplus+Tminus)であり、例えば、時刻情報受付部15に指定時刻としてtを起点として、「時刻(t−(Tplus+Tminus))から時刻tまで」のデータを用いた話題度算出処理の開始を語句話題度算出部17に要求する。
語句話題度算出部17は、指示された時刻範囲内の語句とその出現文書数の情報を全語句蓄積データベース14から取得して各時刻における出現文書数を加算して話題度Fとする。この際、語句wが全語句蓄積データベース14に記録された時刻t(集計時刻)と指定時刻tとの差t−tで決まるインパクト値(S(t−t)−L(t−t))を重みとして、出現文書数に乗じる。この式を以下に示す。
Figure 0004165426
上記の式(3)におけるD(t,w)は、時刻tでの蓄積時において語句wが出現した文書の数である。出現文書数D(t,w)に時刻tにおけるインパクト値S(t−t)−L(t−t)を乗じながら、解析時刻範囲中のデータについて加算した値F(t,w)が語句wの時刻tにおける話題度となる。
語句話題度算出部17が話題度の算出を終えると、その結果を出力語句記録装置18に記録する。出力語句記録装置18には、語句と、指定時刻における該語句の話題度が記録されるため、話題度が大きい語句から必要に応じて複数選択すれば、任意の時刻の話題を知ることができる。
続いて、本発明の話題抽出装置10における実際の動作の様子を説明する。
図8は、本発明の第1の実施の形態における文書解析部の処理の流れを示す。
文書解析部12は、文書データバッファ11に文書データが蓄積されているかを調べ(ステップ101)、処理待ち状態の文書が存在すればステップ102に移行する。処理待ち状態の文書が存在しなければ、終了命令が与えられるまで(ステップ106、Yes)はステップ101を繰り返して文書が入力されるのを待機する。
次に、1文書分のデータを文書データバッファ11から取得し(ステップ102)、続いて文書の解析を行う(ステップ103)。解析の結果、話題抽出の対象とする語句(名詞または複合名詞)が存在するかどうかを判断する(ステップ104)。文書が極端に短く、名詞や複合名詞が全く含まれない場合や、解析ミスなどで名詞または複合名詞が全く取得されなかった場合には、再びステップ101に戻って次の文書の処理を行う。語句が抽出された場合には文書内出現語句集計部13内のバッファに、文書の作成時刻情報と語句とを送出し(ステップ105)、処理待ち文書がない場合と同様、終了命令が与えられるまで(ステップ106、Yes)は、ステップ101に戻って処理を繰り返す。
図9は、本発明の第1の実施の形態における文書内出現語句集計部内のバッファに蓄積されたデータの例を示す。文書内出現語句集計部13内のバッファ60は、複数の文書分のデータ61を記憶する。各文書のデータ61は、文書の作成時刻情報62と、当該文書から抽出された語句63を含む。
図10は、本発明の第1の実施の形態における文書内集計部の処理の流れを示す。
文書内集計部13は、処理が開始されるとその時点において、バッファ内に蓄積されている語句を集計する(ステップ201)。図9中の「首相」や「経済」のように、バッファ内の複数の文書中に同一の語句が存在する場合は、当該語句が出現した文書の数をカウントする。集計データは、図11のように、全語句蓄積データベース14内に記録する(ステップ202)。当該全語句蓄積データベース14に記録される情報は、集計時刻、語句、語句の出現文書数である。例えば、2004年1月8日17時00分に集計が行われた場合、前回の集計時刻(2004年1月8日16時45分)以降にバッファ内に蓄積された語句を集計する。図9に示した例では、「首相」という語句が2004年1月8日16時52分と同日16時57分の文書に、また、「経済」という語句は同日16時57分、16時58分の文書で抽出されているため、図11の「2004/1/8 17:00」の集計結果の欄には、いずれの語句とも出現文書数「2」という記録が残される。前回の集計時刻以降に新たに文書データバッファ11に入力された文書がなく、文書内出現語句集計部13内のバッファ内にデータが存在しなければ、図11の「2004/1/8 17:15」の欄のように、集計時刻のみを記録しておく。
また、同一の作成時刻情報を持つ文書が複数存在する場合でも、それらを別のものとして扱えばよく、前回の集計によってバッファがクリアされた瞬間以降のデータについて、作成時刻情報とは無関係に、文書の数のみをカウントすればよい。
集計結果の全語句蓄積データベース14への記録が終われば、終了命令が与えられるまで(ステップ203、Yes)は、一定時間待機し(ステップ204)、再び、ステップ201でバッファ内の情報の集計を繰り返す。図11の例では、ステップ204での待機時間を15分とした例であり、集計時刻が15分間隔になっている。
以上の、図8、図10の処理を実行することにより、全語句蓄積データベース14には現在までに入力された文書データの解析結果が全て蓄えられている状態となる。
図12は、本発明の第1の実施の形態における話題抽出装置の話題抽出処理の流れを示す。同図では、全語句蓄積データベース14に記録された情報を用いて、話題を抽出する対象時刻の指定から語句の話題度の出力を行うまでの処理を示す。
例えば、「2004年1月8日19時00分」といった時刻の入力がある(ステップ301、Yes)と、時刻情報受付部15がこれを受け付け、解析時刻範囲決定部16に送出する(ステップ302)。解析時刻範囲決定部16は、指定時刻と正区間(Tplus)、負区間(Tminus)の大きさから解析に使用する時刻の範囲を決定する。
解析時刻範囲を決めるためのインパクト曲線は、話題抽出装置10の処理を計算機に実行させる場合の処理速度を考慮し、図13のように直線で近似したものを用いて処理を簡略化してもよい。図13の近似インパクト曲線を用いた場合、正区間が8時間、負時間が24時間であるため、解析に使用する時刻の範囲は「2004年1月7日11時00分〜2004年1月8日19時00分まで」の32時間になる。
語句話題度算出部17は、この時刻範囲に基づいて、全語句蓄積データベース14から、時刻範囲内であっても未取得の集計データを取得する(ステップ304)。図11において、集計時刻「2004/1/8 17:00」のデータが未取得であった場合、「狂牛病」以下、この時刻の語句と出現文書数の情報を全て取得する(ステップ305)。
続いて、集計時刻「2004/1/8 17:00」と指定時刻「2004/1/8 19:00」との差が2時間であることを、近似インパクト曲線(図13)に照らし合わせ、重み0.75を得る(ステップ306)。
ステップ307,308では、ステップ305で取得した「2004/1/8/ 17:00」の語句それぞれについて、話題度の加算処理を行う。図11で、「狂牛病」の出現文書数は4であるため、これに重み0.75を乗じた値「3」が、語句話題度算出部17内のバッファに「狂牛病」の話題度の暫定値として保持される。他の語句の出現文書数にもそれぞれ重み0.75を乗じて語句毎に加算して記録しておく。
集計時刻「2004/1/8 17:00」の語句全ての処理が終われば(ステップ307、No)、ステップ304に戻って他の集計時刻分の加算処理を行う。
「狂牛病」が解析時刻範囲「2004年1月7日19時00分〜2004年1月8日19時00分まで」中の他の時刻のデータにも現れた場合は、語句話題度算出部17内のバッファに保持されている話題度の暫定値に次々と加算していく(ステップ308)。
解析時刻範囲中の全ての時刻のデータの処理が終わった時に語句話題度算出部17内のバッファに語句毎に保持されている値が、各語句の指定時刻における話題度である。全てのデータの処理が終わったと判断されれば(ステップ304、No)、結果を出力語句記録部18に書き出して(ステップ309)、処理を終了する。
上記の一連の処理により、集計時刻である32時間に出現した全ての語句の話題度が算出され、出力語句記録装置18に図14に示すように記録される。
[第2の実施の形態]
前述の第1の実施の形態では、時刻に着目し、長期的な記憶の情報量と短期的な記憶の情報量との対比として語句の意外性を検出したが、カテゴリに着目した意外性も同様に考えられる。
複数のカテゴリ内の文書中に出現する語句は一般性が高く、1度の出現が与える意外性は小さい。例えば、「経済」「社会」「スポーツ」などのカテゴリに分類される新聞記事において、「今日」という語句はいずれのカテゴリ内の文書にも出現し易く、意外性を持つ語とは言い難い。しかし、「経済」カテゴリの「東京証券取引所」という語句、「スポーツ」カテゴリの「高校野球」という語句などは、限定的なカテゴリで使用されるため、分類という観点から見た意外性が大きい。
本発明の話題抽出装置10の第2の実施の形態では、第1の実施の形態で述べた話題度の算出において、入力文書が複数のカテゴリに分類されている場合に、時間に基づく話題性が高く、かつ、それぞれのカテゴリの中での特徴的である語句が、時間的かつ意味的な意外性を持った語句であるとして、高い評価を与えるものである。
本実施の形態におけるシステムの構成は、前述の第1の実施の形態と同様に、図3の構成とする。
入力文書は、内容に基づき、予め定める「経済」「スポーツ」「映画」などのカテゴリに分類しておく。以下では、分類に使用したカテゴリ数をCとして説明する。
文書解析部12が抽出した語句は、文書内出現語句集計部13内のバッファでは、図15のようにカテゴリ別に記録される。文書内出現語句集計部13による集計処理は、図16の手順により行われる。
まず、文書内出現語句集計部13のバッファ内に蓄積されている語句の出現文書数を、1カテゴリ分のみについて集計し(ステップ401)、この結果を全語句蓄積データベース14に記録する(ステップ402)。
これを、全カテゴリの集計が終了するまで繰り返す(ステップ403)。終了判断(ステップ404)、及び一定時間待機(ステップ405)については、前述の第1の実施の形態の処理と同様である。
ここまでの処理により、全語句蓄積データベース14には、図17のように、集計結果がカテゴリ別に記録される。
図18は、本発明の第2の実施の形態における話題抽出装置の話題抽出処理の流れを示す図であり、全語句蓄積データベース14にカテゴリ別に記録された情報を用いて、話題を抽出する対象時刻の指定から話題の出力を行うまでの処理を示す。
例えば、「2004年2月10日10時30分」といった時刻の入力がある(ステップ501)と、時刻情報受付部15がこれを受け付け、解析時刻範囲決定部16に送出する(ステップ502)。解析時刻範囲決定部16は、指定時刻と正区間(Tplus)と、負区間(Tminus)の大きさから解析に使用する時刻の範囲を決定する。
図13の近似インパクト曲線を用いた場合、解析に使用する時刻の範囲は、『2004年3月24日2月9日2時30分〜2004年2月10日10時30分まで』の32時間になる(ステップ503)。
語句話題度算出部17は、この時刻範囲に基づいて全語句蓄積データベース14から、時刻範囲内であって、未取得の集計データを取得する(ステップ504)。図17において、集計時刻「2004/2/9 10:30」のデータが未取得であった場合、「経済」「スポーツ」「映画」以下、全てのカテゴリの集計時刻「2004/2/9 10:30」のデータを取得する(ステップ505)。
続いて、集計時刻「2004/2/9 10:30」と指定時刻「2004/2/10 10:30」との差が24時間であることを、近似インパクト曲線(図13)に照らし合わせ、重み、−0.22を得る(ステップ506)。
ステップ507,508.509において、ステップ505で取得した「2004/2/9 10:30」の語句それぞれについて、話題度の算出処理を行う。図17で、「経済」カテゴリにおける「日経平均株価」の出現文書数は2であるため、これに重み−0.22を乗じた値「−0.44」が語句話題度算出部17内のバッファに、「経済」カテゴリにおける「日経平均株価」の話題度の暫定値として加算される。当該バッファでは、語句はカテゴリ別に記録される。即ち、「経済」以外のカテゴリで「日経平均株価」が現れて処理が行われた場合には、「経済」の「日経平均株価」とは別に扱われる。
この処理でカテゴリ別に計算する語句の話題度は、式で表すと、以下の式(4)のようになる。式(4)において、D(c,t,w)、は、カテゴリcにおける集計時刻tでの語句wの出現文書数で、F(t,c,w)はカテゴリcでの時刻tにおける語句wの話題度である。
Figure 0004165426
ステップ509では、1回の時刻指定による一連の話題抽出処理において、同一の語が出現したカテゴリ数を集計しておく。「日経平均株価」が1度の話題抽出処理中に「経済」「政治」の2カテゴリに、少なくとも1回以上現れた場合には、『日経平均株価』の出現カテゴリ数は2となる。ここで記録しておく出現カテゴリ数は、分類という観点から見た場合の語句の一般性の強弱を表す目安となるものであり、以後の処理で、各カテゴリ毎に特徴的な語句を選び出す際に用いられる。
ステップ508、ステップ509の処理を、ステップ505で取得した語句全てについて、それぞれの出現文書数に重み−0.22を乗じて集計しておく。
集計時刻「2004/2/9 10:30」の語句全ての処理が終われば(ステップ507、No)、ステップ504に戻って他の集計時刻分の加算処理を行う。
「日経平均株価」が解析時刻範囲「2004年2月9日2時30分〜2004年2月10日10時30分まで」中の他の時刻のデータにも現れた場合は、語句話題度算出部17のバッファに保持されている話題度の暫定値に次々と加算していく(ステップ508)。さらに、「日経平均株価」が新たに別のカテゴリにも登場した場合は、出現カテゴリ数に1を加えて記憶しておく(ステップ509)。
解析時刻範囲中の全ての時刻のデータの処理が終われば(ステップ504、No)、話題度の算出を1カテゴリ分ずつ行う(ステップ510)。
カテゴリcにおける語句wの時刻tでのカテゴリ話題度FC(t,c,w)は、式(5)のように、上記の式(4)で算出する話題度F(t,c,w)にlog(C/C(w))を乗じて得る。Cは扱うカテゴリの総数、C(w)はステップ509でカウントされている語句wの出現カテゴリ数である。Log(C/C(w))の部分は、出現カテゴリ数が1である語句は、全カテゴリの中でもそのカテゴリにおいて特徴的な語句であると見做して評価し、全カテゴリに出現する語句は極めて広く用いられる一般的な語句であると見做して評価ために追加する部分である。全カテゴリに出現(C(w)=C)する語句の場合には値が0となり、出現カテゴリ数が少ない語句ほど値が大きくなる。
結果として、カテゴリc内での話題性が高く、かつ、全カテゴリから見て特徴的な語句ほど、FC(t,c,w)の値が大きくなる。
FC(t,c,w)=F(t,c,w)×log(C/C(w)) (5)
カテゴリ別話題度FC(t,c,w)の計算が1カテゴリ分の全ての語句について終了すれば、結果を出力語句話題記録装置18に書き出す(ステップ511)。
他のカテゴリについてもそれぞれ同様の計算を行い、全てのカテゴリの処理が終われば(ステップ512、Yes)、処理を終了する。
上記の一連の処理により、集計時刻の範囲である32時間に出現した全ての語句についてカテゴリ別話題度が算出され、カテゴリ別のリストとして、出力語句話題記録装置18に図19のように記録される。「今日」という語句がこの32時間分のデータ中で、全てのカテゴリに出現したとすると、式(5)の対数部分の効果によって全てのカテゴリにおいて、「今日」のカテゴリ別話題度が0となる。
本発明では、上記の第1の実施の形態及び第2の実施の形態における図8、図10、図12、図16、図18の動作をプログラムとして構築し、話題抽出装置として利用されるコンピュータにインストールする、または、ネットワークを介してインストールし、CPU等の制御手段により実行させることが可能である。
また、構築されたプログラムを話題抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、各分野の文書中から最近の話題となっている語句を自動的に抽出する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における話題抽出装置の構成図である。 本発明の第1の実施の形態における短期記憶曲線の例である。 本発明の第1の実施の形態における長期記憶曲線の例である。 本発明の第1の実施の形態におけるインパクト曲線の例である。 本発明の第1の実施の形態におけるインパクト曲線の詳細図である。 本発明の第1の実施の形態における文書解析部の処理の流れを示す図である。 本発明の第1の実施の形態における文書内出現語句集計部内のバッファに蓄積されたデータの例である。 本発明の第1の実施の形態における文書内出現語句集計部の処理の流れを示す図である。 本発明の第1の実施の形態における全語句蓄積データベースである。 本発明の第1の実施の形態における話題抽出装置の話題抽出処理の流れを示す図である。 本発明の第1の実施の形態における近似インパクト曲線の例である。 本発明の第1の実施の形態における出力語句記録装置に記録される語句と話題度の例である。 本発明の第2の実施の形態における文書内出現語句集計部内のバッファに蓄積されたデータの例である。 本発明の第2の実施の形態における文書内出現語句集計部の処理の流れを示す図である。 本発明の第2の実施の形態における全語句蓄積データベースである。 本発明の第2の実施の形態における話題抽出装置の話題抽出処理の流れを示す図である。 本発明の第2の実施の形態における出力語句記録装置に記録される語句とカテゴリ別話題度の例である。
符号の説明
10 話題抽出装置
11 文書データバッファ
12 文書解析手段、文書解析部
13 文書内出現語句集計手段、文書内出現語句集計部
14 全語句蓄積データベース
15 時刻情報受付手段、時刻情報受付部
16 解析時刻範囲決定手段、解析時刻範囲決定部
17 語句話題度算出手段、語句話題度算出部
18 出力語句記録装置
60 文書内出現語句集計部内のバッファ
61 複数の文書分のデータ
62 文書の作成時刻情報
63 文書から抽出された語句

Claims (11)

  1. 多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度を判定する装置における話題抽出方法において、
    時刻情報受付手段が、所望する時刻における話題の抽出処理を行うために、外部から時刻情報の入力を受け付ける時刻情報受付ステップと、
    解析時刻範囲決定手段が、前記時刻情報受付ステップ受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定ステップと、
    語句話題度算出手段が、語句データと該語句データを集計した集計時刻に関する情報が蓄積された全語句蓄積データベースから、前記解析時刻範囲決定ステップで決定された前記集計時刻の範囲内の語句データを取得し、各語句の話題度を算出して出力する語句話題度算出ステップと、
    からなり、
    前記語句話題度算出ステップにおいて、
    区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
    S(t)=S ×exp((−t)/T

    L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)
    とを用い、前記指定時刻をt としてS(t −t)−L(t −t)で表される曲線をインパクト曲線とし、前記集計時刻の範囲内の各時刻tにおいて前記各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、前記集計時刻の範囲内の全ての時刻について加算した値を該語句の話題度とする
    ことを特徴とする話題抽出方法。
  2. 前記時刻情報受付ステップの前に、
    文書解析手段が、作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析ステップと、
    文書内出現語句集計手段が、一定期間中に作成された文書中に出現する語句を集計し、集計結果を前記集計時刻に関する情報と共に前記全語句蓄積データベースに記録する文書内出現語句集計ステップと、
    を更に行う請求項1記載の話題抽出方法。
  3. 予め複数のカテゴリに分類された多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度をカテゴリ別に判定する装置における話題抽出方法において、
    時刻情報受付手段が、所望する時刻における話題の抽出処理を行うために外部からの時刻情報の入力を受け付ける時刻情報受付ステップと、
    解析時刻範囲決定手段が、前記時刻情報受付ステップで受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定ステップと、
    語句話題度算出手段が、カテゴリ別の語句データと該語句データをカテゴリ別に集計した集計時刻に関する情報が蓄積された全語句蓄積データベースから、前記解析時刻範囲決定ステップにおいて決定された解析時刻範囲内のカテゴリ別に記録された語句データを抽出し、各語句のカテゴリ別話題度を算出して出力する語句話題度算出ステップと、
    からなり、
    前記語句話題度算出ステップにおいて、
    区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
    S(t)=S ×exp((−t)/T

    L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)とを用い、前記指定時刻をt としてS(t ―t)−L(t −t)で表される曲線をインパクト曲線とし、各カテゴリ毎に、前記集計時刻の範囲内の各時刻tにおいて前記各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、前記集計時刻の範囲内の全ての時刻について加算した値を該各語句の話題度とし、全カテゴリの数を該各語句が出現するカテゴリの数で割った値の対数を、該各語句の話題度に乗じた値を該各語句のカテゴリ別話題度とする
    ことを特徴とする話題抽出方法。
  4. 前記時刻情報受付ステップの前に、
    文書解析手段が、作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析ステップと、
    文書内出現語句集計手段が、一定期間中に作成された文書中に出現する語句をカテゴリ別に集計し、集計結果を集計時刻情報とカテゴリ情報と共に前記全語句蓄積データベースに記録する文書内出現語句集計ステップと、
    を更に行う請求項3記載の話題抽出方法。
  5. 前記語句話題度算出ステップにおいて、
    前記インパクト曲線を直線で近似した近似インパクト曲線を用いる請求項1または3記載の話題抽出方法。
  6. 多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度を判定する話題抽出装置であって、
    所望する時刻における話題の抽出処理を行うために、外部から時刻情報の入力を受け付ける時刻情報受付手段と、
    前記時刻情報受付手段が受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定手段と、
    語句データと該語句データを集計した集計時刻に関する情報が蓄積された全語句蓄積データベースと、
    前記全語句蓄積データベースから、前記解析時刻範囲決定手段で決定された前記集計時刻の範囲内の語句データを取得し、各語句の話題度を算出して出力する語句話題度算出手段と、を有し、
    前記語句話題度算出手段は、
    区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
    S(t)=S ×exp((−t)/T

    L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)
    とを用い、前記指定時刻をt としてS(t −t)−L(t −t)で表される曲線をインパクト曲線とし、前記集計時刻の範囲内の各時刻tにおいて前記各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、前記集計時刻の範囲内の全ての時刻について加算した値を該語句の話題度とする手段を含む
    ことを特徴とする話題抽出装置。
  7. 作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析手段と、
    一定期間中に作成された文書中に出現する語句を集計し、集計結果を前記集計時刻に関する情報と共に前記全語句蓄積データベースに記録する文書内出現語句集計手段と、
    を更に有する請求項記載の話題抽出装置。
  8. 予め複数のカテゴリに分類された多数の文書を解析して、文書中に含まれる語句に対して所望の時刻話題性の強度をカテゴリ別に判定する話題抽出装置であって、
    所望する時刻における話題の抽出処理を行うために外部からの時刻情報の入力を受け付ける時刻情報受付手段と、
    前記時刻情報受付手段で受け付けた指定時刻から過去にさかのぼり、話題抽出処理を行うために使用するデータ範囲を、集計時刻の範囲として決定する解析時刻範囲決定手段と、
    カテゴリ別の語句データと該語句データとカテゴリ別に集計した集計時刻に関する情報が蓄積された全語句蓄積データベースと、
    前記全語句蓄積データベースから、前記解析時刻範囲決定手段において決定された解析時刻範囲内のカテゴリ別に記録された語句データを抽出し、各語句のカテゴリ別話題度を算出して出力する語句話題度算出手段と、を有し、
    前記語句話題度算出手段は、
    区間−∞<t≦0における積分値が互いに等しくなるよう定義された二つの関数
    S(t)=S ×exp((−t)/T

    L(t)=L ×exp((−t)/T L )(但し、S >L >0,T >0,T L >0)とを用い、前記指定時刻をt としてS(t ―t)−L(t −t)で表される曲線をインパクト曲線とし、各カテゴリ毎に、前記集計時刻の範囲内の各時刻tにおいて前記各語句が出現する文書の数に、該各時刻tにおける該インパクト曲線の値を乗じた値を、前記集計時刻の範囲内の全ての時刻について加算した値を該各語句の話題度とし、全カテゴリの数を該各語句が出現するカテゴリの数で割った値の対数を、該各語句の話題度に乗じた値を該各語句のカテゴリ別話題度とする手段を含む
    ことを特徴とする話題抽出装置。
  9. 作成時刻情報を有する入力文書を解析して、話題性評価の対象となる語句を該文書中から切り出す文書解析手段と、
    一定期間中に作成された文書中に出現する語句をカテゴリ別に集計し、集計結果を集計時刻情報とカテゴリ情報と共に前記全語句蓄積データベースに記録する文書内出現語句集計手段と、
    を更に有する請求項記載の話題抽出装置。
  10. 前記語句話題度算出手段は、
    前記インパクト曲線を直線で近似した近似インパクト曲線を用いる手段を含む請求項6または8記載の話題抽出装置。
  11. 請求項6乃至10のいずれか1項に記載の話題抽出装置を構成する各手段としてコンピュータを機能させるための話題抽出プログラム。
JP2004092285A 2004-03-26 2004-03-26 話題抽出方法及び装置及びプログラム Expired - Fee Related JP4165426B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004092285A JP4165426B2 (ja) 2004-03-26 2004-03-26 話題抽出方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004092285A JP4165426B2 (ja) 2004-03-26 2004-03-26 話題抽出方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2005276115A JP2005276115A (ja) 2005-10-06
JP4165426B2 true JP4165426B2 (ja) 2008-10-15

Family

ID=35175690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004092285A Expired - Fee Related JP4165426B2 (ja) 2004-03-26 2004-03-26 話題抽出方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4165426B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
JP4800846B2 (ja) * 2006-06-01 2011-10-26 日本電信電話株式会社 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4771485B2 (ja) * 2007-08-20 2011-09-14 日本電信電話株式会社 文書間距離演算装置、プログラムおよび記録媒体
US10198503B2 (en) 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
JP5761033B2 (ja) * 2010-02-12 2015-08-12 日本電気株式会社 文書分析装置、文書分析方法、およびプログラム
JP6008886B2 (ja) * 2014-02-03 2016-10-19 Necパーソナルコンピュータ株式会社 情報処理装置及び方法
JP5952343B2 (ja) * 2014-06-11 2016-07-13 ヤフー株式会社 検索装置、検索方法及び検索プログラム
JP6429747B2 (ja) * 2015-08-20 2018-11-28 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP6077163B2 (ja) * 2016-06-09 2017-02-08 ヤフー株式会社 検索装置、検索方法及び検索プログラム

Also Published As

Publication number Publication date
JP2005276115A (ja) 2005-10-06

Similar Documents

Publication Publication Date Title
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
JP5452823B2 (ja) プライバシーポリシーを強化するためにコンピュータが実行する方法
US20070061314A1 (en) Verbal web search with improved organization of documents based upon vocal gender analysis
JP2008547129A (ja) 自動広告掲載
US20100241647A1 (en) Context-Aware Query Recommendations
EP1834259A2 (en) System and method for ranking the relative value of terms in a multi-term search query using deletion prediction
JP4165426B2 (ja) 話題抽出方法及び装置及びプログラム
US20130151538A1 (en) Entity summarization and comparison
JP5895052B2 (ja) 情報分析システム及び情報分析方法
JP2018206361A (ja) ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
WO2019237354A1 (en) Method and apparatus for computerized matching based on emotional profile
US20040158558A1 (en) Information processor and program for implementing information processor
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US20030009440A1 (en) Profile management method for information filtering and profile management program
WO2011008282A2 (en) Evaluation of website visitor based on value grade
CN116881406B (zh) 一种多模态智能文件检索方法及系统
US6131091A (en) System and method for high-performance data evaluation
JP2003167907A (ja) 情報提供方法およびシステム
JP3547074B2 (ja) データ検索方法、その装置および記録媒体
CN108460630B (zh) 基于用户数据进行分类分析的方法和装置
US20110087544A1 (en) Optimization of ad selection and/or placement in media objects
CN114036396A (zh) 内容处理方法、装置、存储介质及电子设备
JP4800846B2 (ja) 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4977004B2 (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080401

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080721

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110808

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120808

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130808

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees