JP2008176721A - コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 - Google Patents
コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 Download PDFInfo
- Publication number
- JP2008176721A JP2008176721A JP2007011633A JP2007011633A JP2008176721A JP 2008176721 A JP2008176721 A JP 2008176721A JP 2007011633 A JP2007011633 A JP 2007011633A JP 2007011633 A JP2007011633 A JP 2007011633A JP 2008176721 A JP2008176721 A JP 2008176721A
- Authority
- JP
- Japan
- Prior art keywords
- electronic document
- importance
- electronic
- calculating
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
【課題】 ディスカッションスレッド内で、ユーザーの関心に合致する重要度の高い発言を含むメッセージを、自動的に検索できるようにすること。
【解決手段】 各メッセージの内容に、予め登録された賛成、反対、批判、同意等を表現する語句が含まれている度合いを数値化する。賛同的、同意的な語句を含むメッセージによる返答を受けているメッセージに正のポイントを付与し、批判、反対を表す語句を含むメッセージによる返答を受けているメッセージには負のポイントを付与する。ユーザーの関心に沿う語句を含むメッセージにも正のポイントを付与する。これらポイントの総合により、各メッセージの総合重要度を計算し、総合重要度の高いメッセージがユーザーの関心に合致するものと判断する。
【選択図】 図7
Description
コンピュータネットワーク上のウェブページの重要度を自動的に判定する技術の一つとして、GoogleのPageRankが良く知られている。その詳細は、Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, “ThePageRank Citation Ranking: Bringing Order to the Web”, 1998”に記載されている。
PageRankは要するに、数多くの良質なウェブページからリンクされているウェブページは、依然良質なウェブページであるという再帰的関係をもとに、ネットワーク上の一群のウェブページの重要度を判定する技術である。具体的には、被リンク数、推奨度の高いウェブページからのリンクの存在、リンク元ページでのリンク数が、ウェブページの重要度を計算するための基礎とされる。
すなわち、PageRankは、ウェブページ間のリンクに基づいて、各ウェブページの相対的重要度を計算するための技術である。
ウェブページの内容を解析し、その内容に含まれる、他のウェブページに対する批評に基づいて、当該他のウェブページの重要度を計算することはPageRankには含まれない。
“Influence Diffusion Model in Text-BasedCommunication” 人工知能学会論文誌第17巻3号SP−B(2002年)、第259頁乃至第267ページは、電子掲示板内の特定のコメントが、そのコメントに対する以後の返信の中で、どの程度引用されているかを、テキスト解析により計量し、その特定のコメントが他のコメントに及ぼす影響度を計算することを開示している。
“Mining and Summarizing Conversation Data on Electrical Message Boards” 人工知能学会第16回年会(2002)は、電子掲示板の各投稿につき、(1)返信先の投稿中の話をどれくらい承継しているか、(2)新規な語をどれくらい用いているか、(3)新情報である話がどれぐらい後の投稿で旧情報として用いられているかの3つの指標に基づいて、投稿の重要度を計算することが開示されている。
しかし、これらの文献には、各投稿内容に含まれる、他の投稿内容に対する批評、例えば、賛同的或いは非賛同的等を含む、批評を分析し、各投稿内容の重要度を求めることは記載されていない。
すなわち、当該文献は、議事録をネットワーク構成の側面から解析することを開示するものであり、個々の発言内容を解析し、発言の重要度を計算するものではない。
しかしながら、この技術には、ネットワーク上のディスカッションスレッドに含まれる個々のメッセージの重要度を計算することは含まれない。それゆえ、当該メッセージに応答する別のスレッドの内容の分析に基づいて、当該メッセージの重要度を計算することは開示も示唆もされていない。
Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, "The PageRank Citation Ranking: Bringing Orderto the Web", 1998 "Influence Diffusion Model in Text-BasedCommunication" 人工知能学会論文誌第17巻3号SP−B(2002年)、第259頁乃至第267ページ "Mining and Summarizing Conversation Data on Electrical Message Boards" 人工知能学会第16回年会(2002) 友部博教、長尾確、「ディスカッションマイニング:議事録集合からの知識発見」、情報処理学会第67回全国大会(2005年) 「ホームページ上の"評判"を瞬時に分析」、日本アイ・ビー・エム(株)、2004年7月26日
(a) 当該複数の電子文書のうちの所与の電子文書の固有重要度を、当該重要語句と当該所与の電子文書に含まれる語句との類似度に基づいて算出する手段と、
(b) 当該参照・被参照の関係情報に基づいて、当該所与の電子文書を参照する、少なくとも一つの第2の電子文書を特定する手段と、
(c) 当該第2の電子文書内に含まれる語句と、当該返答係数決定語句との類似度、のうちの少なくとも1つの類似度に基づいて、当該第1の電子文書に対する返答係数を算出する手段と、
(d) 当該所与の電子文書の総合重要度を、当該所与の電子文書の固有重要度、当該返答係数及び当該第2の電子文書の総合重要度、とに基づいて算出する手段と、
(e) 当該複数の電子文書個々の総合重要度を算出する手段であって、当該手段(a)乃至(d)を、当該複数の電子文書の各々の組に対して作用させて、当該電子文書個々の総合重要度を算出する手段、
として動作させる当該コンピュータプログラムである。
具体的には、当該重み付け係数として、0より大きい1未満の数を採用することが好ましい。
本発明によるコンピュータプログラムによれば、個々の電子文書の総合重要度は、第1の電子文書を参照先とする他の第2の電子文書の総合重要度と返答係数に依存し、当該第2の電子文書の総合重要度は、更に、それを参照する更に他の第3の電子文書の総合重要度と返答係数に依存して算出される。
即ち、第1の電子文書の総合重要度には、第2及び第3の電子文書の総合重要度と返答係数が反映されている。
従って、上記重み付けを成すことにより、第2の電子文書の総合重要度と返答係数が、第3の電子文書の総合重要度と返答係数に比べて、第1の電子文書の総合重要度に対する貢献度が大きくなる。
本発明のその他の特徴は、以下の発明を実施するための最良の形態の記載により明らかにされる。
図1は、本発明のコンピュータ装置100を実施するためのハードウエア構成の概観図である。コンピュータ装置100は、中央処理装置(CPU)102とメモリ104とを含む。CPU102とメモリ104は、バス106、ハードディスクコントローラ108を介して補助記憶装置としてのハードディスク装置110と接続されている。
このハードディスク装置110若しくはROM112などの記憶媒体には、オペレーティングシステムと協働してCPU102等に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードや各種データを記録することができる。
本発明によるコンピュータ装置100は、通信アダプタ122を介して、他のコンピュータ等と通信を行なうことができる。
オペレーティングシステムとしては、WindowsXP(R)、AIX(R)、Linux(R)など、標準でグラフィックユーザーインターフェースマルチウインドウ環境をサポートするものが好ましいが、他のオペレーティングシステムでも良く、本発明は特定のオペレーティングシステム環境には限定されない。
本発明のシステム構成の詳細を説明する前に、用語の定義を行う。
: 一般的に、スレッド (thread) は、一連の “あるオブジェクト” を指し、ディスカッションは、ある命題についての複数のメッセージ(或いは意見)の集合であり、メッセージ間の返答関係を考慮して、全メッセージを枝のある数珠繋ぎにしたものをディスカッション・スレッドという。
メッセージは、具体的には、例えば、ソーシャル・ネットワーキングサービス、ブログ、電子掲示板において、投稿された記事、及び記事への返答等を指す。典型的なメッセージは、テキスト、画像等の情報及び他のメッセージへの参照情報を含む。例えば、ID番号が1のメッセージに対する返答を目的に投稿されたID番号2のメッセージには、テキスト、画像等の情報に加えて、ID番号1が含まれる。或いは、ID番号1のメッセージに、それを参照する他のメッセージID、即ちID2を含ませても良い。もちろん、メッセージ間の参照関係が、メッセージとは独立した、参照関係情報として保存される場合もある。
本明細書全体を通じ、本発明によるコンピュータ装置の作用対象の一例としてディスカッションスレッドを示すが、それには限定されない。要するに、本発明によるコンピュータ装置の処理対象は、電子的コンテンツが複数存在し、かつその間の参照・被参照関係が存在する系であれば何でも良い。例えば、ウェブページと、ウェブページ間相互のリンクを含む、ネットワークシステムであっても良い。
図2はその例である。メッセージ1 201に対しては、二つのメッセージ2 202、メッセージ3 213からの返答がある。返答は線分212、213により表される。これらの線分は有向線分であることが好ましい。例えば、メッセージ3 203から、メッセージ1 201に向かう矢印は、メッセージ3 203が、メッセージ1 201に対する返信であることを示す。或いは、メッセージ3 203は、メッセージ1 201を参照する、と表現される。
ディスカッショングラフを、コンピュータの記憶装置内に記憶できるよう構成することは当業者には明らかであろう。例えば、に示されるように、ディスカッショングラフは、メッセージID、参照元メッセージ、参照先メッセージ、メッセージのコンテンツへのポインタを含むテーブルの形式で、記憶装置内に記憶されても良い。
例えば、メッセージ1 201は、メッセージ2 202及びスレッド 3 203の双方から参照を受けており、参照元メッセージ番号2、3が記憶される。一方メッセージ1 201が参照するメッセージはなく、参照先にNULLが記憶される。更に、テーブルには、メッセージ1 201の内容が記憶されている記憶領域へのポインタが記憶されることが好ましい。
参照情報は、図3を用いて説明した如く、メッセージの参照先と参照元を示す情報である。電子文書がウェブページの場合には、参照はリンクである。この場合の参照情報の一つは、参照元ウェブページに含まれる、参照先ウェブページのアドレスである。加えて、参照元ウェブページから参照先ウェブページへのアクセス履歴に基づいて、相互ウェブページ間の参照情報を取得することも可能である。
固有重要度は、電子文書を利用するユーザーの関心と、その電子文書の内容の一致度或いは類似度に依存する。最も簡便には、電子文書の固有重要度は、情報検索の技術を利用して求めることができる。
例えば、ユーザーの関心を検索条件で表現し(検索条件に含まれる単語は、重要語句群として予め用意されてものを用いても良い。)、その検索条件で電子文書を検索し、検索条件の単語を含む電子文書の重要度を、他の電子文書の重要度よりも高くすることができる。検索された単語とポイントを関連付け、重要度をポイントで表現することも可能である。
更に、電子文書の固有重要度は、テキストマイニングの技術によっても求めることができる。
例えば、人工知能学会誌Vol. 16 No.2 2001 “テキストマイニング基盤技術” 那須川哲哉、河野博之、有村博紀、に記載の技術を用いることができる。
すなわち、電子文書に含まれる文章の集まりを自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法を用いて、ユーザーの関心に合致する電子文書を検索し、合致度に応じその電子文書の固有重要度を決定する。
ここで、如何なる技術を用いても、検索・解析結果と固有重要度の対応関係、例えば、特定の検索条件と電子文書の内容の合致度をポイント化し、重要度とする等、は適宜選択し得るものであることは当業者には明らかであろう。
ci= si + aΣrij・cj (1)
ここで、siは電子文書iの固有重要度である。
aは、減衰係数であり、0 < a < 1を満たす数であることが好ましい。詳細は後述する。
rijは、返答係数であり、詳細は後述する。
cjは、電子文書ciを参照する他の電子文書cjの総合重要度である。
Σは、電子文書ciを参照する他の電子文書cjが複数存在する場合には、他の電子文書個々につき、rとcの積をとり、更にそれら積の総和をとることを表す。
好ましくは、賛同的な場合には返答係数は正の値、批判的な場合には負の値を示す。また、積極的な賛同の場合には正の大きな値、消極的な賛同の場合には正の小さな値を示す。
ここで、「賛同的」或いは「批判的」の度合いは、次に述べる意見表現を利用して求める。
これら意見表現には二つの作用がある。
第1は、意見表現が含まれる電子文書自体の重要度を決することである。
例えば、「〜すべきである。」等、具体的な解決案を示す語句を含む電子文書は、解決案を模索しているユーザーにとって重要度が高い。
或いは、「〜を参照してください。」等、他の情報への参照を示唆する語句を含む電子文書も、解決案を種々検討するユーザーにとって同様に重要度が高い。
第2は、意見表現が含まれる電子文書が参照する、他の第2の電子文書の重要度を決することである。
例えば、「賛成します」、「同意しかねます」のような、賛否を表す語句は、参照先の当該第2の電子文書の重要度に影響を与える。例えば、賛同を表す語句を含むメッセージによって参照される(返答を受ける)、メッセージの重要度は高い。
一般に、肯定語句は参照先の第2の電子文書の重要度を高め、否定語句は参照先の電子文書の重要度を低くする。
質問を表す語句を含むメッセージから返答を受ける、メッセージは、質問によりその信憑性が問われていると考えることができ、メッセージの重要性は低くなる。
同時に、質問の意見表現は、参照先スレッドの内容を確認することにより、質問を表す語句を含むスレッド自体の重要度が高くなるという、上記第1の作用も併せ持つ。
テーブルは、意見表現により影響を受けるパラメータ、パラメータに対する加減点度数、表現タイプ、表現例から構成される。
例えば、表現例”IBMer should do”や、”We have to”は、示唆(Suggesn)に分類される表現タイプであり、これらの語句或いはこれと類似の語句が含まれる電子文書自体の固有重要度sは、それらを含まない電子文書に比べて高い。この例では、これら表現に対し、sに加算される、+2ポイントが割り当てられている。すなわち、これらは重要語句群である。
例えば、反対の表現タイプの表現例が電子文書に含まれる場合には、その電子文書が参照する、参照先の電子文書の重要度は式(1)により、低くなることが理解できよう。
この表現タイプに属する語句は、話題転換語句群である。
質問(Question)や、事実の提示(Fact Indication)の表現タイプには、これらに属する語句が、それらを含む電子文書自体の重要度と、その電子文書が参照する他の電子文書の重要度の双方に影響を与えるとの考えに立ち、sとrにそれぞれ加算ポイントが割り当てられている。
すなわち、これらの表現タイプに属する語句は、重要語句群であると同時に、賛成或いは非賛成語句群にも属する。
要するに、表現タイプ、表現タイプに属する表現例、対応する加算及び減算ポイント、及び加算及び減算されるべきパラメータが対応付けられていれば良い。
また、表現例と、電子文書の内容の比較においては、既存のテキスト解析手段を用いて、類似度や一致度を求めれば良い。以下の説明では、簡単のために、「一致」と称するが、類似の範囲も含み得ることは当業者には理解されよう。
この関係と、ci= si + Σarijから、ci = si + Σa rijcj+ ΣΣa2rijrjkckが導かれる。
ここで、cjにはaが、ckにはa2が乗ぜられていることに着目すると、電子文書iの総合重要度には、電子文書iを直接参照する電子文書jの総合重要度がより多く貢献し、電子文書iを間接的に参照する電子文書kの総合重要度がより少なく貢献することがわかる。
ディスカッションスレッドのように、各メッセージが参照関係を通じて相互に連鎖する系において、各メッセージの総合重要度の計算に、減衰係数を導入することにより、「より離れたメッセージからは、メッセージの重要度により小さく影響を受ける」という、経験則にも合致する処理を行うことができるようになる。
次に、図5を参照して、本発明のシステム構成を説明する。
図5に示される機能ブロックは、論理的機能ブロックであって、各々一つのまとまりを持ったハードウエアやソフトウエアによって実現されることを必ずしも意味するのではない。個々の機能ブロックは、別個の独立したハードウエア若しくはハードウエアの協働、或いは共通のハードウエア若しくはソフトウエアにより具現化可能である。
ディスカッションスレッド登録部506は、ユーザーにより入力されたメッセージを、ディスカッショングラフ記憶部に記憶されているディスカッショングラフに付加する。付加とは、図3に例示されるテーブルに、入力されたメッセージのID、テキストへのポインタ、及び参照元、参照先の情報を書き加えることである。参照元、参照先の情報は、ユーザーにより入力された参照情報に基づいて生成され、記憶される。
ディスカッショングラフ読取部510は、ディスカッショングラフ記憶部504内のディスカッショングラフを読取る。読取とは、図3に例示されるデータを検索し、メッセージの内容をディスカッショングラフ記憶部504から復元することである。復元されたメッセージは、ディスカッショングラフ表示部516に送信される。同時に、ディスカッショングラフ読取部510は、メッセージの参照関係をもディスカッショングラブ記憶部504から読取り、ディスカッショングラフ表示部516に送信する。
典型的には、ディスカッションスレッド入力部508、ディスカッションスレッド登録部506、ディスカッショングラフ読取部510、及びディスカッショグラフ表示部516の機能は、メール管理ソフトウエア、グループウエア等により実現される。
これらのソフトウエアにより、ディスカッショングラフ記憶部504内に、ディスカッショングラフが形成され、ユーザーによるメッセージの登録・削除操作に従い、ディスカッショングラフが更新される。
これらのソフトウエアは、本発明によるコンピュータ装置の一部であっても良いし、独立したものであっても良い。
総合重要度計算統括部514は、前述の式(1)に基づいて、ディスカッショングラフに含まれる個々のメッセージの総合重要度を計算し、その結果をディスカッションスレッド注釈部518に送信する。
総合重要度計算統括の詳細は、後述する。
ディスカッションスレッド注釈部は、総合重要度計算統括部514から受信した、メッセージの総合重要度等を、ディスカッショングラフに付加する。
具体的には、ディスカッショングラフ読取部510及びディスカッショングラフ検索部520が読み取れるように、メッセージとその総合重要度を関連付けて、ディスカッショングラフ記憶部5に記憶させる。
例えば、読み出されたテキストに含まれる語句を、意見表現テーブル(図4、400)内の表現例と比較し、一致度に基づいて、固有重要度sに加算されるポイントを決定する。例えば、テキスト中に、表現例”IBMer should do”との一致度が高い語句が存在する場合には、そのメッセージの固有重要度sにポイント2を加算する(sの初期値は0でも良い)。
計算結果は、総合重要度計算統括部514に送信される。
返答係数算出部522は、ディスカッショングラフ検索部520から受信したメッセージの内容に基づいて、当該メッセージの返答係数rを、意見表現テーブルを参照し、計算する。
計算結果は、総合重要度計算統括部514に送信される。
D-1 動作の概要
次に、各メッセージの総合重要度を計算する手順の詳細を説明する。
動作の概要は次の通りである。すなわち、式(1)から理解される通り、任意のメッセージの総合重要度は、そのメッセージを参照する他のスレッドの総合重要度及び当該他のスレッドの内容に基づいて求められる。従って、総合重要度計算統括部514は、参照・被参照の関係にあるメッセージの組を順次移動させながら、各メッセージの総合重要度を順次計算する。
以下で詳説する各メッセージの総合重要度を求める手順は一例であり、これには限定されない。一連の処理の複数タスクへの分割、タスク間の同期に関しては、当業者が適宜選択し得るものである。
式(1)から理解される通り、任意のメッセージiの総合重要度は、それを参照する他のメッセージjの内容に依存する。
以下では任意のメッセージiとjの組を用いて、メッセージiの総合重要度を計算する手順を詳説する。
尚、総合重要度計算統括部514は、別途、下記手順の作用対象となるべきメッセージの組を特定するためのタスクを実行する。具体的には、当該タスクは、まず、開始端メッセージ(図3、メッセージ6乃至9)を、ディスカッショングラフ検索部520を介して特定し、それら開始端を含む、メッセージの組について、下記手順を実行する、総合重要度計算タスクを発生させる。
更に、好ましくはD-1で説明した如くの順序で、別のメッセージの組について総合重要度計算タスクを発生させる。
各タスクが完了すると、全てのメッセージについて総合重要度の計算が完了する。
以下、特に断らない限り、各手順の実行主体は総合重要度計算統括部514である。
また、各手順において必要となる、メッセージの内容は、総合重要度計算統括部514が、ディスカッショングラフ検索部520を介して、ディスカッショングラフ記憶部から取得するが、説明の煩雑化を避けるため、その旨逐一記載しない。
当該別タスクからは、参照先メッセージiのIDと、参照元メッセージjのIDを受け取る(ステップ 606)。
参照元jが開始端メッセージ、即ち、参照元メッセージjを参照する他のメッセージが存在しない場合には(ステップ 606)、参照元メッセージjの総合重要度に、参照元メッセージjの固有重要度sjを代入する(ステップ 608)。
次に、返答係数算出部522に、返答係数rijを計算させ、計算されたsi、rij、cjを用い、参照先メッセージiの総合重要度を式(1)に基づいて計算する(ステップ 610)。
次に、参照先メッセージiを参照する、他の参照元メッセージの存在を、ディスカッショングラフ検索部520を介して検索する。他の参照元メッセージが存在し、それらの参照元メッセージと、参照先スレッドiとの組を用いた、ciの計算が未完了の場合には、ステップ 610で求めた、ciをci(n)として一時記憶に退避させる(ステップ )。nは、共通する参照元メッセージiと、個々の参照元メッセージの組を用いて求められるciを区別する便宜を図るものである。
この処理は、図3に示されるメッセージ3のように、複数のメッセージから参照を受けるメッセージの総合重要度を、複数の総合重要度の和(c36、c37、c38)により求めるためのものである。
他の参照元メッセージと、参照先メッセージiとの組についてci(n)の計算が全て完了していれば(ステップ 616)、一時退避されたci(n)を一時記憶から復帰させ(ステップ 618)、それらを加算し(ステップ 620)、参照先メッセージiの総合重要度を求める(ステップ 620)。
このフラグは、メッセージの組を特定するための別タスクが、新たな組を特定するときの用に供される。すなわち、フラグがオンの場合には、もはやそのメッセージiは、参照先メッセージとしては指定されない。
フラグや総合重要度は、ディスカッショングラフ注釈部518を介してディスカッショングラフ記憶部に記録される。
ci(n)の計算が全て完了していない場合には(ステップ 616)、タスクを終了(ステップ 624)させる。残るci(n)の計算は他の総合重要度計算タスクが行うことになる。
図7は、本発明によるコンピュータ装置100により、図2に例示されるディスカッショングラフについて、各メッセージの総合重要度を求めた結果を示す。減衰係数a = 0.8とした。
メッセージ1の総合重要度は-1.24である。これは、メッセージ1に対してコメントする(参照する)、メッセージ3の内容が批判的だからである。批判的とは即ち、返答係数r31が負の値を示す。なおかつ、メッセージ3に対しては、3つのメッセージ6、7及び8から、賛同的(rが正の値)応答を受けており、換言すれば、メッセージ1は、直接的にはメッセージ3により批判され、更には、間接的にはメッセージ6、7及び8から批判されている。このような事情により、メッセージ1の総合重要度はメッセージ群の中では相対的に低いと評価される。
以上説明した通り、本発明によるコンピュータ装置によれば、膨大な数のメッセージの中から、ユーザーの関心に合致したメッセージを、自動的に特定することができ、商品開発、マーケティング、企業のリスク管理等の分野での応用が期待される。
104 メモリ
118 キーボード
201 スレッド1
300 スレッド関係情報
400 意見表現例
502 意見表現記憶部
504 ディスカッショングラフ記憶部
512 固有重要度算出部
514 重要度計算統括部
520 ディスカッショングラフ検索部
522 返答係数算出部
524 総合重要度算出部
Claims (13)
- 記憶装置内に記憶された、(i) 複数の電子文書であって、他の電子文書から参照を受けることのない開始端電子文書から、参照先を有さない終端電子文書まで、参照・被参照の関係を通じて連鎖する、当該複数の電子文書と、(ii) 当該参照・非参照の関係情報と、(iii)重要語句と、(iv)返答係数決定語句と、に基づいて、個々の当該電子文書の総合重要度を算出する、コンピュータプログラムであって、コンピュータを、
(a) 当該複数の電子文書のうちの所与の電子文書の固有重要度を、当該重要語句と当該所与の電子文書に含まれる語句との類似度に基づいて算出する手段と、
(b) 当該参照・非参照の関係情報に基づいて、当該所与の電子文書を参照する、少なくとも一つの第2の電子文書を特定する手段と、
(c) 当該第2の電子文書内に含まれる語句と、当該返答係数決定語句との類似度、に基づいて、当該第1の電子文書に対する返答係数を算出する手段と、
(d) 当該所与の電子文書の総合重要度を、当該所与の電子文書の固有重要度、及び当該第2の電子文書の総合重要度、とに基づいて算出する手段と、
(e) 当該複数の電子文書個々の総合重要度を算出する手段であって、当該手段(a)乃至(d)を、当該複数の電子文書の各々の組に対して作用させて、当該電子文書個々の総合重要度を算出する手段、
として動作させる当該コンピュータプログラム。 - 請求項1に記載のコンピュータプログラムにおいて、前記複数の電子文書個々の総合重要度を算出する手段は、当該手段(a)乃至(d)を、当該開始端電子文書と当該開始端が参照する電子文書の組から開始して、連鎖する電子文書の各々の組に対して、当該連鎖に沿い、当該終端電子文書方向に、順次作用させて、当該電子文書個々の総合重要度を算出する、前記コンピュータプログラム。
- 請求項1に記載のコンピュータプログラムにおいて、当該所与の電子文書の総合重要度を算出する手段は、更に、当該返答係数及び当該他の電子文書の総合重要度のそれぞれに、予め定められた重み付けをなした値と、当該所与の電子文書の固有重要度とに基づいて、当該所与の電子文書の総合重要度を算出する、当該コンピュータプログラム。
- 請求項3に記載のコンピュータプログラムにおいて、0< 当該重み付け <1である、当該コンピュータプログラム。
- 請求項1に記載のコンピュータプログラムにおいて、当該電子文書個々の総合重要度を算出する手段は、当該電子文書対を成す片方の電子文書を参照する電子文書が存在しない場合には、当該片方の電子文書の固有重要度を、当該片方の電子文書の総合重要度として、当該手段(a)乃至(d)を、当該電子文書対に作用させて、当該電子文書対を成す個々の電子文書の総合重要度を算出する、当該コンピュータプログラム。
- 請求項1に記載のコンピュータプログラムにおいて、当該電子文書個々の総合重要度を算出する手段は、当該電子文書対を成す片方の電子文書を参照先とする、電子文書が複数存在する場合には、当該複数の参照元電子文書個々の総合重要度に基づいて、当該片方の電子文書の総合重要度を算出する、当該コンピュータプログラム。
- 請求項6に記載のコンピュータプログラムにおいて、当該総合重要度を算出する手段は、当該参照元電子文書個々の総合重要度の総和を、当該片方の電子文書の総合重要度として算出する、当該コンピュータプログラム。
- 請求項1に記載のコンピュータプログラムにおいて、当該返答係数決定語句は、(i) 賛成語句、(ii) 非賛成語句、若しくは(iii) 話題転換語句の少なくとも1つを含む、当該コンピュータプログラム。
- 記憶装置内に記憶された、(i) 複数の電子文書と、(ii) 個々の当該電子文書間の参照情報と、(iii) 重要語句と、(iv) 返答係数決定語句と、に基づいて、少なくとも一つの当該電子文書の重要度を算出する、方法において、
(a) 当該複数の電子文書のうちの所与の電子文書の固有重要度を、当該重要語句と当該所与の電子文書に含まれる語句との類似度に基づいて算出し、
(b) 当該参照情報に基づいて、当該所与の電子文書を参照する、少なくとも一つの他の電子文書を特定し、
(c) 当該他の電子文書内に含まれる語句と、当該返答係数決定語句との類似度、のうちの少なくとも1つの類似度に基づいて、当該所与の電子文書に対する返答係数を算出し、
(d) 当該所与の電子文書の総合重要度を、当該所与の電子文書の固有重要度、当該返答係数及び当該他の電子文書の総合重要度、とに基づいて算出し、
(e) 当該参照情報に基づいて、電子文書群であって、当該所与の電子文書及び当該他の電子文書と、参照・被参照の関係で直接若しくは間接に連結される、当該電子文書群内の、直接相互に参照・被参照関係にある電子文書対の各々に対して、当該手段(a)乃至(d)を作用させて、当該電子文書群内の当該電子文書個々の総合重要度を算出する、当該方法。 - 記憶装置内に記憶された、(i) 複数の電子文書と、(ii) 個々の当該電子文書間の参照情報と、(iii) 重要語句と、(iv) 返答係数決定語句と、に基づいて、少なくとも一つの当該電子文書の重要度を算出する、コンピュータ装置において、
(a) 当該複数の電子文書のうちの所与の電子文書の固有重要度を、当該重要語句と当該所与の電子文書に含まれる語句との類似度に基づいて算出する手段と、
(b) 当該参照情報に基づいて、当該所与の電子文書を参照する、少なくとも一つの他の電子文書を特定する手段と、
(c) 当該他の電子文書内に含まれる語句と、当該返答係数決定語句との類似度、のうちの少なくとも1つの類似度に基づいて、当該所与の電子文書に対する返答係数を算出する手段と、
(d) 当該所与の電子文書の総合重要度を、当該所与の電子文書の固有重要度、当該返答係数及び当該他の電子文書の総合重要度、とに基づいて算出する手段と、
(e) 当該参照情報に基づいて、電子文書群であって、当該所与の電子文書及び当該他の電子文書と、参照・被参照の関係で直接若しくは間接に連結される、当該電子文書群内の、直接相互に参照・被参照関係にある電子文書対の各々に対して、当該手段(a)乃至(d)を再帰的に作用させて、当該電子文書群内の当該電子文書個々の総合重要度を算出する手段と、を有する当該コンピュータ装置。 - 記憶装置内に記憶された、複数の電子文書であって、他の電子文書から参照を受けることのない開始端電子文書から、参照先を有さない終端電子文書まで、参照・被参照の関係を通じて連鎖する、当該複数の電子文書と、重要語句、返答係数決定語句、とに基づいて、当該複数の電子文書の個々の総合重要度を算出するコンピュータプログラムにおいて、当該コンピュータプログラムは、コンピュータを、
(a) 当該開始端電子文書の総合重要度を、当該重要語句と、当該開始端電子文書内に含まれる語句との類似度に基づいて算出する手段と、
(b) 当該開始端電子文書と、当該開始端電子文書が参照する他の電子文書の対から開始して、当該電子文書の連鎖内の参照・被参照の関係にある対をなす二つの電子文書に、式、ci = si+ a × rij × cjであって、
当該ciは、当該電子文書の連鎖内のi番目の電子文書の総合重要度であり、
当該siは、当該i番目の電子文書の固有重要度であって、当該i番目の電子文書に含まれる語句と、当該重要語句との間の類似度に基づいて計算され、
当該aは、0 < a < 1を満たす数であり、
当該rijは、当該i番目の電子文書を直接参照する、j番目の電子文書の返答であって、当該j番目の電子文書に含まれる語句と、及び当該返答係数決定語句との類似度に基づいて算出される、返答係数であり、
当該cjは、当該j番目の電子文書の総合重要度である、
当該式を、順次当該末端電子文書方向に位置する電子文書の対に適用して、当該複数の各電子文書の総合重要度を算出する手段、として動作させる、当該コンピュータプログラム。 - 請求項10に記載されるコンピュータプログラムにおいて、当該返答係数rijは、当該j番目の電子文書に含まれる語句と、賛成語句との類似度、非賛成語句との類似度及び話題転換語句との類似度の総和であって、当該賛成語句との類似度は、類似度に応じた正の数であり、当該非賛成語句との類似度は類似度に応じた負の数であり、当該話題転換語句との類似度は0である、当該返答係数rijである、当該コンピュータプログラム。
- 記憶装置内に記憶された、(i) 複数の電子文書であって、他の電子文書から参照を受けることのない開始端電子文書から、参照先を有さない終端電子文書まで、参照・被参照の関係を通じて連鎖する、当該複数の電子文書と、(ii) 当該参照・非参照の関係情報と、(iii) 第1の語句と、(iv)第2の語句と、に基づいて、個々の当該電子文書の総合重要度を算出する、コンピュータプログラムであって、コンピュータを、
(a) 当該複数の電子文書のうちの所与の電子文書の固有重要度を、当該第1の語句と当該所与の電子文書に含まれる語句との類似度に基づいて算出する手段と、
(b) 当該参照・非参照の関係情報に基づいて、当該所与の電子文書を参照する、少なくとも一つの第2の電子文書を特定する手段と、
(c) 当該第2の電子文書内に含まれる語句と、当該第2の語句との類似度、に基づいて、当該第1の電子文書に対する返答係数を算出する手段と、
(d) 当該所与の電子文書の総合重要度を、当該所与の電子文書の固有重要度、及び当該第2の電子文書の総合重要度、とに基づいて算出する手段と、
(e) 当該複数の電子文書個々の総合重要度を算出する手段であって、当該手段(a)乃至(d)を、当該複数の電子文書の各々の組に対して作用させて、当該電子文書個々の総合重要度を算出する手段、
として動作させる当該コンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007011633A JP4464975B2 (ja) | 2007-01-22 | 2007-01-22 | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 |
US12/016,381 US8019756B2 (en) | 2007-01-22 | 2008-01-18 | Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document |
CNA2008100037015A CN101231651A (zh) | 2007-01-22 | 2008-01-21 | 计算计算机网络上电子文档的重要性的计算机装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007011633A JP4464975B2 (ja) | 2007-01-22 | 2007-01-22 | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008176721A true JP2008176721A (ja) | 2008-07-31 |
JP4464975B2 JP4464975B2 (ja) | 2010-05-19 |
Family
ID=39360887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007011633A Expired - Fee Related JP4464975B2 (ja) | 2007-01-22 | 2007-01-22 | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8019756B2 (ja) |
JP (1) | JP4464975B2 (ja) |
CN (1) | CN101231651A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011048718A (ja) * | 2009-08-28 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索プログラム |
JP2011123530A (ja) * | 2009-12-08 | 2011-06-23 | Nec Corp | 話題推薦装置、話題推薦装方法およびプログラム |
WO2015182559A1 (ja) * | 2014-05-29 | 2015-12-03 | 日本電信電話株式会社 | 情報分析システム、情報分析方法及び情報分析プログラム |
US9529607B2 (en) | 2013-03-19 | 2016-12-27 | International Business Machines Corporation | Generating an ordered list of managed targets |
JP2020086853A (ja) * | 2018-11-22 | 2020-06-04 | 富士ゼロックス株式会社 | 情報処理システム、プログラムおよび情報処理方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219552B2 (en) | 2009-10-07 | 2012-07-10 | International Business Machines Corporation | Information theory based result merging for searching hierarchical entities across heterogeneous data sources |
US20110125697A1 (en) * | 2009-11-20 | 2011-05-26 | Avaya Inc. | Social media contact center dialog system |
US20110125826A1 (en) * | 2009-11-20 | 2011-05-26 | Avaya Inc. | Stalking social media users to maximize the likelihood of immediate engagement |
US20110125793A1 (en) * | 2009-11-20 | 2011-05-26 | Avaya Inc. | Method for determining response channel for a contact center from historic social media postings |
US8290926B2 (en) | 2010-01-21 | 2012-10-16 | Microsoft Corporation | Scalable topical aggregation of data feeds |
US20120005282A1 (en) * | 2010-07-02 | 2012-01-05 | Microsoft Corporation | Collaborative ranking and filtering of electronic mail messages |
WO2012178152A1 (en) * | 2011-06-23 | 2012-12-27 | I3 Analytics | Methods and systems for retrieval of experts based on user customizable search and ranking parameters |
US9058376B2 (en) * | 2013-03-15 | 2015-06-16 | Alcmeon | Scoring of interrelated message elements |
US9886664B2 (en) * | 2013-09-25 | 2018-02-06 | Avaya Inc. | System and method of message thread management |
CN104951471A (zh) * | 2014-03-28 | 2015-09-30 | 富士通株式会社 | 信息处理设备、信息处理方法以及电子装置 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10614109B2 (en) * | 2017-03-29 | 2020-04-07 | International Business Machines Corporation | Natural language processing keyword analysis |
CN107153641B (zh) * | 2017-05-08 | 2021-01-12 | 北京百度网讯科技有限公司 | 评论信息确定方法、装置、服务器及存储介质 |
CN110880013A (zh) * | 2019-08-02 | 2020-03-13 | 华为技术有限公司 | 识别文本的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002288206A (ja) | 2001-03-27 | 2002-10-04 | Fujitsu Ltd | 情報探索支援システム、情報探索支援プログラムおよびプログラム記録媒体 |
JP3914082B2 (ja) | 2002-03-27 | 2007-05-16 | 株式会社東芝 | 情報提示システムと情報提示方法 |
US7590603B2 (en) * | 2004-10-01 | 2009-09-15 | Microsoft Corporation | Method and system for classifying and identifying messages as question or not a question within a discussion thread |
JP4344339B2 (ja) | 2004-12-24 | 2009-10-14 | 日本電信電話株式会社 | 情報評価装置、コンテンツ検索装置、情報評価方法、コンテンツ検索方法、それらのプログラム及び記録媒体 |
JP2007011633A (ja) | 2005-06-29 | 2007-01-18 | Uncut Technology:Kk | データ再生プログラム、これを作成するプログラムおよび情報記録媒体 |
-
2007
- 2007-01-22 JP JP2007011633A patent/JP4464975B2/ja not_active Expired - Fee Related
-
2008
- 2008-01-18 US US12/016,381 patent/US8019756B2/en not_active Expired - Fee Related
- 2008-01-21 CN CNA2008100037015A patent/CN101231651A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011048718A (ja) * | 2009-08-28 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索プログラム |
JP2011123530A (ja) * | 2009-12-08 | 2011-06-23 | Nec Corp | 話題推薦装置、話題推薦装方法およびプログラム |
US9529607B2 (en) | 2013-03-19 | 2016-12-27 | International Business Machines Corporation | Generating an ordered list of managed targets |
WO2015182559A1 (ja) * | 2014-05-29 | 2015-12-03 | 日本電信電話株式会社 | 情報分析システム、情報分析方法及び情報分析プログラム |
JPWO2015182559A1 (ja) * | 2014-05-29 | 2017-04-20 | 日本電信電話株式会社 | 情報分析システム、情報分析方法及び情報分析プログラム |
US9940319B2 (en) | 2014-05-29 | 2018-04-10 | Nippon Telegraph And Telephone Corporation | Information analysis system, information analysis method, and information analysis program |
JP2020086853A (ja) * | 2018-11-22 | 2020-06-04 | 富士ゼロックス株式会社 | 情報処理システム、プログラムおよび情報処理方法 |
JP7247544B2 (ja) | 2018-11-22 | 2023-03-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
US8019756B2 (en) | 2011-09-13 |
JP4464975B2 (ja) | 2010-05-19 |
US20080109419A1 (en) | 2008-05-08 |
CN101231651A (zh) | 2008-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4464975B2 (ja) | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 | |
US20200193098A1 (en) | Use of statistical flow data for machine translations between different languages | |
Tan et al. | Interpreting the public sentiment variations on twitter | |
Ding et al. | Entity discovery and assignment for opinion mining applications | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
US20100138428A1 (en) | Keyword output apparatus and method | |
Blaz et al. | Sentiment analysis in tickets for it support | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
US11416907B2 (en) | Unbiased search and user feedback analytics | |
US20070233563A1 (en) | Web-page sorting apparatus, web-page sorting method, and computer product | |
CN112650858A (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
Eldin et al. | An enhanced opinion retrieval approach on Arabic text for customer requirements expansion | |
Song et al. | Detecting positive opinion leader group from forum | |
Makinist et al. | Preparation of improved Turkish dataset for sentiment analysis in social media | |
Korovesis et al. | Leveraging aspect-based sentiment prediction with textual features and document metadata | |
Kalloubi et al. | Graph based tweet entity linking using DBpedia | |
Zhu | Financial data analysis application via multi-strategy text processing | |
Thushara et al. | A graph-based model for keyword extraction and tagging of research documents | |
CN113792232A (zh) | 页面特征计算方法、装置、电子设备、介质及程序产品 | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
CN111222918A (zh) | 关键词挖掘方法、装置、电子设备及存储介质 | |
Habib et al. | Iot-based pervasive sentiment analysis: A fine-grained text normalization framework for context aware hybrid applications | |
CN112559768B (zh) | 一种短文本图谱化及推荐方法 | |
CN113656393B (zh) | 数据处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090515 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20090518 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20090601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140226 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |