JP2010191599A - ハイパーリンク生成装置、方法及びプログラム - Google Patents
ハイパーリンク生成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2010191599A JP2010191599A JP2009034132A JP2009034132A JP2010191599A JP 2010191599 A JP2010191599 A JP 2010191599A JP 2009034132 A JP2009034132 A JP 2009034132A JP 2009034132 A JP2009034132 A JP 2009034132A JP 2010191599 A JP2010191599 A JP 2010191599A
- Authority
- JP
- Japan
- Prior art keywords
- importance
- word string
- document
- keyword
- hyperlink
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】本発明にかかるハイパーリンク生成装置は、入力文書に含まれる単語列について、入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出し、算出された重要度に基づき、入力文書に含まれる単語列の中からキーワードを選択し、選択されたキーワードに基づき、入力文書と参照元文書との間でハイパーリンクを生成する。
【選択図】図1
Description
図1は、本発明の実施の形態1にかかるハイパーリンク生成装置100の構成を示すブロック図である。ハイパーリンク生成装置100は、入力文書21、参照元文書22及び参照先文書23を入力し、入力文書21に含まれるキーワードについて、参照元文書22又は参照先文書23との間でハイパーリンクを生成する。ハイパーリンク生成装置100は、重要度算出手段11、キーワード選択手段12及びハイパーリンク生成手段13を備える。
図2は、本発明の実施の形態2にかかるハイパーリンク生成装置100aの構成を示すブロック図である。尚、図2の内、図1と同一の構成要素には、同一の符号を付し、詳細な説明は、省略する。ハイパーリンク生成装置100aは、参照元文書22及び参照先文書23を入力し、参照元文書22に含まれるキーワードについて、参照元文書22と参照先文書23との間でハイパーリンクを生成する。ハイパーリンク生成装置100aは、重要度算出手段11a、重要度補正手段11b、キーワード選択手段12及びハイパーリンク生成手段13を備える。
まず、発明の実施の形態3の概要を説明する。発明の実施の形態3は、ハイパーリンクの生成においては、参照元文書セットと当該参照元文書セットに対応する適切な参照先文書セットが与えられたとき、参照元及び参照先の文書セット間に含まれるリンクとその手がかりとなるキーワードの出現分布に表れる一定の特徴に基づき、ハイパーリンク生成における有効なキーワードの抽出を高精度に行うものである。
S(D、d、t) = BS(D、d、t) * sdf(D_FROM、t) ・・・(1)
S(D、d、t) = BS(D、d、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t)) ・・・(2)
ここで、D_FROMは、参照元文書セットを示し、D_TOは、参照先文書セットを示す。また、sdf(D、t)は、単語列tが文書セットDで1回目のキーワード抽出でキーワードとなった文書数又は回数を示す。max{t∈T; sdf(D、t)}は、sdf(D、t)の文書セットDにおける最大値を示す。また、式(1)及び式(2)の第1項のBSは、Base Scoreの略であり、従来の指標、例えば、tf/idfによる重要度を示す。
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * sdf(D_FROM、t)
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(3)
if sdf(D_TO、t) > 0 then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(4)
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * sdf(D_FROM、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else if (sdf(D_FROM、t) = 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(5)
if sdf(D_FROM、t) > 0 then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(6)
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(7)
if (sdf(D_FROM ,t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) = 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(8)
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。なお、本実施の形態では、キーワード抽出手段31が参照先文書から上述した指標1を用いてキーワードを抽出する形態を説明する。
また、リンク生成手段32は、入力された文書に対してリンクを生成し、通信手段33は、リンクが生成された文書をネットワークを介して出力するようにしてもよい。この場合、リンク生成手段32は、入力される文書のURLを手がかりに参照元文書セット記憶部42から文書IDを取得する。その後の処理は、上記のリンク生成手段32の処理と同一であるため説明を省略する。
sdf(D_FROM、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
sdf(D_FROM、t) = 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(9)
ここで、式(9)の第1項のBSは従来の重要度計算方式による重要度を表す。尚、D_FROMは、参照元文書セットを表し、sdf(D_FROM、t)は、単語列tが参照元文書セットD_FROMでキーワードとして選択された文書数又はキーワードとして選択された総回数を表す。
sdf(D_FROM、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * log2(sdf(D_FROM、t) + 1)
sdf(D_FROM、t) = 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(10)
BS(D_TO、d_to、t) = tf(D_TO、d_to、t) ・・・(11)
BS(D_TO、d_to、t) = tf(D_TO、d_TO、t) * log2((|D_TO| / df(D_TO、t)) + 1) ・・・(12)
BS(D_TO、d_to、t) = tf(D_TO、d_TO、t) * log2((|D_TO| / df(D_TO、t)) + 1) * log2(length(t)) ・・・(13)
次に、本発明の実施の形態3にかかる別の最良の実施例2について図面を参照して詳細に説明する。なお、実施例2では、実施例1のキーワード抽出手段31の変形例であり、参照元文書から指標2を用いてキーワードを抽出する例を説明する。図15は、本発明の実施の形態3の実施例2にかかるハイパーリンク生成装置300の構成を示すブロック図である。尚、図15の内、図4と同一の構成要素には、同一の符号を付し、詳細な説明は、省略する。
sdf(D_TO、t) > 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t))
sdf(D_TO、t) = 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(14)
ここで、式(14)の第1項のBSは従来の重要度計算方式による重要度を表す。尚、D_TOは参照先文書セットを表し、sdf(D_TO、t)は、単語列tが参照先文書セットD_TOでキーワードとして選択された文書数又はキーワードとして選択された総回数を表す。また、max{t∈T;sdf(D_TO、t)}は、参照先文書セットD_TOにおけるsdf(D_TO、t)の最大値(定数)を表す。
sdf(D_TO、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * log2(max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t) + 1)
sdf(D_TO、t) = 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(15)
尚、本発明の実施の形態1において、重要度算出手段11は、集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくするようにしてもよい。これにより、さらにキーワード抽出の精度を高めることができる。
100a ハイパーリンク生成装置
11 重要度算出手段
11a 重要度算出手段
11b 重要度補正手段
12 キーワード選択手段
13 ハイパーリンク生成手段
21 入力文書
22 参照元文書
23 参照先文書
200 ハイパーリンク生成装置
200a ハイパーリンク生成装置
300 ハイパーリンク生成装置
3 データ処理装置
3a データ処理装置
3b データ処理装置
31 キーワード抽出手段
31a キーワード抽出手段
311 単語列抽出手段
312 重要度計算手段
312a 重要度計算手段
313 キーワード選択手段
32 リンク生成手段
33 通信手段
4 記憶装置
4a 記憶装置
41 参照先文書セット記憶部
42 参照元文書セット記憶部
43 キーワード記憶部
43a キーワード記憶部
T1 参照先文書
T2 参照先文書
T3 参照先文書
T4 参照先文書
F1 参照元文書
F2 参照元文書
F3 参照元文書
F4 参照元文書
SFA 参照元文書セット
FA1 参照元文書
FA2 参照元文書
FA3 参照元文書
STB 参照先文書セット
TB1 参照先文書
TB2 参照先文書
TB3 参照先文書
DF 元画面
DM 選択メニュー
Claims (45)
- 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - 前記重要度算出手段は、前記集中度がより高い単語列について、重要度をより高く算出することを特徴とする請求項1に記載のハイパーリンク生成装置。
- 前記入力文書が前記複数の参照先文書のいずれかである場合、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを格納するキーワード記憶部をさらに備え、
前記重要度算出手段は、前記入力文書に含まれる単語列が前記キーワード記憶部に格納されていない場合に、前記集中度を用いずに前記単語列の重要度を算出することを特徴とする請求項1又は2に記載のハイパーリンク生成装置。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - 前記重要度算出手段は、前記集中度がより低い単語列について、重要度をより高く算出することを特徴とする請求項4に記載のハイパーリンク生成装置。
- 前記入力文書が前記複数の参照元文書のいずれかである場合、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを格納するキーワード記憶部をさらに備え、
前記重要度算出手段は、前記入力文書に含まれる単語列が前記キーワード記憶部に格納されていない場合に、前記集中度を用いずに前記単語列の重要度を算出することを特徴とする請求項4又は5に記載のハイパーリンク生成装置。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - 前記重要度算出手段は、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項7に記載のハイパーリンク生成装置。
- 前記重要度算出手段は、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項1乃至8のいずれか1項に記載のハイパーリンク生成装置。
- 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項1乃至9のいずれか1項に記載のハイパーリンク生成装置。
- 前記キーワード選択手段は、前記重要度算出手段により算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求1乃至10のいずれか1項に記載のハイパーリンク生成装置。
- 前記キーワード選択手段は、前記重要度算出手段により算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求1乃至10のいずれか1項に記載のハイパーリンク生成装置。
- ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、前記参照元文書における当該単語列の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された重要度について、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度が高い単語列についてより高い重要度となるように補正する重要度補正手段と、
前記重要度補正手段により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、前記参照先文書における当該単語列の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された重要度について、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度が高い単語列についてより低い重要度となるように補正する重要度補正手段と、
前記重要度補正手段により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - 複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを格納するキーワード記憶部をさらに備え、
前記重要度補正手段は、前記集中度を、前記キーワード記憶部に格納されたキーワードの中で当該単語列が出現する文書数とすることを特徴とする請求項13又は14に記載のハイパーリンク生成装置。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を備えるハイパーリンク生成方法。 - 前記重要度算出ステップは、前記集中度がより高い単語列について、重要度をより高く算出することを特徴とする請求項16に記載のハイパーリンク生成方法。
- 前記入力文書が前記複数の参照先文書のいずれかである場合、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを記憶部に格納するキーワード格納ステップをさらに備え、
前記重要度算出ステップは、前記入力文書に含まれる単語列が前記記憶部に存在しない場合に、前記集中度を用いずに前記単語列の重要度を算出することを特徴とする請求項16又は17に記載のハイパーリンク生成方法。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を備えるハイパーリンク生成方法。 - 前記重要度算出ステップは、前記集中度がより低い単語列について、重要度をより高く算出することを特徴とする請求項19に記載のハイパーリンク生成方法。
- 前記入力文書が前記複数の参照元文書のいずれかである場合、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを記憶部に格納するキーワード格納ステップをさらに備え、
前記重要度算出ステップは、前記入力文書に含まれる単語列が前記記憶部に存在しない場合に、前記集中度を用いずに前記単語列の重要度を算出することを特徴とする請求項19又は20に記載のハイパーリンク生成方法。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を備えるハイパーリンク生成方法。 - 前記重要度算出ステップは、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項22に記載のハイパーリンク生成方法。
- 前記重要度算出ステップは、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項16乃至23のいずれか1項に記載のハイパーリンク生成方法。
- 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項16乃至24のいずれか1項に記載のハイパーリンク生成方法。
- 前記キーワード選択ステップは、前記重要度算出ステップにより算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求16乃至25のいずれか1項に記載のハイパーリンク生成方法。
- 前記キーワード選択ステップは、前記重要度算出ステップにより算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求16乃至25のいずれか1項に記載のハイパーリンク生成方法。
- ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、前記参照元文書における当該単語列の重要度を算出する基準重要度算出ステップと、
前記基準重要度算出ステップにより算出された重要度について、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度が高い単語列についてより高い重要度となるように補正する重要度補正ステップと、
前記重要度補正ステップにより補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を備えるハイパーリンク生成方法。 - ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、前記参照先文書における当該単語列の重要度を算出する基準重要度算出ステップと、
前記基準重要度算出ステップにより算出された重要度について、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度が高い単語列についてより低い重要度となるように補正する重要度補正ステップと、
前記重要度補正ステップにより補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を備えるハイパーリンク生成方法。 - 複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを記憶部に格納するキーワード格納ステップをさらに備え、
前記重要度補正ステップは、前記集中度を、前記キーワード記憶部に格納されたキーワードの中で当該単語列が出現する文書数とすることを特徴とする請求項28又は29に記載のハイパーリンク生成方法。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、
前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。 - 前記重要度算出処理は、前記集中度がより高い単語列について、重要度をより高く算出することを特徴とする請求項31に記載のハイパーリンク生成プログラム。
- 前記入力文書が前記複数の参照先文書のいずれかである場合、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを記憶部に格納するキーワード格納処理をさらに備え、
前記重要度算出処理は、前記入力文書に含まれる単語列が前記記憶部に存在しない場合に、前記集中度を用いずに前記単語列の重要度を算出することを特徴とする請求項31又は32に記載のハイパーリンク生成プログラム。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、
前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。 - 前記重要度算出処理は、前記集中度がより低い単語列について、重要度をより高く算出することを特徴とする請求項34に記載のハイパーリンク生成プログラム。
- 前記入力文書が前記複数の参照元文書のいずれかである場合、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを記憶部に格納するキーワード格納処理をさらに備え、
前記重要度算出処理は、前記入力文書に含まれる単語列が前記記憶部に存在しない場合に、前記集中度を用いずに前記単語列の重要度を算出することを特徴とする請求項34又は35に記載のハイパーリンク生成プログラム。 - 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、
前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。 - 前記重要度算出処理は、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項37に記載のハイパーリンク生成プログラム。
- 前記重要度算出処理は、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項31乃至38のいずれか1項に記載のハイパーリンク生成プログラム。
- 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項31乃至39のいずれか1項に記載のハイパーリンク生成プログラム。
- 前記キーワード選択処理は、前記重要度算出処理により算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求31乃至40のいずれか1項に記載のハイパーリンク生成プログラム。
- 前記キーワード選択処理は、前記重要度算出処理により算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求31乃至40のいずれか1項に記載のハイパーリンク生成プログラム。
- ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、前記参照元文書における当該単語列の重要度を算出する基準重要度算出処理と、
前記基準重要度算出処理により算出された重要度について、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度が高い単語列についてより高い重要度となるように補正する重要度補正処理と、
前記重要度補正処理により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。 - ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、前記参照先文書における当該単語列の重要度を算出する基準重要度算出処理と、
前記基準重要度算出処理により算出された重要度について、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度が高い単語列についてより低い重要度となるように補正する重要度補正処理と、
前記重要度補正処理により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。 - 複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを記憶部に格納するキーワード格納処理をさらに備え、
前記重要度補正処理は、前記集中度を、前記キーワード記憶部に格納されたキーワードの中で当該単語列が出現する文書数とすることを特徴とする請求項43又は44に記載のハイパーリンク生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009034132A JP5338363B2 (ja) | 2009-02-17 | 2009-02-17 | ハイパーリンク生成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009034132A JP5338363B2 (ja) | 2009-02-17 | 2009-02-17 | ハイパーリンク生成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010191599A true JP2010191599A (ja) | 2010-09-02 |
JP5338363B2 JP5338363B2 (ja) | 2013-11-13 |
Family
ID=42817596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009034132A Active JP5338363B2 (ja) | 2009-02-17 | 2009-02-17 | ハイパーリンク生成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5338363B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325827A (ja) * | 1994-04-07 | 1995-12-12 | Mitsubishi Electric Corp | ハイパーテキスト自動生成装置 |
-
2009
- 2009-02-17 JP JP2009034132A patent/JP5338363B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325827A (ja) * | 1994-04-07 | 1995-12-12 | Mitsubishi Electric Corp | ハイパーテキスト自動生成装置 |
Non-Patent Citations (4)
Title |
---|
CSNG199800836003; 森 辰則、大森 信行、内間 圭介、岡村 潤、中川 裕志: '電子化マニュアルにおける自動ハイパーテキスト化手法' 情報処理学会研究報告 第97巻、第93号, 19970919, p.17-24, 社団法人情報処理学会 * |
CSNG200000997005; 石田 和生、市山 俊治: '複数文書間のハイパーリンク自動生成とメンテナンス' 情報処理学会研究報告 第99巻、第25号, 19990312, p.33-40, 社団法人情報処理学会 * |
JPN6013016695; 森 辰則、大森 信行、内間 圭介、岡村 潤、中川 裕志: '電子化マニュアルにおける自動ハイパーテキスト化手法' 情報処理学会研究報告 第97巻、第93号, 19970919, p.17-24, 社団法人情報処理学会 * |
JPN6013016698; 石田 和生、市山 俊治: '複数文書間のハイパーリンク自動生成とメンテナンス' 情報処理学会研究報告 第99巻、第25号, 19990312, p.33-40, 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5338363B2 (ja) | 2013-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599721B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
US10567329B2 (en) | Methods and apparatus for inserting content into conversations in on-line and digital environments | |
US20210383078A1 (en) | Automatic translation of advertisements | |
US7181683B2 (en) | Method of summarizing markup-type documents automatically | |
JP4923604B2 (ja) | 情報処理装置および方法、並びにプログラム | |
US20150067476A1 (en) | Title and body extraction from web page | |
JP2009043156A (ja) | 番組検索装置および番組検索方法 | |
JP2015022590A (ja) | 文字入力装置、文字入力方法、及び文字入力プログラム | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
JP5338363B2 (ja) | ハイパーリンク生成装置、方法及びプログラム | |
JP5495425B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
KR101541297B1 (ko) | 사용자 디스크립션에 기반한 다국어 관계망 생성 방법 및 장치 | |
JP2011113097A6 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
JPWO2011099355A1 (ja) | 文書分析装置、文書分析方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5338363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |