JP5338363B2 - ハイパーリンク生成装置、方法及びプログラム - Google Patents
ハイパーリンク生成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5338363B2 JP5338363B2 JP2009034132A JP2009034132A JP5338363B2 JP 5338363 B2 JP5338363 B2 JP 5338363B2 JP 2009034132 A JP2009034132 A JP 2009034132A JP 2009034132 A JP2009034132 A JP 2009034132A JP 5338363 B2 JP5338363 B2 JP 5338363B2
- Authority
- JP
- Japan
- Prior art keywords
- importance
- keyword
- document
- hyperlink
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
図1は、本発明の実施の形態1にかかるハイパーリンク生成装置100の構成を示すブロック図である。ハイパーリンク生成装置100は、入力文書21、参照元文書22及び参照先文書23を入力し、入力文書21に含まれるキーワードについて、参照元文書22又は参照先文書23との間でハイパーリンクを生成する。ハイパーリンク生成装置100は、重要度算出手段11、キーワード選択手段12及びハイパーリンク生成手段13を備える。
図2は、本発明の実施の形態2にかかるハイパーリンク生成装置100aの構成を示すブロック図である。尚、図2の内、図1と同一の構成要素には、同一の符号を付し、詳細な説明は、省略する。ハイパーリンク生成装置100aは、参照元文書22及び参照先文書23を入力し、参照元文書22に含まれるキーワードについて、参照元文書22と参照先文書23との間でハイパーリンクを生成する。ハイパーリンク生成装置100aは、重要度算出手段11a、重要度補正手段11b、キーワード選択手段12及びハイパーリンク生成手段13を備える。
まず、発明の実施の形態3の概要を説明する。発明の実施の形態3は、ハイパーリンクの生成においては、参照元文書セットと当該参照元文書セットに対応する適切な参照先文書セットが与えられたとき、参照元及び参照先の文書セット間に含まれるリンクとその手がかりとなるキーワードの出現分布に表れる一定の特徴に基づき、ハイパーリンク生成における有効なキーワードの抽出を高精度に行うものである。
S(D、d、t) = BS(D、d、t) * sdf(D_FROM、t) ・・・(1)
S(D、d、t) = BS(D、d、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t)) ・・・(2)
ここで、D_FROMは、参照元文書セットを示し、D_TOは、参照先文書セットを示す。また、sdf(D、t)は、単語列tが文書セットDで1回目のキーワード抽出でキーワードとなった文書数又は回数を示す。max{t∈T; sdf(D、t)}は、sdf(D、t)の文書セットDにおける最大値を示す。また、式(1)及び式(2)の第1項のBSは、Base Scoreの略であり、従来の指標、例えば、tf/idfによる重要度を示す。
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * sdf(D_FROM、t)
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(3)
if sdf(D_TO、t) > 0 then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(4)
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * sdf(D_FROM、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else if (sdf(D_FROM、t) = 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(5)
if sdf(D_FROM、t) > 0 then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(6)
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(7)
if (sdf(D_FROM ,t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) = 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(8)
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。なお、本実施の形態では、キーワード抽出手段31が参照先文書から上述した指標1を用いてキーワードを抽出する形態を説明する。
また、リンク生成手段32は、入力された文書に対してリンクを生成し、通信手段33は、リンクが生成された文書をネットワークを介して出力するようにしてもよい。この場合、リンク生成手段32は、入力される文書のURLを手がかりに参照元文書セット記憶部42から文書IDを取得する。その後の処理は、上記のリンク生成手段32の処理と同一であるため説明を省略する。
sdf(D_FROM、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
sdf(D_FROM、t) = 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(9)
ここで、式(9)の第1項のBSは従来の重要度計算方式による重要度を表す。尚、D_FROMは、参照元文書セットを表し、sdf(D_FROM、t)は、単語列tが参照元文書セットD_FROMでキーワードとして選択された文書数又はキーワードとして選択された総回数を表す。
sdf(D_FROM、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * log2(sdf(D_FROM、t) + 1)
sdf(D_FROM、t) = 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(10)
BS(D_TO、d_to、t) = tf(D_TO、d_to、t) ・・・(11)
BS(D_TO、d_to、t) = tf(D_TO、d_TO、t) * log2((|D_TO| / df(D_TO、t)) + 1) ・・・(12)
BS(D_TO、d_to、t) = tf(D_TO、d_TO、t) * log2((|D_TO| / df(D_TO、t)) + 1) * log2(length(t)) ・・・(13)
次に、本発明の実施の形態3にかかる別の最良の実施例2について図面を参照して詳細に説明する。なお、実施例2では、実施例1のキーワード抽出手段31の変形例であり、参照元文書から指標2を用いてキーワードを抽出する例を説明する。図15は、本発明の実施の形態3の実施例2にかかるハイパーリンク生成装置300の構成を示すブロック図である。尚、図15の内、図4と同一の構成要素には、同一の符号を付し、詳細な説明は、省略する。
sdf(D_TO、t) > 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t))
sdf(D_TO、t) = 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(14)
ここで、式(14)の第1項のBSは従来の重要度計算方式による重要度を表す。尚、D_TOは参照先文書セットを表し、sdf(D_TO、t)は、単語列tが参照先文書セットD_TOでキーワードとして選択された文書数又はキーワードとして選択された総回数を表す。また、max{t∈T;sdf(D_TO、t)}は、参照先文書セットD_TOにおけるsdf(D_TO、t)の最大値(定数)を表す。
sdf(D_TO、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * log2(max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t) + 1)
sdf(D_TO、t) = 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(15)
尚、本発明の実施の形態1において、重要度算出手段11は、集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくするようにしてもよい。これにより、さらにキーワード抽出の精度を高めることができる。
100a ハイパーリンク生成装置
11 重要度算出手段
11a 重要度算出手段
11b 重要度補正手段
12 キーワード選択手段
13 ハイパーリンク生成手段
21 入力文書
22 参照元文書
23 参照先文書
200 ハイパーリンク生成装置
200a ハイパーリンク生成装置
300 ハイパーリンク生成装置
3 データ処理装置
3a データ処理装置
3b データ処理装置
31 キーワード抽出手段
31a キーワード抽出手段
311 単語列抽出手段
312 重要度計算手段
312a 重要度計算手段
313 キーワード選択手段
32 リンク生成手段
33 通信手段
4 記憶装置
4a 記憶装置
41 参照先文書セット記憶部
42 参照元文書セット記憶部
43 キーワード記憶部
43a キーワード記憶部
T1 参照先文書
T2 参照先文書
T3 参照先文書
T4 参照先文書
F1 参照元文書
F2 参照元文書
F3 参照元文書
F4 参照元文書
SFA 参照元文書セット
FA1 参照元文書
FA2 参照元文書
FA3 参照元文書
STB 参照先文書セット
TB1 参照先文書
TB2 参照先文書
TB3 参照先文書
DF 元画面
DM 選択メニュー
Claims (42)
- 入力文書に含まれる単語列について、前記入力文書内における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択された第2のキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備え、
前記重要度算出手段は、前記複数の参照先文書の中で当該単語列が前記第1のキーワードとして選択された文書数が少ない場合には、前記第3の重要度をより高く算出するハイパーリンク生成装置。 - 前記重要度算出手段は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合には、前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項1に記載のハイパーリンク生成装置。
- 入力文書に含まれる単語列について、前記入力文書内における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択された第2のキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備え、
前記重要度算出手段は、前記複数の参照元文書の中で当該単語列が前記第1のキーワードとして選択された文書数が多い場合には、前記第3の重要度をより高く算出するハイパーリンク生成装置。 - 前記重要度算出手段は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合には、前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項3に記載のハイパーリンク生成装置。
- 前記キーワード選択手段は、前記重要度算出手段により算出された第3の重要度が予め定められた閾値以上である場合に当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項1乃至4のいずれか1項に記載のハイパーリンク生成装置。
- 前記キーワード選択手段は、前記重要度算出手段により算出された第3の重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された第3の重要度の内、所定の順位以上である場合に、当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項1乃至4のいずれか1項に記載のハイパーリンク生成装置。
- 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - 前記重要度算出手段は、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項7に記載のハイパーリンク生成装置。
- 前記重要度算出手段は、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項7又は8に記載のハイパーリンク生成装置。
- 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項7乃至9のいずれか1項に記載のハイパーリンク生成装置。
- 前記キーワード選択手段は、前記重要度算出手段により算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求項7乃至10のいずれか1項に記載のハイパーリンク生成装置。
- 前記キーワード選択手段は、前記重要度算出手段により算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求項7乃至10のいずれか1項に記載のハイパーリンク生成装置。
- ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、当該特定の参照元文書内における当該単語列の出現頻度に基づく第1の重要度を算出する重要度算出手段と、
前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照先文書が少ない場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正手段と、
前記重要度補正手段により補正された第1の重要度に基づき、前記特定の参照元文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択された第2のキーワードに基づき、前記特定の参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、当該特定の参照先文書内における当該単語列の出現頻度に基づく第1の重要度を算出する重要度算出手段と、
前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照元文書が多い場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正手段と、
前記重要度補正手段により補正された第1の重要度に基づき、前記特定の参照先文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
前記キーワード選択手段により選択された第2のキーワードに基づき、前記参照元文書と前記特定の参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
を備えるハイパーリンク生成装置。 - プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
前記データ処理装置が、
入力文書に含まれる単語列について、前記入力文書内における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を実行し、
前記重要度算出ステップは、前記データ処理装置が、前記複数の参照先文書の中で当該単語列が前記第1のキーワードとして選択された文書数が少ない場合には、前記第3の重要度をより高く算出するハイパーリンク生成方法。 - 前記重要度算出ステップは、前記データ処理装置が、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合には、前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項15に記載のハイパーリンク生成方法。
- プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
前記データ処理装置が、
入力文書に含まれる単語列について、前記入力文書内における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を実行し、
前記重要度算出ステップは、前記データ処理装置が、前記複数の参照元文書の中で当該単語列が前記第1のキーワードとして選択された文書数が多い場合には、前記第3の重要度をより高く算出するハイパーリンク生成方法。 - 前記重要度算出ステップは、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合には、前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項17に記載のハイパーリンク生成方法。
- 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された第3の重要度が予め定められた閾値以上である場合に当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項15乃至18のいずれか1項に記載のハイパーリンク生成方法。
- 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された第3の重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された第3の重要度の内、所定の順位以上である場合に、当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項15乃至18のいずれか1項に記載のハイパーリンク生成方法。
- プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
前記データ処理装置が、
入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を実行するハイパーリンク生成方法。 - 前記重要度算出ステップは、前記データ処理装置が、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項21に記載のハイパーリンク生成方法。
- 前記重要度算出ステップは、前記データ処理装置が、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項21又は22に記載のハイパーリンク生成方法。
- 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項21乃至23のいずれか1項に記載のハイパーリンク生成方法。
- 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求項21乃至24のいずれか1項に記載のハイパーリンク生成方法。
- 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求項21乃至24のいずれか1項に記載のハイパーリンク生成方法。
- プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
前記データ処理装置が、
ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、当該特定の参照元文書内における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出ステップと、
前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照先文書が少ない場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正ステップと、
前記重要度補正ステップにより補正された第1の重要度に基づき、前記特定の参照元文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記特定の参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を実行するハイパーリンク生成方法。 - プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
前記データ処理装置が、
ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、当該特定の参照先文書内における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出ステップと、
前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照元文書が多い場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正ステップと、
前記重要度補正ステップにより補正された第1の重要度に基づき、前記特定の参照先文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記参照元文書と前記特定の参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
を実行するハイパーリンク生成方法。 - 入力文書に含まれる単語列について、前記入力文書内における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出処理と、
前記重要度算出処理により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択された第2のキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させ、
前記重要度算出処理は、前記複数の参照先文書の中で当該単語列が前記第1のキーワードとして選択された文書数が少ない場合には、前記第3の重要度をより高く算出するハイパーリンク生成プログラム。 - 前記重要度算出処理は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合には、前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項29に記載のハイパーリンク生成プログラム。
- 入力文書に含まれる単語列について、前記入力文書内における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出処理と、
前記重要度算出処理により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択された第2のキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させ、
前記重要度算出処理は、前記複数の参照元文書の中で当該単語列が前記第1のキーワードとして選択された文書数が多い場合には、前記第3の重要度をより高く算出するハイパーリンク生成プログラム。 - 前記重要度算出処理は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合には、前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項31に記載のハイパーリンク生成プログラム。
- 前記キーワード選択処理は、前記重要度算出処理により算出された第3の重要度が予め定められた閾値以上である場合に当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項29乃至32のいずれか1項に記載のハイパーリンク生成プログラム。
- 前記キーワード選択処理は、前記重要度算出処理により算出された第3の重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された第3の重要度の内、所定の順位以上である場合に、当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項29乃至32のいずれか1項に記載のハイパーリンク生成プログラム。
- 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、
前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。 - 前記重要度算出処理は、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項35に記載のハイパーリンク生成プログラム。
- 前記重要度算出処理は、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項35又は36に記載のハイパーリンク生成プログラム。
- 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項35乃至37のいずれか1項に記載のハイパーリンク生成プログラム。
- 前記キーワード選択処理は、前記重要度算出処理により算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求項35乃至38のいずれか1項に記載のハイパーリンク生成プログラム。
- 前記キーワード選択処理は、前記重要度算出処理により算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求項35乃至38のいずれか1項に記載のハイパーリンク生成プログラム。
- ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、当該特定の参照元文書内における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出処理と、
前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照先文書が少ない場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正処理と、
前記重要度補正処理により補正された第1の重要度に基づき、前記特定の参照元文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択された第2のキーワードに基づき、前記特定の参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。 - ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、当該特定の参照先文書内における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出処理と、
前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照元文書が多い場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正処理と、
前記重要度補正処理により補正された第1の重要度に基づき、前記特定の参照先文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
前記キーワード選択処理により選択された第2のキーワードに基づき、前記参照元文書と前記特定の参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009034132A JP5338363B2 (ja) | 2009-02-17 | 2009-02-17 | ハイパーリンク生成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009034132A JP5338363B2 (ja) | 2009-02-17 | 2009-02-17 | ハイパーリンク生成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010191599A JP2010191599A (ja) | 2010-09-02 |
JP5338363B2 true JP5338363B2 (ja) | 2013-11-13 |
Family
ID=42817596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009034132A Active JP5338363B2 (ja) | 2009-02-17 | 2009-02-17 | ハイパーリンク生成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5338363B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325827A (ja) * | 1994-04-07 | 1995-12-12 | Mitsubishi Electric Corp | ハイパーテキスト自動生成装置 |
-
2009
- 2009-02-17 JP JP2009034132A patent/JP5338363B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010191599A (ja) | 2010-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599721B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
US10567329B2 (en) | Methods and apparatus for inserting content into conversations in on-line and digital environments | |
US20210383078A1 (en) | Automatic translation of advertisements | |
JP4923604B2 (ja) | 情報処理装置および方法、並びにプログラム | |
US7181683B2 (en) | Method of summarizing markup-type documents automatically | |
US20150067476A1 (en) | Title and body extraction from web page | |
JP2009043156A (ja) | 番組検索装置および番組検索方法 | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
KR20080085990A (ko) | 추천검색어 제공 방법 및 시스템 | |
JP5338363B2 (ja) | ハイパーリンク生成装置、方法及びプログラム | |
JP5495425B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
EP2096561A1 (en) | Method for extracting relevant content from a markup language file, in particular from a HTML file | |
JP5761033B2 (ja) | 文書分析装置、文書分析方法、およびプログラム | |
KR101541297B1 (ko) | 사용자 디스크립션에 기반한 다국어 관계망 생성 방법 및 장치 | |
JP2011113097A6 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
WO2017056164A1 (ja) | 情報提示システム、及び情報提示方法 | |
JP2010015395A (ja) | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム | |
JP2006244294A (ja) | 文書類否判定システム、文書類否判定方法、および文書類否判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5338363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |