JP5338363B2 - ハイパーリンク生成装置、方法及びプログラム - Google Patents

ハイパーリンク生成装置、方法及びプログラム Download PDF

Info

Publication number
JP5338363B2
JP5338363B2 JP2009034132A JP2009034132A JP5338363B2 JP 5338363 B2 JP5338363 B2 JP 5338363B2 JP 2009034132 A JP2009034132 A JP 2009034132A JP 2009034132 A JP2009034132 A JP 2009034132A JP 5338363 B2 JP5338363 B2 JP 5338363B2
Authority
JP
Japan
Prior art keywords
importance
keyword
document
hyperlink
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009034132A
Other languages
English (en)
Other versions
JP2010191599A (ja
Inventor
健二 立石
格 細見
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009034132A priority Critical patent/JP5338363B2/ja
Publication of JP2010191599A publication Critical patent/JP2010191599A/ja
Application granted granted Critical
Publication of JP5338363B2 publication Critical patent/JP5338363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、ハイパーリンク生成装置、方法及びプログラムに関し、特に、テキスト文書内に共通のキーワードを含むテキスト文書間で参照元の文書から参照先の文書へのハイパーリンクを生成するためのハイパーリンク生成装置、方法及びプログラムに関する。
ハイパーリンク文書の作成及び管理コストの削減、並びに、利用者の情報アクセス性向上を目的として、文書間のハイパーリンク(以下、リンク)を自動的に生成する方式が提案されている。
リンク自動生成の基本動作は、次の通りである。(i)参照元文書及び参照先文書から文書の内容を代表するキーワードを抽出する。(ii)ある参照元文書に含まれるキーワードから同一のキーワードを含む参照先文書へのリンクを生成する。このとき、参照元文書セットと参照先文書セットは同一であってもかまわない。
この基本動作について図19及び図20を用いて説明する。図19の左側の文書がハイパーリンクにおける参照元となる複数の参照元文書FA1、FA2及びFA3の集合である参照元文書セットSFA、図19の右側がハイパーリンクにおける参照先となる複数の参照先文書TB1、TB2及びTB3の集合である参照先文書セットSTBである。図19中のA、B、C、D及びEのアルファベットは、文書に含まれる単語列である。この中から(i)により、参照元文書セットSFA及び参照先文書セットSTBの文書に含まれる単語列の中からキーワードを選択する。図19中の単語列の内、斜線で示された単語列が選択されたキーワードである。尚、文書毎にキーワードを選択しているため、同じ単語列であっても文書内の当該単語列の出現頻度等によりキーワードになる場合とならない場合とがある。これらのキーワードを用いて(ii)によりリンクを生成する。例えば、参照元文書FA1のキーワードAは、参照先文書TB2でもキーワードとなっている。そこで、参照元文書FA1のキーワードAから参照先文書TB2へのリンクを生成する。
尚、一つのキーワードに対して複数のリンク先が存在する場合がある。この場合、参照元文書におけるキーワードのリンク先は、一旦、複数の参照先文書の概要を表示するポップアップ画面とし、当該ポップアップ画面に当該複数の参照先文書へのリンクを生成することが考えられる。例えば、図19の参照元文書FA2のキーワードBは、参照先文書セットSTB内の参照先文書TB1及びTB2の2つの参照先文書に含まれている。この場合、参照元文書FA2のキーワードBのリンク先は、ポップアップ画面に参照先文書TB1及びTB2へのリンクが表示される。動作例としては、図20のように、リンクが生成された参照元文書を画面表示した元画面DF内のキーワードを利用者がクリックすると、複数の参照先文書の概要を表示する選択メニューDMをポップアップ画面により表示し、利用者がいずれかを選択すると、参照先の文書を開くようにする。
このように、リンク自動生成では、(i)で抽出するキーワードの選別が課題となる。この処理の性能が十分でないと不必要なリンクが大量に生成されてしまうからである。この課題に対して非特許文献1では、出現頻度を利用したリンク生成のためのキーワード抽出が提案されている。また、非特許文献1で用いるキーワード抽出の代表的な手法としては、非特許文献2に開示されるtf(Term Frequency)/idf(Inverse Document Frequency)が一般的である。
tf/idfは、単語列の重要度を求める手法である。ここでは、tf/idfの概要を説明するために、文書セットDの文書dに含まれる単語tのtf/idf値を求めるとする。tfは、文書dにおける単語tの出現回数を表す。また、idfは、文書セットDにおける単語tの出現文書数の逆数である。このtfとidfの積がtf/idf値となる。直感的には、文書内で多く出現するが、限られた文書で出現する単語列が重要であるという考え方である。この方法に従うと、各文書からtf/idfの高い上位N個、あるいはtf/idfが閾値T以上の単語列をキーワードとして選択する。
尚、tf/idfは、tfとidfという二つの指標を組合わせた手法である。具体的には、tfは、「文書に含まれる単語列の内、文書内の出現回数が多い単語列をキーワードとする」、idfは、「文書に含まれる単語列の内、文書セットでの出現文書数が少ない単語列をキーワードとする」という指標である。なお、単純にtfのみを用いた手法もよく用いられる。
tf/idfを用いたキーワード抽出は、事前にルールを作るといった人手による事前知識が不要な点、文書の構造情報を前提とせずどのような文書にも適用できる点で優れている。
石田和生、市山俊治、複数文書間のハイパーリンク自動生成とメンテナンス、情報処理学会研究報告 デジタルドキュメント、Vol.99、No.25、pp.33-40、1999. 徳永健伸、言語と計算−5 情報検索と言語処理、東京大学出版会、pp.27-28.
非特許文献1において、非特許文献2にかかるtf/idfを適用したキーワード抽出手法には、ハイパーリンクとしてのキーワードとして十分な性能が得られないという問題点がある。tf/idfは、単語列の重要度を判断するための指標がtfとidfの2種類しかない。そして、tfとidfの2種類の指標と単語列の重要度に一定の相関があることは確かである。しかしながら、参照元文書セット内のキーワードから参照先文書セット内の文書へのハイパーリンクを生成する際には、単語列の文書内の出現回数が多くない場合、あるいは、単語列の出現文書数が少なくない場合でもキーワードとすべき重要な単語列が存在するという特徴がある。そのため、tf/idfのみでは、このような単語列の重要度が相対的に低くなるためハイパーリンクのためのキーワードとして抽出できない可能性がある。
本発明は、このような問題点を解決するためになされたものであり、ハイパーリンク生成における有効なキーワードを高精度に抽出することができるハイパーリンク生成装置、方法及びプログラムを提供することを目的とする。
本発明の第1の態様にかかるハイパーリンク生成装置は、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、を備える。
本発明の第2の態様にかかるハイパーリンク生成装置は、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成手段と、を備える。
本発明の第3の態様にかかるハイパーリンク生成装置は、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、を備える。
本発明の第4の態様にかかるハイパーリンク生成装置は、ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、前記参照元文書における当該単語列の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された重要度について、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度が高い単語列についてより高い重要度となるように補正する重要度補正手段と、前記重要度補正手段により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、前記キーワード選択手段により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、を備える。
本発明の第5の態様にかかるハイパーリンク生成装置は、ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、前記参照先文書における当該単語列の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された重要度について、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度が高い単語列についてより低い重要度となるように補正する重要度補正手段と、前記重要度補正手段により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、前記キーワード選択手段により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、を備える。
本発明の第6の態様にかかるハイパーリンク生成方法は、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、を備える。
本発明の第7の態様にかかるハイパーリンク生成方法は、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、を備える。
本発明の第8の態様にかかるハイパーリンク生成方法は、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、を備える。
本発明の第9の態様にかかるハイパーリンク生成方法は、ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、前記参照元文書における当該単語列の重要度を算出する基準重要度算出ステップと、前記基準重要度算出ステップにより算出された重要度について、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度が高い単語列についてより高い重要度となるように補正する重要度補正ステップと、前記重要度補正ステップにより補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、前記キーワード選択ステップにより選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、を備える。
本発明の第10の態様にかかるハイパーリンク生成方法は、ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、前記参照先文書における当該単語列の重要度を算出する基準重要度算出ステップと、前記基準重要度算出ステップにより算出された重要度について、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度が高い単語列についてより低い重要度となるように補正する重要度補正ステップと、前記重要度補正ステップにより補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、前記キーワード選択ステップにより選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、を備える。
本発明の第11の態様にかかるハイパーリンク生成プログラムは、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、を含む処理をコンピュータに実行させるものである。
本発明の第12の態様にかかるハイパーリンク生成プログラムは、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成処理と、を含む処理をコンピュータに実行させるものである。
本発明の第13の態様にかかるハイパーリンク生成プログラムは、入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、を含む処理をコンピュータに実行させるものである。
本発明の第14の態様にかかるハイパーリンク生成プログラムは、ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、前記参照元文書における当該単語列の重要度を算出する基準重要度算出処理と、前記基準重要度算出処理により算出された重要度について、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度が高い単語列についてより高い重要度となるように補正する重要度補正処理と、前記重要度補正処理により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、前記キーワード選択処理により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、を含む処理をコンピュータに実行させるものである。
本発明の第15の態様にかかるハイパーリンク生成プログラムは、ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、前記参照先文書における当該単語列の重要度を算出する基準重要度算出処理と、前記基準重要度算出処理により算出された重要度について、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度が高い単語列についてより低い重要度となるように補正する重要度補正処理と、前記重要度補正処理により補正された重要度に基づき、前記参照元文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、前記キーワード選択処理により選択されたキーワードに基づき、前記参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、を含む処理をコンピュータに実行させるものである。
本発明によれば、ハイパーリンク生成における有効なキーワードを高精度に抽出することができるハイパーリンク生成装置、方法及びプログラムを提供することができる。
本発明の実施の形態1にかかるハイパーリンク生成装置の構成を示すブロック図である。 本発明の実施の形態2にかかるハイパーリンク生成装置の構成を示すブロック図である。 本発明の概念を説明する図である。 本発明の実施の形態3の実施例1にかかるハイパーリンク生成装置の構成を示すブロック図である。 本発明の実施の形態3の実施例1及び実施例2の参照先文書セット記憶部の格納例を示す図である。 本発明の実施の形態3の実施例1及び実施例2の参照元文書セット記憶部の初期の格納例を示す図である。 本発明の実施の形態3の実施例1のキーワード記憶部の初期の格納例を示す図である。 本発明の実施の形態3の実施例1の全体の処理を示すフローチャート図である。 本発明の実施の形態3の実施例1及び実施例2のキーワード記憶部の格納例を示す図である。 本発明の実施の形態3の実施例1及び実施例2の参照元文書セット記憶部の格納例を示す図である。 本発明の実施の形態3の実施例1にかかるハイパーリンク生成装置の変形例の構成を示すブロック図である。 本発明の実施の形態3の実施例1のキーワード抽出処理を示すフローチャート図である。 本発明の実施の形態3の実施例1のキーワード抽出手段の動作の例を示す図である。 本発明の実施の形態3の実施例1のキーワード抽出手段の動作の例を示す図である。 本発明の実施の形態3の実施例2の構成を示すブロック図である。 本発明の実施の形態3の実施例2のキーワード記憶部の初期の格納例を示す図である。 本発明の実施の形態3の実施例2のキーワード抽出手段の動作の例を示す図である。 本発明の実施の形態3の実施例2のキーワード抽出手段の動作の例を示す図である。 文書セット間のハイパーリンクの概念を説明する図である。 参照先文書が複数存在する場合の対応の一例を示す図である。
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
<発明の実施の形態1>
図1は、本発明の実施の形態1にかかるハイパーリンク生成装置100の構成を示すブロック図である。ハイパーリンク生成装置100は、入力文書21、参照元文書22及び参照先文書23を入力し、入力文書21に含まれるキーワードについて、参照元文書22又は参照先文書23との間でハイパーリンクを生成する。ハイパーリンク生成装置100は、重要度算出手段11、キーワード選択手段12及びハイパーリンク生成手段13を備える。
入力文書21、参照元文書22及び参照先文書23は、複数の単語列を含むテキストデータである。入力文書21、参照元文書22及び参照先文書23は、例えば、HTML(HyperText Markup Language)又はXML(Extensible Markup Language)等の構造化言語により記述されたファイルであるとよい。但し、テキストデータは、これに限定されない。参照元文書22は、ハイパーリンクにおける参照元となる文書であり、少なくとも1つの文書である。また、参照先文書23は、ハイパーリンクにおける参照先となる文書であり、少なくとも1つの文書である。但し、参照元文書22及び参照先文書23は、それぞれ複数の文書が属していることが望ましい。これにより、キーワードの精度が高まる。
重要度算出手段11は、入力文書21に含まれる単語列について、入力文書21における当該単語列の重要度と、複数の参照元文書22の中で任意の参照元文書に当該単語列が集中する度合である集中度と、複数の参照先文書23の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する。
キーワード選択手段12は、重要度算出手段11により算出された重要度に基づき、入力文書21に含まれる単語列の中からキーワードを選択する。
ハイパーリンク生成手段13は、キーワード選択手段12により選択されたキーワードに基づき、入力文書21と参照元文書22又は参照先文書23との間でハイパーリンクを生成する。
または、ハイパーリンク生成装置100の重要度算出手段11は、参照元文書22又は参照先文書23のいずれかにおける集中度のみを用いても構わない。すなわち、重要度算出手段11は、入力文書21に含まれる単語列について、入力文書21における当該単語列の重要度と、複数の参照先文書23の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出するようにしてもよい。また、重要度算出手段11は、入力文書21に含まれる単語列について、入力文書21における当該単語列の重要度と、複数の参照元文書22の中で任意の参照元文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出するようにしてもよい。
これにより、本発明の実施の形態1では、ハイパーリンクを生成するに当たり、参照元文書22と参照先文書23とを異なる集中度により重要度を算出することができる。そのため、参照元文書22と参照先文書23とを区別せずに重要度を算出する場合に比べて、ハイパーリンク生成における有効なキーワードを高精度に抽出することができる。
<発明の実施の形態2>
図2は、本発明の実施の形態2にかかるハイパーリンク生成装置100aの構成を示すブロック図である。尚、図2の内、図1と同一の構成要素には、同一の符号を付し、詳細な説明は、省略する。ハイパーリンク生成装置100aは、参照元文書22及び参照先文書23を入力し、参照元文書22に含まれるキーワードについて、参照元文書22と参照先文書23との間でハイパーリンクを生成する。ハイパーリンク生成装置100aは、重要度算出手段11a、重要度補正手段11b、キーワード選択手段12及びハイパーリンク生成手段13を備える。
重要度算出手段11aは、特定の参照元文書22に含まれる単語列について、参照元文書22における当該単語列の重要度を算出する。例えば、tf/idf等の公知の手法により重要度を算出してもよい。
重要度補正手段11bは、重要度算出手段11aにより算出された重要度について、複数の参照先文書23の中で任意の参照先文書に当該単語列が集中する度合である集中度が高い単語列についてより高い重要度となるように補正する。
キーワード選択手段12は、重要度補正手段11bにより補正された重要度に基づき、参照元文書22に含まれる単語列の中からキーワードを選択する。そして、ハイパーリンク生成手段13は、キーワード選択手段12により選択されたキーワードに基づき、参照元文書22と参照先文書23との間でハイパーリンクを生成する。
このように、参照元文書22以外の他の参照元文書にどれくらい当該単語列が含まれるかに関わらず、複数の参照先文書23の内、一部により多くの単語列が含まれる場合には、従来の手法により算出された当該単語列の重要度に対して、重要度を高くなるように補正することにより、例えば、td/idf等では、見落とされていたようなキーワードを高く評価することができ、ハイパーリンク生成における有効なキーワードを高精度に抽出することができる
または、ハイパーリンク生成装置100aは、参照元文書22及び参照先文書23を入力し、参照先文書23に含まれるキーワードについて、参照元文書22と参照先文書23との間でハイパーリンクを生成するようにしても構わない。すなわち、重要度算出手段11aは、特定の参照先文書23に含まれる単語列について、参照先文書23における当該単語列の重要度を算出する。そして、重要度補正手段11bは、重要度算出手段11aにより算出された重要度について、複数の参照元文書22の中で任意の参照元文書に当該単語列が集中する度合である集中度が高い単語列についてより低い重要度となるように補正する。
このように、参照先文書23以外の他の参照先文書にどれくらい当該単語列が含まれるかに関わらず、複数の参照元文書22の内、一部により多くの単語列が含まれる場合には、従来の手法により算出された当該単語列の重要度に対して、重要度を低くなるように補正することにより、例えば、td/idf等では、不要に選択されたキーワードを低く評価することができ、ハイパーリンク生成における有効なキーワードを高精度に抽出することができる。
<発明の実施の形態3>
まず、発明の実施の形態3の概要を説明する。発明の実施の形態3は、ハイパーリンクの生成においては、参照元文書セットと当該参照元文書セットに対応する適切な参照先文書セットが与えられたとき、参照元及び参照先の文書セット間に含まれるリンクとその手がかりとなるキーワードの出現分布に表れる一定の特徴に基づき、ハイパーリンク生成における有効なキーワードの抽出を高精度に行うものである。
まず、適切な参照先文書セットとは、参照元文書セットに対する参照先として現実に利用される機会が多い参照先文書セットである。例えば、企業のコンタクトセンターのオペレータが電話応対の際に利用する過去の問合せ事例に対するメンテナンスマニュアルが該当する。オペレータは、問合せを受け付けると、過去の問合せ事例を参照し、質問者の問合せのおおよその対応方法を把握する。次に、具体的な対応方法についてメンテナンスマニュアルを参照して調査する。これは、応対業務における一般的なプロセスであり、メンテナンスマニュアルは参照先として現実に利用される機会が多い参照先文書セットと言える。この場合、一つの問合せ事例が一つの参照元文書、メンテナンスマニュアルの一節が一つの参照先文書となる。
このような適切な参照先文書セットは、参照元文書セットの多くの箇所から参照される可能性が高いと言える。参照箇所が多いこと、つまり、様々な事柄を調べられることが、利便性の評価につながり、適切な参照先文書セットになり得たと考えられるからである。この場合を端的に表した概念図を図3に示す。図3では、参照元文書セットSFAに属する参照元文書FA1、FA2及びFA3に、それぞれキーワードAが含まれている。また、参照先文書セットSTBに属する参照先文書TB1、TB2及びTB3の内、参照先文書TB2のみにキーワードAが含まれている。このとき、一つの参照先文書TB2は、複数の参照元文書FA1、FA2及びFA3のキーワードAから参照されるという特徴を有する。
また、適切な参照先文書セットでは、個別の参照内容は少数の参照先文書に集約して記載される可能性が高いと言える。参照内容が集約して、また、体系的に記載されていることが、利便性の評価につながり、適切な参照先文書セットになり得たと考えられるからである。この場合、図3のように、参照元文書セットSFAのキーワードAに対する参照先文書は、参照先文書セットSTBの内、少数に限定される。
このようなリンクの特徴から本発明の実施の形態3では、キーワード抽出に当たり以下の指標1及び指標2を用いる。指標1は、文書に含まれる単語列の中で、参照元文書セットの多数の文書にキーワードとして含まれる単語列をキーワードとするものである。その理由は、リンクの特徴として、一つの参照先文書は多くの参照元文書のキーワードから参照されるためである。そして、キーワードの出現分布の特徴として、ある文書でキーワードとなる単語列は、参照元文書セットの多数の文書にキーワードとして含まれるためである。
また、指標2は、文書に含まれる単語列の中で、参照先文書セットの少数の文書でキーワードとして含まれる単語列をキーワードとするものである。その理由は、リンクの特徴として、参照元文書のキーワードに対する参照先文書は少数に限定されるためである。そして、キーワードの出現分布の特徴として、ある文書でキーワードとなる単語列は、参照先文書セットの少数の文書にキーワードとして含まれるためである。
この指標を適用するために文書セットに対してキーワード抽出を2回実行する。具体的には、まず、任意の重要度計算方式を用いて文書からキーワードを抽出する。但し、任意の重要度計算方式とは、ある程度正確な方式であり、例えば、tf/idf等であることが望ましい。
次に、指標1及び指標2を用いた重要度計算方式により文書セットから再度キーワードを抽出する。2回目のキーワード抽出における、文書セットDの文書dに含まれる単語列tの重要度S(D、d、t)は、下記の式で求める。式(1)は、指標1を用いた場合の重要度計算方式である。また、式(2)は、指標2を用いた場合の重要度計算方式である。尚、文書セットDは、参照元文書セット又は参照先文書セットのいずれかであればよい。
S(D、d、t) = BS(D、d、t) * sdf(D_FROM、t) ・・・(1)
S(D、d、t) = BS(D、d、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t)) ・・・(2)
ここで、D_FROMは、参照元文書セットを示し、D_TOは、参照先文書セットを示す。また、sdf(D、t)は、単語列tが文書セットDで1回目のキーワード抽出でキーワードとなった文書数又は回数を示す。max{t∈T; sdf(D、t)}は、sdf(D、t)の文書セットDにおける最大値を示す。また、式(1)及び式(2)の第1項のBSは、Base Scoreの略であり、従来の指標、例えば、tf/idfによる重要度を示す。
尚、参照元文書セットの文書からキーワード抽出する際に式(1)つまり、指標1を適用すると、参照先文書セットのどの文書にもキーワードとして含まれない単語列に大きな重要度が与えられる可能性がある。指標1は、文書セット間に含まれるリンクの特徴から導かれた指標であるので、このようなリンクにならないキーワードを抽出すると有効性が失われる。また、参照先文書セットの文書からキーワードを抽出する際に式(2)つまり、指標2を適用する場合も同様である。
従って、式(1)及び式(2)を改良した下記の式(3)乃至式(8)のように、条件分岐を用いた計算式を用いることが望ましい。さらに、式(3)乃至式(8)を改良し、指標の項を対数logでスムージングしてもよい。
参照元文書セットの文書から指標1でキーワード抽出する場合は、例えば、下記の式(3)を用いる。
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * sdf(D_FROM、t)
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(3)
参照元文書セットの文書から指標2でキーワード抽出する場合は、例えば、下記の式(4)を用いる。
if sdf(D_TO、t) > 0 then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(4)
参照元文書セットの文書から指標1及び指標2でキーワード抽出する場合は、例えば、下記の式(5)を用いる。
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * sdf(D_FROM、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else if (sdf(D_FROM、t) = 0 ∧ sdf(D_TO、t) > 0) then
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(5)
参照先文書セットの文書から指標1でキーワード抽出する場合は、例えば、下記の式(6)を用いる。
if sdf(D_FROM、t) > 0 then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(6)
参照先文書セットの文書から指標2でキーワード抽出する場合は、例えば、下記の式(7)を用いる。
if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(7)
参照先文書セットの文書から指標1及び指標2でキーワード抽出する場合は、例えば、下記の式(8)を用いる。
if (sdf(D_FROM ,t) > 0 ∧ sdf(D_TO、t) > 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t) * (max{t∈T;sdf(D_TO、t)} / sdf(D_TO、t))
else if (sdf(D_FROM、t) > 0 ∧ sdf(D_TO、t) = 0) then
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
else
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(8)
このように本発明の実施の形態3では、リンク生成のためのキーワードを高精度に抽出することが可能となる。その理由は、従来の指標、例えば、tf又はtf及びidfに新しい指標1もしくは指標2、又は、指標1及び指標2を加えたためである。ここで、指標1は、文書に含まれる単語列の内、参照元文書セットの多数の文書にキーワードとして含まれる単語列をキーワードとするものである。また、指標2は、文書に含まれる単語列の内、参照先文書セットの少数の文書にキーワードとして含まれる単語列をキーワードとするものである。尚、本発明は、参照元文書セットに対する適切な参照先文書セットが与えられているとき有効である。
<実施例1>
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。なお、本実施の形態では、キーワード抽出手段31が参照先文書から上述した指標1を用いてキーワードを抽出する形態を説明する。
図4は、本発明の実施の形態3の実施例1にかかるハイパーリンク生成装置200の構成を示すブロック図である。ハイパーリンク生成装置200は、プログラム制御により動作するデータ処理装置3と、情報を記憶する記憶装置4とを含む。
データ処理装置3は、キーワード抽出手段31とリンク生成手段32とを含む。キーワード抽出手段31は、参照先文書から文書の内容を代表する単語列をキーワードとして抽出する。リンク生成手段32は、参照元文書のキーワードからそのキーワードを含む参照先文書へのハイパーリンクを生成する。
記憶装置4は、参照先文書セット記憶部41と、参照元文書セット記憶部42と、キーワード記憶部43とを有する。記憶装置4は、メモリ等の主記憶装置やハードディスク等の補助記憶装置で実現される。
参照先文書セット記憶部41は、参照先文書のセットを格納する。ここで、参照先文書セットとは、リンク生成手段32により生成されるハイパーリンクのリンク先となる文書の集合である。図5は、本発明の実施の形態3の実施例1の参照先文書セット記憶部41の格納例を示す図である。参照先文書セット記憶部41には、文書を識別する識別番号である文書ID、当該文書の格納先であるURL(Uniform Resource Locator)及び当該文書の内容であるHTML(HyperText Markup Language)で記述されたテキストデータが関連付けて格納される。そして、なお、参照先文書セット記憶部41に格納されるものは、これに限定されない。
参照元文書セット記憶部42は、参照元文書セットを格納する。ここで、参照元文書セットとは、リンク生成手段32により生成されるハイパーリンクのリンク元となる文書の集合である。図6は、本発明の実施の形態3の実施例1の参照元文書セット記憶部42の初期の格納例を示す図である。参照元文書セット記憶部42には、文書ID、URL及びHTMLで記述されたテキストデータが関連付けて格納される。但し、参照元文書セット記憶部42において、URLは必須ではない。なお、参照元文書セット記憶部42に格納されるものは、これに限定されない。
キーワード記憶部43は、文書に含まれるキーワードを格納する。図7は、本発明の実施の形態3の実施例1のキーワード記憶部43の初期の格納例を示す図である。キーワード記憶部43には、文書ID及びキーワードが関連付けて格納される。
以下、本発明の実施の形態3の実施例1では、初期状態としてキーワード記憶部43に図7のようにあらかじめ参照元文書から任意の方法により抽出したキーワードが格納されているものとする。ここで、任意の方法とは、例えば、tf/idf等の統計的手法、又は、文書のタイトルに含まれる単語列をキーワードとするといった方法等であることが望ましい。キーワード抽出手段31は、キーワード記憶部43を参照し、参照先文書からキーワードを抽出する。
キーワード抽出手段31は、単語列抽出手段311と、重要度計算手段312と、キーワード選択手段313を含む。単語列抽出手段311は、参照先文書から単語列を抽出する。重要度計算手段312は、参照元文書あるいは参照先文書における単語列の重要度を、その文書における単語列の出現回数と、その文書を含む文書セットとは他方の文書セットで単語列がキーワードとして選択された回数を用いて計算する。ここでは、重要度計算手段312は、参照先文書における単語列の重要度を、参照先文書における単語列の出現回数と、参照元文書セットで単語列がキーワードとして選択された回数を用いて計算する。つまり、重要度計算手段312は、集中度を、入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とする。また、重要度計算手段312は、集中度がより低い単語列について、重要度をより高く算出するとよい。キーワード選択手段313は、重要度計算手段312により計算された重要度があらかじめ定められた閾値以上、又は、重要度の順があらかじめ定められた順位の単語列をキーワードとして選択する。
次に、図を参照して実施例1の動作について詳細に説明する。図8は、本発明の実施の形態3の実施例1の全体の処理を示すフローチャート図である。ここでは、初期状態として参照先文書セット記憶部41に図5の文書が、参照元文書セット記憶部42に図6の文書が、キーワード記憶部43には、参照元文書から抽出したキーワードが図7のように格納されているとする。
まず、キーワード抽出手段31は、参照先文書からキーワードを抽出する(S1)。キーワード抽出手段31の動作の詳細は後述する。ここでは、キーワード抽出手段31は、図9のように参照先文書セットのキーワードをキーワード記憶部43へ格納したものとする。
次に、リンク生成手段32は、参照元文書のキーワードからそのキーワードを含む参照先文書へのハイパーリンクを生成する(S2)。具体的には、まず、リンク生成手段32は、参照元文書に含まれるキーワードがキーワード記憶部43に格納されているかを判定する。例えば、図9の文書ID"F1"にはキーワード「コール06」及び「カートリッジ交換」が含まれている。次に、リンク生成手段32は、当該キーワードを含む参照先文書が存在するか否かを同様にキーワード記憶部43を参照して判定する。ここでは、キーワード「コール06」は、図9の文書ID"T4"に含まれている。続いて、リンク生成手段32は、文書IDから参照先文書のURLをキーワード記憶部43から取得する。図5の参照先文書セット記憶部41では、文書ID"T4"のURLは、「http://bbb.com/page4.html」となっている。そこで、リンク生成手段32は、図10のように、文書ID"F1"のキーワード「コール06」に対して、当該URLをリンク先とするリンクを挿入する。同様に、リンク生成手段32は、キーワード「カートリッジ交換」に対してもリンクを挿入する。尚、図7では、他の参照元文書の文書IDにもキーワードが含まれているが、それらのキーワードを含む参照先文書が存在しないため、リンク生成手段32は、リンクを挿入しない。
尚、本発明の実施の形態3の実施例1にかかるリンク生成手段32は、参照元文書セットについてリンクを生成しているが、これに限定されない。例えば、図11に示すハイパーリンク生成装置200aのように、データ処理装置3bに通信手段33を備えても構わない。この場合、通信手段33は、ネットワーク(不図示)を介して文書の入力を受け付ける。そして、通信手段33は、受け付け文書をキーワード抽出手段31へ入力する。
また、リンク生成手段32は、入力された文書に対してリンクを生成し、通信手段33は、リンクが生成された文書をネットワークを介して出力するようにしてもよい。この場合、リンク生成手段32は、入力される文書のURLを手がかりに参照元文書セット記憶部42から文書IDを取得する。その後の処理は、上記のリンク生成手段32の処理と同一であるため説明を省略する。
また、リンク生成手段32において、参照元文書のキーワードから当該キーワードを含む参照先文書が複数存在する場合は、図20のように複数の参照先をポップアップ画面で表示し、利用者が選択すると、その参照先文書を開くようにするとよい。この動作は、JavaScript(登録商標)等のスクリプト言語をHTML文書に記述することで容易に実現できる。また、ポップアップ画面に現れる参照先の情報は、参照先文書の先頭部分やタイトル等を表示することで実現できる。
続いて、図12は、本発明の実施の形態3の実施例1のキーワード抽出手段31のキーワード抽出処理の詳細を示すフローチャート図である。尚、以下では、説明を容易にするために参照先文書セットは、初期状態として図13(a)のように一つの参照先文書を含むものとする。また、キーワード記憶部43には、参照元文書セットから抽出された図13(b)のキーワードが格納されているものとする。
まず、単語列抽出手段311は、参照先文書から単語列を抽出する(S11)。具体的には、まず、単語列抽出手段311は、形態素解析を用いて文書を単語に分割すると共に、活用語は原形に変換し、単語に品詞を付与する。次に、単語列抽出手段311は、品詞を手がかりに単語を絞り込む。例えば、「名詞」のみを選択する。ただし、選択する品詞の種類はこれに限定されるものではない。最後に、単語列抽出手段311は、残された単語の内、連続する単語を連結して単語列とする。
ここで、単語列抽出手段311が図13(a)の参照先文書T1を形態素解析した場合について以下に例示して説明する。まず、参照先文書T1の内容は、「カートリッジ/交換/手順/。以下/の/手順/で交換/する/ます/。」と解析される。ここで、"/"は、単語の区切りを表す。このとき、品詞として名詞のみを選択し、連続する単語を連結すると単語列として「カートリッジ交換手順」「以下」「手順」「交換」が抽出される。
尚、この時、抽出した単語列の部分単語列も単語列としても良い。この場合、単語列「カートリッジ交換手順」に加え、「カートリッジ交換」「交換手順」「カートリッジ」「交換」「手順」も単語列とすることができる。これにより、形態素解析の精度を上げることができる。
そして、単語列の抽出結果は、各文書から抽出した単語列に加え、その文書における単語列の出現回数と、その単語列の参照先文書セット全体での出現文書数を中間データとして保存する。図13(a)に対する単語列抽出の結果を図14(a)のように格納する。
尚、単語列抽出手段311において形態素解析に加え構文解析も実施し、係り受け関係のある単語組を連結して単語列としても良い。例えば、「カートリッジを交換します。」を形態素解析すると「カートリッジ/を/交換/する/ます/。」となり、名詞のみを選択すると単語列は「カートリッジ」「交換」になる。ここで、構文解析により「カートリッジ」を含む文節と「交換」を含む文節の間には係り受け関係があることがわかる。そこで、単語列抽出手段311は、2つの単語列を連結した「カートリッジ交換」も単語列に加える。
次に、重要度計算手段312は、参照先文書における単語列の重要度を、参照先文書における単語列の出現回数と、参照先文書セットとは他方の参照元文書セットで単語列がキーワードとして選択された回数を用いて計算する(S12)。
具体的には、参照先文書セットD_TOの文書d_toに含まれる単語列tの重要度S(D_TO、d_to、t)は、以下の式(9)で求める。ここで、重要度Sは、参照先文書セットD_TOに含まれる全ての単語列に関して計算する。
sdf(D_FROM、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * sdf(D_FROM、t)
sdf(D_FROM、t) = 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(9)
ここで、式(9)の第1項のBSは従来の重要度計算方式による重要度を表す。尚、D_FROMは、参照元文書セットを表し、sdf(D_FROM、t)は、単語列tが参照元文書セットD_FROMでキーワードとして選択された文書数又はキーワードとして選択された総回数を表す。
式(9)の第2項の直感的な解釈は、文書に含まれる単語列の内、参照元文書セットの多数の文書にキーワードとして含まれる単語列をキーワードとすることである。これは、上述した指標1を表す。
尚、式(9)の第2項は、以下の式(10)のように対数でスムージングしても良い。ここで、log2は、2を底とする対数である。底は必ずしも2である必要はない。また、+1は、最小値を1にするための補正値であるが省略しても良い。
sdf(D_FROM、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * log2(sdf(D_FROM、t) + 1)
sdf(D_FROM、t) = 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t)
・・・(10)
また、以下の式(11)は、第1項のBSとしてtfを用いた場合を示す。そして、以下の式(12)は、第1項のBSとしてtf/idfを用いた場合を示す。ここで、tfは参照先文書d_toにおける単語列tの出現回数を表し、|D_TO|は、参照先文書セットD_TOの全文書数(定数)、dfは、参照先文書セットD_TOにおける単語列tの出現文書数を表す。また、log2の中の"+1"は、idfの最小値を1にするための補正値であるが省略しても良い。
BS(D_TO、d_to、t) = tf(D_TO、d_to、t) ・・・(11)
BS(D_TO、d_to、t) = tf(D_TO、d_TO、t) * log2((|D_TO| / df(D_TO、t)) + 1) ・・・(12)
さらに、以下の式(13)のようにBSに単語列の長さlength(t)の項を追加しても良い。その理由は、単語列の長さが単語列の重要度に影響するためである。
BS(D_TO、d_to、t) = tf(D_TO、d_TO、t) * log2((|D_TO| / df(D_TO、t)) + 1) * log2(length(t)) ・・・(13)
また、単語列の重要度Sの値は、キーワード記憶部43と単語列抽出手段311の出力を利用して求める。具体的には、単語列抽出手段311が出力した文書での単語列tの出現回数からtfを求める。同様に、単語列抽出手段311が出力した参照先文書セット全体での単語列tの出現文書数からdfを求める。また、キーワード記憶部43の参照元文書セットのキーワードを利用してsdfを求める。
ここで、図13(b)の参照元文書セットD_FROMのキーワードと、図14(a)の参照先文書d_toの単語列tに対して式(9)と式(12)とを用いて重要度Sを計算した結果を図14(b)に示す。
次に、図12に戻り、キーワード選択手段313は、重要度があらかじめ定められた閾値以上、あるいは、重要度の順にあらかじめ定められた個数の単語列をキーワードとして選択する(S13)。例えば、閾値を10に設定した場合は、それぞれの参照先文書から重要度Sの値が10以上の単語列をキーワードとして選択する。また、選択する個数を5に設定した場合は、それぞれの参照先文書から重要度Sが大きい順に5個の単語列をキーワードとして選択する。キーワード選択手段313は、選択結果をキーワード記憶部43に格納する。
言い換えると、キーワード選択手段313は、重要度計算手段312により算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出する。または、キーワード選択手段313は、重要度計算手段312により算出された重要度が入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出する。
図14(b)の結果において重要度の高い1個の単語列をキーワードと場合、キーワード選択手段313は、キーワード記憶部43に、参照先文書から抽出したキーワードとして図13(c)に示すキーワード「カートリッジ交換」を格納する。
このように、従来の指標である第1項のみでは、単語列「交換」及び「手順」の参照先文書T1における出現回数が多いため、tfが相対的に大きいため、キーワードとして選択されてしまう。逆に、単語列「カートリッジ交換」は、参照先文書T1における出現回数が少ないため、tfが相対的に小さくなるため、キーワードとして選択され難くなってしまう。しかし、本発明の実施の形態3の実施例1では、第1項に加え、新しい指標として第2項を用いることにより、参照元文書セットにおける単語列の出現文書数を加味する。具体的には、単語列「カートリッジ交換」は、参照元文書セットにおいて参照元文書F1、F2及びF4の3つの文書に出現する。そのため、図14(b)に示すように、式(9)のsdf(D_FROM、t) > 0のときに該当し、重要度Sが算出される。逆に、単語列「交換」及び「手順」は、参照元文書セットにおいて、キーワードとして存在しないために、式(9)のsdf(D_FROM、t) = 0のときに該当し、重要度Sが算出される。そして、図14(b)の重要度Sの比較により、単語列「カートリッジ交換」がキーワードとして選択される。このように、本発明の実施の形態3の実施例1では、リンク生成のための精度の高いキーワード抽出が可能になる。
すなわち、キーワード記憶部43には、複数の参照元文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを格納しておき、重要度計算手段312は、入力文書に含まれる単語列がキーワード記憶部43に格納されていない場合に、集中度を用いずに単語列の重要度を算出する。これにより、参照元文書セットに含まれないために、ハイパーリンクに用いられない単語列ついて、重要度を低く算出することができ、キーワード抽出の精度を高めることができる。
以上、本発明の実施の形態3の実施例1の動作を説明した。尚、本発明の実施の形態3の実施例1では、参照元文書セットと参照先文書セットは別の文書セットとして説明したが、この限りではなく、同一の文書セットとしても適用可能である。
本発明の実施の形態3の実施例1の効果は、リンク自動生成のためのキーワードを高精度に抽出することが可能となる。その理由は、従来の指標、例えば、tf又はtf及びidf、に加えた新しい指標として、文書に含まれる単語列の内、参照元文書セットの多数の文書にキーワードとして含まれる単語列をキーワードとすることを用いるからである。尚、本発明は、参照元文書セットに対する適切な参照先文書セットが与えられているとき有効である。
<実施例2>
次に、本発明の実施の形態3にかかる別の最良の実施例2について図面を参照して詳細に説明する。なお、実施例2では、実施例1のキーワード抽出手段31の変形例であり、参照元文書から指標2を用いてキーワードを抽出する例を説明する。図15は、本発明の実施の形態3の実施例2にかかるハイパーリンク生成装置300の構成を示すブロック図である。尚、図15の内、図4と同一の構成要素には、同一の符号を付し、詳細な説明は、省略する。
ハイパーリンク生成装置300は、プログラム制御により動作するデータ処理装置3aと、情報を記憶する記憶装置4aとを含む。データ処理装置3aは、キーワード抽出手段31aとリンク生成手段32を含む。キーワード抽出手段31aは、参照元文書から文書の内容を代表する単語列をキーワードとして抽出する。リンク生成手段32は、実施例1と同様である。
記憶装置4aは、参照先文書セット記憶部41と、参照元文書セット記憶部42と、キーワード記憶部43aとを有する。記憶装置4aは、メモリ等の主記憶装置やハードディスク等の補助記憶装置で実現される。
参照先文書セット記憶部41及び参照元文書セット記憶部42は、実施例1と同様である。キーワード記憶部43aは、初期状態として図16のようにあらかじめ参照先文書から任意の方法により抽出したキーワードが格納されているものとする。ここで、任意の方法とは、実施例1と同様である。
キーワード抽出手段31aは、単語列抽出手段311と、重要度計算手段312aと、キーワード選択手段313を含む。単語列抽出手段311は、参照元文書から単語列を抽出する。重要度計算手段312aは、参照元文書あるいは参照先文書における単語列の重要度を、その文書における単語列の出現回数と、その文書を含む文書セットとは他方の文書セットで単語列がキーワードとして選択された回数を用いて計算する。ここでは、重要度計算手段312aは、参照元文書における単語列の重要度を、参照元文書における単語列の出現回数と、参照先文書セットで単語列がキーワードとして選択された回数を用いて計算する。つまり、重要度計算手段312aは、集中度を、入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とする。また、重要度計算手段312aは、集中度がより高い単語列について、重要度をより高く算出するとよい。キーワード選択手段313は、実施例1と同様である。
次に、図8を参照して実施例2の動作について詳細に説明する。ここでは、初期状態として参照先文書セット記憶部41に図5の文書が、参照元文書セット記憶部42に図6の文書が、キーワード記憶部43aには、参照先文書から抽出したキーワードが図16のように格納されているとする。
まず、キーワード抽出手段31aは、参照元文書からキーワードを抽出する(S1)。キーワード抽出手段31aの動作の詳細は後述する。ここでは、キーワード抽出手段31aは、図9のように参照元文書セットのキーワードをキーワード記憶部43aへ格納したものとする。
次に、リンク生成手段32は、参照元文書のキーワードからそのキーワードを含む参照先文書へのハイパーリンクを生成する(S2)。この動作は、実施例1と同様である。ここでは、リンク生成手段32は、図10のようにハイパーリンクを生成する。
続いて、図12を参照して本発明の実施の形態3の実施例2のキーワード抽出手段31aのキーワード抽出処理の詳細を説明する。尚、以下では、説明を容易にするために参照元文書セットは、初期状態として図17(a)のように一つの参照元文書を含むものとする。また、キーワード記憶部43aには、参照先文書セットから抽出された図17(b)のキーワードが格納されているものとする。
まず、単語列抽出手段311は、参照元文書から単語列を抽出する(S11)。尚、抽出方法は、実施例1と同様である。ここで、単語列抽出手段311が図17(a)の参照元文書F1に対して単語列を抽出した結果を図18(a)に示す。
次に、重要度計算手段312aは、参照元文書における単語列の重要度を、参照元文書における単語列の出現回数と、参照元文書セットとは他方の参照先文書セットで単語列がキーワードとして選択された回数を用いて計算する(S12)。
具体的には、参照元文書セットD_FROMの文書d_fromに含まれる単語列tの重要度S(D_FROM、d_from、t)は、以下の式(14)で求める。ここで、重要度Sは、参照先元書セットD_FROMに含まれる全ての単語列に関して計算する。
sdf(D_TO、t) > 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t) * (max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t))
sdf(D_TO、t) = 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(14)
ここで、式(14)の第1項のBSは従来の重要度計算方式による重要度を表す。尚、D_TOは参照先文書セットを表し、sdf(D_TO、t)は、単語列tが参照先文書セットD_TOでキーワードとして選択された文書数又はキーワードとして選択された総回数を表す。また、max{t∈T;sdf(D_TO、t)}は、参照先文書セットD_TOにおけるsdf(D_TO、t)の最大値(定数)を表す。
式(14)の第2項の直感的な解釈は、文書に含まれる単語列の内、参照先文書セットの少数の文書にキーワードとして含まれる単語列をキーワードとすることである。これは、上述した指標2を表す。
尚、式(14)の第2項は、以下の式(15)のように対数でスムージングしても良い。ここで、log2は、2を底とする対数である。底は必ずしも2である必要はない。また、"+1"は、最小値を1にするための補正値であるが省略しても良い。また、BSの計算方法は実施例1と同様である。
sdf(D_TO、t) > 0のとき
S(D_TO、d_to、t) = BS(D_TO、d_to、t) * log2(max{t∈T; sdf(D_TO、t)} / sdf(D_TO、t) + 1)
sdf(D_TO、t) = 0のとき
S(D_FROM、d_from、t) = BS(D_FROM、d_from、t)
・・・(15)
単語列の重要度Sの値は、キーワード記憶部43aと単語列抽出手段311の出力を利用して求める。具体的な方法は、実施例1と同様である。
ここで、図17(b)の参照先文書セットD_FROMのキーワードと、図18(a)の参照元文書d_fromの単語列tに対して式(14)と式(12)とを用いて重要度Sを計算した結果を図18(b)に示す。
次に、図12に戻り、キーワード選択手段313は、重要度があらかじめ定められた閾値以上、あるいは、重要度の順にあらかじめ定められた個数の単語列をキーワードとして選択する(S13)。
言い換えると、キーワード選択手段313は、重要度計算手段312aにより算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出する。または、キーワード選択手段313は、重要度計算手段312aにより算出された重要度が入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出する。
図18(b)の結果において重要度の高い1個の単語列をキーワードと場合、キーワード選択手段313は、キーワード記憶部43aに、参照元文書から抽出したキーワードとして図17(c)に示すキーワード「フレームユニット」を格納する。
このように、従来の指標である第1項のみでは、単語列「フレームユニット」の参照元文書F1における出現回数は、他の単語列と差がないため、キーワードとして選択され難い。しかし、本発明の実施の形態3の実施例2では、第1項に加え、新しい指標として第2項を用いることにより、参照先文書セットにおける単語列の出現文書数を加味する。尚、ここでは、図18(a)の単語列の内、キーワード「フレームユニット」がキーワード記憶部43aに格納されているため、式(14)のsdf(D_TO、t) > 0のときに該当し、重要度Sが算出される。また、単語列「フレームユニット」以外については、式(14)のsdf(D_TO、t) = 0のときに該当し、重要度Sが算出される。図18(b)の重要度Sの比較により、単語列「フレームユニット」がキーワードとして選択される。このように、本発明の実施の形態3の実施例2では、リンク生成のための精度の高いキーワード抽出が可能になる。
すなわち、キーワード記憶部43aには、複数の参照先文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードを格納しておき、重要度計算手段312aは、入力文書に含まれる単語列がキーワード記憶部43aに格納されていない場合に、集中度を用いずに単語列の重要度を算出する。これにより、参照先文書セットに含まれないために、ハイパーリンクに用いられない単語列ついて、重要度を低く算出することができ、キーワード抽出の精度を高めることができる。
以上、本発明の実施の形態3の実施例2の動作を説明した。尚、本発明の実施の形態3の実施例2では、参照元文書セットと参照先文書セットは別の文書セットとして説明したが、この限りではなく、同一の文書セットとしても適用可能である。
本発明の実施の形態3の実施例2の効果は、リンク自動生成のためのキーワードを高精度に抽出することが可能となる。その理由は、従来の指標、例えば、tf又はtf及びidf、に加えた新しい指標として、文文書に含まれる単語列の内、参照先文書セットの少数の文書にキーワードとして含まれる単語列をキーワードとすることを用いるからである。尚、本発明は、参照元文書セットに対する適切な参照先文書セットが与えられているとき有効である。
<その他の発明の実施の形態>
尚、本発明の実施の形態1において、重要度算出手段11は、集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくするようにしてもよい。これにより、さらにキーワード抽出の精度を高めることができる。
本発明は、文書間のハイパーリンクの自動生成システムに利用することで、ハイパーリンク文書の作成/管理コストの削減、及び、利用者の情報アクセス性向上という効果を奏する。
さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
100 ハイパーリンク生成装置
100a ハイパーリンク生成装置
11 重要度算出手段
11a 重要度算出手段
11b 重要度補正手段
12 キーワード選択手段
13 ハイパーリンク生成手段
21 入力文書
22 参照元文書
23 参照先文書
200 ハイパーリンク生成装置
200a ハイパーリンク生成装置
300 ハイパーリンク生成装置
3 データ処理装置
3a データ処理装置
3b データ処理装置
31 キーワード抽出手段
31a キーワード抽出手段
311 単語列抽出手段
312 重要度計算手段
312a 重要度計算手段
313 キーワード選択手段
32 リンク生成手段
33 通信手段
4 記憶装置
4a 記憶装置
41 参照先文書セット記憶部
42 参照元文書セット記憶部
43 キーワード記憶部
43a キーワード記憶部
T1 参照先文書
T2 参照先文書
T3 参照先文書
T4 参照先文書
F1 参照元文書
F2 参照元文書
F3 参照元文書
F4 参照元文書
SFA 参照元文書セット
FA1 参照元文書
FA2 参照元文書
FA3 参照元文書
STB 参照先文書セット
TB1 参照先文書
TB2 参照先文書
TB3 参照先文書
DF 元画面
DM 選択メニュー

Claims (42)

  1. 入力文書に含まれる単語列について、前記入力文書における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出手段と、
    前記重要度算出手段により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
    前記キーワード選択手段により選択された第2のキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
    を備え
    前記重要度算出手段は、前記複数の参照先文書の中で当該単語列が前記第1のキーワードとして選択された文書数が少ない場合には、前記第3の重要度をより高く算出するハイパーリンク生成装置。
  2. 記重要度算出手段は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合に前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項1記載のハイパーリンク生成装置。
  3. 入力文書に含まれる単語列について、前記入力文書における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出手段と、
    前記重要度算出手段により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
    前記キーワード選択手段により選択された第2のキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
    を備え
    前記重要度算出手段は、前記複数の参照元文書の中で当該単語列が前記第1のキーワードとして選択された文書数が多い場合には、前記第3の重要度をより高く算出するハイパーリンク生成装置。
  4. 記重要度算出手段は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合に前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項に記載のハイパーリンク生成装置。
  5. 前記キーワード選択手段は、前記重要度算出手段により算出された第3の重要度が予め定められた閾値以上である場合に当該単語列を前記第2のキーワードとして抽出することを特徴とする請求1乃至のいずれか1項に記載のハイパーリンク生成装置。
  6. 前記キーワード選択手段は、前記重要度算出手段により算出された第3の重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された第3の重要度の内、所定の順位以上である場合に、当該単語列を前記第2のキーワードとして抽出することを特徴とする請求1乃至のいずれか1項に記載のハイパーリンク生成装置。
  7. 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出手段と、
    前記重要度算出手段により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択手段と、
    前記キーワード選択手段により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
    を備えるハイパーリンク生成装置。
  8. 前記重要度算出手段は、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項7に記載のハイパーリンク生成装置。
  9. 前記重要度算出手段は、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項7又は8に記載のハイパーリンク生成装置。
  10. 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項乃至9のいずれか1項に記載のハイパーリンク生成装置。
  11. 前記キーワード選択手段は、前記重要度算出手段により算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求項7乃至10のいずれか1項に記載のハイパーリンク生成装置。
  12. 前記キーワード選択手段は、前記重要度算出手段により算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求項7乃至10のいずれか1項に記載のハイパーリンク生成装置。
  13. ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、当該特定の参照元文書における当該単語列の出現頻度に基づく第1の重要度を算出する重要度算出手段と、
    前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照先文書が少ない場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正手段と、
    前記重要度補正手段により補正された第1の重要度に基づき、前記特定の参照元文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
    前記キーワード選択手段により選択された第2のキーワードに基づき、前記特定の参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
    を備えるハイパーリンク生成装置。
  14. ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、当該特定の参照先文書における当該単語列の出現頻度に基づく第1の重要度を算出する重要度算出手段と、
    前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照元文書が多い場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正手段と、
    前記重要度補正手段により補正された第1の重要度に基づき、前記特定の参照文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択手段と、
    前記キーワード選択手段により選択された第2のキーワードに基づき、前記参照元文書と前記特定の参照先文書との間でハイパーリンクを生成するハイパーリンク生成手段と、
    を備えるハイパーリンク生成装置。
  15. プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
    前記データ処理装置が、
    入力文書に含まれる単語列について、前記入力文書における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出ステップと、
    前記重要度算出ステップにより算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
    前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
    実行し、
    前記重要度算出ステップは、前記データ処理装置が、前記複数の参照先文書の中で当該単語列が前記第1のキーワードとして選択された文書数が少ない場合には、前記第3の重要度をより高く算出するハイパーリンク生成方法。
  16. 記重要度算出ステップは、前記データ処理装置が、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合に前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項15に記載のハイパーリンク生成方法。
  17. プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
    前記データ処理装置が、
    入力文書に含まれる単語列について、前記入力文書における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出ステップと、
    前記重要度算出ステップにより算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
    前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
    実行し、
    前記重要度算出ステップは、前記データ処理装置が、前記複数の参照元文書の中で当該単語列が前記第1のキーワードとして選択された文書数が多い場合には、前記第3の重要度をより高く算出するハイパーリンク生成方法。
  18. 記重要度算出ステップは、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合に前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項17に記載のハイパーリンク生成方法。
  19. 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された第3の重要度が予め定められた閾値以上である場合に当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項15乃至18のいずれか1項に記載のハイパーリンク生成方法。
  20. 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された第3の重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された第3の重要度の内、所定の順位以上である場合に、当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項15乃至18のいずれか1項に記載のハイパーリンク生成方法。
  21. プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
    前記データ処理装置が、
    入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出ステップと、
    前記重要度算出ステップにより算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択ステップと、
    前記キーワード選択ステップにより選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
    実行するハイパーリンク生成方法。
  22. 前記重要度算出ステップは、前記データ処理装置が、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項21に記載のハイパーリンク生成方法。
  23. 前記重要度算出ステップは、前記データ処理装置が、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項21又は22に記載のハイパーリンク生成方法。
  24. 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項21乃至23のいずれか1項に記載のハイパーリンク生成方法。
  25. 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求項21乃至24のいずれか1項に記載のハイパーリンク生成方法。
  26. 前記キーワード選択ステップは、前記データ処理装置が、前記重要度算出ステップにより算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求項21乃至24のいずれか1項に記載のハイパーリンク生成方法。
  27. プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
    前記データ処理装置が、
    ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、当該特定の参照元文書における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出ステップと、
    前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照先文書が少ない場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正ステップと、
    前記重要度補正ステップにより補正された第1の重要度に基づき、前記特定の参照元文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
    前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記特定の参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
    実行するハイパーリンク生成方法。
  28. プログラム制御により動作するデータ処理装置を用いたハイパーリンク生成方法であって、
    前記データ処理装置が、
    ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、当該特定の参照先文書における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出ステップと、
    前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照元文書が多い場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正ステップと、
    前記重要度補正ステップにより補正された第1の重要度に基づき、前記特定の参照文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択ステップと、
    前記キーワード選択ステップにより選択された第2のキーワードに基づき、前記参照元文書と前記特定の参照先文書との間でハイパーリンクを生成するハイパーリンク生成ステップと、
    実行するハイパーリンク生成方法。
  29. 入力文書に含まれる単語列について、前記入力文書における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出処理と、
    前記重要度算出処理により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
    前記キーワード選択処理により選択された第2のキーワードに基づき、前記入力文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
    を含む処理をコンピュータに実行させ
    前記重要度算出処理は、前記複数の参照先文書の中で当該単語列が前記第1のキーワードとして選択された文書数が少ない場合には、前記第3の重要度をより高く算出するハイパーリンク生成プログラム。
  30. 記重要度算出処理は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合に前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項29に記載のハイパーリンク生成プログラム。
  31. 入力文書に含まれる単語列について、前記入力文書における当該単語列の出現頻度に基づく第1の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとに基づいて、当該単語列の第3の重要度を算出する重要度算出処理と、
    前記重要度算出処理により算出された第3の重要度に基づき、前記入力文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
    前記キーワード選択処理により選択された第2のキーワードに基づき、前記入力文書と前記参照元文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
    を含む処理をコンピュータに実行させ
    前記重要度算出処理は、前記複数の参照元文書の中で当該単語列が前記第1のキーワードとして選択された文書数が多い場合には、前記第3の重要度をより高く算出するハイパーリンク生成プログラム。
  32. 記重要度算出処理は、前記入力文書に含まれる単語列が前記第1のキーワードと一致しない場合に前記第1の重要度を前記第3の重要度として算出することを特徴とする請求項31に記載のハイパーリンク生成プログラム。
  33. 前記キーワード選択処理は、前記重要度算出処理により算出された第3の重要度が予め定められた閾値以上である場合に当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項29乃至32のいずれか1項に記載のハイパーリンク生成プログラム。
  34. 前記キーワード選択処理は、前記重要度算出処理により算出された第3の重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された第3の重要度の内、所定の順位以上である場合に、当該単語列を前記第2のキーワードとして抽出することを特徴とする請求項29乃至32のいずれか1項に記載のハイパーリンク生成プログラム。
  35. 入力文書に含まれる単語列について、前記入力文書における当該単語列の重要度と、ハイパーリンクにおける参照元となる複数の参照元文書の中で任意の参照元文書に当該単語列が集中する度合である集中度と、ハイパーリンクにおける参照先となる複数の参照先文書の中で任意の参照先文書に当該単語列が集中する度合である集中度とに基づいて、当該単語列の重要度を算出する重要度算出処理と、
    前記重要度算出処理により算出された重要度に基づき、前記入力文書に含まれる単語列の中からキーワードを選択するキーワード選択処理と、
    前記キーワード選択処理により選択されたキーワードに基づき、前記入力文書と前記参照元文書又は前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
    を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。
  36. 前記重要度算出処理は、前記集中度が高い単語列に対して、重要度を高く評価する程度を参照元文書における重要度算出より参照先文書における重要度算出の方を大きくすることを特徴とする請求項35に記載のハイパーリンク生成プログラム。
  37. 前記重要度算出処理は、前記集中度を、前記入力文書以外の複数の文書の中から任意の重要度計算方法により算出された重要度に基づいて予め選択されたキーワードとして当該単語列が出現する文書数とすることを特徴とする請求項35又は36に記載のハイパーリンク生成プログラム。
  38. 前記入力文書は、前記複数の参照元文書又は前記複数の参照先文書のいずれかに属するものであることを特徴とする請求項35乃至37のいずれか1項に記載のハイパーリンク生成プログラム。
  39. 前記キーワード選択処理は、前記重要度算出処理により算出された重要度が予め定められた閾値以上である場合に当該単語列をキーワードとして抽出することを特徴とする請求項35乃至38のいずれか1項に記載のハイパーリンク生成プログラム。
  40. 前記キーワード選択処理は、前記重要度算出処理により算出された重要度が前記入力文書に含まれる複数の単語列のそれぞれに算出された重要度の内、所定の順位以上である場合に、当該単語列をキーワードとして抽出することを特徴とする請求項35乃至38のいずれか1項に記載のハイパーリンク生成プログラム。
  41. ハイパーリンクにおける参照元となる特定の参照元文書に含まれる単語列について、当該特定の参照元文書における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出処理と、
    前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照先となる複数の参照先文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照先文書が少ない場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正処理と、
    前記重要度補正処理により補正された第1の重要度に基づき、前記特定の参照元文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
    前記キーワード選択処理により選択された第2のキーワードに基づき、前記特定の参照元文書と前記参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
    を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。
  42. ハイパーリンクにおける参照先となる特定の参照先文書に含まれる単語列について、当該特定の参照先文書における当該単語列の出現頻度に基づく第1の重要度を算出する基準重要度算出処理と、
    前記第1の重要度が算出された単語列について、ハイパーリンクにおける参照元となる複数の参照元文書の中から任意の重要度計算方法により算出された第2の重要度に基づいて予め選択された第1のキーワードとして当該単語列が含まれる参照元文書が多い場合には、当該単語列の前記第1の重要度をより高く補正する重要度補正処理と、
    前記重要度補正処理により補正された第1の重要度に基づき、前記特定の参照文書に含まれる単語列の中から第2のキーワードを選択するキーワード選択処理と、
    前記キーワード選択処理により選択された第2のキーワードに基づき、前記参照元文書と前記特定の参照先文書との間でハイパーリンクを生成するハイパーリンク生成処理と、
    を含む処理をコンピュータに実行させるハイパーリンク生成プログラム。
JP2009034132A 2009-02-17 2009-02-17 ハイパーリンク生成装置、方法及びプログラム Active JP5338363B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009034132A JP5338363B2 (ja) 2009-02-17 2009-02-17 ハイパーリンク生成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009034132A JP5338363B2 (ja) 2009-02-17 2009-02-17 ハイパーリンク生成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010191599A JP2010191599A (ja) 2010-09-02
JP5338363B2 true JP5338363B2 (ja) 2013-11-13

Family

ID=42817596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009034132A Active JP5338363B2 (ja) 2009-02-17 2009-02-17 ハイパーリンク生成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5338363B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325827A (ja) * 1994-04-07 1995-12-12 Mitsubishi Electric Corp ハイパーテキスト自動生成装置

Also Published As

Publication number Publication date
JP2010191599A (ja) 2010-09-02

Similar Documents

Publication Publication Date Title
US10599721B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
US10567329B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
US20210383078A1 (en) Automatic translation of advertisements
JP4923604B2 (ja) 情報処理装置および方法、並びにプログラム
US7181683B2 (en) Method of summarizing markup-type documents automatically
US20150067476A1 (en) Title and body extraction from web page
JP2009043156A (ja) 番組検索装置および番組検索方法
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
CN112380337A (zh) 基于富文本的高亮方法及装置
KR20080085990A (ko) 추천검색어 제공 방법 및 시스템
JP5338363B2 (ja) ハイパーリンク生成装置、方法及びプログラム
JP5495425B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
EP2096561A1 (en) Method for extracting relevant content from a markup language file, in particular from a HTML file
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
KR101541297B1 (ko) 사용자 디스크립션에 기반한 다국어 관계망 생성 방법 및 장치
JP2011113097A6 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
WO2017056164A1 (ja) 情報提示システム、及び情報提示方法
JP2010015395A (ja) 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
JP2006244294A (ja) 文書類否判定システム、文書類否判定方法、および文書類否判定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130722

R150 Certificate of patent or registration of utility model

Ref document number: 5338363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150