JP2017054509A - 文抽出方法及びシステム - Google Patents

文抽出方法及びシステム Download PDF

Info

Publication number
JP2017054509A
JP2017054509A JP2016174150A JP2016174150A JP2017054509A JP 2017054509 A JP2017054509 A JP 2017054509A JP 2016174150 A JP2016174150 A JP 2016174150A JP 2016174150 A JP2016174150 A JP 2016174150A JP 2017054509 A JP2017054509 A JP 2017054509A
Authority
JP
Japan
Prior art keywords
sentence
document
important
keyword
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016174150A
Other languages
English (en)
Other versions
JP6272417B2 (ja
Inventor
ジェ ピル ジョン、
Jae-Pil Jeong
ジェ ピル ジョン、
ジェ ユン キム、
Jae-Yun Kim
ジェ ユン キム、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uberple Co Ltd
Original Assignee
Uberple Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uberple Co Ltd filed Critical Uberple Co Ltd
Publication of JP2017054509A publication Critical patent/JP2017054509A/ja
Application granted granted Critical
Publication of JP6272417B2 publication Critical patent/JP6272417B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Abstract

【課題】文書の読者それぞれの選好度に基づいて文書に含まれた各文の重要度を算定し、算定された各文の重要度に基づいて文書から重要文を抽出する方法、装置及びそのプログラムを提供する。【解決手段】キーワードを受信する段階と、複数の文を含む文書をパーシングして前記文書に含まれた各文を識別する段階と、前記各文をバーテックス(Vertex)とし、各文間の類似度をエッジ(Edge)の加重値(Weight)とするグラフを構成する段階と、グラフに変形されたページランクアルゴリズム(PageRank algorithm)を適用して各文の重要度を算定し、変形されたページランクアルゴリズムはキーワードとの関連度による加重値が反映されるように変形された段階と、算定された重要度を基準に文書から重要文を抽出する段階を含む。【選択図】図5

Description

本発明は文書要約方法及びシステムに関する。より詳細には文書に含まれた各文の重要度を算定し、算定された各文の重要度に基づいて文書から重要文を抽出する方法及びそのシステムに関する。
文書要約(Document summarization)は文書を代表できる縮約されたテキストを生成する作業である。文書要約が求められるのは情報の洪水から必要な情報を迅速、正確に得るためである。
文書要約方法は抽出(extraction)要約方法と生成(abstraction)要約方法に区分される。生成要約方法は抽出要約方法に比べて原文を効果的に縮約できるが、原文との一貫性及び要約の正確性が保障されないという限界がある。
抽出要約方法は文書から重要文を抽出し、抽出された重要文を利用して要約文を構成する方法である。しかし、一般的な抽出要約のアルゴリズムは読者(Reader)の観点、興味または意図を考慮せず、文書から絶対的に重要であると評価される文を抽出する。
したがって、一般的な抽出要約のアルゴリズムによって抽出された重要文は第1読者には関心事に関する情報を提供する重要な文であり得るが、第2読者には必要ではない情報を提供する文に過ぎない場合もある。したがって、文書の読者それぞれの選好度を考慮し、どの読者にも重要であると評価される文を抽出できるソリューションが求められている。
本発明が解決しようとする技術的課題は、文書の読者(reader)それぞれの選好度に基づいて文書に含まれた各文の重要度を算定し、算定された各文の重要度に基づいて文書から重要文を抽出する方法及びそのシステムを提供することにある。
本発明が解決しようとする他の技術的課題は、文書から抽出された重要文に基づいて文書を要約する方法及びそのシステムを提供することにある。
本発明が解決しようとするまた他の技術的課題は、文書から抽出された重要文に基づいて検索サービス及びノイズフィルタリングを提供する方法及びシステムを提供することにある。
本発明が解決しようとするまた他の技術的課題は、文書から抽出された重要文に基づいてクラスタリングを行うコンテンツクラスタリング方法及びシステムを提供することにある。
本発明の技術的課題は、以上で言及した技術的課題に制限されず、言及されていないまた他の技術的課題は次の記載から本発明の技術分野における通常の技術者に明確に理解されるであろう
前記技術的課題を解決するための本発明の一実施形態による文書要約方法は、キーワードを受信する段階と、複数の文を含む文書をパーシングして前記文書に含まれた各文を識別する段階と、前記各文をバーテックス(Vertex)とし、前記各文間の類似度をエッジ(Edge)の加重値(Weight)とするグラフを構成する段階と、前記グラフに変形されたページランクアルゴリズム(PageRank algorithm)を適用して前記各文の重要度を算定し、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が反映されるように変形された段階と、前記算定された重要度を基準に前記文書から重要文を抽出する段階を含み、前記ページランクアルゴリズムは、第1バーテックスに隣接したバーテックスの相対的な重要度を基準に前記第1バーテックスの重要度を算定し、前記第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が前記第1バーテックスに隣接した各バーテックスの相対的な重要度に反映されたアルゴリズムであり得る。
前記技術的課題を解決するための本発明の他の実施形態による文書要約方法は、ユーザ端末から文書の重要文を抽出するためのキーワードを含まない文書の要約要請を受信する段階と、前記ユーザ端末のユーザに対するプロファイルを基準に前記ユーザの選好度が反映されたキーワードを選定する段階と、前記選定されたキーワードに基づいて前記文書から重要文を抽出する段階と、前記抽出された重要文に基づいて前記文書の要約文を生成する段階を含み得る。
前記技術的課題を解決するための本発明のまた他の実施形態による文書要約方法は、第1キーワード及び第2キーワードを受信する段階と、前記第1キーワードに基づいて複数の文を含む文書からk個の重要文を抽出する段階と、前記k個の重要文に基づいて第1要約文を生成する段階と、前記第2キーワードに基づいて第1要約文からm個の重要文を抽出する段階と、前記m個の重要文に基づいて第2要約文を生成する段階を含み得る。
前記技術的課題を解決するための本発明のまた他の実施形態による文書要約方法は、第1キーワード及び前記第1キーワードと異なる第2キーワードを受信する段階と、前記第1キーワードに基づいて複数の文を含む文書から第1重要文を抽出する段階と、前記第2キーワードに基づいて前記文書から第2重要文を抽出する段階と、前記第1重要文と前記第2重要文を含む要約文を生成する段階を含み、前記第1重要文と前記第2重要文は互いに異なる文であり得る。
前記技術的課題を解決するための本発明の一実施形態による検索サービス提供方法は、ユーザ端末から検索キーワードを受信する段階と、前記受信された検索キーワードを利用して予備検索を行う段階と、前記予備検索を行った結果、検索された文書から重要文を抽出する段階と、前記抽出された重要文に前記検索キーワードが含まれているかどうかを反映して前記予備検索を行った結果を再構成した最終検索結果を構成する段階を含み得る。
前記技術的課題を解決するための本発明の一実施形態によるコンテンツクラスタリング方法は、第1文書及び第2文書を含む複数の文書を受信する段階と、クラスタキーワードを含むコンテンツクラスタリング要請を受信する段階と、前記クラスタキーワードを利用して第1文書から第1重要文を抽出する段階と、前記クラスタキーワードを利用して第2文書から第2重要文を抽出する段階と、前記第1重要文と前記第2重要文との間の類似度を算定する段階と、前記算定された類似度を基準に前記第1文書と前記第2文書が一つのクラスタに含まれ得るかどうかを決定する段階を含み得る。
前記技術的課題を解決するための本発明のまた他の実施形態による複数の文で構成されたテキストから重要文を選定する方法は、第1キーワードに基づいて前記テキストから第1重要文を選定する段階と、前記第1キーワードと異なる第2キーワードに基づいて前記テキストから前記第1重要文と異なる第2重要文を選定する段階と、前記第1キーワード及び前記第2キーワードに対応する前記テキストの要約結果として、前記第1重要文及び前記第2重要文を含む前記テキストの要約データをユーザ端末に送信する段階を含み得る。
前記技術的課題を解決するための本発明の一実施形態による文書要約装置は、ネットワークインターフェースと、一つ以上のプロセッサと、前記プロセッサによって行われるコンピュータプログラムをロード(load)するメモリと、一つ以上のファイルを保存するストレージを含み、前記コンピュータプログラムは、キーワードを受信するオペレーションと、複数の文を含む文書をパーシングして前記文書に含まれた各文を識別するオペレーションと、前記各文をバーテックスとし、前記各文間の類似度をエッジの加重値とするグラフを構成するオペレーションと、前記グラフに変形されたページランクアルゴリズムを適用して前記各文の重要度を算定し、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が反映されるように変形されたオペレーションと、前記算定された重要度を基準に前記文書から重要文を抽出するオペレーションを含み、前記ページランクアルゴリズムは、第1バーテックスに隣接したバーテックスの相対的な重要度を基準に前記第1バーテックスの重要度を算定し、前記第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が前記第1バーテックスに隣接した各バーテックスの相対的な重要度に反映されたアルゴリズムであり得る。
前記技術的課題を解決するための本発明による一実施形態によれば、キーワードを受信する段階と、複数の文を含む文書をパーシングして前記文書に含まれた各文を識別する段階と、前記各文をバーテックスとし、前記各文間の類似度をエッジの加重値とするグラフを構成する段階と、前記グラフに変形されたページランクアルゴリズムを適用して前記各文の重要度を算定し、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が適用されるように反映された段階と、前記算定された重要度を基準に前記文書から重要文を抽出する段階を実行させるために、記録媒体に保存されたコンピュータプログラムが提供され得、前記ページランクアルゴリズムは、第1バーテックスに隣接したバーテックスの相対的な重要度を基準に前記第1バーテックスの重要度を算定し、前記第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が前記第1バーテックスに隣接した各バーテックスの相対的な重要度に反映されたアルゴリズムであり得る。
前記のような本発明によれば、要約文を生成するための重要文を抽出する際に読者の選好度を考慮することによって、読者の観点、関心事または意図に合わせた要約文を生成することができる。
また、読者の選好度によって抽出された重要文を利用してキーワード検索結果を再構成することにより、それぞれの読者に合わせた検索サービスを提供することができる。
さらに、読者の選好度によって抽出された重要文を利用してコンテンツをクラスタリングすることにより、それぞれの読者に合わせたクラスタリングを行うことができる。
本発明の効果は以上で言及した効果に制限されず、言及されていないまた他の効果は次の記載から通常の技術者に明確に理解されるであろう。
本発明の一実施形態による文書要約の概念を説明するための図である。 本発明の一実施形態による文書要約システムを説明するための図である。 本発明の一実施形態による検索サービスシステムを説明するための図である。 本発明の一実施形態によるコンテンツクラスタリングシステムを説明するための図である。 本発明の一実施形態による文書要約過程を説明するための概念図である。 本発明の一実施形態による文書要約方法を説明するための順序図である。 本発明の一実施形態による文書要約方法のグラフ生成過程を説明するための図である。 本発明の一実施形態による文書要約方法の変形されたランクアルゴリズムの適用過程を説明するための図である。 本発明の他の実施形態による文書要約過程を説明するための概念図である。 本発明の他の実施形態に他の文書要約方法を説明するための順序図である。 本発明の一実施形態による検索サービス提供過程を説明するための概念図である。 本発明の一実施形態による検索サービス提供方法を説明するための順序図である。 本発明の一実施形態によるコンテンツクラスタリング過程を説明するための概念図である。 本発明の一実施形態によるコンテンツクラスタリング方法を説明するための順序図である。 本発明の一実施形態による文書要約装置の論理的構成のブロック図である。 本発明の一実施形態による文書要約装置のハードウェアの構成図である。
本発明について説明する前に本明細書で使用されるいくつかの用語ついて説明する。
グラフ(Graph)は一つ以上のバーテックス(Vertex)の有限集合と、バーテックスの対であるエッジ(Edge)の有限集合で構成されるデータ構造(Data structure)である。グラフは最小限一つのバーテックス(Vertex)を含んで構成されなければならないが、これに限定されない。
グラフは無向グラフ(Undirected graph)と有向グラフ(Directed graph)に区分される。無向グラフは各エッジを示すバーテックスの対の順序が決まっていない。すなわち、無向グラフは各エッジが方向性を有しない。また、有向グラフは各エッジを示すバーテックスの対の順序が決まっている。すなわち、有向グラフは各エッジが方向性を有する。
完全グラフ(Complete graph)はグラフに含まれたバーテックスがn個である場合、バーテックスを連結するエッジの数がn(n−1)/2個のグラフである。すなわち、完全グラフはグラフに含まれたすべてのバーテックスが互いにエッジによって連結されたグラフである。
他に定義されなければ、本明細書で使用されるすべての用語(技術及び科学的用語を含む)は、本発明が属する技術分野で通常の知識を有する者に共通に理解できる意味で使用される。また一般的に使用される辞書に定義されている用語は特別に定義して明らかにしない限り理想的にまたは過度に解釈されない。本明細書で使用された用語は、実施例について説明するためであり、本発明を制限しようとするものではない。本明細書で、単数型は特別に言及しない限り複数型も含む。
また、本明細書で使用される「含む(comprises)」および/または「含む(comprising)」は言及された構成要素、段階、動作および/または素子は一つ以上の他の構成要素、段階、動作および/または素子の存在または追加を排除しない。
以下、本発明について添付された図面を参照してより詳細に説明する。図1は本発明の一実施形態による重要文抽出の概念を説明するための図である。
図1を参照すると、本発明の一実施形態による重要文抽出は文書10に含まれた各文(11、12、13、14、15または16)の重要度を算定し、算定された重要度に基づいて文書10から重要文を抽出する。
例えば、文書10に文A(11)、文B(12)、文C(13)、文D(14)、文E(15)及び文F(16)が含まれた場合、本発明の一実施形態による重要文抽出は、文書10に含まれた文A(11)、文B(12)、文C(13)、文D(14)、文E(15)及び文F(16)に対する重要度を算定し、算定された重要度が最大である文から前記重要度が低くなる順に文C(13)及び文E(15)を抽出する。この場合、文C(13)及び文E(15)は文書10から抽出された重要文に該当する。
特に、本発明の一実施形態による重要文の抽出によれば、文書10から重要文を抽出することにおいて、文書10の読者それぞれの選好度を考慮することができる。すなわち、本発明の一実施形態による重要文抽出によれば、文書10の読者それぞれの選好度に基づいて文書10に含まれた各文(11、12、13、14、15または16)の重要度を算定し、算定された重要度に基づいて文書10から重要文を抽出し得る。
したがって、本発明の一実施形態による重要文抽出によれば、読者の選好度により文書10から抽出された重要文が異なる。
以下、図2ないし図4を参照して本発明の一実施形態による重要文抽出及び抽出された重要文を利用するいくつかのサービスシステムについて説明する。
図2は本発明の一実施形態による文書要約システムを説明するための図である。図2に示す文書要約システムの構成要素は機能的に区分される機能要素であり、実際物理的な環境では一つ以上の構成要素が互いに統合して実現され得る。
図2を参照すると、本発明の一実施形態による文書要約システムは文書要約装置100、コンテンツ保存所200、応用サービスサーバ300及びユーザ端末400を含んで構成され得る。
各構成要素について説明すると、文書要約装置100は文書10を要約して要約文を生成する装置である。具体的には、文書要約装置100は読者それぞれの選好度に基づいて文書10に含まれた各文の重要度を算定する。文書要約装置100は算定された各文の重要度に基づいて文書10から重要文を抽出する。また、文書要約装置100は抽出された重要文に基づいて要約文を生成する。
このとき、文書要約の対象になる文書10にはハングル、英字、数字、間隔文字、特殊文字などのようなテキストが含まれ得るが、これに限定されず、文書要約の対象になる文書10にはイメージ、チャートまたはOLE(Object Linking and Embedding)オブジェクトが含まれ得る。
文書要約装置100は応用サービスサーバ300またはユーザ端末400から文書10の要約要請を受信する。文書要約装置100はコンテンツ保存所200に文書要約の対象になる文書10を要請する。文書要約装置100はコンテンツ保存所200から文書要約の対象になる文書10を受信する。文書要約装置100は読者それぞれの選好度に基づいて受信された文書10から重要文を抽出して要約文を生成する。また、文書要約装置100は生成した要約文をユーザ端末400、コンテンツ保存所200または応用サービスサーバ300に送信する。
本発明の一実施形態による文書要約装置100はサーバ(Server)、ワークステーション(Workstation)またはデスクトップ(Desktop)などのように固定式コンピュータ装置であり得るが、これに限定されない。
前述したような本発明の一実施形態による文書要約装置100の文書要約方法については、以下図5ないし図8を参照してより詳細に説明する。また、本発明の一実施形態による文書要約装置100の構成については、以下図15及び図16を参照してより詳細に後述する。
次に、コンテンツ保存所200は多様な類型のコンテンツを保管するための保存所である。具体的には、コンテンツ保存所200は文書要約の対象になる文書10を保存する。また、コンテンツ保存所200は検索サービスを提供するためのコンテンツまたはクラスタリングの対象になるコンテンツを保存する。
コンテンツ保存所200は文書要約装置100または応用サービスサーバ300の要請により、文書要約の対象になる文書10を抽出する。また、コンテンツ保存所200は抽出された文書10を文書要約装置100に送信する。
コンテンツ保存所200は応用サービスサーバ300の要請により、検索キーワードによるコンテンツを抽出する。また、コンテンツ保存所200は抽出されたコンテンツを含む検索結果を応用サービスサーバ300に送信する。
また、コンテンツ保存所200は応用サービスサーバ300の要請により、クラスタキーワードによるクラスタリングの対象になるコンテンツを抽出する。また、コンテンツ保存所200はクラスタリングの対象になるコンテンツを応用サービスサーバ300に送信する。
次に、応用サービスサーバ300はコンテンツ保存所200に保存されたコンテンツ及び文書要約装置100によって生成された要約文に基づいて多様なサービスを提供するためのサーバである。
具体的には、応用サービスサーバ300はユーザ端末400から検索キーワードを受信する。応用サービスサーバ300は検索キーワードによる検索結果をコンテンツ保存所200に要請する。応用サービスサーバ300はコンテンツ保存所200から検索結果を受信する。
応用サービスサーバ300はコンテンツ保存所200から受信された検索結果のうち複数の文を含む文書10が存在する場合、文書要約装置100に文書10の要約を要請する。応用サービスサーバ300は文書要約装置100から文書10の要約文を受信する。
応用サービスサーバ300は受信された要約文に基づいて検索結果を再構成し得る。例えば、応用サービスサーバ300は検索キーワードが要約文に含まれていない場合、検索結果から要約文の原本になる文書を除いて検索結果を再構成する。また、応用サービスサーバ300は要約文間の類似度が相対的に低い文書を検索結果から除いて検索結果を再構成できるが、これに限定されない。また、応用サービスサーバ300は再構成された検索結果をユーザ端末400に送信することができる。
また、応用サービスサーバ300はユーザ端末400からクラスタキーワードを受信する。応用サービスサーバ300はクラスタキーワードによるクラスタリングの対象になるコンテンツをコンテンツ保存所200に要請する。応用サービスサーバ300はコンテンツ保存所200からクラスタリングの対象になるコンテンツを受信する。
応用サービスサーバ300はクラスタリングの対象になるコンテンツのうち複数の文を含む文書10が存在する場合、文書要約装置100に文書10の要約を要請する。応用サービスサーバ300は文書要約装置100から文書10の要約文を受信する。
応用サービスサーバ300は文書要約装置100から受信された要約文に基づいてクラスタリングの対象になるコンテンツをクラスタリングする。例えば、応用サービスサーバ300はクラスタリングの対象になるコンテンツの要約文間の類似度を算定し、算定された類似度に基づいて一つのクラスタに含まれるかどうかを決定できるが、これに限定されない。また、応用サービスサーバ300はクラスタリング結果をユーザ端末400に送信する。
次に、ユーザ端末400は文書の要約、キーワード検索またはコンテンツクラスタリングを要請する装置である。具体的には、ユーザ端末400は文書要約装置100に文書10の要約を要請する。また、ユーザ端末400は文書要約装置100から要約文を受信して出力する。
ユーザ端末400は応用サービスサーバ300に検索キーワードを伝送し、キーワード検索を要請する。また、ユーザ端末400は応用サービスサーバ300から検索結果を受信して出力する。
また、ユーザ端末400は応用サービスサーバ300にクラスタキーワードを送信し、コンテンツクラスタリングを要請する。また、ユーザ端末400は応用サービスサーバ300からクラスタリング結果を受信して出力する。
本発明の一実施形態によるユーザ端末400はネットワークを介してデータを送受信できる装置であれば、いかなる装置でもよい。例えば、本発明の一実施形態によるユーザ端末400はスマートフォン(Smart Phone)、ラップトップ(Laptop)、タブレット(Tablet)、ファブレット(Phablet)またはPDA(Personal Digital Assistants)などのようなモバイルコンピューティング装置またはデスクトップ、サーバまたはワークステーションなどのような固定式コンピュータ装置のうちいずれか一つであり得る。しかし、これに限定されず、ユーザ端末400はスマートグラス(Smart glasses)、スマートバンド(Smart band)、スマートウォッチ(Smart watch)またはスマートリング(Smart ring)のようなウェアラブルコンピュータ装置のうちいずれか一つであり得る。
最後に、ネットワーク(Network)は文書要約装置100、コンテンツ保存所200、応用サービスサーバ300及びユーザ端末400がデータを送受信するためのインフラストラクチャー(infrastructure)である。本発明の一実施形態によるネットワークはイーサネット(登録商標)(Ethernet(登録商標))、xDSL(x Digital Subscriber Line)、HFC(Hybrid Fiber Coax)またはFTTH(Fiber To The Home)などのような有線通信網、CDMA(Code Division Multiple Access)、WCDMA(登録商標)(Wideband CDMA)、GSM(登録商標)(Global System for Mobile communication)、HSPA(High Speed Packet Access)またはLTE(Long Term Evolution)などのような移動通信網またはワイファイ(WiFi)、ワイマックス(Wimax)、ワイブロ(Wibro)、ブルートゥース(登録商標)(Bluetooth(登録商標))またはジグビー(Zigbee(登録商標))などのような近距離無線通信網のうち一つ以上を組合わせた形態であり得る、これに限定されない。
図3は本発明の一実施形態による検索サービスシステムを説明するための図である。図3を参照すると、本発明の一実施形態による検索サービスシステムは文書要約装置100、コンテンツ保存所200及び応用サービスサーバ300が統合されて検索サービスを提供するための単一装置として実現され得る。
検索サービスサーバ310は検索サービスを提供するための装置である。このような検索サービスサーバ310は検索器311、文書要約器312及び検索結果出力器313を含んで構成され得る。
検索器311はユーザ端末400から検索キーワードを含むキーワード検索要請を受信する。検索器311は受信された検索キーワードによるコンテンツを検索する。この場合、検索器311はネットワークを介して外部の保存所に保存されたコンテンツを検索する。また、検索器311は検索されたコンテンツを含む検索結果を生成する。
文書要約器312は検索器311により生成された検索結果のうち、複数の文を含む文書10が存在する場合、ユーザ端末400から受信された検索キーワードに基づいて文書10に含まれた各文の重要度を算定する。文書要約器312は算定された各文の重要度に基づいて文書10から重要文を抽出する。文書要約器312は抽出された重要文に基づいて要約文を生成する。
検索結果出力器313は文書要約器312により生成された要約文に基づいて検索器311により生成された検索結果を再構成し得る。例えば、検索結果出力器313は検索キーワードが要約文に含まれていない場合、検索結果から要約文の原本になる文書を除いて検索結果を再構成する。また、検索結果出力器313は要約文間の類似度が相対的に低い文書を検索結果から除いて検索結果を再構成できるが、これに限定されない。また、検索結果出力器313は再構成された検索結果をユーザ端末400に送信する。
図4は本発明の一実施形態によるコンテンツクラスタリングシステムを説明するための図である。図4を参照すると、本発明の一実施形態によるコンテンツクラスタリングシステムは文書要約装置100及び応用サービスサーバ300が統合されてクラスタリングを行うための単一装置として実現され得る。
コンテンツクラスタリングサーバ320はクラスタリングを行うための装置である。このような、コンテンツクラスタリングサーバ320は文書要約器321及びクラスタリングモジュール322を含んで構成される。
文書要約器321はコンテンツ保存所200またはユーザ端末400からクラスタキーワードを含むコンテンツクラスタリング要請を受信する。文書要約器321はクラスタリングの対象になるコンテンツのうち複数の文を含む文書10が存在する場合、受信されたクラスタキーワードに基づいて文書10に含まれた各文の重要度を算定する。文書要約器321は算定された各文の重要度に基づいて文書10から重要文を抽出する。また、文書要約器321は抽出された重要文に基づいて要約文を生成する。
クラスタリングモジュール322は文書要約器321により生成された要約文に基づいてクラスタリングの対象になるコンテンツをクラスタリングする。例えば、クラスタリングモジュール322はクラスタリングの対象になるコンテンツの要約文間の類似度を算定し、算定された類似度に基づいて一つのクラスタに含まれ得るかを決定できるが、これに限定されない。また、クラスタリングモジュール322はクラスタリング結果をコンテンツクラスタ保存所210に送信する。
整理すると、本発明の一実施形態による文書要約システムは、要約文を生成するための重要文を抽出することにおいて読者の選好度を考慮することによって、読者の観点、関心事または意図に合わせた要約文を生成することができる。また、検索サービスシステムは読者の選好度によって抽出された重要文を利用してキーワード検索の結果を再構成することにより、それぞれの読者に合わせた検索サービスを提供することができる。さらに、コンテンツクラスタリングシステムは読者の選好度によって抽出された重要文を利用してコンテンツをクラスタリングすることにより、それぞれの読者に合わせたクラスタリングを行うことができる。
すなわち、前記文書要約システムは、第1キーワードに基づいて前記テキストから第1重要文を選定し、前記第1キーワードに対応する前記テキストの要約結果として、前記第1重要文のデータをユーザ端末に送信し、前記第1キーワードと異なる第2キーワードに基づいて前記テキストから前記第1重要文と異なる第2重要文を選定し、前記第2キーワードに対応する前記テキストの要約結果として、前記第2重要文のデータをユーザ端末に送信する。従来の重要文選定(sentence extraction)技術は重要文を選定することにおいて、個人化した重要度が反映されるという問題があったが、本発明によれば、個人化した重要度がキーワードの形態で反映され、その結果、第1キーワードが適用された重要文選定結果と第2キーワードが適用された重要文選定結果が異なって出力される点が確認された。
以下、図5ないし図8を参照して本発明の一実施形態による文書要約装置100の文書要約方法について説明する。図5は本発明の一実施形態による文書要約の過程を説明するための概念図である。
図5を参照すると、文書要約装置100はコンテンツ保存所200から文書要約の対象になる文書10を受信する。文書要約装置100が受信された文書10は一つ以上の文(11、12、13、14、15及び16)が含まれる。
文書要約装置100はコンテンツ保存所200またはユーザ端末400から一つ以上のキーワードを受信する。このとき、キーワードは文書10から重要文を抽出することにおいて読者それぞれの選好度を適用するための単語である。したがって、キーワードは文書10の読者それぞれの観点、関心事または意図などを示す単語であり得る。
文書要約装置100は受信された文書10をパーシングして文書10に含まれた文A(11a)、文B(12a)、文C(13a)、文D(14a)、文E(15a)及び文F(16a)を識別する。
文書要約装置100は識別された文A(11b)、文B(12b)、文C(13b)、文D(14b)、文E(15b)及び文F(16b)をバーテックスとし、各文間の類似度をエッジの加重値とするグラフを構成する。文書要約装置100が構成するグラフは無向グラフであり得るが、これに限定されない。
文書要約装置100は構成されたグラフに変形されたページランクアルゴリズムを適用して各文の重要度を算定する。
このとき、変形されたページランクアルゴリズム(PageRank algorithm)は第1バーテックスに隣接したバーテックスの相対的な重要度を基準に第1バーテックスの重要度を算定するが、第1バーテックスに隣接した各バーテックスの相対的な重要度に第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が反映されたアルゴリズムである。すなわち、変形されたページランクアルゴリズムはグラフに含まれた各バーテックスの相対的な重要度を算定するが、各バーテックスとキーワードとの間の関連度を考慮して相対的な重要度を算定する。
文書要約装置100は算定された重要度が最大である文において前記重要度が低くなる順に、文書10に含まれた文A(11)、文B(12)、文C(13)、文D(14)、文E(15)及び文F(16)のうち重要文に該当する文C(13d)及び文E(15d)を抽出する。文書要約装置100が抽出する重要文の数は文書要約装置100にプリセットト(preset)されているか、または文書10の要約を要請したユーザ端末400によって指定されるもできる。
また、文書要約装置100は文書10内で重要文の位置を基準に重要文に該当する文C(13d)及び文E(15d)を再配列して要約文を生成する。
図6は本発明の一実施形態による文書要約方法を説明するための順序図である。
図6を参照すると、文書要約装置100はコンテンツ保存所200から文書要約の対象になる文書10を受信し、コンテンツ保存所200またはユーザ端末400から一つ以上のキーワードを受信する(S110)。
このとき、文書要約の対象になる文書10にはハングル、英字、数字、間隔文字、特殊文字などのようなテキストが含まれ得るが、これに限定されず、文書要約の対象になる文書10にはイメージ、チャートまたはOLEオブジェクトが含まれ得る。また、キーワードは文書10から重要文を抽出することにおいて読者それぞれの選好度を適用するための単語である。したがって、キーワードは文書10の読者それぞれの観点、関心事または意図などを示す単語であり得る。
文書要約装置100は受信された文書10をパーシングし、文書10に含まれた各文を識別する(S120)。具体的には、文書要約装置100は文書10に含まれた終結語尾を識別し、識別された終結語尾を基準に文書10に含まれた各文を識別する。しかし、これに限定されず、文書要約装置100は文書10に含まれた終止符、疑問符、休止符などのように符号を識別し、識別された符号を基準に文書10に含まれた各文を識別する。
文書要約装置100は識別された各文をバーテックスとし、各文間の類似度をエッジの加重値(Weight)とするグラフを構成する(S130)。文書要約装置100が構成するグラフは無向グラフであり得るが、これに限定されない。
本発明の一実施形態による文書要約装置100は完全グラフからいくつかのエッジを除去してグラフを構成する。
具体的には、文書要約装置100は識別された各文をバーテックスとし、すべてのバーテックスが互いにエッジによって連結された完全グラフを構成する。また、文書要約装置100は各文間の類似度を算定する。
本発明の一実施形態による文書要約装置100はジャカード係数(Jaccard Coefficient)またはハミング距離(Hamming Distance)のうちいずれか一つを利用して文間の類似度を算定する。しかし、これに限定されず、文書要約装置100はタニモト類似度(Tanimoto Similarity)またはコサイン類似度(Cosine Similarity)のうちいずれか一つを利用して文間の類似度を算定する。
文書要約装置100は算定された類似度をバーテックスの間を連結するエッジの加重値として付与する。また、文書要約装置100はグラフで臨界値より低い加重値が付与されたエッジを除去する。
このとき、臨界値は連関関係を有する二つの文の間に存在する最小類似度を示す値である。例えば、臨界値は1に設定することができるが、これに限定されない。また、臨界値は文書要約装置100にプリセット(preset)されているか、または文書10の要約を要請したユーザ端末400によって指定されることもできる。
本発明の他の実施形態による文書要約装置100はバーテックスだけで構成されたグラフにいくつかのエッジを付与してグラフを構成する。
具体的には、文書要約装置100は識別された各文をバーテックスとするグラフを構成する。文書要約装置100は各文をパーシングして重要トークン(Token)を識別する。このとき、トークンは各文に含まれた単語の実質的意味を表現するための部分である。例えば、トークンは各文に含まれた語根または語幹になるが、これに限定されない。
文書要約装置100はグラフに含まれた二つのバーテックスの文に同一のトークンが含まれている場合、二つのバーテックスの間にエッジを付与する。また、文書要約装置100はグラフに含まれた二つのバーテックスの文に含まれたトークンがすべて同一でない場合、二つのバーテックスの間にエッジを付与しない。本発明の一実施形態による文書要約装置100のグラフ生成過程については、以下図7を参照してより詳細に説明する。
文書要約装置100は構成されたグラフに変形されたページランクアルゴリズムを適用して各文の重要度を算定する(S140)。このとき、変形されたページランクアルゴリズムは第1バーテックスに隣接したバーテックスの相対的な重要度を基準に第1バーテックスの重要度を算定するが、第1バーテックスに隣接した各バーテックスの相対的な重要度に第1バーテックスに隣接した各バーテックスの文にキーワードが含まれているかどうかと関連した加重値が反映されたアルゴリズムである。すなわち、変形されたページランクアルゴリズムはグラフに含まれた各バーテックスの相対的な重要度を算定するが、各バーテックスとキーワードとの間の関連度を考慮して相対的な重要度を算定する。
具体的には、ページランクアルゴリズムは第1文書を引用している他の文書の重要度を基準に第1文書の重要度を算定するアルゴリズムである。このような、ページランクアルゴリズムは以下の数学式1のように示す。

ここで、Tは文書Aを引用している他の文書である。PR(T)はT文書にページランクアルゴリズムを適用して算出した重要度である。すなわち、PR(T)はTのページランク値である。C(T)はTを引用しているまた他の文書の数である。また、dは読者またはウェブサーファーが文書Aに満足せず、他の文書を調べる確率である。dはdamping factorの役割を行い、0.85に設定し得る。
また、文書要約装置100は文Aの重要度PR(A)を算定するため、前述したページランクアルゴリズムを変形した以下の数学式2を適用する。

ここで、Tは文Aに該当するバーテックスに連結された他のバーテックスである。PR(T)PR(T)はTバーテックスに変形されたページランクアルゴリズムを適用して算出した重要度である。すなわち、PR(T)はTバーテックスのページランク値である。本発明の一実施形態による文書要約装置100はPR(T)の初期値として任意の数(Arbitrary number)を代入し、PR(T)が一定の値に収束するときまで変形されたページランクアルゴリズムを繰り返し(iterative)行う。しかし、本発明の他の実施形態による文書要約装置100はPR(T)の初期値にw(T)を代入し、PR(T)が一定の値に収束するときまで変形されたページランクアルゴリズムを繰り返し行う。この場合、文書要約装置100は変形されたページランクアルゴリズムをより少なく行ってもPR(T)を算出できるであろう。
C(T)はTバーテックスに付属したエッジの数である。また、dは読者が文Aに満足せず、他の文を調べる確率である。dはdamping factorの役割を果たし、0.85に設定され得るが、これに限定されない。
また、w(T)はTバーテックスに該当する文のキーワードとの関連度による加重値である。本発明の一実施形態による文書要約装置100はTバーテックスに該当する文内でキーワードの出現頻度によってw(T)を決定する。例えば、文書要約装置100はTバーテックスに該当する文にキーワードの出現頻度が大きくなるほどw(T)を大きい値に設定し、Tバーテックスに該当する文にキーワードの出現頻度が小さくなるほどw(T)を小さい値に設定する。また、本発明の他の実施形態による文書要約装置100はTバーテックスに該当する文内でキーワードの出現位置によってw(T)を決定する。例えば、文書要約装置100はTバーテックスに該当する文に総20個のトークンが含まれており、キーワードが文の前から4番目の位置に出現した場合、w(T)を上位20%に該当する値に設定する。また、文書要約装置100はTバーテックスに該当する文のキーワードとの関連度によってw(T)を線形的に決定し得るが、これに限定されず、Tバーテックスに該当する文のキーワードとの関連度によってw(T)を非線形的に決定し得る。
本発明の一実施形態による文書要約装置100の変形されたページランクアルゴリズムの適用過程については、以下図8を参照してより詳細に説明する。
文書要約装置100は算定された重要度を基準に文書10から重要文を抽出する(S150)。具体的には、文書要約装置100は文書10から重要度が最も高い一つの重要文を抽出する。また、文書要約装置100は算定された重要度が最大である文から前記重要度が低くなる順に、文書10からk個の重要文を抽出する。このとき、文書要約装置100が抽出する重要文の数kは文書要約装置100にプリセットされているか、または文書10の要約を要請したユーザ端末400によって指定されることもできる。
また、文書要約装置100は抽出された重要文を利用して要約文を生成する(S160)。具体的には、文書要約装置100は文書10から一つの重要文が抽出された場合、抽出された一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文を選択する。また、文書要約装置100は抽出された一つの重要文及び選択された他のバーテックスの文を利用して要約文を生成する。
文書要約装置100は文の重要度、類似度または文の長さのうちいずれか一つ以上に基づいて一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち要約文の生成に利用される文を選択する。例えば、文書要約装置100は一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち変形されたページランクアルゴリズムを適用して算定された重要度が最大である文から前記重要度が低くなる順にk個の文を選択する。文書要約装置100は一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち重要文との類似度が高い順にk個の文を選択する。また、文書要約装置100は一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち文の長さが長い順にk個の文を選択する。
また、文書要約装置100は文書10からk個の重要文が抽出された場合、文書10内で重要文の位置を基準に抽出されたk個の重要文を再配列して要約文を生成する。
図7は本発明の一実施形態による文書要約方法のグラフ生成過程を説明するための図である。図7に示すグラフ生成過程は、図1に示す文書10に基づいてグラフを生成するものと仮定する。
図7を参照すると、文書要約装置100は文書10に含まれた文A(11b)、文B(12b)、文C(13b)、文D(14b)、文E(15b)及び文F(16b)をバーテックスとし、すべてのバーテックスが互いにエッジによって連結された完全グラフを構成する。
文書要約装置100は文A(11b)、文B(12b)、文C(13b)、文D(14b)、文E(15b)及び文F(16b)の間の類似度を算定する。文書要約装置100が算定した類似度は以下の表1の通りである。
文書要約装置100は算定された類似度をバーテックスの間を連結するエッジの加重値としてそれぞれ付与する。
文書要約装置100はグラフから臨界値1より低い加重値が付与されたエッジ(A、F)、(A、D)、(B、F)、(D、F)及び(E、F)を除去する。
図8は本発明の一実施形態による文書要約方法の変形されたランクアルゴリズムの適用過程を説明するための図である。図8に示す変形されたランクアルゴリズムの適用過程は、図7に示すグラフに変形されたランクアルゴリズムを適用してバーテックスCの重要度を算定するものと仮定する。
図8を参照すると、文書要約装置100は以下の数学式3により、バーテックスCの重要度を算定する。

バーテックスA、B、D及びEのキーワードとの関連度による加重値、w(T)変形されたページランクを適用して算出した重要度PR(T)及びバーテックスに付属したエッジの数C(T)は以下の表2の通りであり、文書要約装置100は以下の数4のようにバーテックスCの重要度を0.4に算定する。このとき、dは0.8であると仮定する。
以下図9及び図10を参照して本発明の他の実施形態による文書要約装置100の文書要約方法について説明する。図9は本発明の他の実施形態による文書要約過程を説明するための概念図である。
図9を参照すると、文書要約装置100はコンテンツ保存所200から文書要約の対象になる文書10を受信する。文書要約装置100が受信した文書10は一つ以上の文(11、12、13、14、15及び16)が含まれる。
文書要約装置100はユーザ端末400からユーザに対するプロファイルを受信する。このとき、ユーザに対するプロファイル(Profile)にはユーザ端末400のユーザの年齢、性別、位置情報、ログイン記録または検索ヒストリーなどが含まれ得るが、これに限定されない。
文書要約装置100はユーザに対するプロファイルを基準に第1キーワード及び第2キーワードを選定する。このとき、第1キーワード及び第2キーワードは文書10から重要文を抽出することにおいて、ユーザ端末400のユーザの選好度を適用するための単語である。したがって、第1キーワード及び第2キーワードはユーザ端末400のユーザの観点、関心事または意図などを示す単語であり得る。また、第1キーワードと第2キーワードは互いに異なる単語であり得るが、これに限定されない。
文書要約装置100は選定された第1キーワードに基づいて文書10から重要文に該当する文B(12d)、文C(13d)及び文E(15d)を抽出する。
文書要約装置100は選定された第2キーワードに基づいて文書10から重要文に該当する文A(11d)、文C(13d)、文E(15d)及び文F(16d)を抽出する。
文書要約装置100は第1キーワードによって抽出された文B(12d)、文C(13d)及び文E(15d)と第2キーワードによって抽出された文A(11d)、文C(13d)、文E(15d)及び文F(16d)のうち同一の重要文に該当する文C(13d)及び文E(15d)を識別する。
また、文書要約装置100は文書10内で重要文の位置を基準に識別された同一の重要文に該当する文C(13d)及び文E(15d)を再配列して要約文を生成する。
図10は本発明の他の実施形態による文書要約方法を説明するための順序図である。
図10を参照すると、文書要約装置100はユーザ端末400のユーザに対するプロファイルを基準に第1キーワード及び第2キーワードを選定する(S210)。このとき、第1キーワード及び第2キーワードはユーザ端末400のユーザの選好度を適用するための単語である。したがって、第1キーワード及び第2キーワードはユーザ端末400のユーザの観点、関心事または意図などを示す単語であり得る。また、第1キーワードと第2キーワードは互いに異なる単語であり得るが、これに限定されない。
文書要約装置100は選定された第1キーワードに基づいて文書10からk個の重要文を抽出する(S220)。また、文書要約装置100は選定された第2キーワードに基づいて文書10からm個の重要文を抽出する(S230)。文書要約装置100が抽出する重要文の数k及びmは文書要約装置100にプリセットされているか、または文書10の要約を要請したユーザ端末400によって指定されることもできる。
また、文書要約装置100は第1キーワードによって抽出されたk個の重要文及び第2キーワードによって抽出されたm個の重要文のうち同一の重要文を識別する。また、文書要約装置100は文書10内で重要文の位置を基準に識別された同一の重要文を再配列して要約文を生成する(S240)。
整理すると、文書要約装置100は読者の選好度を適用できる複数のキーワードによりそれぞれの重要文を抽出し、抽出された重要文のうち重複する文のみを利用して要約文を生成する。したがって、文書要約装置100は読者が多様な分野に関心がある場合、読者が関心を有するあらゆる分野と関連した重要文のみで構成された要約文を生成することができる。
以下、本発明のまた他の実施形態による文書要約方法について説明する。
文書要約装置100はユーザ端末400から第1キーワード及び第2キーワードを受信する。このとき、第1キーワード及び第2キーワードはユーザ端末400のユーザの選好度を適用するための単語である。第1キーワードと第2キーワードは互いに異なる単語であり得る。また、第1キーワードと第2キーワードに対するユーザ端末400のユーザの選好度は互いに異なるが、これに限定されない。
文書要約装置100は受信された第1キーワードに基づいて文書10からk個の重要文を抽出する。また、文書要約装置100は文書10内で重要文の位置を基準に第1キーワードによって抽出されたk個の重要文を再配列して第1要約文を生成する。
文書要約装置100は受信された第2キーワードに基づいて第1要約文からm個の重要文を抽出する。また、文書要約装置100は第1要約文内で重要文の位置を基準に第2キーワードによって抽出されたm個の重要文を再配列して第2要約文を生成する。
整理すると、文書要約装置100は複数のキーワードに対する読者の選好度が異なる場合、第1キーワードにより文書10を縮約して第1要約文を生成し、第2キーワードにより第1要約文を縮約して第2要約文を生成する。したがって、文書要約装置100は読者の多様な分野に対する関心度が異なっても、読者の関心度を反映して要約文を生成することができる。
以下図11及び12を参照して本発明の一実施形態による検索サービスサーバ310の検索サービス提供方法について説明する。図11は本発明の一実施形態による検索サービス提供過程を説明するための概念図である。
図11を参照すると、ユーザ端末400のユーザから検索キーワード20が入力されると、ユーザ端末400は入力された検索キーワード20を含むキーワード検索要請を検索サービスサーバ310に伝送する。
検索サービスサーバ310はユーザ端末400から検索キーワード20を含むキーワード検索要請を受信する。検索サービスサーバ310は受信された検索キーワード20により文書A(30a)、文書B(30b)及び文書C(30c)を検索する。
検索サービスサーバ310は検索された文書A(30a)、文書B(30b)及び文書C(30c)からそれぞれ重要文に該当する重要文A(40a)、重要文B(40b)及び重要文C(40c)を抽出する。
検索サービスサーバ310は抽出された重要文A(40a)、重要文B(40b)及び重要文C(40c)のうち検索キーワード20が含まれていない重要文B(40b)を検索結果から除いて検索結果を再構成する。
図12は本発明の一実施形態による検索サービス提供方法を説明するための順序図である。
図12を参照すると、検索サービスサーバ310はユーザ端末400から検索キーワード20を含むキーワード検索要請を受信する(S310)。また、検索サービスサーバ310は受信された検索キーワード20による文書10を検索する(S320)
検索サービスサーバ310は検索された文書10から重要文を抽出する(S330)。具体的には、検索サービスサーバ310は検索された文書10から検索キーワードに基づいて重要文を抽出することができる。しかし、これに限定されず、検索サービスサーバ310は検索された文書10から検索キーワードとは関係がなく重要文を抽出することができる。
また、検索サービスサーバ310は検索されたm個の文書10からそれぞれ一つの重要文を抽出する。検索サービスサーバ310は検索された一つの文書10からk個の重要文を抽出する。また、検索サービスサーバ310は検索されたm個の文書10からそれぞれk個の重要文を抽出する。検索サービスサーバ310は検索された文書10からk個の重要文を抽出する場合、重要度が最大である文から前記重要度が低くなる順にk個の重要文を抽出する。
検索サービスサーバ310は抽出された重要文に検索キーワード20が含まれているかどうかを反映して検索結果を構成する(S340)。具体的には、本発明の一実施形態による検索サービスサーバ310は重要文に検索キーワード20が含まれている文書10を重要文に検索キーワード20が含まれていない文書10より優先して出力するように検索結果を構成し得る。例えば、検索サービスサーバ310は重要文に検索キーワード20が含まれた文書10を重要文に検索キーワード20が含まれていない文書10の上段に配置するように検索結果を構成し得る。この場合、ユーザ端末400のユーザは重要文に検索キーワード20が含まれた文書10を優先的に確認することができ、重要文に検索キーワード20が含まれていない文書10を次に確認するようになる。
本発明の他の実施形態による検索サービスサーバ310は文書10から抽出されたk個の重要文のどこにも検索キーワード20が含まれていない場合、k個の重要文が抽出された文書10を検索結果から除いて検索結果を構成する。
本発明のまた他の実施形態による検索サービスサーバ310はユーザ端末400からフィルタリングキーワードをさらに受信し、文書10から抽出されたk個の重要文にフィルタリングキーワードが含まれている場合、k個の重要文が抽出された文書10を検索結果から除いて検索結果を構成する。
本発明のまた他の実施形態による検索サービスサーバ310はm個の文書10からそれぞれ抽出された重要文間の類似度を算定し、算定された類似度が臨界値より低い重要文が含まれている場合、類似度が臨界値より低い文が抽出された文書10を検索結果から除いて検索結果を構成する。
本発明のまた他の実施形態による検索サービスサーバ310はジャカード係数またはハミング距離のうちいずれか一つを利用して重要文間の類似度を算定する。しかし、これに限定されず、検索サービスサーバ310はタニモト類似度またはコサイン類似度のうちいずれか一つを利用して重要文間の類似度を算定することもできる。また、臨界値は連関関係を有する二つの文の間に存在する最小類似度を示す値である。臨界値は文書要約装置100にプリセットされているか、または文書10の要約を要請したユーザ端末400によって指定されることもできる。
また、検索サービスサーバ310は構成された検索結果をユーザ端末400に伝送する(S350)。
整理すると、検索サービスサーバ310は検索キーワードによる検索結果のうち読者の関心事に合わない文書を検索結果から除外させることができる。また、検索サービスサーバ310は読者の関心事に合う文書でも、フィルタリングキーワードが含まれている文書は検索結果から除外させることができる。さらに、検索サービスサーバ310は読者の関心事に合う文書のうち類似度が低い文書を検索結果から除外させることができる。したがって、検索サービスサーバ310は読者の関心事に合う検索サービスを提供することができる。
以下、図13及び図14を参照して本発明の一実施形態によるコンテンツクラスタリングサーバ320のコンテンツクラスタリング方法について説明する。図13は本発明の一実施形態によるコンテンツクラスタリング過程を説明するための概念図である。
図13を参照すると、コンテンツクラスタリングサーバ320はコンテンツ保存所200またはユーザ端末400からクラスタキーワードを含むコンテンツクラスタリング要請を受信する。また、コンテンツクラスタリングサーバ320はコンテンツ保存所200からクラスタリング対象になる文書D(30d)、文書E(30e)及び文書F(30f)を受信する。
コンテンツクラスタリングサーバ320はクラスタリングキーワードに基づいて文書D(30d)、文書E(30e)及び文書F(30f)から重要文に該当する重要文D(40d)、重要文E(40e)及び重要文F(40f)を抽出する。
コンテンツクラスタリングサーバ320は抽出された重要文D(40d)、重要文E(40e)及び重要文F(40f)の間の類似度を算定する。また、コンテンツクラスタリングサーバ320は算定された重要文D(40d)、重要文E(40e)及び重要文F(40f)の間の類似度を基準に文書D(30d)及び文書E(30e)を含むクラスタA(60a)を構成し、文書F(30f)を含むクラスタB(60b)を構成する。
図14は本発明の一実施形態によるクラスタリング方法を説明するための順序図である。図14に示すクラスタリング方法はクラスタリングの対象になる複数の文書に第1文書及び第2文書が含まれていると仮定する。
図14を参照すると、コンテンツクラスタリングサーバ320はユーザ端末400からクラスタキーワードを含むコンテンツクラスタリング要請が受信された場合、コンテンツ保存所200からクラスタリングの対象になる複数の文書を受信する(S410)。
コンテンツクラスタリングサーバ320はクラスタリングキーワードに基づいて受信された複数の文書それぞれから重要文を抽出する(S420)。具体的には、コンテンツクラスタリングサーバ320は複数の文書に含まれた第1文書から第1重要文を抽出し、第2文書から第2重要文を抽出する。
コンテンツクラスタリングサーバ320は抽出された重要文間の類似度を算定する(S430)。本発明の一実施形態によるコンテンツクラスタリングサーバ320はジャカード係数またはハミング距離のうちいずれか一つを利用して重要文間の類似度を算定することができる。しかし、これに限定されず、コンテンツクラスタリングサーバ320はタニモト類似度またはコサイン類似度のうちいずれか一つを利用して重要文間の類似度を算定することもできる。
また、コンテンツクラスタリングサーバ320は算定された類似度を基準に複数の文書をクラスタリングする(S440)。具体的には、コンテンツクラスタリングサーバ320は算定された類似度を基準に複数の文書に含まれた第1文書と第2文書が一つのクラスタに含まれるかどうかを決定する。
整理すると、コンテンツクラスタリングサーバ320は単純に複数の文書の類似度でなく、読者の関心事に合う重要文の類似度を基準に複数の文書をクラスタリングすることができる。したがって、コンテンツクラスタリングサーバ320は読者の関心事によりコンテンツを分類することができる。
これまで図5ないし図14を参照して説明した本発明のいくつかの実施形態による方法はコンピュータが読み取りできるコードで実現されたコンピュータプログラムの実行によって遂行され得る。コンピュータプログラムはインターネットなどのネットワークを介して第1コンピュータ装置から第2コンピュータ装置に伝送され、第2コンピュータ装置にインストールされ得、これによって第2コンピュータ装置で使用され得る。ここで、第1コンピュータ装置及び第2コンピュータ装置は、デスクトップ、サーバまたはワークステーションなどのように固定式コンピュータ装置、スマートフォン、タブレット、ファブレットまたはラップトップなどのようにモバイルコンピューティング装置及びスマートワッチ、スマートメガネまたはスマートバンドなどのようにウェアラブルコンピュータ装置をすべて含み得る。
前記コンピュータプログラムは、キーワードを受信する段階、複数の文を含む文書をパーシングして前記文書に含まれた各文を識別する段階、前記各文をバーテックスとし、前記各文間の類似度をエッジの加重値とするグラフを構成する段階、前記グラフに変形されたページランクアルゴリズムを適用して前記各文の重要度を算定するが、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が適用されるように反映された段階、および前記算定された重要度を基準に前記文書から重要文を抽出する段階を実行させるためであり得る。
前記コンピュータプログラムは、ユーザ端末から文書の要約要請を受信する段階、前記ユーザ端末のユーザに対するプロファイルを基準に前記ユーザの選好度が反映されたキーワードを選定する段階、前記選定されたキーワードに基づいて前記文書から重要文を抽出する段階、および前記抽出された重要文に基づいて前記文書の要約文を生成する段階を実行させるためであり得る。
また、前記コンピュータプログラムは、第1キーワード及び第2キーワードを受信する段階、前記第1キーワードに基づいて複数の文を含む文書からk個の重要文を抽出する段階、前記k個の重要文に基づいて第1要約文を生成する段階、前記第2キーワードに基づいて第1要約文からm個の重要文を抽出する段階、および前記m個の重要文に基づいて第2要約文を生成する段階を実行させるためであり得る。
このような、コンピュータプログラムはCD−ROM、DVD−ROM、MO(Magnetic Optical)、ZIP、 SDカード(SD card)またはフラッシュメモリ(Flash memory)などの記録媒体に記録されたものであり得る。
以下、図15及び図16を参照して本発明の一実施形態による文書要約装置100の構成について説明する。図15は本発明の一実施形態による文書要約装置100の論理的構成のブロック図である。
図15を参照すると、文書要約装置100は通信部105、文識別部110、グラフ構成部115、重要度算定部120及び要約文生成部125を含んで構成される。
各構成要素について説明すると、通信部105は文書要約装置100が外部の装置とデータを送受信する。具体的には、通信部105はネットワークを介してユーザ端末400からキーワードを受信して文識別部110に伝達する。このとき、キーワードは文書10から重要文を抽出することにおいて読者それぞれの選好度を適用するための単語である。したがって、キーワードは文書10の読者それぞれの観点、関心事または意図などを示す単語であり得る。
通信部105はコンテンツ保存所200から文書10を受信して文識別部110に伝達する。通信部105が受信した文書10にはハングル、英字、数字、間隔文字、特殊文字などのようにテキストが含まれるが、これに限定されず、文書要約の対象になる文書10にはイメージ、チャートまたはOLEオブジェクトが含まれ得る。
また、通信部105は要約文生成部125によって生成された要約文をコンテンツ保存所200、応用サービスサーバ300またはユーザ端末400に送信する。
本発明の一実施形態による通信部105はイーサネット(登録商標)、xDSL、HFCまたはFTTHなどのように有線通信網、CDMA、WCDMA(登録商標)、GSM(登録商標)、HSPAまたはLTEなどのように移動通信網またはワイファイ、ワイマックス、ワイブロ、ブルートゥース(登録商標)またはジグビーなどのように近距離無線通信網のうち一つ以上を利用してデータを送受信する。
次に、文識別部110は通信部105を介して受信された文書10をパーシングして文書10に含まれた各文を識別する。具体的には、文識別部110は文書10に含まれた終結語尾を識別し、識別された終結語尾を基準に文書10に含まれた各文を識別し得る。しかし、これに限定されず、文識別部110は文書10に含まれた終止符、疑問符、休止符などのように符号を識別し、識別された符号を基準に文書10に含まれた各文を識別する。
次に、グラフ構成部115は文識別部110により識別された各文をバーテックスとし、各文間の類似度をエッジの加重値とするグラフを構成する。グラフ構成部115が構成するグラフは無向グラフであり得るが、これに限定されない。
本発明の一実施形態によるグラフ構成部115は完全グラフからいくつかのエッジを除去してグラフを構成する。
具体的には、グラフ構成部115は文識別部110により識別された各文をバーテックスとし、すべてのバーテックスが互いにエッジによって連結された完全グラフを構成する。グラフ構成部115は各文間の類似度を算定する。
本発明の一実施形態によるグラフ構成部115はジャカード係数またはハミング距離のうちいずれか一つを利用して文間の類似度を算定する。しかし、これに限定されず、グラフ構成部115はタニモト類似度またはコサイン類似度のうちいずれか一つを利用して文の間の類似度を算定することもできる。
グラフ構成部115は算定された類似度をバーテックスの間を連結するエッジの加重値として付与する。また、グラフ構成部115はグラフから臨界値より低い加重値が付与されたエッジを除去する。このとき、臨界値は連関関係を有する二つの文の間に存在する最小類似度を示す値である。例えば、臨界値は1と設定することができるが、これに限定されない。また、臨界値は文書要約装置100にプリセットされているか、または文書10の要約を要請したユーザ端末400によって指定されることもできる。
本発明の他の実施形態によるグラフ構成部115はバーテックスのみで構成されたグラフにいくつかのエッジを付与してグラフを構成することができる。
具体的には、グラフ構成部115は識別された各文をバーテックスとするグラフを構成する。グラフ構成部115は各文をパーシングして重要トークンを識別する。このとき、トークンは各文に含まれた単語の実質的意味を表現するための部分である。例えば、トークンは各文に含まれた語根または語幹であり得るが、これに限定されない。
グラフ構成部115はグラフに含まれた二つのバーテックスの文に同一のトークンが含まれている場合、二つのバーテックスの間にエッジを付与する。また、グラフ構成部115はグラフに含まれた二つのバーテックスの文に含まれたトークンがすべて同一でない場合、二つのバーテックスの間にエッジを付与しない。
次に、重要度算定部120はグラフ構成部115を介して構成されたグラフに変形されたページランクアルゴリズムを適用して各文の重要度を算定する。このとき、変形されたページランクアルゴリズムは第1バーテックスに隣接したバーテックスの相対的な重要度を基準に第1バーテックスの重要度を算定するが、第1バーテックスに隣接した各バーテックスの相対的な重要度に第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が反映されたアルゴリズムである。すなわち、変形されたページランクアルゴリズムはグラフに含まれた各バーテックスの相対的な重要度を算定するが、各バーテックスとキーワードとの間の関連度を考慮して相対的な重要度を算定する。
具体的には、重要度算定部120は文Aの重要度PR(A)を算定するため、ページランクアルゴリズムを変形した以下の数学式5を適用する。

ここで、Tは文Aに該当するバーテックスに連結された他のバーテックスである。PR(T)はTバーテックスに変形されたページランクアルゴリズムを適用して算出した重要度である。すなわち、PR(T)はTバーテックスのページランク値である。本発明の一実施形態による重要度算定部120はPR(T)の初期値として任意の数(Arbitrary number)を代入し、PR(T)が一定の値に収束するときまで変形されたページランクアルゴリズムを繰り返し(iterative)行う。しかし、本発明の他の実施形態による重要度算定部120はPR(T)の初期値にw(T)を代入し、PR(T)が一定の値に収束するときまで変形されたページランクアルゴリズムを繰り返し行う。この場合、文書要約装置100は変形されたページランクアルゴリズムをより少なく行ってもPR(T)を算出できるであろう。
C(T)はTバーテックスに付属したエッジの数である。また、dは読者が文Aに満足せず、他の文を調べる確率である。dはdamping factorの役割を果たし、0.85と設定し得るが、これに限定されない。
また、w(T)はTバーテックスに該当する文のキーワードとの関連度による加重値である。本発明の一実施形態による重要度算定部120はTバーテックスに該当する文内でキーワードの出現頻度によりw(T)を決定し得る。例えば、重要度算定部120はTバーテックスに該当する文にキーワードの出現頻度が大きくなるほどw(T)を大きい値に設定し、Tバーテックスに該当する文にキーワードの出現頻度が小さくなるほどw(T)を小さい値に設定する。また、本発明の他の実施形態による重要度算定部120はTバーテックスに該当する文内でキーワードの出現位置によってw(T)を決定する。例えば、文書要約装置100はTバーテックスに該当する文に総20個のトークンが含まれており、キーワードが文の前から4番目の位置に出現した場合、w(T)を上位20%に該当する値に設定する。また、重要度算定部120はTバーテックスに該当する文のキーワードとの関連度によってw(T)を線形的に決定することができるが、これに限定されず、Tバーテックスに該当する文のキーワードとの関連度によってw(T)を非線形的に決定することもできる。
最後に、要約文生成部125は重要度算定部120により算定された重要度に基づいて要約文を生成する。具体的には、要約文生成部125は算定された重要度を基準に文書10から重要度が最も高い一つの重要文を抽出する。要約文生成部125は抽出された一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文を選択する。また、要約文生成部125は抽出された一つの重要文及び選択された他のバーテックスの文を利用して要約文を生成する。
要約文生成部125は文の重要度、類似度または文の長さのうちいずれか一つ以上に基づいて一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち要約文生成に利用される文を選択する。例えば、要約文生成部125は一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち変形されたページランクアルゴリズムを適用して算定された重要度が最大である文から前記重要度が低くなる順にk個の文を選択する。要約文生成部125は一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち重要文との類似度が高い順にk個の文を選択する。また、要約文生成部125は一つの重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち文の長さが長い順にk個の文を選択する。
また、要約文生成部125は算定された重要度が最大である文から前記重要度が低くなる順に、文書10からk個の重要文を抽出する。要約文生成部125が抽出する重要文の数kは文書要約装置100にプリセットされているか、または文書10の要約を要請したユーザ端末400によって指定されることもできる。また、要約文生成部125は文書10内で重要文の位置を基準に抽出されたk個の重要文を再配列して要約文を生成することができる。
これまで、図15の各構成要素はソフトウェア(Software)または、FPGA(Field−Programmable Gate Array)やASIC(Application−Specific Integrated Circuit)のようなハードウェア(hardware)を意味する。しかし、前記構成要素はソフトウェアまたはハードウェアに限定されず、アドレッシング(Addressing)できる保存媒体にあるように構成することができ、一つまたはそれ以上のプロセッサを実行させるようにも構成することができる。前記構成要素の中で提供される機能はさらに細分化した構成要素によって具現され得、複数の構成要素を組み合わせて特定の機能を遂行する一つの構成要素として具現することもできる。
図16は本発明の一実施形態による文書要約装置100のハードウェアの構成図である。図16を参照すると、文書要約装置100はプロセッサ155、メモリ160、ネットワークインターフェース165、データバス170及びストレージ175を含んで構成され得る。
プロセッサ155は演算を行うための一つ以上のCPU(Central Processing Unit)で構成される。メモリ160は本発明の一実施形態による文書要約方法を行うためのソフトウェア180aがロードされる。ネットワークインターフェース165はコンテンツ保存所200、応用サービスサーバ300またはユーザ端末400のうちいずれか一つとデータを送受信する。データバス170はプロセッサ155、メモリ160、ネットワークインターフェース165及びストレージ175と連結されて各構成要素間のデータを伝達する移動通路の役割を果たす。
また、ストレージ175は本発明の一実施形態による文書要約方法を行うためのソフトウェア180bが保存される。また、ストレージ175は前記文書要約方法を行うためのソフトウェア180bの実行に必要なAPI(Application Programming Interface)、ライブラリ(Library)またはリソース(Resource)ファイルなどを保存する。
より具体的には、ストレージ175にはキーワードを受信するオペレーション、複数の文を含む文書をパーシングして前記文書に含まれた各文を識別するオペレーション、前記各文をバーテックスとし、前記各文間の類似度をエッジの加重値とするグラフを構成するオペレーション、前記グラフに変形されたページランクアルゴリズムを適用して前記各文の重要度を算定するが、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が反映されるように変形されたオペレーション、および前記算定された重要度を基準に前記文書から重要文を抽出するオペレーションを含むコンピュータプログラムが保存される。
ストレージ175にはユーザ端末から文書の要約要請を受信するオペレーション、前記ユーザ端末のユーザに対するプロファイルを基準に前記ユーザの選好度が反映されたキーワードを選定するオペレーション、前記選定されたキーワードに基づいて前記文書から重要文を抽出するオペレーション、および前記抽出された重要文に基づいて前記文書の要約文を生成するオペレーションを含むコンピュータプログラムが保存される。
また、ストレージ175には第1キーワード及び第2キーワードを受信するオペレーション、前記第1キーワードに基づいて複数の文を含む文書からk個の重要文を抽出するオペレーション、前記k個の重要文に基づいて第1要約文を生成するオペレーション、前記第2キーワードに基づいて第1要約文からm個の重要文を抽出するオペレーション、および前記m個の重要文に基づいて第2要約文を生成するオペレーションを含むコンピュータプログラムが保存される。

Claims (16)

  1. キーワードを受信する段階と、
    複数の文を含む文書をパーシングして前記文書に含まれた各文を識別する段階と、
    前記各文をバーテックス(Vertex)とし、前記各文間の類似度をエッジ(Edge)の加重値(Weight)とするグラフを構成する段階と、
    前記グラフに変形されたページランクアルゴリズム(PageRank algorithm)を適用して前記各文の重要度を算定し、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が反映されるように変形された段階と、
    前記算定された重要度を基準に前記文書から重要文を抽出する段階を含み、
    前記ページランクアルゴリズムは、
    第1バーテックスに隣接したバーテックスの相対的な重要度を基準に前記第1バーテックスの重要度を算定し、前記第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が前記第1バーテックスに隣接した各バーテックスの相対的な重要度に反映されたアルゴリズムである文書要約方法。
  2. 前記グラフを構成する段階は、
    前記各文をバーテックスとするグラフを構成し、前記グラフはすべてのバーテックスがエッジによって連結された完全グラフである段階と、
    前記各文間の類似度を算定し、算定された類似度を前記バーテックスの間を連結するエッジの加重値として付与する段階と、
    前記グラフからすでに指定された臨界値より低い加重値が付与されたエッジを除去する段階を含む請求項1に記載の文書要約方法。
  3. 前記重要文を抽出する段階は、
    前記文書からすでに指定されたk個の重要文を抽出し、前記k個の重要文は前記重要度が最大である文から前記重要度が低くなる順に抽出される段階と、
    前記重要文の前記文書内での位置を基準に前記k個の重要文を再配列して要約文を生成する段階を含む請求項1に記載の文書要約方法。
  4. 前記重要文を抽出する段階は、
    前記文書から一つの重要文を抽出する段階と、
    前記抽出された重要文のバーテックスにエッジによって連結された他のバーテックスの文のうち要約文の生成に利用される文を選択する段階と、
    前記抽出された重要文及び前記選択された要約文の生成に利用される文を利用して要約文を生成する段階を含む請求項1に記載の文書要約方法。
  5. ユーザ端末から文書の重要文を抽出するためのキーワードを含まない文書の要約要請を受信する段階と、
    前記ユーザ端末のユーザに対するプロファイルを基準に前記ユーザの選好度が反映されたキーワードを選定する段階と、
    前記選定されたキーワードに基づいて前記文書から重要文を抽出する段階と、
    前記抽出された重要文に基づいて前記文書の要約文を生成する段階を含む文書要約方法。
  6. 前記キーワードを選定する段階は、
    前記ユーザの選好度が反映された第1キーワード及び第2キーワードを選定する段階を含み、
    前記重要文を抽出する段階は、
    前記第1キーワードに基づいて前記文書からすでに指定されたk個の重要文を抽出する段階と、
    前記第2キーワードに基づいて前記文書からすでに指定されたm個の重要文を抽出する段階を含み、
    前記要約文を生成する段階は、
    前記第1キーワードによって抽出されたk個の重要文及び前記第2キーワードによって抽出されたm個の重要文のうち同一の文に基づいて前記要約文を生成する段階を含む請求項5に記載の文書要約方法。
  7. 第1キーワード及び第2キーワードを受信する段階と、
    前記第1キーワードに基づいて複数の文を含む文書からk個の重要文を抽出する段階と、
    前記k個の重要文に基づいて第1要約文を生成する段階と、
    前記第2キーワードに基づいて第1要約文からm個の重要文を抽出する段階と、
    前記m個の重要文に基づいて第2要約文を生成する段階を含む文書要約方法。
  8. 第1キーワード及び前記第1キーワードと異なる第2キーワードを受信する段階と、
    前記第1キーワードに基づいて複数の文を含む文書から第1重要文を抽出する段階と、
    前記第2キーワードに基づいて前記文書から第2重要文を抽出する段階と、
    前記第1重要文と前記第2重要文を含む要約文を生成する段階を含み、
    前記第1重要文と前記第2重要文は互いに異なる文である文書要約方法。
  9. ユーザ端末から検索キーワードを受信する段階と、
    前記受信された検索キーワードを利用して予備検索を行う段階と、
    前記予備検索を行った結果、検索された文書から重要文を抽出する段階と、
    前記抽出された重要文に前記検索キーワードが含まれているかどうかを反映して前記予備検索を行った結果を再構成した最終検索結果を構成する段階を含む検索サービス提供方法。
  10. 前記重要文を抽出する段階は、
    前記文書からすでに指定されたk個の重要文を抽出し、前記k個の重要文は文の重要度が最大である文から前記重要度が低くなる順に抽出する段階を含み、
    前記最終検索結果を構成する段階は、
    前記検索キーワードが前記k個の重要文のどこにも含まれていない場合、前記文書が除外された前記最終検索結果を構成する段階を含む請求項9に記載の検索サービス提供方法。
  11. 前記ユーザ端末からフィルタリングキーワードを受信する段階をさらに含み、
    前記重要文を抽出する段階は、
    前記文書からすでに指定されたk個の重要文を抽出し、前記k個の重要文は文の重要度が最大である文から前記重要度が低くなる順に抽出される段階を含み、
    前記最終検索結果を構成する段階は、
    前記フィルタリングキーワードが前記k個の重要文に含まれている場合、前記文書が除外された前記最終検索結果を構成する段階を含む請求項9に記載の検索サービス提供方法。
  12. 前記重要文を抽出する段階は、
    すでに指定されたm個の文書それぞれから重要文を抽出し、前記m個の文書は前記検索キーワードによって検索された文書の段階を含み、
    前記最終検索結果を構成する段階は、
    前記抽出された重要文間の類似度を算定する段階と、
    前記類似度がすでに指定された臨界値より低い重要文が抽出される文書を前記最終検索結果から除外する段階を含む請求項9に記載の検索サービス提供方法。
  13. 第1文書及び第2文書を含む複数の文書を受信する段階と、
    クラスタキーワードを含むコンテンツクラスタリング要請を受信する段階と、
    前記クラスタキーワードを利用して第1文書から第1重要文を抽出する段階と、
    前記クラスタキーワードを利用して第2文書から第2重要文を抽出する段階と、
    前記第1重要文と前記第2重要文との間の類似度を算定する段階と、
    前記算定された類似度を基準に前記第1文書と前記第2文書が一つのクラスタに含まれ得るかどうかを決定する段階を含むコンテンツクラスタリング方法。
  14. 複数の文で構成されたテキストから重要文を選定する方法において、
    第1キーワードに基づいて前記テキストから第1重要文を選定する段階と、
    前記第1キーワードと異なる第2キーワードに基づいて前記テキストから前記第1重要文と異なる第2重要文を選定する段階と、
    前記第1キーワード及び前記第2キーワードに対応する前記テキストの要約結果として、前記第1重要文及び前記第2重要文を含む前記テキストの要約データをユーザ端末に送信する段階を含む重要文選定方法。
  15. ネットワークインターフェースと、
    一つ以上のプロセッサと、
    前記プロセッサによって行われるコンピュータプログラムをロード(load)するメモリと、
    一つ以上のファイルを保存するストレージを含み、
    前記コンピュータプログラムは、
    キーワードを受信するオペレーションと、
    複数の文を含む文書をパーシングして前記文書に含まれた各文を識別するオペレーションと、
    前記各文をバーテックスとし、前記各文間の類似度をエッジの加重値とするグラフを構成するオペレーションと、
    前記グラフに変形されたページランクアルゴリズムを適用して前記各文の重要度を算定し、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が反映されるように変形されたオペレーションと、
    前記算定された重要度を基準に前記文書から重要文を抽出するオペレーションを含み、
    前記ページランクアルゴリズムは、
    第1バーテックスに隣接したバーテックスの相対的な重要度を基準に前記第1バーテックスの重要度を算定し、前記第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が前記第1バーテックスに隣接した各バーテックスの相対的な重要度に反映されたアルゴリズムである文書要約装置。
  16. キーワードを受信する段階と、
    複数の文を含む文書をパーシングして前記文書に含まれた各文を識別する段階と、
    前記各文をバーテックスとし、前記各文間の類似度をエッジの加重値とするグラフを構成する段階と、
    前記グラフに変形されたページランクアルゴリズムを適用して前記各文の重要度を算定し、前記変形されたページランクアルゴリズムは前記キーワードとの関連度による加重値が適用されるように反映された段階と、
    前記算定された重要度を基準に前記文書から重要文を抽出する段階を実行させ、
    前記ページランクアルゴリズムは、
    第1バーテックスに隣接したバーテックスの相対的な重要度を基準に前記第1バーテックスの重要度を算定し、前記第1バーテックスに隣接した各バーテックスの文に前記キーワードが含まれているかどうかと関連した加重値が前記第1バーテックスに隣接した各バーテックスの相対的な重要度に反映されたアルゴリズムであるコンピュータプログラム。
JP2016174150A 2015-09-09 2016-09-07 文抽出方法及びシステム Active JP6272417B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2015-0127556 2015-09-09
KR1020150127556A KR101656245B1 (ko) 2015-09-09 2015-09-09 문장 추출 방법 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017233294A Division JP6646030B2 (ja) 2015-09-09 2017-12-05 文抽出方法及びシステム

Publications (2)

Publication Number Publication Date
JP2017054509A true JP2017054509A (ja) 2017-03-16
JP6272417B2 JP6272417B2 (ja) 2018-01-31

Family

ID=56939322

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016174150A Active JP6272417B2 (ja) 2015-09-09 2016-09-07 文抽出方法及びシステム
JP2017233294A Active JP6646030B2 (ja) 2015-09-09 2017-12-05 文抽出方法及びシステム
JP2020002212A Active JP6905098B2 (ja) 2015-09-09 2020-01-09 文抽出方法及びシステム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2017233294A Active JP6646030B2 (ja) 2015-09-09 2017-12-05 文抽出方法及びシステム
JP2020002212A Active JP6905098B2 (ja) 2015-09-09 2020-01-09 文抽出方法及びシステム

Country Status (4)

Country Link
US (2) US10430468B2 (ja)
JP (3) JP6272417B2 (ja)
KR (1) KR101656245B1 (ja)
CN (1) CN107025216A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020057195A (ja) * 2018-10-02 2020-04-09 テクマトリックス株式会社 要約生成サーバ、要約生成システム及び要約生成方法
JP2021131769A (ja) * 2020-02-20 2021-09-09 ソフトバンク株式会社 要約生成プログラム、要約生成装置および要約生成方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762283B2 (en) * 2015-11-20 2020-09-01 Adobe Inc. Multimedia document summarization
US10572726B1 (en) * 2016-10-21 2020-02-25 Digital Research Solutions, Inc. Media summarizer
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN109753651B (zh) * 2018-12-14 2022-05-17 昆明理工大学 一种针对体现用户意图的app软件用户评论挖掘方法
EP3739491B1 (en) 2019-05-17 2022-07-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN110263343B (zh) * 2019-06-24 2021-06-15 北京理工大学 基于短语向量的关键词抽取方法及系统
US11281854B2 (en) * 2019-08-21 2022-03-22 Primer Technologies, Inc. Limiting a dictionary used by a natural language model to summarize a document
CN111291186B (zh) * 2020-01-21 2024-01-09 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111859982B (zh) * 2020-06-19 2024-04-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
US20220353100A1 (en) * 2021-04-30 2022-11-03 Zoom Video Communications, Inc. Automated Recording Highlights For Conferences
US11863711B2 (en) 2021-04-30 2024-01-02 Zoom Video Communications, Inc. Speaker segment analysis for conferences
US11409800B1 (en) 2021-07-23 2022-08-09 Bank Of America Corporation Generating search queries for database searching
KR20230046086A (ko) 2021-09-29 2023-04-05 한국전자통신연구원 중요 문장 기반 검색 서비스 제공 장치 및 방법

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0293866A (ja) * 1988-09-30 1990-04-04 Toshiba Corp 要約生成方法および要約生成装置
JPH06231178A (ja) * 1993-01-28 1994-08-19 Toshiba Corp 文書検索装置
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000172716A (ja) * 1998-12-03 2000-06-23 Ricoh Co Ltd 文書検索装置および文書検索方法
JP2002297633A (ja) * 2001-03-29 2002-10-11 Ricoh Co Ltd 重要文抽出装置および方法並びにコンピュータプログラム
JP2004318243A (ja) * 2003-04-11 2004-11-11 Canon Inc 情報検索装置
JP2005085112A (ja) * 2003-09-10 2005-03-31 Toshiba Corp 情報分類システム及びプログラム
JP2005174003A (ja) * 2003-12-11 2005-06-30 Sanyo Electric Co Ltd 要約生成方法およびプログラム
JP2008097077A (ja) * 2006-10-06 2008-04-24 Kobe Steel Ltd 重要文選出装置,重要文選出プログラム,重要文選出方法
WO2011036703A1 (ja) * 2009-09-24 2011-03-31 株式会社 東芝 情報選択装置
JP2012104041A (ja) * 2010-11-12 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
JP2013161457A (ja) * 2012-02-08 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法及びプログラム
JP2014528620A (ja) * 2011-10-14 2014-10-27 ヤフー! インコーポレイテッド 電子文書の内容を自動的に要約するための方法及び装置
JP2015090663A (ja) * 2013-11-07 2015-05-11 三菱電機株式会社 テキスト要約装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7017114B2 (en) * 2000-09-20 2006-03-21 International Business Machines Corporation Automatic correlation method for generating summaries for text documents
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries
KR100435442B1 (ko) 2001-11-13 2004-06-10 주식회사 포스코 문서 요약 방법 및 시스템
KR100849272B1 (ko) 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
US7392280B2 (en) * 2001-11-27 2008-06-24 International Business Machines Corporation Method for summarization of threads in electronic mail
US7421504B2 (en) * 2002-05-08 2008-09-02 Matsushita Electric Industrial Co., Ltd. Service providing device and service providing method
JP3816891B2 (ja) * 2003-04-14 2006-08-30 株式会社東芝 要約作成装置、要約作成方法、メッセージ配信装置、メッセージ配信方法およびプログラム
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
CN1629834A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 计算机辅助写作、电子文档的浏览、检索和预订发布
JP2005301584A (ja) * 2004-04-09 2005-10-27 Mitsubishi Electric Corp 要約記事配信サーバ及び要約記事配信方法及び要約記事配信プログラム
NO20052215L (no) * 2005-05-06 2006-11-07 Fast Search & Transfer Asa Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter
CN1916904A (zh) * 2006-09-01 2007-02-21 北大方正集团有限公司 一种基于文档扩展的单文档摘要方法
CA2679094A1 (en) * 2007-02-23 2008-08-28 1698413 Ontario Inc. System and method for delivering content and advertisements
JP5040396B2 (ja) * 2007-03-28 2012-10-03 富士通株式会社 Webページ検索プログラム、方法、及び装置
US7747600B2 (en) * 2007-06-13 2010-06-29 Microsoft Corporation Multi-level search
US7716054B2 (en) * 2007-06-29 2010-05-11 Microsoft Corporation Activity-ware for non-textual objects
CN101446940B (zh) * 2007-11-27 2011-09-28 北京大学 为文档集自动生成摘要的方法及装置
CN101526938B (zh) * 2008-03-06 2011-12-28 夏普株式会社 文档处理装置
JP4942727B2 (ja) * 2008-11-26 2012-05-30 日本電信電話株式会社 テキスト要約装置、その方法およびプログラム
WO2011095923A1 (en) * 2010-02-03 2011-08-11 Syed Yasin Self-learning methods for automatically generating a summary of a document, knowledge extraction and contextual mapping
US8489600B2 (en) * 2010-02-23 2013-07-16 Nokia Corporation Method and apparatus for segmenting and summarizing media content
US20110295612A1 (en) * 2010-05-28 2011-12-01 Thierry Donneau-Golencer Method and apparatus for user modelization
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor
KR101290439B1 (ko) * 2011-04-15 2013-07-26 경북대학교 산학협력단 문장 네트워크 기반 회의록 요약 방법
KR101696499B1 (ko) * 2012-02-15 2017-01-13 한국전자통신연구원 한국어 키워드 검색문 해석 장치 및 방법
US8892523B2 (en) * 2012-06-08 2014-11-18 Commvault Systems, Inc. Auto summarization of content
US9436766B1 (en) * 2012-11-16 2016-09-06 Google Inc. Clustering of documents for providing content
US10691737B2 (en) * 2013-02-05 2020-06-23 Intel Corporation Content summarization and/or recommendation apparatus and method
US20150348538A1 (en) * 2013-03-14 2015-12-03 Aliphcom Speech summary and action item generation
US20150293928A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Generating Personalized Video Playlists
WO2015163857A1 (en) * 2014-04-22 2015-10-29 Hewlett-Packard Development Company, L.P. Determining an optimized summarizer architecture for a selected task
KR101549792B1 (ko) * 2014-10-01 2015-09-02 삼성에스디에스 주식회사 문서 자동 작성 장치 및 방법
KR101548096B1 (ko) * 2015-02-02 2015-08-27 숭실대학교산학협력단 문서 자동 요약 방법 및 서버
US20160299881A1 (en) * 2015-04-07 2016-10-13 Xerox Corporation Method and system for summarizing a document

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0293866A (ja) * 1988-09-30 1990-04-04 Toshiba Corp 要約生成方法および要約生成装置
JPH06231178A (ja) * 1993-01-28 1994-08-19 Toshiba Corp 文書検索装置
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000172716A (ja) * 1998-12-03 2000-06-23 Ricoh Co Ltd 文書検索装置および文書検索方法
JP2002297633A (ja) * 2001-03-29 2002-10-11 Ricoh Co Ltd 重要文抽出装置および方法並びにコンピュータプログラム
JP2004318243A (ja) * 2003-04-11 2004-11-11 Canon Inc 情報検索装置
JP2005085112A (ja) * 2003-09-10 2005-03-31 Toshiba Corp 情報分類システム及びプログラム
JP2005174003A (ja) * 2003-12-11 2005-06-30 Sanyo Electric Co Ltd 要約生成方法およびプログラム
JP2008097077A (ja) * 2006-10-06 2008-04-24 Kobe Steel Ltd 重要文選出装置,重要文選出プログラム,重要文選出方法
WO2011036703A1 (ja) * 2009-09-24 2011-03-31 株式会社 東芝 情報選択装置
JP2012104041A (ja) * 2010-11-12 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
JP2014528620A (ja) * 2011-10-14 2014-10-27 ヤフー! インコーポレイテッド 電子文書の内容を自動的に要約するための方法及び装置
JP2013161457A (ja) * 2012-02-08 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法及びプログラム
JP2015090663A (ja) * 2013-11-07 2015-05-11 三菱電機株式会社 テキスト要約装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
前田 剛、外2名: "場所に焦点を当てた複数旅行ブログの自動要約", 第7回データ工学と情報マネジメントに関するフォーラム (第13回日本データベース学会年次大会), JPN6017033329, 18 August 2015 (2015-08-18), JP, pages 1 - 7, ISSN: 0003631652 *
能野 琴、外4名: "グラフスペクトル解析を用いた平行座標系の軸縮約", 画像電子学会誌, vol. 第44巻,第3号, JPN6017033331, 30 July 2015 (2015-07-30), JP, pages 447 - 456, ISSN: 0003631653 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020057195A (ja) * 2018-10-02 2020-04-09 テクマトリックス株式会社 要約生成サーバ、要約生成システム及び要約生成方法
JP2021131769A (ja) * 2020-02-20 2021-09-09 ソフトバンク株式会社 要約生成プログラム、要約生成装置および要約生成方法
JP7152437B2 (ja) 2020-02-20 2022-10-12 ソフトバンク株式会社 要約生成プログラム、要約生成装置および要約生成方法

Also Published As

Publication number Publication date
JP2018081702A (ja) 2018-05-24
US20170068654A1 (en) 2017-03-09
JP6646030B2 (ja) 2020-02-14
JP2020057438A (ja) 2020-04-09
CN107025216A (zh) 2017-08-08
JP6905098B2 (ja) 2021-07-21
US10430468B2 (en) 2019-10-01
US20200004790A1 (en) 2020-01-02
JP6272417B2 (ja) 2018-01-31
KR101656245B1 (ko) 2016-09-09

Similar Documents

Publication Publication Date Title
JP6272417B2 (ja) 文抽出方法及びシステム
US10303689B2 (en) Answering natural language table queries through semantic table representation
CN111566654A (zh) 集成知识和自然语言处理的机器学习
CN108256070B (zh) 用于生成信息的方法和装置
US11613008B2 (en) Automating a process using robotic process automation code
US11409754B2 (en) NLP-based context-aware log mining for troubleshooting
US20180196871A1 (en) System and method for metadata correlation using natural language processing
US10956470B2 (en) Facet-based query refinement based on multiple query interpretations
KR101842274B1 (ko) 문장 추출 방법 및 시스템
US20230034011A1 (en) Natural language processing workflow
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
KR102125407B1 (ko) 문장 추출 방법 및 시스템
CN110147223B (zh) 组件库的生成方法、装置及设备
CN112926298A (zh) 新闻内容识别方法、相关装置及计算机程序产品
KR102034302B1 (ko) 문장 추출 방법 및 시스템
CN109685091B (zh) 使用贝叶斯方式的数字体验目标确定
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
US11074591B2 (en) Recommendation system to support mapping between regulations and controls
CN112948584A (zh) 短文本分类方法、装置、设备以及存储介质
CN109426358B (zh) 信息输入方法和装置
US11868737B2 (en) Method and server for processing text sequence for machine processing task
RU2775820C2 (ru) Способ и сервер для обработки текстовой последовательности в задаче машинной обработки
KR102641660B1 (ko) 생성형 ai를 활용하여 문제해결을 최적화하기 위한 서버 및 그 동작방법
CN113326416A (zh) 检索数据的方法、向客户端发送检索数据的方法及装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171228

R150 Certificate of patent or registration of utility model

Ref document number: 6272417

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250