JP6232478B2 - 単一文書からのキーワード抽出装置及び方法 - Google Patents

単一文書からのキーワード抽出装置及び方法 Download PDF

Info

Publication number
JP6232478B2
JP6232478B2 JP2016161523A JP2016161523A JP6232478B2 JP 6232478 B2 JP6232478 B2 JP 6232478B2 JP 2016161523 A JP2016161523 A JP 2016161523A JP 2016161523 A JP2016161523 A JP 2016161523A JP 6232478 B2 JP6232478 B2 JP 6232478B2
Authority
JP
Japan
Prior art keywords
keyword
candidate
sentence
key sentence
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016161523A
Other languages
English (en)
Other versions
JP2017068833A (ja
Inventor
チェンシャン シュ
チェンシャン シュ
ダクン チャン
ダクン チャン
ジチョン グオ
ジチョン グオ
ジエ ハオ
ジエ ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2017068833A publication Critical patent/JP2017068833A/ja
Application granted granted Critical
Publication of JP6232478B2 publication Critical patent/JP6232478B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Description

本発明の実施形態は、単一文書からのキーワード抽出装置及び方法に関する。
キーワード抽出は自然言語処理分野に含まれる。キー抽出方法は大きく2タイプに分類される。つまり、教師あり学習と教師なし学習である。教師あり学習においては、キーワード抽出は分類問題とみなされ、学習データはマニュアル的にラベル付けされる必要がある。これは時間がかかり労力も過大となるため、インターネット時代には不向きとされる。科学技術の発展とインターネット人口の増加につれて、基本的には、教師あり学習はほとんど使われない。
教師なし学習については、主に、次の3つのアルゴリズムが知られている。
(1)TF-IDFベース及びTF-IDF変形ベースのアルゴリズム。この数式を以下に示す。
ここで、ωはキーワードを示す。TFωは文書セット中のωの頻度を示す。Dsetは文書セット中の文書番号を示す。DFωはωを含む文書番号を示す。(非特許文献1)
(2)チャートベースアルゴリズム。最も古典的アルゴリズムである、TextRankの数式を以下に示す。
ここで、WS(Vi)はViのスコアを示す。In(Vi)はViの入次数を示す。Out(Vj)はViの出次数を示す。wjiはwjからwiへのエッジの重みを示す。dは減衰係数を示す。(非特許文献2)
(3)区切り文字ベースアルゴリズム。
先ず、文章を各セグメントに分割するための区切り文字リスト内の語を用いて、LA(Link Analysis)のようなアルゴリズムで全ての候補のスコアを得る。次に、以下の数式により全ての候補の最終スコアを得る。
ここで、Score(ω)はキーワード候補の最終スコアを示す。TC(ω)A jは文書j内のωのスコアを示す。Dsetは文書セット内の文書番号を示す。DFωはωを含む文書番号を示す。(非特許文献3)
上記アルゴリズム(1)のTF-IDFは「term frequency-inverse document frequency」の略字であり、これは文書セットやコーパス内の語の重要度を評価するための統計的アルゴリズムである。語の重要度は、それが文書中に出現する回数に比例して増加する。しかしながら、語の重要度は、文書セットやコーパス内の分布範囲に反比例して減少する。分布範囲は文書セットやコーパス内での語の分布度、つまりその語が何個の文書に現われるか、を示す。特に、TFは文書内の語出現頻度を示し、IDFは文書出現頻度の逆数を示す。文書セットやコーパス内では、ある語を含む文書数が少ないほど、その語のIDFが大きくなる。こうして、ある特定文書に高頻度で含まれるが、全ての文書セットやコーパスには低分布度で含まれる(例えば、1文書のみに含まれ他文書には含まれない)語について、TFとIDFの積を計算することで高い重みのTF-IDFが生成される。従ってTF-IDFは、共通語を取り出し(除去し)、キーワードを保持することができる。
US2011/0231430号公報 US7895205号公報 US6638317号公報 US2005/0131931号公報 US2014/0074822号公報
Frank Gordon,"Domain-specific keyphrase extraction", In Proceedings of the 16th International Conference on Computational Linguistics 1996, pp.41-46 Rada Mihalcea, Paul Tarau,"Bringing Order into Text", In Proceedings of EMNLP 2004, pp.404-411 Yuhang Yang, Qin Lu, Tiejun Zhao,"A delimiter-based general approach for Chinese term extraction", Journal of the American Society for Information Science and Technology. 2010. pp.111-125 Yuhang Yang, Qin Lu, Tiejun Zhao,"Chinese Term Extraction based on Delimiters", Language Resource and Evaluation. LREC (2008)
単一文書からキー文を抽出し、該キー文からキーワードを抽出することにより、目標キーワードの抽出品質を向上させることが可能な装置及び方法を提供する。
実施形態に係る、単一文書からキーワードを抽出するための装置は、前記単一文書からキー文を抽出するキー文抽出部と、前記キー文からキーワードを抽出するキーワード抽出部とを備える。
本発明の1実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。 本発明の他の実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。 図2の実施形態に係るキーワード抽出方法における、キーワードの再ソート処理の詳細フローチャートである。 図2の実施形態に係るキーワード抽出方法における、キーワードの拡張処理の詳細フローチャートである。 本発明の他の実施形態に係る、単一文書からのキーワード抽出装置のブロック図である。 本発明の他の実施形態に係る、単一文書からのキーワード抽出装置によるキー文抽出に用いられるユニットのブロック図である。
以下、図面を参照しながら、発明を実施するための実施形態について説明する。
<単一文書からのキーワード抽出方法>
図1は本発明の1実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。
図1に示す様に、先ずS130において、キー文が単一文書から第1キー文セット10として抽出される。本実施形態において、単一文書はどのような言語のどのようなタイプの文書であってもよく、本実施形態は限定されない。
次に、本方法はS140へ進み、目標キーワードが第1キー文セット10から抽出される。
本実施形態の上記方法によれば、単一文書からキー文を抽出し、該キー文からキーワードを抽出することで、目標キーワードの抽出品質が効率的に向上する。一般に、キーワードがキー文に出現する確率は、非キー文に出現する確率よりも非常に高い。何故ならば、候補キーワードは単一文書内の全文から抽出されるものではない。むしろ、全文の1部であるキー文セットから抽出されるものである。従って、候補キーワードの数が減少することは、目標キーワードが抽出される確率が増加したことを意味し、抽出品質も著しく向上する。
ここで例として、単一文書内に100個の文が存在し、合計で1000個の異なる単語を含み、この中に20個の目標キーワードが存在する、と仮定する。もしストップワードが除去されれば(ストップワードは全単語の30%を占めると仮定する)、残りの700個の単語は全て候補キーワードである。目標キーワードは700個の候補キーワードから選択される必要がある。もしこの文書内に40個のキー文が存在し、合計で400個の異なる単語を含むならば、ストップワードの除去後、残りの280個の単語が候補キーワードとなる。280個の候補キーワードから20個の目標キーワードを正しく選択する確率は、700個の候補キーワードから20個の目標キーワードを正しく選択する確率よりも大きいことが明白である。
単一文書からのキーワード抽出方法について特に制限はない。例えば、キー文の抽出前に、図2に示す様に、以降のステップを更に含んでもよい。
S110において、単一文書のクラス(分類)を同定する。本実施形態においては、例えば、単一文書自体にクラスラベルを自動的に割り当てるために、文書分類子を用いる。この文書分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。本実施形態では特に制限されない。
次にS120において、単一文書内の文を分類する。本実施形態においては、例えば、単一文書内の各文にクラスラベルを自動的に割り当てるために、文分類子を用いる。文書分類子と同様に、文分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。本実施形態では特に制限されない。
S110とS120に基づいて、S130において、同じクラスを有する単一文書内の文が該単一文書と共に抽出される。本実施形態において、クラスラベルが使われるため、同じクラスラベルを有する単一文書内の文が第1キー文セット10として抽出される。
同じクラスを有する単一文書内の文がキー文として抽出されるため、該キー文はその文書の主たる意味を特徴付けることができる。従って、目標キーワードの抽出品質がより効率的に向上する。
本実施形態において、望ましくは、キー文の抽出後、第1キー文セット10に基づくキーワードが再ソート(再分類)されて、目標キーワードが抽出される。以降の説明を図3を参照して行う。
図3に示す様に、S130の後、S311bにおいて、第1キー文セット10がスキャンされ、コーパス内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。同様に、S131cにおいて、第1キー文セット10がスキャンされ、ユーザ履歴文書(ユーザが過去に閲覧した文書の履歴)内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。
次にS132bにおいて、類似度がプリセット閾値Xより大きい文がコーパスより第2キー文セット20として抽出される。同様に、S132cにおいて、類似度がプリセット閾値Yより大きい文がユーザ履歴文書より第3キー文セット30として抽出される。XとYは等しくセットされてもよいし、必要であれば異なっていてもよい。
プリセットされたXとYにより、単一文書内のキー文に類似した、コーパスとユーザ履歴文書内の文が必要に応じて正確に取り出される。従って目標キーワードの抽出品質の向上に役立つ。
次にS133aにおいて、対応する重み付き候補キーワードセット、つまり第1候補キーワードセット11が一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第1キー文セット10から抽出される。同様に、S133bにおいて、(対応する重み付き)第2候補キーワードセット21が一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第2キー文セット20から抽出される。S133cにおいて、(対応する重み付き)第3候補キーワードセット31が一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第3キー文セット30から抽出される。
次にS134において、第1候補キーワードセット11が、第2候補キーワードセット21と第3候補キーワードセット31に基づいて再ソート(再分類)される。
次に、本方法はS140に進み、目標キーワードが再ソート済の第1候補キーワードセット11から抽出される。
以降、S134の再ソート方法を、線形補間方法を例として詳細に説明する。
先ず、重みα,β,γを第1候補キーワードセット11、第2候補キーワードセット21、第3候補キーワードセット31に夫々割り当てる。Score(ω in 11)が第1候補キーワードセット11内の候補キーワードの重みを示すとする。Score(ω in 21)が第2候補キーワードセット21内の候補キーワードの重みを示すとする。Score(ω in 31)が第3候補キーワードセット31内の候補キーワードの重みを示すとする。以下の式(4)に基づいて、第1候補キーワードセット11内の各候補キーワードについて計算が行われる。
Score(ω)=α* Score(ω in 11)+β* Score(ω in 21)+γ* Score(ω in 31) (4)
その後、計算された包含的重みScore(ω)に基づいて、第1候補キーワードセット11内の候補キーワードが再ソートされる。
単一文書内では内容が限定されており、目標キーワードを抽出するための補助情報は十分ではない。本実施形態においては、上述した様に、第2候補キーワードセット21と第3候補キーワードセット31に基づいて第1候補キーワードセット11内のキーワードが再ソートされる。更に、単一文書と関連するコーパス又はユーザ履歴文書内の情報に基づいて単一文書内のキーワードを調整する。従って、ソーティングにおける目標キーワードの位置を相対的に高めることができ、目標キーワードの抽出品質を更に向上できる。
更に、再ソートが夫々の所定重みを用いて行われるため、コーパスやユーザ履歴文書内の情報が候補キーワードを正確に再ソートするためにより効率的に利用できる。従って、目標キーワードの抽出品質を向上できる。
本実施形態において、望ましくは、再ソート後にキーワード抽出を行う。以降、この説明を図4を参照して行う。
第1候補キーワードセット11内の候補キーワードを再ソートした後、すなわちS134の後、図4のS135において、N個の第1候補キーワードを第1候補キーワードセット11から抽出し、セット12とする。
次にS136bにおいて、S135で抽出されたセット12に含まれる候補キーワードが第2候補キーワードセット21から削除される。同様にS136cにおいて、S135で抽出されたセット12に含まれる候補キーワードが第3候補キーワードセット31から削除される。
次にS137bにおいて、M個の第1候補キーワードを第2候補キーワードセット21(削除を実行済)から抽出し、セット22とする。同様にS137cにおいて、V個の第1候補キーワードを第3候補キーワードセット31(削除を実行済)から抽出し、セット32とする。
次にS138において、セット12、22、32をマージ(統合)することにより、最終の目標キーワードセットを得る。
単一文書に含まれていないキーワードで、該単一文書の内容と関係の高いものが存在する場合がある。本実施形態においては、上記キーワードを省略しないために、望ましくは、コーパスやユーザ履歴文書内に含まれるキーワードで、該単一文書の内容と関係の高いものを抽出する。そして、該単一文書から抽出されたキーワードと共に最終のキーワードセットを形成する。このような方法で拡張処理することにより、キーワードの抽出品質が著しく向上する。
上記実施形態においては、キーワードの再ソートやキーワード抽出を行うために、例として、コーパスとユーザ履歴文書を同時に用いるとして説明した。しかしながら、キーワードの再ソートやキーワード抽出を行うために、コーパスとユーザ履歴文書の1つのみを用いてもよい。
更に、上記ステップの順序は固定されない。例えば、本実施形態においては、単一文書のクラスが同定された後(すなわちS110)、該単一文書内の文が分類される(すなわちS120)。しかしながら、本発明はこれに限定されない。単一文書内の文が分類された後、該単一文書のクラスを同定してもよい。
<単一文書からのキーワード抽出装置>
同じ発明概念の下で、図5及び図6は、本発明の他の2実施形態に係る、単一文書からのキーワード抽出装置のブロック図である。
図5に示す様に、本実施形態に係る、単一文書からのキーワード抽出装置(以後、「キーワード抽出装置」と呼称する)100は、キー文抽出部103とキーワード抽出部104を含む。キー文抽出部103は、単一文書からキー文を第1キー文セット10として抽出する。キーワード抽出部104は、第1キー文セット10からキーワードを抽出する。
本実施形態のキーワード抽出装置100によれば、単一文書からキー文を抽出し、該キー文からキーワードを抽出することで、目標キーワードの抽出品質が効率的に向上する。一般に、キーワードがキー文に出現する確率は、非キー文に出現する確率よりも非常に高い。何故ならば、候補キーワードは単一文書内の全文から抽出されるものではない。むしろ、全文の1部であるキー文セットから抽出されるものである。従って、候補キーワードの数が減少することは、目標キーワードが抽出される確率が増加したことを意味し、抽出品質も著しく向上する。
ここで例として、単一文書内に100個の文が存在し、合計で1000個の異なる単語を含み、この中に20個の目標キーワードが存在する、と仮定する。もしストップワードが除去されれば(ストップワードは全単語の30%を占めると仮定する)、残りの700個の単語は全て候補キーワードである。目標キーワードは700個の候補キーワードから選択される必要がある。もしこの文書内に40個のキー文が存在し、合計で400個の異なる単語を含むならば、ストップワードの除去後、残りの280個の単語が候補キーワードとなる。280個の候補キーワードから20個の目標キーワードを正しく選択する確率は、700個の候補キーワードから20個の目標キーワードを正しく選択する確率よりも大きいことが明白である。
更に、図6に示す様に、キーワード抽出装置100は、同定部101と分類部102を含んでもよい。
同定部101は、単一文書のクラス(分類)を同定する。本実施形態においては、例えば、単一文書自体にクラスラベルを自動的に割り当てるために、文書分類子を用いる。この文書分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。単一文書を分類できるかぎり、文書識別子は特に制限されない。
分類部102は、単一文書内の文を分類する。本実施形態においては、例えば、単一文書内の各文にクラスラベルを自動的に割り当てるために、文分類子を用いる。文書分類子と同様に、文分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。単一文書内の各文を分類できるかぎり、文識別子は特に制限されない。
キー文抽出部103は、同定部101の同定結果と分類部102の分類結果に基づいて、同じクラスを有する単一文書内の文を該単一文書と共に第1キー文セット10として抽出する。
同じクラスを有する単一文書内の文がキー文として抽出されるため、該キー文はその文書の主たる意味を特徴付けることができる。従って、目標キーワードの抽出品質がより効率的に向上する。
更にキーワード抽出装置100は、第1キー文セット10に基づいてキーワードを再ソート(再分類)するソーティング部105(図6に図示せず)を含んでもよい。
先ず、第1キー文セット10がキー文抽出部103によってスキャンされ、コーパス内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。同様に、第1キー文セット10がキー文抽出部103によってスキャンされ、ユーザ履歴文書(ユーザが過去に閲覧した文書の履歴)内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。
類似度の計算結果に基づいて、類似度がプリセット閾値Xより大きい文がコーパスより第2キー文セット20として抽出される。同様に、類似度がプリセット閾値Yより大きい文がユーザ履歴文書より第3キー文セット30として抽出される。XとYは等しくセットされてもよいし、必要であれば異なっていてもよい。
プリセットされたXとYにより、単一文書内のキー文に類似した、コーパスとユーザ履歴文書内の文が必要に応じて正確に取り出される。従って目標キーワードの抽出品質の向上に役立つ。
次にキーワード抽出部104は、対応する重み付き候補キーワードセット、つまり第1候補キーワードセット11を、一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第1キー文セット10から抽出する。同様にキーワード抽出部104は、(対応する重み付き)第2候補キーワードセット21を、一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第2キー文セット20から抽出する。更にキーワード抽出部104は、(対応する重み付き)第3候補キーワードセット31を、一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第3キー文セット30から抽出する。
次に、ソーティング部105は第2候補キーワードセット21と第3候補キーワードセット31に基づいて、第1候補キーワードセット11を再ソート(再分類)する。
次に、キーワード抽出部104は目標キーワードを再ソート済の第1候補キーワードセット11から抽出する。
以降、ソーティング部105の再ソート方法を、線形補間方法を例として詳細に説明する。
先ず、重みα,β,γを第1候補キーワードセット11、第2候補キーワードセット21、第3候補キーワードセット31に夫々割り当てる。Score(ω in 11)が第1候補キーワードセット11内の候補キーワードの重みを示すとする。Score(ω in 21)が第2候補キーワードセット21内の候補キーワードの重みを示すとする。Score(ω in 31)が第3候補キーワードセット31内の候補キーワードの重みを示すとする。以下の式(4)に基づいて、第1候補キーワードセット11内の各候補キーワードについて計算が行われる。
Score(ω)=α* Score(ω in 11)+β* Score(ω in 21)+γ* Score(ω in 31) (4)
その後、計算された包含的重みScore(ω)に基づいて、第1候補キーワードセット11内の候補キーワードが再ソートされる。
単一文書内では内容が限定されており、目標キーワードを抽出するための補助情報は十分ではない。本実施形態においては、上述した様に、第2候補キーワードセット21と第3候補キーワードセット31に基づいて第1候補キーワードセット11内のキーワードが再ソートされる。更に、単一文書と関連するコーパス又はユーザ履歴文書内の情報に基づいて単一文書内のキーワードを調整する。従って、ソーティングにおける目標キーワードの位置を相対的に高めることができ、目標キーワードの抽出品質を更に向上できる。
更に、再ソートが夫々の所定重みを用いて行われるため、コーパスやユーザ履歴文書内の情報が候補キーワードを正確に再ソートするためにより効率的に利用できる。従って、目標キーワードの抽出品質を向上できる。
望ましくは、キーワード抽出部104は、再ソート後にキーワードの拡張処理を行う。特にキーワード抽出部104は、N個の第1候補キーワードを第1候補キーワードセット11から抽出し、セット12とする。次にキーワード抽出部104は、セット12に含まれるキーワードを第2候補キーワードセット21と第3候補キーワードセット31の夫々から削除する。更にキーワード抽出部104は、M個の第1候補キーワードを第2候補キーワードセット21(削除を実行済)から抽出し、セット22とする。同様にキーワード抽出部104は、V個の第1候補キーワードを第3候補キーワードセット31(削除を実行済)から抽出し、セット32とする。最後にキーワード抽出部104は、セット12、22、32をマージ(統合)する。結果として、最終の目標キーワードセットが得られる。
単一文書に含まれていないキーワードで、該単一文書の内容と関係の高いものが存在する場合がある。本実施形態においては、上記キーワードを省略しないために、望ましくは、コーパスやユーザ履歴文書内に含まれるキーワードで、該単一文書の内容と関係の高いものを抽出する。そして、該単一文書から抽出されたキーワードと共に最終のキーワードセットを形成する。このような方法で拡張処理することにより、キーワードの抽出品質が著しく向上する。
上記実施形態においては、キーワードの再ソートやキーワード抽出を行うために、例として、コーパスとユーザ履歴文書を同時に用いるとして説明した。しかしながら、キーワードの再ソートやキーワード抽出を行うために、コーパスとユーザ履歴文書の1つのみを用いてもよい。
上述した、本発明に係る、単一文書からのキーワード抽出装置及び方法は、自然言語処理の様々な分野(例えば、機械翻訳、テキスト要約等)に適用できる。要するに本発明の適用分野は制限されない。
本発明に係る、単一文書からのキーワード抽出装置及び方法は、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
100・・・キーワード抽出装置
101・・・同定部
102・・・分類部
103・・・キー文抽出部
104・・・キーワード抽出部
105・・・ソーティング部

Claims (11)

  1. 単一文書からキーワードを抽出するための装置であって、
    前記単一文書からキー文を抽出するキー文抽出部と、
    前記キー文からキーワードを抽出するキーワード抽出部と、
    前記単一文書のクラスを同定する同定部と、
    前記単一文書内の各文を分類する分類部とを備え、
    前記キー文抽出部は、同じクラスを有する複数の単一文書内の前記キー文を第1キー文セットとして抽出し、
    前記キーワード抽出部は、前記第1キー文セットから候補キーワードを抽出することを特徴とするキーワード抽出装置。
  2. 前記キーワード抽出部は、前記第1キー文セットから候補キーワードを第1キーワードセットとして抽出し、
    前記キー文抽出部は、コーパスから、前記第1キー文セット内のキー文と類似した文を第2キー文セットとして抽出し、
    前記キーワード抽出部は、前記第2キー文セットから候補キーワードを第2キーワードセットとして抽出し、
    前記キーワード抽出装置は、前記第2キーワードセットに基づいて、前記第1キーワードセット内の各候補キーワードを再ソートするソーティング部を更に備え、
    前記キーワード抽出部は、再ソートされた前記第1キーワードセットから目標キーワードを抽出する、請求項に記載のキーワード抽出装置。
  3. 前記ソーティング部は、前記第1キーワードセットの重み、前記第1キーワードセット内の各候補キーワードの重み、前記第2キーワードセットの重み、前記第2キーワードセット内の各候補キーワードの重みに基づいて、前記第1キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて第1キーワードセット内の各候補キーワードを再ソートする、請求項に記載のキーワード抽出装置。
  4. 前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワードを前記第2キーワードセットから削除し、この削除処理の施された前記第2キーワードセットから候補キーワードを抽出する、請求項に記載のキーワード抽出装置。
  5. 前記キー文抽出部は、ユーザ履歴文書から、前記第1キー文セット内のキー文と類似した文を第3キー文セットとして抽出し、
    前記キーワード抽出部は、前記第3キー文セットから候補キーワードを第3キーワードセットとして抽出し、
    前記ソーティング部は、前記第3キーワードセットに基づいて、前記第1キーワードセット内の各候補キーワードを再ソートし、
    前記キーワード抽出部は、再ソートされた前記第1キーワードセットから目標キーワードを抽出する、請求項2〜4のいずれかに記載のキーワード抽出装置。
  6. 前記キー文抽出部は
    前記コーパス内の文と前記キー文との類似度を計算し、前記コーパスから、前記類似度が第1閾値よりも大きい文を、前記第2キー文セットとして抽出し、
    前記ユーザ履歴文書内の文と前記キー文との類似度を計算し、前記ユーザ履歴文書から、前記類似度が第2閾値よりも大きい文を、前記第3キー文セットとして抽出する、請求項に記載のキーワード抽出装置。
  7. 前記ソーティング部は、前記第1キーワードセットの重み、前記第1キーワードセット内の各候補キーワードの重み、前記第3キーワードセットの重み、前記第3キーワードセット内の各候補キーワードの重みに基づいて、前記第1キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて前記第1キーワードセット内の各候補キーワードを再ソートする、請求項に記載のキーワード抽出装置。
  8. 前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワードを前記第3キーワードセットから削除し、この削除処理の施された前記第3キーワードセットから候補キーワードを抽出する、請求項に記載のキーワード抽出装置。
  9. 前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワード、前記第2キーワードセットから抽出された候補キーワード、前記第3キーワードセットから抽出された候補キーワードをマージして目標キーワードを生成する、請求項に記載のキーワード抽出装置。
  10. 単一文書からキーワード抽出装置制御するための方法であって、
    前記単一文書からキー文を抽出するステップと、
    前記キー文からキーワードを抽出するステップと、
    前記単一文書のクラスを同定するステップと、
    前記単一文書内の各文を分類するステップとを備え、
    前記キー文を抽出するステップは、同じクラスを有する複数の単一文書内の前記キー文を第1キー文セットとして抽出し、
    前記キーワードを抽出するステップは、前記第1キー文セットから候補キーワードを抽出することを特徴とするキーワード抽出方法。
  11. 単一文書からキーワードを抽出するためのコンピュータに用いられるプログラムであって、
    前記コンピュータに、
    前記単一文書からキー文を抽出する機能と、
    前記キー文からキーワードを抽出する機能と、
    前記単一文書のクラスを同定する機能と、
    前記単一文書内の各文を分類する機能とを備え、
    前記キー文を抽出する機能は、同じクラスを有する複数の単一文書内の前記キー文を第1キー文セットとして抽出し、
    前記キーワードを抽出する機能は、前記第1キー文セットから候補キーワードを抽出することを特徴とするプログラム。
JP2016161523A 2015-09-29 2016-08-19 単一文書からのキーワード抽出装置及び方法 Active JP6232478B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510632825.X 2015-09-29
CN201510632825.XA CN106557460A (zh) 2015-09-29 2015-09-29 从单文档中提取关键词的装置及方法

Publications (2)

Publication Number Publication Date
JP2017068833A JP2017068833A (ja) 2017-04-06
JP6232478B2 true JP6232478B2 (ja) 2017-11-15

Family

ID=58409539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016161523A Active JP6232478B2 (ja) 2015-09-29 2016-08-19 単一文書からのキーワード抽出装置及び方法

Country Status (3)

Country Link
US (1) US20170091318A1 (ja)
JP (1) JP6232478B2 (ja)
CN (1) CN106557460A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN109062895B (zh) * 2018-07-23 2022-06-24 挖财网络技术有限公司 一种智能语义处理方法
CN111433768B (zh) * 2019-03-07 2024-01-16 北京京东尚科信息技术有限公司 智能引导购物的系统和方法
US11514498B2 (en) * 2019-03-07 2022-11-29 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for intelligent guided shopping
CN110298035B (zh) * 2019-06-04 2023-12-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110598209B (zh) * 2019-08-21 2022-11-04 合肥工业大学 用于提取关键词的方法、系统及存储介质
CN111090997B (zh) * 2019-12-20 2021-07-20 中南大学 一种基于分级词项的地质文档特征词项排序方法与装置
CN111680505B (zh) * 2020-04-21 2023-08-08 华东师范大学 一种Markdown特征感知的无监督关键词提取方法
CN112364601B (zh) * 2020-10-28 2023-04-07 南阳理工学院 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置
CN112597776A (zh) * 2021-03-08 2021-04-02 中译语通科技股份有限公司 关键词提取方法及系统
CN113723058B (zh) * 2021-11-02 2022-03-08 深圳市北科瑞讯信息技术有限公司 文本摘要与关键词抽取方法、装置、设备及介质
CN114281992A (zh) * 2021-12-22 2022-04-05 北京朗知网络传媒科技股份有限公司 基于传媒领域的汽车文章智能分类方法及系统
CN115878847B (zh) * 2023-02-21 2023-05-12 云启智慧科技有限公司 基于自然语言的视频引导方法、系统、设备及存储介质
CN117743376B (zh) * 2024-02-19 2024-05-03 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
JP2572314B2 (ja) * 1991-05-31 1997-01-16 株式会社テレマティーク国際研究所 キーワード抽出装置
CN1145899C (zh) * 2000-09-07 2004-04-14 国际商业机器公司 为文字文档自动生成摘要的方法
US8155951B2 (en) * 2003-06-12 2012-04-10 Patrick William Jamieson Process for constructing a semantic knowledge base using a document corpus
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
CN101533393A (zh) * 2008-03-11 2009-09-16 深圳市乐天科技有限公司 用电子装置对文章句子快速进行的分类及检索方法
KR101005337B1 (ko) * 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
JP2011197863A (ja) * 2010-03-18 2011-10-06 Konica Minolta Business Technologies Inc コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
US20150120738A1 (en) * 2010-12-09 2015-04-30 Rage Frameworks, Inc. System and method for document classification based on semantic analysis of the document
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
KR20130097290A (ko) * 2012-02-24 2013-09-03 한국전자통신연구원 사용자의 관심주제를 기반으로 인터넷 문서를 제공하는 장치 및 그 방법
US9244909B2 (en) * 2012-12-10 2016-01-26 General Electric Company System and method for extracting ontological information from a body of text
US9189540B2 (en) * 2013-04-05 2015-11-17 Hewlett-Packard Development Company, L.P. Mobile web-based platform for providing a contextual alignment view of a corpus of documents
US10191893B2 (en) * 2013-07-22 2019-01-29 Open Text Holdings, Inc. Information extraction and annotation systems and methods for documents
CN104679733B (zh) * 2013-11-26 2018-02-23 中国移动通信集团公司 一种语音对话翻译方法、装置及系统
CN103853824B (zh) * 2014-03-03 2017-05-24 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN104281645B (zh) * 2014-08-27 2017-06-16 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法

Also Published As

Publication number Publication date
JP2017068833A (ja) 2017-04-06
CN106557460A (zh) 2017-04-05
US20170091318A1 (en) 2017-03-30

Similar Documents

Publication Publication Date Title
JP6232478B2 (ja) 単一文書からのキーワード抽出装置及び方法
Kadhim An evaluation of preprocessing techniques for text classification
KR102019194B1 (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
Dadgar et al. A novel text mining approach based on TF-IDF and Support Vector Machine for news classification
US11645475B2 (en) Translation processing method and storage medium
Usman et al. Urdu text classification using majority voting
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
KR101713558B1 (ko) 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법
CN108009135B (zh) 生成文档摘要的方法和装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
Lee et al. Chinese sentiment analysis using maximum entropy
Alhutaish et al. Arabic text classification using k-nearest neighbour algorithm
CN108038099B (zh) 基于词聚类的低频关键词识别方法
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN110866102A (zh) 检索处理方法
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
Ayadi et al. A Survey of Arabic Text Representation and Classification Methods.
Baraka et al. Arabic text author identification using support vector machines
JP2021501387A (ja) 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム
Mountassir et al. Some methods to address the problem of unbalanced sentiment classification in an arabic context
Cai et al. Indonesian automatic text summarization based on a new clustering method in sentence level
Çano Albmore: A corpus of movie reviews for sentiment analysis in albanian
JP2017068742A (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
CN107590163B (zh) 文本特征选择的方法、装置和系统

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170922

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171023

R151 Written notification of patent or utility model registration

Ref document number: 6232478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151