JP5733062B2 - 文書からの1つ又は複数のキー要素取得方法及び装置 - Google Patents
文書からの1つ又は複数のキー要素取得方法及び装置 Download PDFInfo
- Publication number
- JP5733062B2 JP5733062B2 JP2011149434A JP2011149434A JP5733062B2 JP 5733062 B2 JP5733062 B2 JP 5733062B2 JP 2011149434 A JP2011149434 A JP 2011149434A JP 2011149434 A JP2011149434 A JP 2011149434A JP 5733062 B2 JP5733062 B2 JP 5733062B2
- Authority
- JP
- Japan
- Prior art keywords
- layer
- weight
- title
- document
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
標題は、1つの文書の比較的重要な情報を表していること、
句が重要な領域にあると、これらの句も比較的に重要であること、
領域に重要な句が含まれていると、この領域も比較的に重要であること、
語が重要な句にあると、これらの語も比較的に重要であること、及び、
句に重要な語が含まれていると、この句も比較的に重要であること、が分かる。
以下、領域、句、語要素の層内重みの具体的な算出方法について詳細に説明する。該算出方法は、以下のステップにより行われる。
先ず、各構成要素に初期重みを与える(S201、S202、S203)。
ここで、該構成要素とその対応層内の他の構成要素間の層内関係チェーンの重みを決定することができる。
該構成要素の初期重みとその層内関係チェーンの重みから、構成要素の対応層内の層内重みを決定することができる。TextRankのグラフによる算出法を用いて、該構成要素の初期重みとその層内関係チェーンの重みから、該構成要素のその対応層内の層内重みを算出してもよい。
Out(Vj)は、該ノードVjに関連するノード集合(すなわち、図5におけるViとVkとVl)を表し、
ωjiは、該2つのノード(ViとVj)間の辺(関連)の重み、例えば、前述により求められた関係チェーンの重みを表し、
該式におけるVjは、現在ノードViに関連するノードのうちの1つを表している。
構成要素と他の層における構成要素間の含有回数、該構成要素の層内重み及び/または他の層の構成要素の層内重みから、該構成要素の層間重みを算出することができる。
構成要素と標題要素に共通に含まれる語や字の数、共通に含まれる語や字の出現頻度、共通に含まれる語や字の性質、構成要素の語や字の総数、標題要素の語や字の総数、構成要素の層内重み及び/または構成要素の層間重みといった、これらのパラメータのうちの1つまたは複数により、構成要素の全体重みを算出することができる。
標題については、標題を他の全ての下層要素に関連する全体重みと見なしてもよく、標題を検索条件として関連構成要素を検索するプロセスと理解してもよい。標題は、通常、1つの文書の主題や最も重要な情報を表しているため、標題情報の使用は、キー要素の取得に潜在的な意義がある。本願の1実施例においては、句を例にすると、各句は、標題から追加の重み付きを得ることができ(全体重みと称する)、標題をStとすると、ステップS212における全体重みの算出式(6)は、
先ず、ある語/字の頻度が句の語頻度と全文の語頻度を含むとする。所謂「句の語頻度」とは、ある語/字の全文における全ての句に出現する頻度を指し、該語がある句に出現すると1とカウントし、ある句に繰り返し出現するとカウントを加算しないといった、2つの特徴がある。該句の頻度は、通常の全文の語頻度とは異なり、全文の語頻度は、該語の全文に出現する頻度を指している。
具体的には、各要素の最終重みの組み合わせは、該要素の層内重み、層間重み、及び標題からの全体重みの共同により決められ、下記式の通りである。
Wcrossは、算出された層間重みを表し、
Wtitleは、算出された標題に基づく全体重みを表し、
λi、λc、λtは、各重みに対応する経験比率を表し、実際の応用においては、状況に応じて変化するものと見なされ、ゼロであってもよい。
以上の各ステップにより、各異なる層における異なる要素の、最終重みスコアが得られる。いずれかの層のキー要素を取得したい場合は、該当層の全ての要素に対して最終重みの大きさ順で並べ替えを行い、最終重みが最高となるnの要素をキー要素とすればよい。
Claims (2)
- 文書から1つまたは複数のキー要素を取得する装置であって、
前記文書から少なくとも標題要素を含む構成要素を抽出する抽出装置であって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、前記構成要素の各々は、各自の層に対応する抽出装置と、
前記標題層を除く1層における前記被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置と、
前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置と、
前記被抽出構成要素と、標題要素との間の全体重みを決定する全体重み決定装置と、
前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置と、
前記1層における構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するキー要素取得装置と、を含む、装置。 - 前記構成要素が、さらに、領域要素、段落要素、句要素、語要素、字要素のうちの少なくとも一つを有し、前記構成上の層が、さらに、領域層、段落層、句層、語層、字層のうち少なくとも一つを有する、請求項1に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010218148.4 | 2010-07-06 | ||
CN2010102181484A CN102314448B (zh) | 2010-07-06 | 2010-07-06 | 一种在文档中获得一个或多个关键元素的设备和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012018674A JP2012018674A (ja) | 2012-01-26 |
JP5733062B2 true JP5733062B2 (ja) | 2015-06-10 |
Family
ID=45427627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011149434A Active JP5733062B2 (ja) | 2010-07-06 | 2011-07-05 | 文書からの1つ又は複数のキー要素取得方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5733062B2 (ja) |
CN (1) | CN102314448B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
CN104461348B (zh) * | 2014-10-31 | 2018-09-04 | 小米科技有限责任公司 | 信息选取方法及装置 |
US10592541B2 (en) * | 2015-05-29 | 2020-03-17 | Intel Corporation | Technologies for dynamic automated content discovery |
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
CN105718445B (zh) * | 2016-01-28 | 2018-05-11 | 中国人民解放军国防科学技术大学 | 词与网页的关联度计算方法及装置 |
CN109255118B (zh) * | 2017-07-11 | 2023-08-08 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN111611341B (zh) * | 2020-04-09 | 2023-04-25 | 中南大学 | 一种词项文档结构位置权重的获取方法及装置 |
WO2021248435A1 (en) * | 2020-06-12 | 2021-12-16 | Bayer Aktiengesellschaft | Method and apparatus for automatically generating summary document |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3997412B2 (ja) * | 2002-11-13 | 2007-10-24 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びにプログラム |
JP4525154B2 (ja) * | 2004-04-21 | 2010-08-18 | 富士ゼロックス株式会社 | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
JPWO2006048998A1 (ja) * | 2004-11-05 | 2008-05-22 | 株式会社アイ・ピー・ビー | キーワード抽出装置 |
US7461056B2 (en) * | 2005-02-09 | 2008-12-02 | Microsoft Corporation | Text mining apparatus and associated methods |
CN100492366C (zh) * | 2007-06-28 | 2009-05-27 | 腾讯科技(深圳)有限公司 | 摘要提取方法以及摘要提取模块 |
CN101398814B (zh) * | 2007-09-26 | 2010-08-25 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
-
2010
- 2010-07-06 CN CN2010102181484A patent/CN102314448B/zh not_active Expired - Fee Related
-
2011
- 2011-07-05 JP JP2011149434A patent/JP5733062B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012018674A (ja) | 2012-01-26 |
CN102314448A (zh) | 2012-01-11 |
CN102314448B (zh) | 2013-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5733062B2 (ja) | 文書からの1つ又は複数のキー要素取得方法及び装置 | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
Soboroff et al. | Overview of the TREC 2006 Enterprise Track. | |
Bergsma et al. | Bootstrapping path-based pronoun resolution | |
Akter et al. | An extractive text summarization technique for Bengali document (s) using K-means clustering algorithm | |
JP4754247B2 (ja) | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 | |
Thakkar et al. | Graph-based algorithms for text summarization | |
US10437867B2 (en) | Scenario generating apparatus and computer program therefor | |
CN105426360B (zh) | 一种关键词抽取方法及装置 | |
US20040243388A1 (en) | System amd method of analyzing text using dynamic centering resonance analysis | |
Guo et al. | A graph-based method for entity linking | |
US10528664B2 (en) | Preserving and processing ambiguity in natural language | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
Sabuna et al. | Summarizing Indonesian text automatically by using sentence scoring and decision tree | |
Attia et al. | Arabic spelling error detection and correction | |
Ozturkmenoglu et al. | Comparison of different lemmatization approaches for information retrieval on Turkish text collection | |
Yang et al. | Ontology generation for large email collections. | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013. | |
Ahmed et al. | Incorporating hand-crafted features in a neural network model for stance detection on microblog | |
Campbell et al. | Content+ context networks for user classification in twitter | |
Castro et al. | Authorship verification, combining linguistic features and different similarity functions | |
JP5477910B2 (ja) | 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法 | |
Campelo et al. | A model for geographic knowledge extraction on web documents | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2012: A Joint Approach. | |
JP4895988B2 (ja) | 文書分類装置の余分構造減退方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150330 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5733062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |