JP2012018674A - 文書からの1つ又は複数のキー要素取得方法及び装置 - Google Patents
文書からの1つ又は複数のキー要素取得方法及び装置 Download PDFInfo
- Publication number
- JP2012018674A JP2012018674A JP2011149434A JP2011149434A JP2012018674A JP 2012018674 A JP2012018674 A JP 2012018674A JP 2011149434 A JP2011149434 A JP 2011149434A JP 2011149434 A JP2011149434 A JP 2011149434A JP 2012018674 A JP2012018674 A JP 2012018674A
- Authority
- JP
- Japan
- Prior art keywords
- layer
- weight
- component
- title
- intra
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】前記方法は、文書から少なくとも標題要素を含む構成要素を抽出するステップであって、文書は、複数の構成上の層を有し、構造上の層は、少なくとも標題層を含み、構成要素の各々は、各自の層に対応するステップと、標題層を除く1層における被抽出構成要素の対応層内の層内重みを決定するステップと、被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定するステップと、被抽出構成要素と標題要素との間の全体重みを決定するステップと、被抽出構成要素の層内重みと、層間重みと、全体重みとの組み合わせにより、被抽出構成要素の最終重みを決定するステップと、前記1層における構成要素の最終重みに基づき、前記1層における1つ又は複数のキー要素を取得するステップを含む。
【選択図】図1
Description
標題は、1つの文書の比較的重要な情報を表していること、
句が重要な領域にあると、これらの句も比較的に重要であること、
領域に重要な句が含まれていると、この領域も比較的に重要であること、
語が重要な句にあると、これらの語も比較的に重要であること、及び、
句に重要な語が含まれていると、この句も比較的に重要であること、が分かる。
以下、領域、句、語要素の層内重みの具体的な算出方法について詳細に説明する。該算出方法は、以下のステップにより行われる。
先ず、各構成要素に初期重みを与える(S201、S202、S203)。
ここで、該構成要素とその対応層内の他の構成要素間の層内関係チェーンの重みを決定することができる。
該構成要素の初期重みとその層内関係チェーンの重みから、構成要素の対応層内の層内重みを決定することができる。TextRankのグラフによる算出法を用いて、該構成要素の初期重みとその層内関係チェーンの重みから、該構成要素のその対応層内の層内重みを算出してもよい。
Out(Vj)は、該ノードVjに関連するノード集合(すなわち、図5におけるViとVkとVl)を表し、
ωjiは、該2つのノード(ViとVj)間の辺(関連)の重み、例えば、前述により求められた関係チェーンの重みを表し、
該式におけるVjは、現在ノードViに関連するノードのうちの1つを表している。
構成要素と他の層における構成要素間の含有回数、該構成要素の層内重み及び/または他の層の構成要素の層内重みから、該構成要素の層間重みを算出することができる。
構成要素と標題要素に共通に含まれる語や字の数、共通に含まれる語や字の出現頻度、共通に含まれる語や字の性質、構成要素の語や字の総数、標題要素の語や字の総数、構成要素の層内重み及び/または構成要素の層間重みといった、これらのパラメータのうちの1つまたは複数により、構成要素の全体重みを算出することができる。
標題については、標題を他の全ての下層要素に関連する全体重みと見なしてもよく、標題を検索条件として関連構成要素を検索するプロセスと理解してもよい。標題は、通常、1つの文書の主題や最も重要な情報を表しているため、標題情報の使用は、キー要素の取得に潜在的な意義がある。本願の1実施例においては、句を例にすると、各句は、標題から追加の重み付きを得ることができ(全体重みと称する)、標題をStとすると、ステップS212における全体重みの算出式(6)は、
先ず、ある語/字の頻度が句の語頻度と全文の語頻度を含むとする。所謂「句の語頻度」とは、ある語/字の全文における全ての句に出現する頻度を指し、該語がある句に出現すると1とカウントし、ある句に繰り返し出現するとカウントを加算しないといった、2つの特徴がある。該句の頻度は、通常の全文の語頻度とは異なり、全文の語頻度は、該語の全文に出現する頻度を指している。
具体的には、各要素の最終重みの組み合わせは、該要素の層内重み、層間重み、及び標題からの全体重みの共同により決められ、下記式の通りである。
Wcrossは、算出された層間重みを表し、
Wtitleは、算出された標題に基づく全体重みを表し、
λi、λc、λtは、各重みに対応する経験比率を表し、実際の応用においては、状況に応じて変化するものと見なされ、ゼロであってもよい。
以上の各ステップにより、各異なる層における異なる要素の、最終重みスコアが得られる。いずれかの層のキー要素を取得したい場合は、該当層の全ての要素に対して最終重みの大きさ順で並べ替えを行い、最終重みが最高となるnの要素をキー要素とすればよい。
Claims (13)
- 文書から1つまたは複数のキー要素を取得する方法であって、
a)前記文書から少なくとも標題要素を含む構成要素を抽出するステップであって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、前記構成要素の各々は、各自の層に対応するステップと、
b)前記標題層を除く1層における被抽出構成要素の対応層内の層内重みを決定するステップと、
c)前記被抽出構成要素と、前記対応層及び前記標題層以外の他の層における構成要素との層間重みを決定するステップと、
d)前記被抽出構成要素と、前記標題要素との間の全体重みを決定するステップと、
e)前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定するステップと、
f)前記1層における前記構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するステップと、を含む、方法。 - 前記構成要素が、さらに、領域要素、段落要素、句要素、語要素、字要素のうち少なくとも一つを有し、前記構成上の層が、さらに、領域層、段落層、句層、語層、字層のうち少なくとも一つを有する、請求項1に記載の方法。
- 前記ステップb)が、
b−1)前記被抽出構成要素に初期重みを付与し、
b−2)前記被抽出構成要素と、前記対応層内の他の構成要素との間の層内関係チェーンの重みを決定し、
b−3)前記被抽出構成要素の初期重みと、前記層内関係チェーンの重みとに基づき、前記被抽出構成要素の対応層内の層内重みを決定することを含む、請求項1又は2に記載の方法。 - 前記ステップb−1)において、
領域要素または段落要素の初期重みが、領域または段落の位置情報に関係し、句要素の初期重みが、該句の他の句に引用される回数に関係し、及び/或いは、語または字の初期重みが、該語または字の性質、及び/または、出現頻度に関係している、請求項3に記載の方法。 - 前記ステップb−2)において、
領域要素、段落要素、句要素に対し、2つの構成要素間に共通に含まれる語または字の数、及び2つの構成要素の語または字の総数から、2つの構成要素間の層内関係チェーンの重みを算出し、
語要素と字要素に対しては、同層の2つの構成要素の、同一の所定サイズの要素窓に同時出現した際の距離、及び該要素窓の所定サイズにより、2つの構成要素の該要素窓内の関連値を算出し、
該2つの構成要素の文書全体における各要素窓内の関連値の和から、該2つの構成要素の文書全体における層内関係チェーンの重みを算出する、請求項3に記載の方法。 - 前記ステップb−3)において、
TextRankのグラフに基づく演算法を用いて、前記被抽出構成要素の初期重みとその層内関係チェーンの重みから、前記被抽出構成要素の対応層内の層内重みを算出する、請求項3に記載の方法。 - 前記ステップc)において、
前記被抽出構成要素と前記他層中の構成要素との間の含有回数、該被抽出構成要素の層内重み、及び/または、他層の構成要素の層内重みといったパラメータのうち1つまたは複数により、前記被抽出構成要素の層間重みを算出する、請求項1又は2に記載の方法。 - 前記ステップd)において、
前記被抽出構成要素と前記標題要素に共通に含まれる語または字の数と、共通に含まれる語または字の出現頻度と、共通に含まれる語または字の性質と、前記被抽出構成要素の語または字の総数と、前記標題要素の語または字の総数と、前記被抽出構成要素の層内重み、及び/または、前記被抽出構成要素の層間重みといったパラメータのうち1つまたは複数により、前記被抽出構成要素の全体重みを算出する、請求項1又は2に記載の方法。 - 前記ステップf)において、
前記1層における構成要素の最終重みの並べ替えを行い、該最終重みが最高となる1つまたは複数の構成要素を前記1層における1つまたは複数のキー要素とする、請求項1に記載の方法。 - 文書から1つまたは複数のキー要素を取得する装置であって、
前記文書から少なくとも標題要素を含む構成要素を抽出する抽出装置であって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、前記構成要素の各々は、各自の層に対応する抽出装置と、
前記標題層を除く1層における前記被抽出構成要素の対応層内の層内重みを決定する層内重み決定装置と、
前記被抽出構成要素と、対応層及び標題層以外の他の層における構成要素との層間重みを決定する層間重み決定装置と、
前記被抽出構成要素と、標題要素との間の全体重みを決定する全体重み決定装置と、
前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定する最終重み決定装置と、
前記1層における構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するキー要素取得装置と、を含む、装置。 - 前記構成要素が、さらに、領域要素、段落要素、句要素、語要素、字要素のうちの少なくとも一つを有し、前記構成上の層が、さらに、領域層、段落層、句層、語層、字層のうち少なくとも一つを有する、請求項10に記載の装置。
- 文書から1つまたは複数のキー要素を取得するプログラムであって、
コンピュータに、
a)前記文書から少なくとも標題要素を含む構成要素を抽出するステップであって、前記文書は、複数の構成上の層を有し、前記構造上の層は、少なくとも標題層を含み、前記構成要素の各々は、各自の層に対応するステップと、
b)前記標題層を除く1層における被抽出構成要素の対応層内の層内重みを決定するステップと、
c)前記被抽出構成要素と、前記対応層及び前記標題層以外の他の層における構成要素との層間重みを決定するステップと、
d)前記被抽出構成要素と、前記標題要素との間の全体重みを決定するステップと、
e)前記被抽出構成要素の層内重みと、前記層間重みと、前記全体重みとの組み合わせにより、前記被抽出構成要素の最終重みを決定するステップと、
f)前記1層における前記構成要素の最終重みに基づき、前記1層における1つまたは複数のキー要素を取得するステップと、
を実行させるためのプログラム。 - 請求項12に記載のプログラムを記憶しているコンピュータ読み出し可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010218148.4 | 2010-07-06 | ||
CN2010102181484A CN102314448B (zh) | 2010-07-06 | 2010-07-06 | 一种在文档中获得一个或多个关键元素的设备和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012018674A true JP2012018674A (ja) | 2012-01-26 |
JP5733062B2 JP5733062B2 (ja) | 2015-06-10 |
Family
ID=45427627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011149434A Active JP5733062B2 (ja) | 2010-07-06 | 2011-07-05 | 文書からの1つ又は複数のキー要素取得方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5733062B2 (ja) |
CN (1) | CN102314448B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017505962A (ja) * | 2014-10-31 | 2017-02-23 | 小米科技有限責任公司Xiaomi Inc. | 情報選択方法及び装置 |
JP2018519561A (ja) * | 2015-05-29 | 2018-07-19 | インテル・コーポレーション | コンテンツの動的な自動発見のための技術 |
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
CN113468861A (zh) * | 2020-06-12 | 2021-10-01 | 拜耳股份有限公司 | 自动生成摘要文档的方法和装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
CN105718445B (zh) * | 2016-01-28 | 2018-05-11 | 中国人民解放军国防科学技术大学 | 词与网页的关联度计算方法及装置 |
CN109255118B (zh) * | 2017-07-11 | 2023-08-08 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN111611341B (zh) * | 2020-04-09 | 2023-04-25 | 中南大学 | 一种词项文档结构位置权重的获取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004164290A (ja) * | 2002-11-13 | 2004-06-10 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2005309706A (ja) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
US20060206306A1 (en) * | 2005-02-09 | 2006-09-14 | Microsoft Corporation | Text mining apparatus and associated methods |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101069177A (zh) * | 2004-11-05 | 2007-11-07 | 株式会社Ipb | 关键字抽取装置 |
CN100492366C (zh) * | 2007-06-28 | 2009-05-27 | 腾讯科技(深圳)有限公司 | 摘要提取方法以及摘要提取模块 |
CN101398814B (zh) * | 2007-09-26 | 2010-08-25 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
-
2010
- 2010-07-06 CN CN2010102181484A patent/CN102314448B/zh not_active Expired - Fee Related
-
2011
- 2011-07-05 JP JP2011149434A patent/JP5733062B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004164290A (ja) * | 2002-11-13 | 2004-06-10 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2005309706A (ja) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
US20060206306A1 (en) * | 2005-02-09 | 2006-09-14 | Microsoft Corporation | Text mining apparatus and associated methods |
Non-Patent Citations (6)
Title |
---|
CSNG200900092014; 天野 禎章 他: '不要文除去を目的とした重要文抽出システム' 言語処理学会第15回年次大会発表論文集 , 20090302, pp.64-67., 言語処理学会 * |
CSNG200900564003; 金子 浩一 他: '情報信憑性判断のための調停要約の提案' 電子情報通信学会技術研究報告 Vol.109,No.234(NLC2009-10), 20091009, pp.19-24., 社団法人電子情報通信学会 * |
CSNG201000459071; 永井 隆広 他: '多層ネットワーク型TextRankによる根拠関係を考慮した重要パッセージ抽出' 言語処理学会第16回年次大会発表論文集 , 20100308, pp.294-297., 言語処理学会 * |
JPN6014053356; 永井 隆広 他: '多層ネットワーク型TextRankによる根拠関係を考慮した重要パッセージ抽出' 言語処理学会第16回年次大会発表論文集 , 20100308, pp.294-297., 言語処理学会 * |
JPN6014053357; 金子 浩一 他: '情報信憑性判断のための調停要約の提案' 電子情報通信学会技術研究報告 Vol.109,No.234(NLC2009-10), 20091009, pp.19-24., 社団法人電子情報通信学会 * |
JPN6014053360; 天野 禎章 他: '不要文除去を目的とした重要文抽出システム' 言語処理学会第15回年次大会発表論文集 , 20090302, pp.64-67., 言語処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017505962A (ja) * | 2014-10-31 | 2017-02-23 | 小米科技有限責任公司Xiaomi Inc. | 情報選択方法及び装置 |
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
JP2018519561A (ja) * | 2015-05-29 | 2018-07-19 | インテル・コーポレーション | コンテンツの動的な自動発見のための技術 |
CN113468861A (zh) * | 2020-06-12 | 2021-10-01 | 拜耳股份有限公司 | 自动生成摘要文档的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102314448B (zh) | 2013-12-04 |
CN102314448A (zh) | 2012-01-11 |
JP5733062B2 (ja) | 2015-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5733062B2 (ja) | 文書からの1つ又は複数のキー要素取得方法及び装置 | |
Soboroff et al. | Overview of the TREC 2006 Enterprise Track. | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
Bergsma et al. | Bootstrapping path-based pronoun resolution | |
JP4754247B2 (ja) | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 | |
Quercini et al. | Determining the spatial reader scopes of news sources using local lexicons | |
CN1728142B (zh) | 信息检索系统中的短语识别方法和设备 | |
CN105426360B (zh) | 一种关键词抽取方法及装置 | |
US20040243388A1 (en) | System amd method of analyzing text using dynamic centering resonance analysis | |
JP2004139553A (ja) | 文書検索システムおよび質問応答システム | |
JP5085708B2 (ja) | キーワード提示装置、方法及びプログラム | |
JP2014519123A (ja) | インデックスドキュメントの発見 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
Attia et al. | Arabic spelling error detection and correction | |
Huang et al. | AKMiner: Domain-specific knowledge graph mining from academic literatures | |
Ozturkmenoglu et al. | Comparison of different lemmatization approaches for information retrieval on Turkish text collection | |
Silva et al. | Automatic expansion of a social judgment lexicon for sentiment analysis | |
JP5441760B2 (ja) | 文書間距離算出器および文章検索器 | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013. | |
Campbell et al. | Content+ context networks for user classification in twitter | |
Rumagit et al. | Comparison of graph-based and term weighting method for automatic summarization of online news | |
Castro et al. | Authorship verification, combining linguistic features and different similarity functions | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
Campelo et al. | A model for geographic knowledge extraction on web documents | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2012: A Joint Approach. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150330 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5733062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |