JP6232478B2 - 単一文書からのキーワード抽出装置及び方法 - Google Patents
単一文書からのキーワード抽出装置及び方法 Download PDFInfo
- Publication number
- JP6232478B2 JP6232478B2 JP2016161523A JP2016161523A JP6232478B2 JP 6232478 B2 JP6232478 B2 JP 6232478B2 JP 2016161523 A JP2016161523 A JP 2016161523A JP 2016161523 A JP2016161523 A JP 2016161523A JP 6232478 B2 JP6232478 B2 JP 6232478B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- candidate
- sentence
- key sentence
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Description
(2)チャートベースアルゴリズム。最も古典的アルゴリズムである、TextRankの数式を以下に示す。
(3)区切り文字ベースアルゴリズム。
上記アルゴリズム(1)のTF-IDFは「term frequency-inverse document frequency」の略字であり、これは文書セットやコーパス内の語の重要度を評価するための統計的アルゴリズムである。語の重要度は、それが文書中に出現する回数に比例して増加する。しかしながら、語の重要度は、文書セットやコーパス内の分布範囲に反比例して減少する。分布範囲は文書セットやコーパス内での語の分布度、つまりその語が何個の文書に現われるか、を示す。特に、TFは文書内の語出現頻度を示し、IDFは文書出現頻度の逆数を示す。文書セットやコーパス内では、ある語を含む文書数が少ないほど、その語のIDFが大きくなる。こうして、ある特定文書に高頻度で含まれるが、全ての文書セットやコーパスには低分布度で含まれる(例えば、1文書のみに含まれ他文書には含まれない)語について、TFとIDFの積を計算することで高い重みのTF-IDFが生成される。従ってTF-IDFは、共通語を取り出し(除去し)、キーワードを保持することができる。
図1は本発明の1実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。
その後、計算された包含的重みScore(ω)に基づいて、第1候補キーワードセット11内の候補キーワードが再ソートされる。
同じ発明概念の下で、図5及び図6は、本発明の他の2実施形態に係る、単一文書からのキーワード抽出装置のブロック図である。
その後、計算された包含的重みScore(ω)に基づいて、第1候補キーワードセット11内の候補キーワードが再ソートされる。
101・・・同定部
102・・・分類部
103・・・キー文抽出部
104・・・キーワード抽出部
105・・・ソーティング部
Claims (11)
- 単一文書からキーワードを抽出するための装置であって、
前記単一文書からキー文を抽出するキー文抽出部と、
前記キー文からキーワードを抽出するキーワード抽出部と、
前記単一文書のクラスを同定する同定部と、
前記単一文書内の各文を分類する分類部とを備え、
前記キー文抽出部は、同じクラスを有する複数の単一文書内の前記キー文を第1キー文セットとして抽出し、
前記キーワード抽出部は、前記第1キー文セットから候補キーワードを抽出することを特徴とするキーワード抽出装置。 - 前記キーワード抽出部は、前記第1キー文セットから候補キーワードを第1キーワードセットとして抽出し、
前記キー文抽出部は、コーパスから、前記第1キー文セット内のキー文と類似した文を第2キー文セットとして抽出し、
前記キーワード抽出部は、前記第2キー文セットから候補キーワードを第2キーワードセットとして抽出し、
前記キーワード抽出装置は、前記第2キーワードセットに基づいて、前記第1キーワードセット内の各候補キーワードを再ソートするソーティング部を更に備え、
前記キーワード抽出部は、再ソートされた前記第1キーワードセットから目標キーワードを抽出する、請求項1に記載のキーワード抽出装置。 - 前記ソーティング部は、前記第1キーワードセットの重み、前記第1キーワードセット内の各候補キーワードの重み、前記第2キーワードセットの重み、前記第2キーワードセット内の各候補キーワードの重みに基づいて、前記第1キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて第1キーワードセット内の各候補キーワードを再ソートする、請求項2に記載のキーワード抽出装置。
- 前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワードを前記第2キーワードセットから削除し、この削除処理の施された前記第2キーワードセットから候補キーワードを抽出する、請求項2に記載のキーワード抽出装置。
- 前記キー文抽出部は、ユーザ履歴文書から、前記第1キー文セット内のキー文と類似した文を第3キー文セットとして抽出し、
前記キーワード抽出部は、前記第3キー文セットから候補キーワードを第3キーワードセットとして抽出し、
前記ソーティング部は、前記第3キーワードセットに基づいて、前記第1キーワードセット内の各候補キーワードを再ソートし、
前記キーワード抽出部は、再ソートされた前記第1キーワードセットから目標キーワードを抽出する、請求項2〜4のいずれかに記載のキーワード抽出装置。 - 前記キー文抽出部は
前記コーパス内の文と前記キー文との類似度を計算し、前記コーパスから、前記類似度が第1閾値よりも大きい文を、前記第2キー文セットとして抽出し、
前記ユーザ履歴文書内の文と前記キー文との類似度を計算し、前記ユーザ履歴文書から、前記類似度が第2閾値よりも大きい文を、前記第3キー文セットとして抽出する、請求項5に記載のキーワード抽出装置。 - 前記ソーティング部は、前記第1キーワードセットの重み、前記第1キーワードセット内の各候補キーワードの重み、前記第3キーワードセットの重み、前記第3キーワードセット内の各候補キーワードの重みに基づいて、前記第1キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて前記第1キーワードセット内の各候補キーワードを再ソートする、請求項5に記載のキーワード抽出装置。
- 前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワードを前記第3キーワードセットから削除し、この削除処理の施された前記第3キーワードセットから候補キーワードを抽出する、請求項5に記載のキーワード抽出装置。
- 前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワード、前記第2キーワードセットから抽出された候補キーワード、前記第3キーワードセットから抽出された候補キーワードをマージして目標キーワードを生成する、請求項8に記載のキーワード抽出装置。
- 単一文書からのキーワード抽出装置を制御するための方法であって、
前記単一文書からキー文を抽出するステップと、
前記キー文からキーワードを抽出するステップと、
前記単一文書のクラスを同定するステップと、
前記単一文書内の各文を分類するステップとを備え、
前記キー文を抽出するステップは、同じクラスを有する複数の単一文書内の前記キー文を第1キー文セットとして抽出し、
前記キーワードを抽出するステップは、前記第1キー文セットから候補キーワードを抽出することを特徴とするキーワード抽出方法。 - 単一文書からキーワードを抽出するためのコンピュータに用いられるプログラムであって、
前記コンピュータに、
前記単一文書からキー文を抽出する機能と、
前記キー文からキーワードを抽出する機能と、
前記単一文書のクラスを同定する機能と、
前記単一文書内の各文を分類する機能とを備え、
前記キー文を抽出する機能は、同じクラスを有する複数の単一文書内の前記キー文を第1キー文セットとして抽出し、
前記キーワードを抽出する機能は、前記第1キー文セットから候補キーワードを抽出することを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510632825.X | 2015-09-29 | ||
CN201510632825.XA CN106557460A (zh) | 2015-09-29 | 2015-09-29 | 从单文档中提取关键词的装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017068833A JP2017068833A (ja) | 2017-04-06 |
JP6232478B2 true JP6232478B2 (ja) | 2017-11-15 |
Family
ID=58409539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016161523A Active JP6232478B2 (ja) | 2015-09-29 | 2016-08-19 | 単一文書からのキーワード抽出装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170091318A1 (ja) |
JP (1) | JP6232478B2 (ja) |
CN (1) | CN106557460A (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376131A (zh) * | 2018-03-14 | 2018-08-07 | 中山大学 | 基于seq2seq深度神经网络模型的关键词抽取方法 |
CN109062895B (zh) * | 2018-07-23 | 2022-06-24 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN111433768B (zh) * | 2019-03-07 | 2024-01-16 | 北京京东尚科信息技术有限公司 | 智能引导购物的系统和方法 |
US11514498B2 (en) * | 2019-03-07 | 2022-11-29 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for intelligent guided shopping |
CN110298035B (zh) * | 2019-06-04 | 2023-12-01 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
CN110598209B (zh) * | 2019-08-21 | 2022-11-04 | 合肥工业大学 | 用于提取关键词的方法、系统及存储介质 |
CN111090997B (zh) * | 2019-12-20 | 2021-07-20 | 中南大学 | 一种基于分级词项的地质文档特征词项排序方法与装置 |
CN111680505B (zh) * | 2020-04-21 | 2023-08-08 | 华东师范大学 | 一种Markdown特征感知的无监督关键词提取方法 |
CN112364601B (zh) * | 2020-10-28 | 2023-04-07 | 南阳理工学院 | 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置 |
CN112597776A (zh) * | 2021-03-08 | 2021-04-02 | 中译语通科技股份有限公司 | 关键词提取方法及系统 |
CN113723058B (zh) * | 2021-11-02 | 2022-03-08 | 深圳市北科瑞讯信息技术有限公司 | 文本摘要与关键词抽取方法、装置、设备及介质 |
CN114281992A (zh) * | 2021-12-22 | 2022-04-05 | 北京朗知网络传媒科技股份有限公司 | 基于传媒领域的汽车文章智能分类方法及系统 |
CN115878847B (zh) * | 2023-02-21 | 2023-05-12 | 云启智慧科技有限公司 | 基于自然语言的视频引导方法、系统、设备及存储介质 |
CN117743376B (zh) * | 2024-02-19 | 2024-05-03 | 蓝色火焰科技成都有限公司 | 一种数字金融服务的大数据挖掘方法、装置及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3691844B2 (ja) * | 1990-05-21 | 2005-09-07 | 株式会社東芝 | 文書処理方法 |
JP2572314B2 (ja) * | 1991-05-31 | 1997-01-16 | 株式会社テレマティーク国際研究所 | キーワード抽出装置 |
CN1145899C (zh) * | 2000-09-07 | 2004-04-14 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
US8155951B2 (en) * | 2003-06-12 | 2012-04-10 | Patrick William Jamieson | Process for constructing a semantic knowledge base using a document corpus |
US20080109454A1 (en) * | 2006-11-03 | 2008-05-08 | Willse Alan R | Text analysis techniques |
CN101533393A (zh) * | 2008-03-11 | 2009-09-16 | 深圳市乐天科技有限公司 | 用电子装置对文章句子快速进行的分类及检索方法 |
KR101005337B1 (ko) * | 2008-09-29 | 2011-01-04 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
US8533208B2 (en) * | 2009-09-28 | 2013-09-10 | Ebay Inc. | System and method for topic extraction and opinion mining |
JP2011095905A (ja) * | 2009-10-28 | 2011-05-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2011197863A (ja) * | 2010-03-18 | 2011-10-06 | Konica Minolta Business Technologies Inc | コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム |
US20150120738A1 (en) * | 2010-12-09 | 2015-04-30 | Rage Frameworks, Inc. | System and method for document classification based on semantic analysis of the document |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
KR20130097290A (ko) * | 2012-02-24 | 2013-09-03 | 한국전자통신연구원 | 사용자의 관심주제를 기반으로 인터넷 문서를 제공하는 장치 및 그 방법 |
US9244909B2 (en) * | 2012-12-10 | 2016-01-26 | General Electric Company | System and method for extracting ontological information from a body of text |
US9189540B2 (en) * | 2013-04-05 | 2015-11-17 | Hewlett-Packard Development Company, L.P. | Mobile web-based platform for providing a contextual alignment view of a corpus of documents |
US10191893B2 (en) * | 2013-07-22 | 2019-01-29 | Open Text Holdings, Inc. | Information extraction and annotation systems and methods for documents |
CN104679733B (zh) * | 2013-11-26 | 2018-02-23 | 中国移动通信集团公司 | 一种语音对话翻译方法、装置及系统 |
CN103853824B (zh) * | 2014-03-03 | 2017-05-24 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN103995853A (zh) * | 2014-05-12 | 2014-08-20 | 中国科学院计算技术研究所 | 基于关键句的多语言情感数据处理分类方法及系统 |
CN104281645B (zh) * | 2014-08-27 | 2017-06-16 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
-
2015
- 2015-09-29 CN CN201510632825.XA patent/CN106557460A/zh active Pending
-
2016
- 2016-08-19 JP JP2016161523A patent/JP6232478B2/ja active Active
- 2016-08-25 US US15/247,396 patent/US20170091318A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2017068833A (ja) | 2017-04-06 |
CN106557460A (zh) | 2017-04-05 |
US20170091318A1 (en) | 2017-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6232478B2 (ja) | 単一文書からのキーワード抽出装置及び方法 | |
Kadhim | An evaluation of preprocessing techniques for text classification | |
KR102019194B1 (ko) | 문서 내 핵심 키워드 추출 시스템 및 방법 | |
Dadgar et al. | A novel text mining approach based on TF-IDF and Support Vector Machine for news classification | |
US11645475B2 (en) | Translation processing method and storage medium | |
Usman et al. | Urdu text classification using majority voting | |
US10353925B2 (en) | Document classification device, document classification method, and computer readable medium | |
KR101713558B1 (ko) | 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법 | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
Lee et al. | Chinese sentiment analysis using maximum entropy | |
Alhutaish et al. | Arabic text classification using k-nearest neighbour algorithm | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
JP5012078B2 (ja) | カテゴリ作成方法、カテゴリ作成装置、およびプログラム | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN110866102A (zh) | 检索处理方法 | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
Ayadi et al. | A Survey of Arabic Text Representation and Classification Methods. | |
Baraka et al. | Arabic text author identification using support vector machines | |
JP2021501387A (ja) | 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム | |
Mountassir et al. | Some methods to address the problem of unbalanced sentiment classification in an arabic context | |
Cai et al. | Indonesian automatic text summarization based on a new clustering method in sentence level | |
Çano | Albmore: A corpus of movie reviews for sentiment analysis in albanian | |
JP2017068742A (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170922 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171023 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6232478 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |