JP7297855B2 - キーワード抽出装置、キーワード抽出方法、およびプログラム - Google Patents
キーワード抽出装置、キーワード抽出方法、およびプログラム Download PDFInfo
- Publication number
- JP7297855B2 JP7297855B2 JP2021191504A JP2021191504A JP7297855B2 JP 7297855 B2 JP7297855 B2 JP 7297855B2 JP 2021191504 A JP2021191504 A JP 2021191504A JP 2021191504 A JP2021191504 A JP 2021191504A JP 7297855 B2 JP7297855 B2 JP 7297855B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- documents
- interest
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 37
- 238000012545 processing Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 description 37
- 230000010365 information processing Effects 0.000 description 28
- 239000013598 vector Substances 0.000 description 19
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000021615 conjugation Effects 0.000 description 6
- 241000282412 Homo Species 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 241000277269 Oncorhynchus masou Species 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Description
キーワード抽出装置である。
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、関連する文書同士が人手によって同じグループに分類された複数の文書と、複数の文書から、文書内において所定の特徴を有するキーワードを抽出するキーワード抽出器によって抽出されたキーワードとを取得する。情報処理装置は、複数の文書とキーワードとを取得すると、グループ内の文書間のキーワードの一致度合に基づいて、キーワード抽出器の性能を評価する。キーワード抽出器の性能が高いほど、キーワード抽出器により抽出されたキーワードが、文書本来の意味や概念を表したものとなる。このようなキーワードを利用して文書検索を行った場合、キーワード抽出器がキーワードの抽出対象とした文書に関連した文書を検索することができる。この結果、ユーザの情報収集の効率を向上させることができる。
[全体構成]
図1は、第1実施形態における情報処理装置100を含む情報処理システム1の一例を示す図である。第1実施形態における情報処理システム1は、例えば、一以上の端末装置10と、サービス提供装置20と、情報処理装置100とを備える。これらの装置は、ネットワークNWを介して接続される。
図4は、第1実施形態における情報処理装置100の構成の一例を示す図である。図示のように、情報処理装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
以下、第1実施形態における情報処理装置100による一連の処理の流れをフローチャートに即して説明する。図5は、第1実施形態における情報処理装置100による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。
以下、第2実施形態について説明する。第2実施形態では、キーワードの抽出対象となる文書に類似する複数の類似文書のうち、キーワードの抽出対象となる文書に出現するキーワードの候補が出現する類似文書の数に基づいて、キーワードの抽出対象となる文書からキーワードを抽出する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
以下、第2実施形態における情報処理装置100Aによる一連の処理の流れをフローチャートに即して説明する。図9は、第2実施形態における情報処理装置100Aによる一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。
図10は、キーワード抽出器EXにより抽出されたキーワードの利用場面の一例を示す図である。図示の例では、ショッピングサイトの一ページを模式的に表している。図中R1で示す領域には、商品の紹介文が掲載されている。このような紹介文は、キーワードの抽出対象の文書として扱われる。例えば、紹介文には、商品の型番(図の例では「ABCDEF‐24」)などが含まれているが、類似文書の単語の出現回数を考慮しない一般的なTF-IDFの場合、型番を表す単語や語句の重みが大きくなり、その型番がキーワードとして抽出されやすい。しかしながら、その商品に似た商品を探すときには、型番よりも概念的に上位の意味をもつ単語や語句がキーワードとして相応しい。概念的に上位の意味をもつ単語や語句とは、他の商品紹介文に含まれる単語や語句と共起し易いものであり、図示の例では、「液晶テレビ」などの単語が該当する。
上述した実施形態の情報処理装置100は、例えば、図11に示すようなハードウェア構成により実現される。図11は、実施形態の情報処理装置100、100Aのハードウェア構成の一例を示す図である。
Claims (8)
- 着目文書と特徴が類似する複数の類似文書のうち、前記着目文書に出現する単語又は語句が出現する前記類似文書の数に基づいて、前記着目文書に含まれる単語又は語句をキーワードとして抽出する処理部を備え、
前記処理部は、前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて出現する前記類似文書の数が多い単語又は語句を、前記キーワードとして抽出する、
キーワード抽出装置。 - 前記処理部は、
前記類似文書の数に基づいて、前記着目文書に出現する単語又は語句ごとに重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、前記類似文書の数が多い単語又は語句ほど大きな前記重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて前記重み係数が大きい単語又は語句を、前記キーワードとして抽出する、
請求項1に記載のキーワード抽出装置。 - 前記処理部は、
前記類似文書の数を、前記複数の類似文書の数で除算した割合を算出し、
前記複数の類似文書、及び前記着目文書と前記特徴が類似しない複数の非類似文書を合わせた全文書のうち、前記着目文書に出現する単語又は語句が出現する文書の数の対数値で、前記算出した割合を除算し、
前記割合と前記対数値との商を、前記重み係数として算出する、
請求項2に記載のキーワード抽出装置。 - 前記処理部は、前記着目文書に出現する単語又は語句を変更しながら、前記着目文書に含まれる単語又は語句ごとに前記重み係数を算出することを繰り返す、
請求項2又は3に記載のキーワード抽出装置。 - 前記処理部は、
前記着目文書に出現する単語又は語句が出現する前記類似文書の前記着目文書に対する前記特徴の類似度に基づいて、前記着目文書に出現する単語又は語句ごとに重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、前記類似度が大きい単語又は語句ほど大きな前記重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて前記重み係数が大きい単語又は語句を、前記キーワードとして抽出する、
請求項1から4のうちいずれか一項に記載のキーワード抽出装置。 - 前記処理部は、
前記複数の類似文書のそれぞれの前記類似度の平均を算出し、
前記複数の類似文書、及び前記着目文書と前記特徴が類似しない複数の非類似文書を合わせた全文書のうち、前記着目文書に出現する単語又は語句が出現する文書の数の対数値で、前記類似度の平均を除算し、
前記類似度の平均と前記対数値との商を、前記重み係数として算出する、
請求項5に記載のキーワード抽出装置。 - コンピュータが、
着目文書と特徴が類似する複数の類似文書のうち、前記着目文書に出現する単語又は語句が出現する前記類似文書の数に基づいて、前記着目文書に含まれる単語又は語句をキーワードとして抽出し、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて出現する前記類似文書の数が多い単語又は語句を、前記キーワードとして抽出する、
キーワード抽出方法。 - コンピュータに、
着目文書と特徴が類似する複数の類似文書のうち、前記着目文書に出現する単語又は語句が出現する前記類似文書の数に基づいて、前記着目文書に含まれる単語又は語句をキーワードとして抽出すること、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて出現する前記類似文書の数が多い単語又は語句を、前記キーワードとして抽出すること、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021191504A JP7297855B2 (ja) | 2018-02-28 | 2021-11-25 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034643A JP6985181B2 (ja) | 2018-02-28 | 2018-02-28 | 情報処理装置、情報処理方法、およびプログラム |
JP2021191504A JP7297855B2 (ja) | 2018-02-28 | 2021-11-25 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018034643A Division JP6985181B2 (ja) | 2018-02-28 | 2018-02-28 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022029461A JP2022029461A (ja) | 2022-02-17 |
JP7297855B2 true JP7297855B2 (ja) | 2023-06-26 |
Family
ID=86900497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191504A Active JP7297855B2 (ja) | 2018-02-28 | 2021-11-25 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7297855B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241636A (ja) | 2006-03-08 | 2007-09-20 | Toshiba Corp | 文書データ解析装置および文書データ解析プログラム |
JP2011090447A (ja) | 2009-10-21 | 2011-05-06 | Ntt Data Corp | 文書判定条件生成装置および文書判定条件生成方法 |
JP2017027495A (ja) | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
-
2021
- 2021-11-25 JP JP2021191504A patent/JP7297855B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241636A (ja) | 2006-03-08 | 2007-09-20 | Toshiba Corp | 文書データ解析装置および文書データ解析プログラム |
JP2011090447A (ja) | 2009-10-21 | 2011-05-06 | Ntt Data Corp | 文書判定条件生成装置および文書判定条件生成方法 |
JP2017027495A (ja) | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022029461A (ja) | 2022-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10503828B2 (en) | System and method for answering natural language question | |
US9171081B2 (en) | Entity augmentation service from latent relational data | |
US7519588B2 (en) | Keyword characterization and application | |
US8103650B1 (en) | Generating targeted paid search campaigns | |
US20070174319A1 (en) | Method for adjusting concept-based keyword functions, and search engine employing the same | |
US20180268307A1 (en) | Analysis device, analysis method, and computer readable storage medium | |
US20130325794A1 (en) | Unified Semantic Ranking of Compositions of Ontological Subjects | |
CN109819015B (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
KR101355945B1 (ko) | 온라인 문맥기반 광고 장치 및 방법 | |
JP2018156473A (ja) | 解析装置、解析方法、およびプログラム | |
US20140201217A1 (en) | Unified Semantic Scoring of Compositions of Ontological Subjects | |
JP2018128942A (ja) | 解析装置、解析方法、およびプログラム | |
JP6434954B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN108280081B (zh) | 生成网页的方法和装置 | |
JP6985181B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6568284B1 (ja) | 提供装置、提供方法及び提供プログラム | |
JP3693514B2 (ja) | 文書検索・分類方法および装置 | |
JP7297855B2 (ja) | キーワード抽出装置、キーワード抽出方法、およびプログラム | |
KR20210071501A (ko) | 상호연관성 기반 우선순위로 정렬된 전문분야 인터넷 검색 서비스 제공 방법 | |
JP2017134675A (ja) | 情報検索装置及びプログラム | |
CN110852078A (zh) | 生成标题的方法和装置 | |
Kato et al. | Content-based retrieval for heterogeneous domains: domain adaptation by relative aggregation points | |
JP7042720B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7088795B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7297855 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |