JP6985181B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP6985181B2 JP6985181B2 JP2018034643A JP2018034643A JP6985181B2 JP 6985181 B2 JP6985181 B2 JP 6985181B2 JP 2018034643 A JP2018034643 A JP 2018034643A JP 2018034643 A JP2018034643 A JP 2018034643A JP 6985181 B2 JP6985181 B2 JP 6985181B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- keyword
- extractor
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 47
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000011156 evaluation Methods 0.000 claims description 54
- 238000000034 method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 description 25
- 239000013598 vector Substances 0.000 description 19
- 238000012545 processing Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000277269 Oncorhynchus masou Species 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、関連する文書同士が人手によって同じグループに分類された複数の文書と、複数の文書から、文書内において所定の特徴を有するキーワードを抽出するキーワード抽出器によって抽出されたキーワードとを取得する。情報処理装置は、複数の文書とキーワードとを取得すると、グループ内の文書間のキーワードの一致度合に基づいて、キーワード抽出器の性能を評価する。キーワード抽出器の性能が高いほど、キーワード抽出器により抽出されたキーワードが、文書本来の意味や概念を表したものとなる。このようなキーワードを利用して文書検索を行った場合、キーワード抽出器がキーワードの抽出対象とした文書に関連した文書を検索することができる。この結果、ユーザの情報収集の効率を向上させることができる。
[全体構成]
図1は、第1実施形態における情報処理装置100を含む情報処理システム1の一例を示す図である。第1実施形態における情報処理システム1は、例えば、一以上の端末装置10と、サービス提供装置20と、情報処理装置100とを備える。これらの装置は、ネットワークNWを介して接続される。
図4は、第1実施形態における情報処理装置100の構成の一例を示す図である。図示のように、情報処理装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
以下、第1実施形態における情報処理装置100による一連の処理の流れをフローチャートに即して説明する。図5は、第1実施形態における情報処理装置100による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。
以下、第2実施形態について説明する。第2実施形態では、キーワードの抽出対象となる文書に類似する複数の類似文書のうち、キーワードの抽出対象となる文書に出現するキーワードの候補が出現する類似文書の数に基づいて、キーワードの抽出対象となる文書からキーワードを抽出する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
以下、第2実施形態における情報処理装置100Aによる一連の処理の流れをフローチャートに即して説明する。図9は、第2実施形態における情報処理装置100Aによる一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。
図10は、キーワード抽出器EXにより抽出されたキーワードの利用場面の一例を示す図である。図示の例では、ショッピングサイトの一ページを模式的に表している。図中R1で示す領域には、商品の紹介文が掲載されている。このような紹介文は、キーワードの抽出対象の文書として扱われる。例えば、紹介文には、商品の型番(図の例では「ABCDEF‐24」)などが含まれているが、類似文書の単語の出現回数を考慮しない一般的なTF-IDFの場合、型番を表す単語や語句の重みが大きくなり、その型番がキーワードとして抽出されやすい。しかしながら、その商品に似た商品を探すときには、型番よりも概念的に上位の意味をもつ単語や語句がキーワードとして相応しい。概念的に上位の意味をもつ単語や語句とは、他の商品紹介文に含まれる単語や語句と共起し易いものであり、図示の例では、「液晶テレビ」などの単語が該当する。
上述した実施形態の情報処理装置100は、例えば、図11に示すようなハードウェア構成により実現される。図11は、実施形態の情報処理装置100、100Aのハードウェア構成の一例を示す図である。
Claims (8)
- グループに分類された複数の文書と、前記複数の文書から、文書内において所定の特徴を有するキーワードを抽出する抽出器によって抽出された前記キーワードとを取得する取得部と、
前記グループ内の文書間の前記キーワードの一致度合に基づいて、前記抽出器の性能を評価する評価部と、を備え、
前記評価部は、
前記複数の文書の中の着目文書から抽出された前記キーワードと、前記複数の文書に含まれ、前記着目文書以外の他文書から抽出された前記キーワードとの一致度合に基づいて、前記着目文書に対する前記抽出器の性能を評価することを、前記着目文書を変更しながら繰り返し、
前記繰り返し行った評価の結果を総合して、前記抽出器の性能を評価する、
情報処理装置。 - 前記評価部は、前記複数の文書から抽出された前記キーワードが複数存在する場合、
前記着目文書から抽出された複数の前記キーワードの其々と、前記着目文書と同じグループに分類された前記他文書から抽出された複数の前記キーワードの其々との一致度合に基づいて、前記着目文書から抽出された前記キーワード毎に評価値を導出し、
前記キーワード毎の前記評価値の平均を、前記着目文書に対する前記抽出器の性能の評価の結果とする、
請求項1に記載の情報処理装置。 - 前記評価部は、前記複数の文書の中の着目文書と同じグループに分類された複数の前記他文書のうち、前記着目文書と同じキーワードが抽出された前記他文書の数と、前記複数の文書の中から前記着目文書を除いた複数の前記他文書のうち、前記着目文書と同じキーワードが抽出された前記他文書の数とに基づいて、前記着目文書に対する前記抽出器の性能を評価する、
請求項1または2に記載の情報処理装置。 - 前記評価部は、前記複数の文書の中の着目文書と同じグループに分類された複数の前記他文書のうち、前記着目文書と同じキーワードが抽出された前記他文書の数と、前記着目文書と同じグループに分類された前記他文書の数とに基づいて、前記着目文書に対する前記抽出器の性能を評価する、
請求項1から3のうちいずれか1項に記載の情報処理装置。 - 前記評価部は、
前記複数の文書の其々に対する前記抽出器の性能の評価した評価値を、前記グループ毎に平均し、
前記グループ毎に平均した前記評価値に基づいて、前記抽出器の性能を評価する、
請求項1から4のうちいずれか1項に記載の情報処理装置。 - 前記抽出器は、前記複数の文書に含まれる着目文書に類似する複数の類似文書のうち、前記着目文書に出現するキーワードの候補が出現する前記類似文書の数に基づいて、前記着目文書に含まれる前記キーワードの候補を前記キーワードとして抽出する、
請求項1から5のうちいずれか1項に記載の情報処理装置。 - コンピュータが、
グループに分類された複数の文書と、前記複数の文書から、文書内において所定の特徴を有するキーワードを抽出する抽出器によって抽出された前記キーワードとを取得し、
前記グループ内の文書間の前記キーワードの一致度合に基づいて、前記抽出器の性能を評価し、
前記複数の文書の中の着目文書から抽出された前記キーワードと、前記複数の文書に含まれ、前記着目文書以外の他文書から抽出された前記キーワードとの一致度合に基づいて、前記着目文書に対する前記抽出器の性能を評価することを、前記着目文書を変更しながら繰り返し、
前記繰り返し行った評価の結果を総合して、前記抽出器の性能を評価する、
情報処理方法。 - コンピュータに、
グループに分類された複数の文書と、前記複数の文書から、文書内において所定の特徴を有するキーワードを抽出する抽出器によって抽出された前記キーワードとを取得する処理と、
前記グループ内の文書間の前記キーワードの一致度合に基づいて、前記抽出器の性能を評価する処理と、
前記複数の文書の中の着目文書から抽出された前記キーワードと、前記複数の文書に含まれ、前記着目文書以外の他文書から抽出された前記キーワードとの一致度合に基づいて、前記着目文書に対する前記抽出器の性能を評価することを、前記着目文書を変更しながら繰り返す処理と、
前記繰り返し行った評価の結果を総合して、前記抽出器の性能を評価する処理と、
を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034643A JP6985181B2 (ja) | 2018-02-28 | 2018-02-28 | 情報処理装置、情報処理方法、およびプログラム |
JP2021191504A JP7297855B2 (ja) | 2018-02-28 | 2021-11-25 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034643A JP6985181B2 (ja) | 2018-02-28 | 2018-02-28 | 情報処理装置、情報処理方法、およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191504A Division JP7297855B2 (ja) | 2018-02-28 | 2021-11-25 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019149102A JP2019149102A (ja) | 2019-09-05 |
JP6985181B2 true JP6985181B2 (ja) | 2021-12-22 |
Family
ID=67848731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018034643A Active JP6985181B2 (ja) | 2018-02-28 | 2018-02-28 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6985181B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102452777B1 (ko) * | 2019-11-28 | 2022-10-07 | 미쓰비시덴키 가부시키가이샤 | 정보 처리 장치, 정보 처리 방법, 및 기록 매체 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241636A (ja) * | 2006-03-08 | 2007-09-20 | Toshiba Corp | 文書データ解析装置および文書データ解析プログラム |
JP5297972B2 (ja) * | 2009-10-21 | 2013-09-25 | 株式会社エヌ・ティ・ティ・データ | 文書判定条件生成装置および文書判定条件生成方法 |
JP2017027495A (ja) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
-
2018
- 2018-02-28 JP JP2018034643A patent/JP6985181B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019149102A (ja) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10503828B2 (en) | System and method for answering natural language question | |
US7519588B2 (en) | Keyword characterization and application | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
US20180268307A1 (en) | Analysis device, analysis method, and computer readable storage medium | |
US20130238621A1 (en) | Entity Augmentation Service from Latent Relational Data | |
US20110022550A1 (en) | Mixing knowledge sources with auto learning for improved entity extraction | |
JP2018156473A (ja) | 解析装置、解析方法、およびプログラム | |
Ponza et al. | A two-stage framework for computing entity relatedness in wikipedia | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
CN110717038A (zh) | 对象分类方法及装置 | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
JP7067884B2 (ja) | 分類装置、分類方法及び分類プログラム | |
US20140012853A1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
JP2018088051A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6985181B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2017134675A (ja) | 情報検索装置及びプログラム | |
JP7297855B2 (ja) | キーワード抽出装置、キーワード抽出方法、およびプログラム | |
Suvorov et al. | Establishing the similarity of scientific and technical documents based on thematic significance | |
Kato et al. | Content-based retrieval for heterogeneous domains: domain adaptation by relative aggregation points | |
JP7088795B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7088644B2 (ja) | 提供装置、提供方法及び提供プログラム | |
CN110147488B (zh) | 页面内容的处理方法、处理装置、计算设备及存储介质 | |
JP5246932B2 (ja) | 検索装置及び方法、ならびに、コンピュータプログラム | |
Hamamreh et al. | Tag ranking multi-agent semantic social networks | |
JP6160018B1 (ja) | 情報解析装置、情報解析方法、および情報解析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6985181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |