JP7427510B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP7427510B2 JP7427510B2 JP2020068355A JP2020068355A JP7427510B2 JP 7427510 B2 JP7427510 B2 JP 7427510B2 JP 2020068355 A JP2020068355 A JP 2020068355A JP 2020068355 A JP2020068355 A JP 2020068355A JP 7427510 B2 JP7427510 B2 JP 7427510B2
- Authority
- JP
- Japan
- Prior art keywords
- clusters
- information processing
- key phrase
- score
- processing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 185
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000004364 calculation method Methods 0.000 claims description 56
- 238000000605 extraction Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 20
- 238000007781 pre-processing Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- WBMKMLWMIQUJDP-STHHAXOLSA-N (4R,4aS,7aR,12bS)-4a,9-dihydroxy-3-prop-2-ynyl-2,4,5,6,7a,13-hexahydro-1H-4,12-methanobenzofuro[3,2-e]isoquinolin-7-one hydrochloride Chemical compound Cl.Oc1ccc2C[C@H]3N(CC#C)CC[C@@]45[C@@H](Oc1c24)C(=O)CC[C@@]35O WBMKMLWMIQUJDP-STHHAXOLSA-N 0.000 description 5
- 230000009471 action Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000005553 drilling Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1実施形態について説明する。
Sx(i)=A×B…(1)
つぎに、第2実施形態について説明する。
Sx(i)=A×B×C…(2)
つぎに、第3実施形態について説明する。
つぎに、第4実施形態について説明する。
図14は、実施形態に係る情報処理装置10のハードウェア構成の一例を示す図である。情報処理装置10は、例えば図14に示すようなハードウェア構成のコンピュータにより実現される。情報処理装置10は、CPU(Central Processing Unit)301と、RAM(Random Access Memory)302と、ROM(Read Only Memory)303と、操作入力装置304と、表示装置305と、記憶装置306と、通信装置307とを備える。そして、これらの各部は、バスにより接続される。
12 文書群記憶部
14 文書取得部
16 前処理部
18 特徴抽出部
20 クラスタリング部
22 文書情報記憶部
24 クラスタ情報記憶部
26 初期テンプレート記憶部
28 初期画像生成部
32 指定キーフレーズ取得部
34 文書抽出部
36 スコア算出部
38 クラスタ選択部
40 画像テンプレート記憶部
42 画像生成部
44 表示制御部
62 有用性情報取得部
64 履歴記憶部
72 種別選択部
110 第1ダッシュボード画像
112 第1初期画像
114 第2初期画像
120 入力ボックス
122 項目情報
124 サーチボタン
132 第1グラフ画像
134 第2グラフ画像
136 第3グラフ画像
138 第4グラフ画像
152 共起ネットワーク画像
Claims (14)
- 文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成するクラスタリング部と、
前記文書群から、指定キーフレーズに対応する部分文書群を抽出する文書抽出部と、
前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出するスコア算出部と、
前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択するクラスタ選択部と、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する画像生成部と、
を備え、
前記指定キーフレーズである第1キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第2キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
情報処理装置。 - 前記文書群に含まれるそれぞれの文書は、テキストを含むデータであり、
前記複数のキーフレーズ、前記複数の項目および指定キーフレーズのそれぞれは、単語またはセンテンスである
請求項1に記載の情報処理装置。 - 前記スコア算出部は、前記部分文書群における、算出対象クラスタに含まれる前記複数の項目毎の情報量の特定の項目への集中度に基づき、前記スコアを算出する
請求項1または2に記載の情報処理装置。 - 前記スコア算出部は、前記集中度が大きい程、前記スコアを大きくする
請求項3に記載の情報処理装置。 - 前記スコア算出部は、前記文書群の情報量に対する、算出対象クラスタに属する複数の文書の情報量の割合を示すカバー率に基づき、前記スコアを算出する
請求項1から4の何れか1項に記載の情報処理装置。 - 前記スコア算出部は、前記カバー率が大きい程、前記スコアを大きくする
請求項5に記載の情報処理装置。 - 前記文書抽出部は、
前記文書群から前記第1キーフレーズに対応する前記部分文書群を抽出し、
前記第1キーフレーズに対応する前記部分文書群から、前記第2キーフレーズに対応する前記部分文書群を抽出する
請求項1から6の何れか1項に記載の情報処理装置。 - 前記スコア算出部は、前記相違度が大きい程、前記スコアを大きくする
請求項1から7の何れか1項に記載の情報処理装置。 - 前記複数の表示対象クラスタのそれぞれの前記グラフ画像に対する、ユーザによる有用性の判断結果を取得する有用性情報取得部と、
前記指定キーフレーズと前記判断結果との組を含む履歴情報を記憶する履歴記憶部と、
をさらに備え、
前記スコア算出部は、前記履歴情報に基づき、前記スコアを算出する
請求項1から8の何れか1項に記載の情報処理装置。 - 前記スコア算出部は、算出対象クラスタが、前記指定キーフレーズについて有用であると前記履歴情報に示されている程、前記スコアを大きくする
請求項9に記載の情報処理装置。 - 前記スコア算出部は、前記算出対象クラスタが、前記指定キーフレーズについて予め設定されたユーザによって有用であると判断されている程、前記スコアを大きくする
請求項10に記載の情報処理装置。 - 前記複数の表示対象クラスタのそれぞれの前記グラフ画像を表示させる表示制御部をさらに備え、
前記表示制御部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を、ダッシュボード画像に合成して表示させる
請求項1から11の何れか1項に記載の情報処理装置。 - コンピュータにより実行される情報処理方法であって、
前記コンピュータが、
文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成し、
前記文書群から、指定キーフレーズに対応する部分文書群を抽出し、
前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出し、
前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択し、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記コンピュータが、
前記指定キーフレーズである第1キーフレーズについて、
前記部分文書群を抽出し、
前記複数のクラスタのそれぞれについて、前記スコアを算出し、
前記複数の表示対象クラスタを選択し、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記コンピュータが、
前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第2キーフレーズについて、
前記部分文書群を抽出し、
前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
前記複数の表示対象クラスタを選択し、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
情報処理方法。 - コンピュータを、
文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成するクラスタリング部と、
前記文書群から、指定キーフレーズに対応する部分文書群を抽出する文書抽出部と、
前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出するスコア算出部と、
前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択するクラスタ選択部と、
前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する画像生成部と、
して機能させ、
前記指定キーフレーズである第1キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第2キーフレーズについて、
前記文書抽出部は、前記部分文書群を抽出し、
前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020068355A JP7427510B2 (ja) | 2020-04-06 | 2020-04-06 | 情報処理装置、情報処理方法およびプログラム |
US17/184,690 US11900060B2 (en) | 2020-04-06 | 2021-02-25 | Information processing device, information processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020068355A JP7427510B2 (ja) | 2020-04-06 | 2020-04-06 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021165892A JP2021165892A (ja) | 2021-10-14 |
JP7427510B2 true JP7427510B2 (ja) | 2024-02-05 |
Family
ID=77922218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020068355A Active JP7427510B2 (ja) | 2020-04-06 | 2020-04-06 | 情報処理装置、情報処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11900060B2 (ja) |
JP (1) | JP7427510B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7427510B2 (ja) * | 2020-04-06 | 2024-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019067191A (ja) | 2017-10-02 | 2019-04-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2019164409A (ja) | 2018-03-19 | 2019-09-26 | 株式会社日立ソリューションズ | 文書検索装置、文書検索方法、及び文書検索プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150021561A (ko) * | 2012-06-04 | 2015-03-02 | 이든 락 커뮤니케이션즈, 엘엘씨 | 셀룰러 네트워크 부하 밸런싱을 위한 방법 및 시스템 |
US10248712B1 (en) * | 2016-05-23 | 2019-04-02 | Amazon Technologies, Inc. | Generating a set of representative items using a maximum-set-coverage selection strategy |
US10114887B1 (en) * | 2016-05-23 | 2018-10-30 | Amazon Technologies, Inc. | Generating a set of representative items using a dynamic selection strategy |
US10114885B1 (en) * | 2016-05-23 | 2018-10-30 | Amazon Technologies, Inc. | Generating a set of representative items using a clustering-selection strategy |
JP2019053764A (ja) | 2018-11-28 | 2019-04-04 | 日本電気株式会社 | テキスト可視化システム、テキスト可視化方法、及び、プログラム |
JP2019053763A (ja) | 2018-11-28 | 2019-04-04 | 日本電気株式会社 | テキスト可視化システム、テキスト可視化方法、及び、プログラム |
JP7427510B2 (ja) * | 2020-04-06 | 2024-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
-
2020
- 2020-04-06 JP JP2020068355A patent/JP7427510B2/ja active Active
-
2021
- 2021-02-25 US US17/184,690 patent/US11900060B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019067191A (ja) | 2017-10-02 | 2019-04-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2019164409A (ja) | 2018-03-19 | 2019-09-26 | 株式会社日立ソリューションズ | 文書検索装置、文書検索方法、及び文書検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210312130A1 (en) | 2021-10-07 |
JP2021165892A (ja) | 2021-10-14 |
US11900060B2 (en) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7194471B1 (en) | Document classification system and method for classifying a document according to contents of the document | |
US8412650B2 (en) | Device and method and program of text analysis based on change points of time-series signals | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
WO2016114790A1 (en) | Reading difficulty level based resource recommendation | |
US11928418B2 (en) | Text style and emphasis suggestions | |
JP2021068053A (ja) | 生成装置、及び生成プログラム | |
JP4787955B2 (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
JP7427510B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
JP2009199302A (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
JP2000163437A (ja) | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 | |
JP7256357B2 (ja) | 情報処理装置、制御方法、プログラム | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
US11182561B2 (en) | Data analyzer and data analysis method | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
JP7216627B2 (ja) | 入力支援方法、入力支援システム、及びプログラム | |
JP7408957B2 (ja) | 発想提案支援システム、発想提案支援装置、発想提案支援方法及びプログラム | |
US20220261856A1 (en) | Method for generating search results in an advertising widget | |
JP4346531B2 (ja) | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240124 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7427510 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |