JP2019067191A - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2019067191A JP2019067191A JP2017192750A JP2017192750A JP2019067191A JP 2019067191 A JP2019067191 A JP 2019067191A JP 2017192750 A JP2017192750 A JP 2017192750A JP 2017192750 A JP2017192750 A JP 2017192750A JP 2019067191 A JP2019067191 A JP 2019067191A
- Authority
- JP
- Japan
- Prior art keywords
- sub
- clusters
- unit
- cluster
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】実施形態に係る情報処理装置は、クラスタリング部と、分割部と、項目選択部と、スコア算出部と、決定部と、サブクラスタ生成部と、サブ項目抽出部と、展開画像制御部とを備える。クラスタリング部は、キーフレーズ群を階層クラスタリングする。分割部は、キーフレーズ群を複数の候補クラスタに分割する。スコア算出部は、複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出する。決定部は、スコアが所定の順位の候補クラスタを参照クラスタとして決定する。サブクラスタ生成部は、参照クラスタを複数のサブクラスタに分割する。サブ項目抽出部は、選択された項目の下位層の複数のサブ項目を抽出する。展開画像制御部は、複数のサブ項目のそれぞれ毎且つ複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する。
【選択図】図3
Description
図1は、第1実施形態に係る文書管理システム10の構成を示す図である。文書管理システム10は、業務等で作成された複数の文書を含む文書群を管理する。また、文書管理システム10は、ユーザの操作に応じて、文書群を分類し、分類された複数の文書毎の情報量を表示する。
V(Cn)=α+β+γ …(1)
以上のように、第1実施形態に係る情報処理装置20は、文書群を、検索目的およびユーザの関心点に応じた2つの軸により分類して情報量を提供する。この場合において、情報処理装置20は、一方の軸(項目軸)については予め定めた項目で分類するが、他方の軸(クラスタ軸)についてはクラスタリングにより分類する。そして、情報処理装置20は、ユーザにより予め定められた複数の項目のうち何れか1つの項目が選択された場合、選択された項目に対して有用な複数のサブクラスタを自動的に抽出して、展開画像を生成する。
つぎに、第2実施形態に係る文書管理システム10について説明をする。第2実施形態に係る文書管理システム10は、第1実施形態に係る文書管理システム10と略同一の構成および機能を有する。第2実施形態の説明では、第1実施形態で説明したユニットと、略同一の機能および構成のユニットには同一の符号を付けて、相違点を除き詳細な説明を省略する。
以上のように、第2実施形態に係る情報処理装置20は、文書群を、検索目的およびユーザの関心点に応じた2つの軸により分類して情報量を提供する。この場合において、情報処理装置20は、文書群を、予め定められた複数の第1観点項目および予め定められた複数の第2観点項目で分類して、項目選択画像を表示する。続いて、情報処理装置20は、文書群から、ユーザにより選択された第1観点項目および選択された第2観点項目の両者に分類される複数の文書を含む選択文書群を抽出する。続いて、情報処理装置20は、選択文書群をクラスタリングして複数の候補クラスタを生成する。続いて、情報処理装置20は、選択された第1観点項目および第2観点項目に対して有用な2つの候補クラスタを自動的に決定する。そして、情報処理装置20は、決定した2つの候補クラスタの一方を分類した複数の第1サブクラスタを一方の軸とし、他方を分類した複数の第2サブクラスタを他方の軸とした、クラスタ展開画像を生成する。
情報処理装置20で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供される。また、情報処理装置20で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、情報処理装置20で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
12 表示装置
14 入力装置
16 記憶装置
20 情報処理装置
22 通信部
24 記憶回路
30 処理回路
32 事前処理部
34 第1画像制御部
36 第2画像制御部
42 文書記憶部
44 クラスタ記憶部
46 項目記憶部
52 文書取得部
54 キーフレーズ生成部
56 文書登録部
58 クラスタリング部
60 分割部
62 項目取得部
64 項目登録部
72 開始受付部
74 第1算出部
76 初期画像制御部
78 項目選択部
80 スコア算出部
82 決定部
84 サブクラスタ生成部
86 サブ項目抽出部
88 第2算出部
90 展開画像制御部
94 文書抽出部
96 選択クラスタリング部
98 選択分割部
Claims (13)
- 文書群に含まれる複数のキーフレーズを含むキーフレーズ群を階層クラスタリングするクラスタリング部と、
前記キーフレーズ群を複数の候補クラスタに分割する分割部と、
前記文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を受け付ける項目選択部と、
前記複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出するスコア算出部と、
前記複数の候補クラスタのうち、前記スコアが所定の順位の候補クラスタを参照クラスタとして決定する決定部と、
前記参照クラスタを複数のサブクラスタに分割するサブクラスタ生成部と、
選択された項目の下位層の予め定められた複数のサブ項目を抽出するサブ項目抽出部と、
前記複数のサブ項目のそれぞれ毎且つ前記複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する展開画像制御部と、
を備える情報処理装置。 - 前記決定部は、前記複数の候補クラスタのうち前記スコアが最も高い1つの候補クラスタを前記参照クラスタとして決定する
請求項1に記載の情報処理装置。 - 前記スコアは、対応する候補クラスタにおける選択された項目に分類される文書の情報量を表す
請求項1または2に記載の情報処理装置。 - 前記スコアは、前記複数のサブ項目のそれぞれ毎且つ対応する候補クラスタを分割した複数のサブクラスタのそれぞれ毎の文書の情報量の分散を表す
請求項1または2に記載の情報処理装置。 - 前記スコアは、対応する候補クラスタをユーザが過去に操作により選択した頻度または割合を表す
請求項1または2に記載の情報処理装置。 - 前記スコア算出部は、第1パラメータと、第2パラメータと、第3パラメータとを合計して前記スコアを算出し、
前記第1パラメータは、対応する候補クラスタにおける選択された項目に分類される文書の情報量に応じた値を表し、
前記第2パラメータは、前記複数のサブ項目のそれぞれ毎且つ対応する候補クラスタを分割した複数のサブクラスタのそれぞれ毎の文書の情報量の分散に応じた値を表し、
前記第3パラメータは、対応する候補クラスタをユーザが過去に操作により選択した頻度または割合に応じた値を表す
請求項1または2に記載の情報処理装置。 - 前記複数の項目のそれぞれ毎且つ前記複数の候補クラスタのそれぞれ毎の文書の情報量を表すように、初期画像の提示を制御する初期画像制御部をさらに備える
請求項1から6の何れか1項に記載の情報処理装置。 - 前記複数のサブ項目のうち何れか1つのサブ項目が選択された場合、前記スコア算出部、前記決定部、前記サブ項目抽出部および前記展開画像制御部は、前記複数のサブ項目を前記複数の項目と置き換え、前記複数のサブクラスタを前記複数の候補クラスタと置き換えて、再度処理を実行して展開画像を提示する
請求項1から7の何れか1項に記載の情報処理装置。 - 前記展開画像制御部は、前記展開画像とともに、前記複数の候補クラスタのうちの何れか1つを選択させるためのメニュー画像を提示し、
前記メニュー画像により何れか1つの新たな候補クラスタが選択された場合、
前記サブクラスタ生成部は、前記新たな候補クラスタを前記参照クラスタとして、新たな複数のサブクラスタに分割し、
前記展開画像制御部は、前記複数のサブ項目のそれぞれ毎且つ新たな複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、新たな展開画像の提示を制御する
請求項1から8の何れか1項に記載の情報処理装置。 - 文書抽出部と、選択クラスタリング部と、選択分割部とをさらに備え、
前記項目選択部は、前記文書群を分類するための予め定められた複数の第1観点項目のうちの何れか1つの第1観点項目、および、前記文書群を分類するための予め定められた複数の第2観点項目のうちの何れか1つの第2観点項目の選択操作を受け付け、
前記文書抽出部は、前記文書群から、選択された第1観点項目および選択された第2観点項目の両者に分類される複数の文書を含む選択文書群を抽出し、
前記選択クラスタリング部は、前記選択文書群に含まれる複数のキーフレーズを含む選択キーフレーズ群を階層クラスタリングし、
前記選択分割部は、前記選択キーフレーズ群を複数の候補クラスタに分割し、
前記スコア算出部は、前記複数の候補クラスタのそれぞれについて、選択された第1観点項目および第2観点項目に対する有用性を表す前記スコアを算出し、
前記決定部は、前記複数の候補クラスタのうち、前記スコアが所定の順位の2つの候補クラスタを第1参照クラスタおよび第2参照クラスタとして決定し、
前記サブクラスタ生成部は、前記第1参照クラスタを複数の第1サブクラスタに分割し、前記第2参照クラスタを複数の第2サブクラスタに分割し、
前記展開画像制御部は、前記複数の第1サブクラスタのそれぞれ毎且つ前記複数の第2サブクラスタのそれぞれ毎の文書の情報量を表すように、クラスタ展開画像の提示を制御する
請求項1に記載の情報処理装置。 - 前記複数の第1観点項目のそれぞれ毎且つ前記複数の第2観点項目のそれぞれ毎の文書の情報量を表すように、項目選択画像の提示を制御する初期画像制御部をさらに備える
請求項10に記載の情報処理装置。 - 情報処理装置により実行される情報処理方法であって、
クラスタリング部が、文書群に含まれる複数のキーフレーズを含むキーフレーズ群を階層クラスタリングし、
分割部が、前記キーフレーズ群を複数の候補クラスタに分割し、
項目選択部が、前記文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を受け付け、
スコア算出部が、前記複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出し、
決定部が、前記複数の候補クラスタのうち、前記スコアが所定の順位の候補クラスタを参照クラスタとして決定し、
サブクラスタ生成部が、前記参照クラスタを複数のサブクラスタに分割し、
抽出部が、選択された項目の下位層の予め定められた複数のサブ項目を抽出し、
展開画像制御部が、前記複数のサブ項目のそれぞれ毎且つ前記複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する
情報処理方法。 - 情報処理装置で実行されるプログラムであって、
前記情報処理装置を、
文書群に含まれる複数のキーフレーズを含むキーフレーズ群を階層クラスタリングするクラスタリング部と、
前記キーフレーズ群を複数の候補クラスタに分割する分割部と、
前記文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を受け付ける項目選択部と、
前記複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出するスコア算出部と、
前記複数の候補クラスタのうち、前記スコアが所定の順位の候補クラスタを参照クラスタとして決定する決定部と、
前記参照クラスタを複数のサブクラスタに分割するサブクラスタ生成部と、
選択された項目の下位層の予め定められた複数のサブ項目を抽出するサブ項目抽出部と、
前記複数のサブ項目のそれぞれ毎且つ前記複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する展開画像制御部と
して機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017192750A JP6800825B2 (ja) | 2017-10-02 | 2017-10-02 | 情報処理装置、情報処理方法およびプログラム |
US15/899,610 US10740378B2 (en) | 2017-10-02 | 2018-02-20 | Method for presenting information volume for each item in document group |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017192750A JP6800825B2 (ja) | 2017-10-02 | 2017-10-02 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019067191A true JP2019067191A (ja) | 2019-04-25 |
JP6800825B2 JP6800825B2 (ja) | 2020-12-16 |
Family
ID=65897298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017192750A Active JP6800825B2 (ja) | 2017-10-02 | 2017-10-02 | 情報処理装置、情報処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10740378B2 (ja) |
JP (1) | JP6800825B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021065058A1 (ja) * | 2019-09-30 | 2021-04-08 | 沖電気工業株式会社 | 概念構造抽出装置、記憶媒体及び方法 |
JP2021165892A (ja) * | 2020-04-06 | 2021-10-14 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667869B (zh) * | 2019-10-15 | 2024-05-03 | 阿里巴巴集团控股有限公司 | 数据处理方法、设备、系统及存储介质 |
CN112269937B (zh) * | 2020-11-16 | 2024-02-02 | 加和(北京)信息科技有限公司 | 一种计算用户相似度的方法、系统及装置 |
US11470490B1 (en) | 2021-05-17 | 2022-10-11 | T-Mobile Usa, Inc. | Determining performance of a wireless telecommunication network |
CN115982633B (zh) * | 2023-03-21 | 2023-06-20 | 北京百度网讯科技有限公司 | 目标对象分类方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007069663A1 (ja) * | 2005-12-13 | 2007-06-21 | Intellectual Property Bank Corp. | 技術文書属性の関連性分析支援装置 |
JP2011128705A (ja) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | 情報処理装置およびプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296528A (ja) | 1998-04-07 | 1999-10-29 | Fujitsu Ltd | ブラウジング検索装置及び記録媒体 |
JP4121125B2 (ja) | 2003-09-10 | 2008-07-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | グラフィックス・イメージ生成装置及びその方法、データ解析装置及びその方法並びにプログラム |
US20070112867A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for rank-based response set clustering |
WO2010064939A1 (en) | 2008-12-05 | 2010-06-10 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
US9916381B2 (en) * | 2008-12-30 | 2018-03-13 | Telecom Italia S.P.A. | Method and system for content classification |
JP6002159B2 (ja) | 2011-02-24 | 2016-10-05 | レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド | 電子文書の検索方法及び電子文書検索のグラフィカル表示方法 |
EP2973041B1 (en) * | 2013-03-15 | 2018-08-01 | Factual Inc. | Apparatus, systems, and methods for batch and realtime data processing |
JP2017068534A (ja) | 2015-09-30 | 2017-04-06 | 富士通株式会社 | 分析方法、分析装置および分析プログラム |
JP6622172B2 (ja) | 2016-11-17 | 2019-12-18 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
JP6615809B2 (ja) | 2017-03-02 | 2019-12-04 | 株式会社東芝 | 作業支援システム、作業支援方法およびプログラム |
JP6612800B2 (ja) | 2017-03-09 | 2019-11-27 | 株式会社東芝 | 設計支援システムおよび設計支援方法 |
-
2017
- 2017-10-02 JP JP2017192750A patent/JP6800825B2/ja active Active
-
2018
- 2018-02-20 US US15/899,610 patent/US10740378B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007069663A1 (ja) * | 2005-12-13 | 2007-06-21 | Intellectual Property Bank Corp. | 技術文書属性の関連性分析支援装置 |
JP2011128705A (ja) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | 情報処理装置およびプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021065058A1 (ja) * | 2019-09-30 | 2021-04-08 | 沖電気工業株式会社 | 概念構造抽出装置、記憶媒体及び方法 |
JP2021165892A (ja) * | 2020-04-06 | 2021-10-14 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP7427510B2 (ja) | 2020-04-06 | 2024-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US11900060B2 (en) | 2020-04-06 | 2024-02-13 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
US20190102453A1 (en) | 2019-04-04 |
JP6800825B2 (ja) | 2020-12-16 |
US10740378B2 (en) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6800825B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US10205643B2 (en) | Systems and methods for monitoring and analyzing performance in a computer system with severity-state sorting | |
US20150032708A1 (en) | Database analysis apparatus and method | |
WO2013183485A1 (ja) | アセンブリモデル類似構造検索システム、及びアセンブリモデル類似構造検索方法 | |
JP6371465B2 (ja) | 画像検索装置、及び画像を検索する方法 | |
JP2019021232A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
EP2909739A1 (en) | Methods and systems for managing spreadsheet models | |
CN114138246B (zh) | 拓扑自动生成方法、装置、计算设备及存储介质 | |
JP2000311246A (ja) | 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体 | |
CN114387608B (zh) | 一种联合卷积与图神经网络的表格结构识别方法 | |
JP2017182526A (ja) | 領域抽出プログラム、領域抽出方法、および領域抽出装置 | |
CN113283432A (zh) | 图像识别、文字排序方法及设备 | |
CN114021541A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
JP6144968B2 (ja) | 情報提示装置、方法、及びプログラム | |
JP2021189835A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP4041081B2 (ja) | 分割クラスタリング装置及び分割データ数決定方法 | |
JP2016045552A (ja) | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 | |
JP2011070529A (ja) | 文書処理装置 | |
US10354008B2 (en) | System and method for providing a visual scroll representation of production data | |
JP2020166443A (ja) | データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム | |
JP6413597B2 (ja) | 分析プログラム、分析方法及び分析装置 | |
US20230230403A1 (en) | Systems and methods for representing and searching characters | |
JP5600826B1 (ja) | 非構造化データ処理システム、非構造化データ処理方法およびプログラム | |
CN117726778B (zh) | 三维古建筑模型的生成方法、装置、设备及存储介质 | |
JP6592916B2 (ja) | データ処理プログラム、データ処理方法、およびデータ処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201125 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6800825 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |