JP7165165B2 - 長期間の連関性が高い文書クラスタリングのための方法およびシステム - Google Patents
長期間の連関性が高い文書クラスタリングのための方法およびシステム Download PDFInfo
- Publication number
- JP7165165B2 JP7165165B2 JP2020138408A JP2020138408A JP7165165B2 JP 7165165 B2 JP7165165 B2 JP 7165165B2 JP 2020138408 A JP2020138408 A JP 2020138408A JP 2020138408 A JP2020138408 A JP 2020138408A JP 7165165 B2 JP7165165 B2 JP 7165165B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- issue
- clusters
- merging
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
310:クラスタ収集部
320:クラスタ生成部
330:クラスタ表示部
Claims (20)
- コンピュータシステムが実行する文書クラスタリング方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記文書クラスタリング方法は、
前記少なくとも1つのプロセッサにより、類似文書としてクラスタリングされたクラスタを時間基準で収集する段階、および
前記少なくとも1つのプロセッサにより、前記クラスタ間の類似度に基づいて前記クラスタを併合することにより、クラスタグループとしてイシュークラスタを生成する段階
を含み、
前記生成する段階のクラスタの併合は、
並列処理方式により、各クラスタ別に、該当のクラスタ以後に生成されたクラスタと比較し、最も類似するクラスタを併合対象として選定した後、直列処理方式により、前記併合対象として選定されたクラスタがまだ併合されていない場合、前記併合対象として選定されたクラスタを順に併合すること
を特徴とする、文書クラスタリング方法。 - 前記生成する段階は、
前記イシュークラスタと前記クラスタ間の類似度に基づいて前記イシュークラスタと前記クラスタを併合する段階
を含む、請求項1に記載の文書クラスタリング方法。 - 前記生成する段階は、
前記イシュークラスタと他のイシュークラスタ間の類似度に基づいて前記イシュークラスタと前記他のイシュークラスタを併合する段階
を含む、請求項1または2に記載の文書クラスタリング方法。 - 前記イシュークラスタと前記他のイシュークラスタを併合する段階は、
前記イシュークラスタと前記他のイシュークラスタのうち、文書の件数がより多いクラスタに他のクラスタの文書を併合すること
を特徴とする、請求項3に記載の文書クラスタリング方法。 - 前記生成する段階は、
前記クラスタのベクトル間の類似度を比較し、事前に定められたクラスタ併合の基準を満たすベクトル類似度をもつクラスタを1つのクラスタとして併合して前記イシュークラスタを生成すること
を特徴とする、請求項1に記載の文書クラスタリング方法。 - 前記生成する段階は、
前記クラスタに文書が追加される場合、該当のクラスタに対して以前に計算されたベクトルを利用することで文書が追加されたクラスタのベクトルを計算する段階
を含む、請求項5に記載の文書クラスタリング方法。 - 前記生成する段階は、
前記イシュークラスタに他のクラスタが併合される場合、該当のイシュークラスタに対して以前に計算されたベクトルを利用することで他のクラスタが併合されたイシュークラスタのベクトルを計算する段階
を含む、請求項5または6に記載の文書クラスタリング方法。 - 前記生成する段階は、
時間帯別に生成される短期クラスタである前記クラスタの間の類似度に基づき、前記クラスタを併合して中長期イシュー単位のクラスタグループである前記イシュークラスタを生成する段階、
前記イシュークラスタと前記イシュークラスタの生成の以降に新たに生成された他のクラスタとの間の類似度に基づき、前記イシュークラスタと前記他のクラスタを併合する段階、及び
前記イシュークラスタと前記イシュークラスタの生成の以降に新たに生成された他のイシュークラスタとの間の類似度に基づき、前記イシュークラスタと前記他のイシュークラスタを併合する段階
を含む、請求項1に記載の文書クラスタリング方法。 - 前記生成する段階は、
前記併合されたクラスタが前記併合対象として再選定されないように除外する段階
をさらに含む、請求項1に記載の文書クラスタリング方法。 - 前記収集する段階は、
文書間の類似度に基づいて類似文書としてクラスタリングされたクラスタを収集すること
を特徴とする、請求項1~9のうちのいずれか一項に記載の文書クラスタリング方法。 - 請求項1~10のうちのいずれか一項に記載の文書クラスタリング方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
- 請求項1~10のうちのいずれか一項に記載の文書クラスタリング方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
類似文書としてクラスタリングされたクラスタを時間基準で収集するクラスタ収集部、および
前記クラスタ間の類似度に基づいて前記クラスタを併合することにより、クラスタグループとしてイシュークラスタを生成するクラスタ生成部
を含み、
前記クラスタ生成部は、
並列処理方式により、各クラスタ別に、該当のクラスタ以後に生成されたクラスタと比較し、最も類似するクラスタを併合対象とて選定した後、直列処理方式により、前記併合対象として選定されたクラスタがまだ併合されていない場合、前記併合対象として選定されたクラスタを順に併合すること
を特徴とする、コンピュータシステム。 - 前記クラスタ生成部は、
前記イシュークラスタと前記クラスタ間の類似度に基づいて前記イシュークラスタと前記クラスタを併合すること
を特徴とする、請求項13に記載のコンピュータシステム。 - 前記クラスタ生成部は、
前記イシュークラスタと他のイシュークラスタ間の類似度に基づいて前記イシュークラスタと前記他のイシュークラスタを併合すること
を特徴とする、請求項13または14に記載のコンピュータシステム。 - 前記クラスタ生成部は、
前記クラスタのベクトル間の類似度を比較し、事前に定められたクラスタ併合の基準を満たすベクトル類似度をもつクラスタを1つのクラスタとして併合して前記イシュークラスタを生成すること
を特徴とする、請求項13に記載のコンピュータシステム。 - 前記クラスタ生成部は、
前記クラスタに文書が追加される場合、該当のクラスタに対して以前に計算されたベクトルを利用することで文書が追加されたクラスタのベクトルを計算すること
を特徴とする、請求項16に記載のコンピュータシステム。 - 前記クラスタ生成部は、
前記イシュークラスタに他のクラスタが併合される場合、該当のイシュークラスタに対して以前に計算されたベクトルを利用することで他のクラスタが併合されたイシュークラスタのベクトルを計算すること
を特徴とする、請求項16または17に記載のコンピュータシステム。 - 前記クラスタ生成部は、
時間帯別に生成される短期クラスタである前記クラスタの間の類似度に基づき、前記クラスタを併合して中長期イシュー単位のクラスタグループである前記イシュークラスタを生成し、
前記イシュークラスタと前記イシュークラスタの生成の以降に新たに生成された他のクラスタとの間の類似度に基づき、前記イシュークラスタと前記他のクラスタを併合し、
前記イシュークラスタと前記イシュークラスタの生成の以降に新たに生成された他のイシュークラスタとの間の類似度に基づき、前記イシュークラスタと前記他のイシュークラスタを併合すること
を特徴とする、請求項13に記載のコンピュータシステム。 - 前記クラスタ収集部は、
文書間の類似度に基づいて類似文書としてクラスタリングされたクラスタを収集すること
を特徴とする、請求項13~19のうちのいずれか一項に記載のコンピュータシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0102546 | 2019-08-21 | ||
KR20190102546 | 2019-08-21 | ||
KR1020190131265A KR102349522B1 (ko) | 2019-08-21 | 2019-10-22 | 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템 |
KR10-2019-0131265 | 2019-10-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021034047A JP2021034047A (ja) | 2021-03-01 |
JP7165165B2 true JP7165165B2 (ja) | 2022-11-02 |
Family
ID=74677555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020138408A Active JP7165165B2 (ja) | 2019-08-21 | 2020-08-19 | 長期間の連関性が高い文書クラスタリングのための方法およびシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7165165B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006331089A (ja) | 2005-05-26 | 2006-12-07 | Toshiba Corp | Webページから時系列データを生成する方法及び装置 |
JP2008234338A (ja) | 2007-03-20 | 2008-10-02 | Nec Corp | 旬度解析システム、旬度解析方法、及び旬度解析プログラム |
JP2011086032A (ja) | 2009-10-14 | 2011-04-28 | Hitachi Solutions Ltd | 変化話題抽出装置または変化話題抽出方法 |
JP2014109852A (ja) | 2012-11-30 | 2014-06-12 | Ubic:Kk | 文書管理システムおよび文書管理方法並びに文書管理プログラム |
US20170235820A1 (en) | 2016-01-29 | 2017-08-17 | Jack G. Conrad | System and engine for seeded clustering of news events |
-
2020
- 2020-08-19 JP JP2020138408A patent/JP7165165B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006331089A (ja) | 2005-05-26 | 2006-12-07 | Toshiba Corp | Webページから時系列データを生成する方法及び装置 |
JP2008234338A (ja) | 2007-03-20 | 2008-10-02 | Nec Corp | 旬度解析システム、旬度解析方法、及び旬度解析プログラム |
JP2011086032A (ja) | 2009-10-14 | 2011-04-28 | Hitachi Solutions Ltd | 変化話題抽出装置または変化話題抽出方法 |
JP2014109852A (ja) | 2012-11-30 | 2014-06-12 | Ubic:Kk | 文書管理システムおよび文書管理方法並びに文書管理プログラム |
US20170235820A1 (en) | 2016-01-29 | 2017-08-17 | Jack G. Conrad | System and engine for seeded clustering of news events |
Non-Patent Citations (1)
Title |
---|
与儀 涼子 外,Twitter上で行われる議論構造可視化のための段階的クラスタリングに関する検討,言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD-ROM],日本,言語処理学会,2012年03月31日,pp. 571~574 |
Also Published As
Publication number | Publication date |
---|---|
JP2021034047A (ja) | 2021-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9501762B2 (en) | Application recommendation using automatically synchronized shared folders | |
US10719769B2 (en) | Systems and methods for generating and communicating application recommendations at uninstall time | |
JP5886447B2 (ja) | ロケーション非依存のファイル | |
US20140122994A1 (en) | Event-based content item view | |
EP2384490A1 (en) | Method, apparatus and computer program product for providing analysis and visualization of content items association | |
US20160299906A1 (en) | Content Item Recommendations Based On Content Attribute Sequence | |
KR102349522B1 (ko) | 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템 | |
US20230008201A1 (en) | Automated Content Medium Selection | |
US10878089B2 (en) | Identifying malware based on content item identifiers | |
CN112148461A (zh) | 应用的调度方法、装置 | |
CN113010790B (zh) | 内容推荐方法、装置、服务器及存储介质 | |
CN112559913B (zh) | 一种数据处理方法、装置、计算设备及可读存储介质 | |
JP7165165B2 (ja) | 長期間の連関性が高い文書クラスタリングのための方法およびシステム | |
KR20100083778A (ko) | 저장 영역 네트워크 상호 동작 관계의 획득 및 확장 | |
JP7068404B2 (ja) | 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム | |
CN113297226B (zh) | 数据存储方法、数据读取方法、装置、电子设备及介质 | |
JP2020155108A (ja) | 複数のソーシャルネットワークサービス内のチャンネルをグルーピングする方法、システム、および非一時的なコンピュータ読み取り可能な記憶媒体 | |
US20170091300A1 (en) | Distinguishing event type | |
JP7254880B2 (ja) | コンテンツ配置方法およびコンピュータ装置 | |
WO2017095421A1 (en) | Automatic selection of neighbor lists to be incrementally updated | |
CN111352985A (zh) | 一种基于计算机系统的数据服务平台、方法、存储介质 | |
JP7106663B2 (ja) | 成長グラフ基盤のプレイリスト推薦方法およびシステム | |
JP7522161B2 (ja) | 人物情報を利用した写真分類機能を提供する方法、コンピュータ装置、およびコンピュータプログラム | |
US20080243903A1 (en) | Data driven media interaction | |
JP2017146964A (ja) | コンテンツサービスで通知時間を個人化する方法およびシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7165165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |