JP7423859B2 - データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体 - Google Patents
データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体 Download PDFInfo
- Publication number
- JP7423859B2 JP7423859B2 JP2023514827A JP2023514827A JP7423859B2 JP 7423859 B2 JP7423859 B2 JP 7423859B2 JP 2023514827 A JP2023514827 A JP 2023514827A JP 2023514827 A JP2023514827 A JP 2023514827A JP 7423859 B2 JP7423859 B2 JP 7423859B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- data
- atoms
- atom
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000013500 data storage Methods 0.000 title description 13
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 11
- 230000001737 promoting effect Effects 0.000 claims 1
- 238000000354 decomposition reaction Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 230000008521 reorganization Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (9)
- データクラスタリング方法であって、
履歴クラスタデータを解析して、前記履歴クラスタデータの各部分の性質に基づいて前記履歴クラスタデータをクラスタ原子に分解するステップと、
前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、ここで、前記履歴クラスタデータおよびターゲットクラスタデータは同一種類のアプリケーションに属するデータであり、前記履歴クラスタデータは広告宣伝テキスト、法律文書、合意文書、プログラムコード、および保険財テク契約書のオリジナル製品を含む再組織化可能なクラスタ原子を有するアプリケーションデータであり、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、
前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含むデータクラスタリング方法。 - 前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である請求項1に記載の方法。
- 前記探索はさらにコーパスマッチングに基づいて行われる請求項2に記載の方法。
- 前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される請求項1に記載の方法。
- 前記探索はグラフ検索方法に基づいて行われる請求項4に記載の方法。
- 前記クラスタ原子には階層関係が存在し、
上位クラスタ原子を前記候補クラスタ原子とすると共に、その下位クラスタ原子も前記候補クラスタ原子とし、及び
前記候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼって、前記上位クラスタ原子を前記候補クラスタ原子とすることが可能である請求項4に記載の方法。 - 前記クラスタ属性は、対象、種類、地区、性別、年齢、期間を含む請求項1に記載の方法。
- もし引用された候補クラスタ原子の間は相容れないと、提示情報が生成される請求項1に記載の方法。
- データクラスタリングシステムであって、
履歴クラスタデータを解析して、前記履歴クラスタデータの各部分の性質に基づいて前記履歴クラスタデータをクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、ここで、前記履歴クラスタデータおよびターゲットクラスタデータは同一種類のアプリケーションに属するデータであり、前記履歴クラスタデータは広告宣伝テキスト、法律文書、合意文書、プログラムコード、および保険財テク契約書のオリジナル製品を含む再組織化可能なクラスタ原子を有するアプリケーションデータであり、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置されるプール化ユニットと、
前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される探索ユニットと、
前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される組立ユニットと、を備えるデータクラスタリングシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011292917.5A CN114519101B (zh) | 2020-11-18 | 2020-11-18 | 数据聚类方法和系统、数据存储方法和系统以及存储介质 |
CN202011292917.5 | 2020-11-18 | ||
PCT/CN2021/128330 WO2022105601A1 (zh) | 2020-11-18 | 2021-11-03 | 数据聚类方法和系统、数据存储方法和系统以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023536005A JP2023536005A (ja) | 2023-08-22 |
JP7423859B2 true JP7423859B2 (ja) | 2024-01-29 |
Family
ID=81594648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023514827A Active JP7423859B2 (ja) | 2020-11-18 | 2021-11-03 | データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230273946A1 (ja) |
EP (1) | EP4191436A4 (ja) |
JP (1) | JP7423859B2 (ja) |
CN (1) | CN114519101B (ja) |
WO (1) | WO2022105601A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151934B (zh) * | 2023-10-30 | 2024-01-30 | 国网冀北电力有限公司 | 一种配电网不停电作业项目多维聚类分析方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202850A (ja) | 2004-01-19 | 2005-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報処理装置、情報処理方法、および情報処理プログラム |
CN105468605A (zh) | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
JP2019528512A (ja) | 2016-09-05 | 2019-10-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 人工知能に基づくヒューマンマシンインタラクション方法及び装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7305133B2 (en) * | 2002-11-01 | 2007-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Pattern discovery in video content using association rules on multiple sets of labels |
US7979404B2 (en) * | 2004-09-17 | 2011-07-12 | Quest Software, Inc. | Extracting data changes and storing data history to allow for instantaneous access to and reconstruction of any point-in-time data |
US7502765B2 (en) * | 2005-12-21 | 2009-03-10 | International Business Machines Corporation | Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering |
CN101178720B (zh) * | 2007-10-23 | 2010-12-15 | 浙江大学 | 一种面向互联网微内容的分布式聚类方法 |
CN102663089B (zh) * | 2012-04-09 | 2014-11-26 | 中国科学院软件研究所 | 一种基于球极映射的非结构化数据可视化方法 |
CN103425740B (zh) * | 2013-07-11 | 2016-06-22 | 南京邮电大学 | 一种面向物联网的基于语义聚类的物资信息检索方法 |
EP3189421B1 (en) * | 2014-09-02 | 2023-05-03 | AB Initio Technology LLC | Compiling graph-based program specifications |
CN104699767B (zh) * | 2015-02-15 | 2018-02-02 | 首都经济贸易大学 | 一种面向中文语言的大规模本体映射方法 |
US10311499B1 (en) * | 2015-03-23 | 2019-06-04 | Amazon Technologies, Inc. | Clustering interactions for user missions |
CN105354542B (zh) * | 2015-10-27 | 2018-09-25 | 杭州电子科技大学 | 一种拥挤场景下视频异常事件检测方法 |
US10515125B1 (en) * | 2016-07-26 | 2019-12-24 | The Thought & Expression Company LLC | Structured text segment indexing techniques |
CN106886613B (zh) * | 2017-05-03 | 2020-06-26 | 成都云数未来信息科学有限公司 | 一种并行化的文本聚类方法 |
CN110163458A (zh) * | 2018-02-23 | 2019-08-23 | 徐峰 | 基于人工智能技术的数据资产管理与监测方法 |
WO2019171111A1 (en) * | 2018-03-04 | 2019-09-12 | Pratik Sharma | Application level object provenance service in cloud |
CN110895706B (zh) * | 2019-11-07 | 2022-12-27 | 苏宁云计算有限公司 | 一种目标聚类数的获取方法、装置及计算机系统 |
CN110955658B (zh) * | 2019-11-19 | 2022-11-18 | 杭州趣链科技有限公司 | 一种基于Java智能合约的数据组织和存储方法 |
CN111222540A (zh) * | 2019-11-22 | 2020-06-02 | 江苏省环境监测中心 | 基于聚类的无监督学习的异常判断二噁英检测方法 |
CN110659123B (zh) * | 2019-11-29 | 2020-03-20 | 中国人民解放军国防科技大学 | 一种基于消息的分布式任务分发调度方法及装置 |
CN111813905B (zh) * | 2020-06-17 | 2024-05-10 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
-
2020
- 2020-11-18 CN CN202011292917.5A patent/CN114519101B/zh active Active
-
2021
- 2021-11-03 US US18/043,655 patent/US20230273946A1/en active Pending
- 2021-11-03 EP EP21893749.8A patent/EP4191436A4/en active Pending
- 2021-11-03 WO PCT/CN2021/128330 patent/WO2022105601A1/zh unknown
- 2021-11-03 JP JP2023514827A patent/JP7423859B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202850A (ja) | 2004-01-19 | 2005-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報処理装置、情報処理方法、および情報処理プログラム |
CN105468605A (zh) | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
JP2019528512A (ja) | 2016-09-05 | 2019-10-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 人工知能に基づくヒューマンマシンインタラクション方法及び装置 |
Non-Patent Citations (2)
Title |
---|
吉岡 真治 外,データサイエンス入門シリーズ データサイエンスのためのデータベース,日本,株式会社講談社,2020年04月16日,p. 113 |
寺田 学 外,Pythonによるあたらしいデータ分析の教科書,初版,日本,株式会社翔泳社,2018年11月15日,pp. 148-169 |
Also Published As
Publication number | Publication date |
---|---|
JP2023536005A (ja) | 2023-08-22 |
CN114519101A (zh) | 2022-05-20 |
CN114519101B (zh) | 2023-06-06 |
WO2022105601A1 (zh) | 2022-05-27 |
US20230273946A1 (en) | 2023-08-31 |
EP4191436A1 (en) | 2023-06-07 |
EP4191436A4 (en) | 2023-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8185509B2 (en) | Association of semantic objects with linguistic entity categories | |
WO2021174783A1 (zh) | 近义词推送方法、装置、电子设备及介质 | |
Zhu et al. | Unsupervised entity resolution on multi-type graphs | |
US20060015482A1 (en) | System and method for creating dynamic folder hierarchies | |
US10747795B2 (en) | Cognitive retrieve and rank search improvements using natural language for product attributes | |
CN102768674B (zh) | 一种基于路径结构的xml数据存储方法 | |
US9064004B2 (en) | Extensible surface for consuming information extraction services | |
Branting | A comparative evaluation of name-matching algorithms | |
JP7423859B2 (ja) | データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体 | |
CN111475534B (zh) | 一种数据查询方法及相关设备 | |
Talburt et al. | A practical guide to entity resolution with OYSTER | |
Good et al. | Modeling contested categorization in linguistic databases | |
Salas et al. | Stdtrip: Promoting the reuse of standard vocabularies in open government data | |
Poulovassilis | Applications of flexible querying to graph data | |
Chiu et al. | Enabling ad hoc queries over low-level scientific data sets | |
Kim et al. | Key issues for a manufacturing data query system based on graph | |
RU2572367C1 (ru) | Способ поиска информации в предварительно преобразованном структурированном массиве данных | |
RU2571407C1 (ru) | Способ формирования карты связей компонентов преобразованного структурированного массива данных | |
CN112988668B (zh) | 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法 | |
Cichoń | National Library of Poland Descriptors model as an attempt of opening library data for reuse | |
US20210141773A1 (en) | Configurable Hyper-Referenced Associative Object Schema | |
Marcondes | The Role of Vocabularies in the Age of Data: The Question of Research Data | |
Bucchi | Exploiting the semantic web for the automatic extraction of Los Angeles city data | |
Marzovanova | Advantages of using a system for intelligent tagging and search in unstructured data | |
RU2571406C1 (ru) | Способ двухуровневого поиска информации в предварительно преобразованном структурированном массиве данных |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230228 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230228 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7423859 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |