CN110888978A - 文章聚类方法、装置、电子设备、存储介质 - Google Patents
文章聚类方法、装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110888978A CN110888978A CN201811040361.3A CN201811040361A CN110888978A CN 110888978 A CN110888978 A CN 110888978A CN 201811040361 A CN201811040361 A CN 201811040361A CN 110888978 A CN110888978 A CN 110888978A
- Authority
- CN
- China
- Prior art keywords
- clustered
- subclass
- article
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 138
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 10
- 230000003203 everyday effect Effects 0.000 description 5
- 238000005111 flow chemistry technique Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811040361.3A CN110888978A (zh) | 2018-09-06 | 2018-09-06 | 文章聚类方法、装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811040361.3A CN110888978A (zh) | 2018-09-06 | 2018-09-06 | 文章聚类方法、装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110888978A true CN110888978A (zh) | 2020-03-17 |
Family
ID=69744347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811040361.3A Pending CN110888978A (zh) | 2018-09-06 | 2018-09-06 | 文章聚类方法、装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888978A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100986A (zh) * | 2020-11-10 | 2020-12-18 | 北京捷通华声科技股份有限公司 | 语音文本聚类方法和装置 |
CN113220840A (zh) * | 2021-05-17 | 2021-08-06 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN113761196A (zh) * | 2021-07-28 | 2021-12-07 | 北京中科模识科技有限公司 | 文本聚类方法及系统、电子设备和存储介质 |
CN114064895A (zh) * | 2021-11-16 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种用户新建议实时发现方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831193A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 基于分布式多级聚类的话题检测装置及方法 |
US20160004764A1 (en) * | 2014-07-03 | 2016-01-07 | Palantir Technologies Inc. | System and method for news events detection and visualization |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN106339495A (zh) * | 2016-08-31 | 2017-01-18 | 广州智索信息科技有限公司 | 一种基于层次增量聚类的话题检测方法及系统 |
CN106599181A (zh) * | 2016-12-13 | 2017-04-26 | 浙江网新恒天软件有限公司 | 一种基于主题模型的新闻热点检测方法 |
US20170193074A1 (en) * | 2015-12-30 | 2017-07-06 | Yahoo! Inc. | Finding Related Articles for a Content Stream Using Iterative Merge-Split Clusters |
CN107609102A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种短文本在线聚类方法 |
CN107832467A (zh) * | 2017-11-29 | 2018-03-23 | 北京工业大学 | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
-
2018
- 2018-09-06 CN CN201811040361.3A patent/CN110888978A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831193A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 基于分布式多级聚类的话题检测装置及方法 |
US20160004764A1 (en) * | 2014-07-03 | 2016-01-07 | Palantir Technologies Inc. | System and method for news events detection and visualization |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
US20170193074A1 (en) * | 2015-12-30 | 2017-07-06 | Yahoo! Inc. | Finding Related Articles for a Content Stream Using Iterative Merge-Split Clusters |
CN106339495A (zh) * | 2016-08-31 | 2017-01-18 | 广州智索信息科技有限公司 | 一种基于层次增量聚类的话题检测方法及系统 |
CN106599181A (zh) * | 2016-12-13 | 2017-04-26 | 浙江网新恒天软件有限公司 | 一种基于主题模型的新闻热点检测方法 |
CN107609102A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种短文本在线聚类方法 |
CN107832467A (zh) * | 2017-11-29 | 2018-03-23 | 北京工业大学 | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
Non-Patent Citations (1)
Title |
---|
袁津生等: "搜索引擎与信息检索教程", 中国水利水电出版社, pages: 173 - 174 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100986A (zh) * | 2020-11-10 | 2020-12-18 | 北京捷通华声科技股份有限公司 | 语音文本聚类方法和装置 |
CN113220840A (zh) * | 2021-05-17 | 2021-08-06 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN113220840B (zh) * | 2021-05-17 | 2023-08-01 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN113761196A (zh) * | 2021-07-28 | 2021-12-07 | 北京中科模识科技有限公司 | 文本聚类方法及系统、电子设备和存储介质 |
CN113761196B (zh) * | 2021-07-28 | 2024-02-20 | 北京中科模识科技有限公司 | 文本聚类方法及系统、电子设备和存储介质 |
CN114064895A (zh) * | 2021-11-16 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种用户新建议实时发现方法、装置、设备及介质 |
CN114064895B (zh) * | 2021-11-16 | 2023-12-19 | 深圳数阔信息技术有限公司 | 一种用户新建议实时发现方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11243993B2 (en) | Document relationship analysis system | |
US10762439B2 (en) | Event clustering and classification with document embedding | |
CN110888978A (zh) | 文章聚类方法、装置、电子设备、存储介质 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
CN111611807B (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN107808011A (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN111753048B (zh) | 文档检索方法、装置、设备及存储介质 | |
CN105224682A (zh) | 新词发现方法及装置 | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
KR20210119041A (ko) | 군집 기반 중복문서 제거 장치 및 제거 방법 | |
WO2019085332A1 (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN114330335B (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN110874532A (zh) | 提取反馈信息的关键词的方法和装置 | |
CN110674635A (zh) | 一种用于文本段落划分的方法和装置 | |
Vidyashree et al. | An improvised sentiment analysis model on twitter data using stochastic gradient descent (SGD) optimization algorithm in stochastic gate neural network (SGNN) | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
CN111191011B (zh) | 一种文本标签的搜索匹配方法、装置、设备及存储介质 | |
CN112926297A (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN111930949A (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN114936282B (zh) | 金融风险线索确定方法、装置、设备和介质 | |
Mostafa | Enhanced Sentiment Analysis Algorithms for Multi-Weight Polarity Selection on Twitter Dataset. | |
CN116227473A (zh) | 同义词的生成方法、装置、设备和计算机可读存储介质 | |
CN117151089A (zh) | 新词发现方法、装置、设备和介质 | |
Triapitsyn et al. | Designing of a classifier for the unstructured text formalization model based on word embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant before: Jingdong Digital Technology Holding Co.,Ltd. Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: Jingdong Digital Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd. Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176 Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd. |