CN113064964A - 文本分类方法、模型训练方法、装置、设备以及存储介质 - Google Patents
文本分类方法、模型训练方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113064964A CN113064964A CN202110301953.1A CN202110301953A CN113064964A CN 113064964 A CN113064964 A CN 113064964A CN 202110301953 A CN202110301953 A CN 202110301953A CN 113064964 A CN113064964 A CN 113064964A
- Authority
- CN
- China
- Prior art keywords
- text
- text classification
- sample
- training
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 180
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 181
- 238000013145 classification model Methods 0.000 claims abstract description 138
- 230000006870 function Effects 0.000 claims abstract description 113
- 238000000605 extraction Methods 0.000 claims abstract description 58
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301953.1A CN113064964A (zh) | 2021-03-22 | 2021-03-22 | 文本分类方法、模型训练方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301953.1A CN113064964A (zh) | 2021-03-22 | 2021-03-22 | 文本分类方法、模型训练方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113064964A true CN113064964A (zh) | 2021-07-02 |
Family
ID=76562739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110301953.1A Pending CN113064964A (zh) | 2021-03-22 | 2021-03-22 | 文本分类方法、模型训练方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064964A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN113553401A (zh) * | 2021-07-28 | 2021-10-26 | 网易传媒科技(北京)有限公司 | 一种文本处理方法、装置、介质和电子设备 |
CN113806538A (zh) * | 2021-09-17 | 2021-12-17 | 平安银行股份有限公司 | 标签提取模型训练方法、装置、设备与存储介质 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN114818891A (zh) * | 2022-04-14 | 2022-07-29 | 人民网股份有限公司 | 小样本多标签文本分类模型训练方法及文本分类方法 |
CN115687625A (zh) * | 2022-11-14 | 2023-02-03 | 五邑大学 | 文本分类方法、装置、设备及介质 |
CN116226382A (zh) * | 2023-02-28 | 2023-06-06 | 北京数美时代科技有限公司 | 一种给定关键词的文本分类方法、装置、电子设备及介质 |
CN116450813A (zh) * | 2023-06-19 | 2023-07-18 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
WO2023142809A1 (zh) * | 2022-01-27 | 2023-08-03 | 北京字节跳动网络技术有限公司 | 文本分类、文本处理方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN108549636A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种赛事文字直播关键句抽取方法 |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
CN109614490A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于lstm的金融新闻倾向性分析方法 |
CN110209806A (zh) * | 2018-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、文本分类装置及计算机可读存储介质 |
CN111046171A (zh) * | 2019-08-29 | 2020-04-21 | 成都信息工程大学 | 一种基于细粒度标注数据的情感判别方法 |
CN112329836A (zh) * | 2020-11-02 | 2021-02-05 | 成都网安科技发展有限公司 | 基于深度学习的文本分类方法、装置、服务器及存储介质 |
-
2021
- 2021-03-22 CN CN202110301953.1A patent/CN113064964A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN108549636A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种赛事文字直播关键句抽取方法 |
CN110209806A (zh) * | 2018-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、文本分类装置及计算机可读存储介质 |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
CN109614490A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于lstm的金融新闻倾向性分析方法 |
CN111046171A (zh) * | 2019-08-29 | 2020-04-21 | 成都信息工程大学 | 一种基于细粒度标注数据的情感判别方法 |
CN112329836A (zh) * | 2020-11-02 | 2021-02-05 | 成都网安科技发展有限公司 | 基于深度学习的文本分类方法、装置、服务器及存储介质 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486178B (zh) * | 2021-07-12 | 2023-12-01 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN113553401A (zh) * | 2021-07-28 | 2021-10-26 | 网易传媒科技(北京)有限公司 | 一种文本处理方法、装置、介质和电子设备 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN113806536B (zh) * | 2021-09-14 | 2024-04-16 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN113806538A (zh) * | 2021-09-17 | 2021-12-17 | 平安银行股份有限公司 | 标签提取模型训练方法、装置、设备与存储介质 |
CN113806538B (zh) * | 2021-09-17 | 2023-08-22 | 平安银行股份有限公司 | 标签提取模型训练方法、装置、设备与存储介质 |
WO2023142809A1 (zh) * | 2022-01-27 | 2023-08-03 | 北京字节跳动网络技术有限公司 | 文本分类、文本处理方法、装置、计算机设备及存储介质 |
CN114818891A (zh) * | 2022-04-14 | 2022-07-29 | 人民网股份有限公司 | 小样本多标签文本分类模型训练方法及文本分类方法 |
CN114818891B (zh) * | 2022-04-14 | 2022-11-18 | 人民网股份有限公司 | 小样本多标签文本分类模型训练方法及文本分类方法 |
CN115687625A (zh) * | 2022-11-14 | 2023-02-03 | 五邑大学 | 文本分类方法、装置、设备及介质 |
CN115687625B (zh) * | 2022-11-14 | 2024-01-09 | 五邑大学 | 文本分类方法、装置、设备及介质 |
CN116226382B (zh) * | 2023-02-28 | 2023-08-01 | 北京数美时代科技有限公司 | 一种给定关键词的文本分类方法、装置、电子设备及介质 |
CN116226382A (zh) * | 2023-02-28 | 2023-06-06 | 北京数美时代科技有限公司 | 一种给定关键词的文本分类方法、装置、电子设备及介质 |
CN116450813A (zh) * | 2023-06-19 | 2023-07-18 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
CN116450813B (zh) * | 2023-06-19 | 2023-09-19 | 深圳得理科技有限公司 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN111177319B (zh) | 风险事件的确定方法、装置、电子设备和存储介质 | |
CN110245348A (zh) | 一种意图识别方法及系统 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN113159010A (zh) | 视频分类方法、装置、设备和存储介质 | |
US20230206670A1 (en) | Semantic representation of text in document | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113220999B (zh) | 用户特征的生成方法、装置、电子设备和存储介质 | |
CN115982376A (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN111738791B (zh) | 一种文本处理方法、装置、设备和存储介质 | |
CN112070093A (zh) | 生成图像分类模型的方法、图像分类方法、装置和设备 | |
CN114861758A (zh) | 多模态数据处理方法、装置、电子设备及可读存储介质 | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
CN112711943A (zh) | 一种维吾尔文语种识别方法、装置及存储介质 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN114880520B (zh) | 视频标题生成方法、装置、电子设备和介质 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN115730591A (zh) | 基于知识图谱的用户服务方法、装置、设备和存储介质 | |
CN115017385A (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
CN112528674B (zh) | 文本处理方法、模型的训练方法、装置、设备及存储介质 | |
CN113434695A (zh) | 金融事件抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230323 Address after: 528311 no.l203 Country Garden International Club, Beijiao Town, Shunde District, Foshan City, Guangdong Province Applicant after: Zero Hole Technology Co.,Ltd. Address before: 528000 a2-05, 2nd floor, building A1, 1 Panpu Road, Biguiyuan community, Beijiao Town, Shunde District, Foshan City, Guangdong Province Applicant before: GUANGDONG BOZHILIN ROBOT Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231226 Address after: Room 01, Floor 9, Xinlihua Center Building, 151 Mount Taishan Road, Jianye District, Nanjing, Jiangsu 210004 Applicant after: Nanjing Lingdong Shuzhi Technology Co.,Ltd. Address before: 528311 no.l203 Country Garden International Club, Beijiao Town, Shunde District, Foshan City, Guangdong Province Applicant before: Zero Hole Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210702 |