CN111046180A - 一种基于文本数据的标签识别方法 - Google Patents
一种基于文本数据的标签识别方法 Download PDFInfo
- Publication number
- CN111046180A CN111046180A CN201911231843.1A CN201911231843A CN111046180A CN 111046180 A CN111046180 A CN 111046180A CN 201911231843 A CN201911231843 A CN 201911231843A CN 111046180 A CN111046180 A CN 111046180A
- Authority
- CN
- China
- Prior art keywords
- label
- labels
- text data
- crf model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000002372 labelling Methods 0.000 claims description 20
- 238000009482 thermal adhesion granulation Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本数据的标签识别方法,包括步骤一、利用标注好标签的训练数据训练CRF模型;步骤二、将待识别标签的文本数据输入训练完成后的CRF模型进行标签识别,输出CRF模型识别出的一个或多个待选标签;步骤三、对一个或多个待选标签进行聚类操作,输出标签簇;步骤四、对每个标签簇选择距离该标签簇中心位置最近的待选标签作为目的标签输出。本发明通过采用CRF模型,仅需对模型训练一次,即可将CRF模型应用于不同的领域的文本数据中的标签识别中,泛化能力强,识别出的标签语义完整。
Description
技术领域
本发明属于文本标签自动识别技术领域,尤其涉及一种基于文本数据的标签识别方法。
背景技术
随着互联网尤其是移动互联网的普及,文本数据无处不在,比如京东上的一个热销商品有几万甚至几十万的评论,大众点评上一个网红店有几万的评论,如何从这些无结构的文本数据中发现用户所关注的点,形成标签,为商家提供进一步决策的依据。比如有一条某餐馆的评论“服务态度好。环境不错,适合朋友小聚。唯一不满意的就是菜有些难吃,希望商家改进。”,从这条评论我们可以得到“服务态度好”、“环境不错”、“适合朋友小聚”、“菜有些难吃”等标签信息。如何根据文本内容自动发现这些标签是一个挑战性的问题,传统的做法主要有以下几种:
1.用规则匹配,为每一个标签写出匹配规则
2.给每一个维度训练一个分类器,需要大量的分类器
3.利用分词,将其中的热词(频率较高或者tfidf值较高)作为标签
这些方法有以下问题和缺点:
1.用规则匹配需要事先知道有哪些标签,需要人工进行分析统计;泛化能力弱,局限于某一领域,如果换一个领域,需要重新统计新的标签;
2.为每一个标签准备大量的标注数据训练分类器,每一个领域通常有几十个标签,为此标注的工作量很大;泛化能力弱,局限于某一领域,如果换一个领域,需要重新统计新的标签,并为之标注新的训练数据;
3.热词发现的方法虽然可以发现其中的高频关键词,但是由于进行了分词,完整的标签被切分为多个词汇,通过其中的某个词汇来描述标签,语义表征不完整;例如:标签“服务态度好”被切分成“服务”、“态度”、“好”等词汇,无论用哪一个词汇也难以表征“服务态度好”的语义。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于文本数据的标签识别方法,通过采用CRF模型,仅需对模型训练一次,即可将CRF模型应用于不同的领域的文本数据中的标签识别中,泛化能力强,识别出的标签语义完整。
为解决上述技术问题,本发明采用的技术方案是:一种基于文本数据的标签识别方法,包括以下步骤,
步骤一、利用标注好标签的训练数据训练CRF模型;
步骤二、将待识别标签的文本数据输入训练完成后的CRF模型进行标签识别,输出CRF模型识别出的一个或多个待选标签;
步骤三、对一个或多个待选标签进行聚类操作,输出标签簇;
步骤四、对每个标签簇选择距离该标签簇中心位置最近的待选标签作为目的标签输出。
上述一种基于文本数据的标签识别方法,所述步骤一中利用标注好标签的训练数据训练CRF模型,包括:
上述一种基于文本数据的标签识别方法,所述步骤101中找出最优w 时,采用随机梯度下降(SGD)的方法来找到最优的w。
上述一种基于文本数据的标签识别方法,所述步骤三中对一个或多个待选标签进行聚类操作时,采用密度算法。
上述一种基于文本数据的标签识别方法,所述步骤二中进行标签识别时包括:
步骤201、对输入的文本数据进行BMESO标注操作,获得多个标注序列;
步骤202、通过Viterbi算法来寻找最优标注序列,所述最优标注序列是使CRF模型p(y|x,w)值最大的标注序列。
本发明与现有技术相比具有以下优点:
1.本发明所述方法只需对CRF模型训练一次,即可将训练完成的模型应用到不同的领域,泛化能力强。
2.本发明所述方法通过对CRF模型识别出的待选标签进行聚类,取距离标签簇中心位置最近的待选标签作为目的标签输出,最终输出的标签更加精准,语义也更加完整,克服了基于分词的热词发现方法语义表征不完整的缺点。
3.本发明所述方法通过采用CRF模型识别,可以自动根据文本数据所呈现的统计特征发现新的标签,无需人工实现分析定义标签体系。
下面通过实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
一种基于文本数据的标签识别方法,包括以下步骤:
步骤一、利用标注好标签的训练数据训练CRF(条件随机场)模型;
步骤二、将待识别标签的文本数据输入训练完成后的CRF模型进行标签识别,输出CRF模型识别出的一个或多个待选标签;
步骤三、对一个或多个待选标签进行聚类操作,输出标签簇;
步骤四、对每个标签簇选择距离该标签簇中心位置最近的待选标签作为目的标签输出。
本实施例中,所述步骤一中利用标注好标签的训练数据训练CRF模型,包括:
需要说明的是,所述训练数据可以通过将文本数据潜在的标签通过 TAG标注出来形成,例如对“服务态度好。环境不错,适合朋友小聚。唯一不满意的就是菜有些难吃,希望商家改进。”这段文本数据进行标注,则结果如下:“<START:TAG>服务态度好<END>。<START:TAG>环境不错 <END>,<START:TAG>适合朋友小聚<END>。唯一不满意的就是<START:TAG>菜有些难吃<END>,希望商家改进。”
在对文本数据标注完成后,在训练CRF模型时,将标注的文本数据转换为BMESO标注格式的数据,具体地说,对文本数据中的每个字符进行标注。BMESO,其中B(Begin)表示是标签的开始字符,M(Middle)表示是标签的中间字符,E(End)表示是标签的结束字符,S(Single)表示单个字符组成的标签。对于非标签的字符,可以用O(Other)进行标注,表示不属于标签的部分。比如“唯一不满意的就是菜有些难吃,希望商家改进。”,可以标注为“唯O/一O/不O/满O/意O/的O/就O/是O/菜B/有M/些M/难M/ 吃E/,O/希O/望O/商O/家O/改O/进O/。O”,其中BME合起来,得到“菜有些难吃”,表示文本数据中包含的标签是“菜有些难吃”。
所述{xi,yi}中的xi代表文本数据,yi为xi的BMESO标注的标注序列,例如“唯O/一O/不O/满O/意O/的O/就O/是O/菜B/有M/些M/难M/吃E/, O/希O/望O/商O/家O/改O/进O/。O”的y为“OOOOOOOOBMMMEOOOOOOOO”。
本实施例中,所述步骤101中找出最优w时,采用随机梯度下降(SGD) 的方法来找到最优的w。
本实施例中,所述步骤三中对一个或多个待选标签进行聚类操作时,采用密度算法。所述密度算法可以为DBSCAN算法、OPTICS算法或DENCLUE 算法。
本实施例中,所述步骤二中进行标签识别时包括:
步骤201、对输入的文本数据进行BMESO标注操作,获得多个标注序列;
步骤202、通过Viterbi算法来寻找最优标注序列,所述最优标注序列是使p(y|x,w)值最大的标注序列。
需要说明的是,找到最优标注序列之后,再通过最优标注序列其中的 BME或者S标注来精准地提取输入的文本数据中的字符,通过BME标注提取出的字符组合成待选标签,通过S标注提出的字符单个为待选标签。
例如“我O/喜O/欢O/歌S”,其中S表示单个字符标签,这里待选标签是“歌”。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (5)
1.一种基于文本数据的标签识别方法,其特征在于:包括以下步骤,
步骤一、利用标注好标签的训练数据训练CRF模型;
步骤二、将待识别标签的文本数据输入训练完成后的CRF模型进行标签识别,输出CRF模型识别出的一个或多个待选标签;
步骤三、对一个或多个待选标签进行聚类操作,输出标签簇;
步骤四、对每个标签簇选择距离该标签簇中心位置最近的待选标签作为目的标签输出。
3.按照权利要求2所述的一种基于文本数据的标签识别方法,其特征在于:所述步骤101中找出最优w时,采用随机梯度下降(SGD)的方法来找到最优的w。
4.按照权利要求1、2或3所述的一种基于文本数据的标签识别方法,其特征在于:所述步骤三中对一个或多个待选标签进行聚类操作时,采用密度算法。
5.按照权利要求1、2或3所述的一种基于文本数据的标签识别方法,其特征在于:所述步骤二中进行标签识别时包括:
步骤201、对输入的文本数据进行BMESO标注操作,获得多个标注序列;
步骤202、通过Viterbi算法来寻找最优标注序列,所述最优标注序列是使CRF模型p(y|x,w)值最大的标注序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911231843.1A CN111046180A (zh) | 2019-12-05 | 2019-12-05 | 一种基于文本数据的标签识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911231843.1A CN111046180A (zh) | 2019-12-05 | 2019-12-05 | 一种基于文本数据的标签识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111046180A true CN111046180A (zh) | 2020-04-21 |
Family
ID=70234847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911231843.1A Pending CN111046180A (zh) | 2019-12-05 | 2019-12-05 | 一种基于文本数据的标签识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046180A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560912A (zh) * | 2020-12-03 | 2021-03-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、装置、电子设备和存储介质 |
CN112818996A (zh) * | 2021-01-29 | 2021-05-18 | 青岛海尔科技有限公司 | 指令识别方法和装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239758A1 (en) * | 2015-02-17 | 2016-08-18 | Microsoft Technology Licensing, Llc | Training systems and methods for sequence taggers |
WO2016179988A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107832338A (zh) * | 2017-10-12 | 2018-03-23 | 北京京东尚科信息技术有限公司 | 一种识别核心产品词的方法和系统 |
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110472043A (zh) * | 2019-07-03 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种针对评论文本的聚类方法及装置 |
-
2019
- 2019-12-05 CN CN201911231843.1A patent/CN111046180A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239758A1 (en) * | 2015-02-17 | 2016-08-18 | Microsoft Technology Licensing, Llc | Training systems and methods for sequence taggers |
CN107251011A (zh) * | 2015-02-17 | 2017-10-13 | 微软技术许可有限责任公司 | 用于序列标签器的训练系统和方法 |
WO2016179988A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107832338A (zh) * | 2017-10-12 | 2018-03-23 | 北京京东尚科信息技术有限公司 | 一种识别核心产品词的方法和系统 |
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110472043A (zh) * | 2019-07-03 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种针对评论文本的聚类方法及装置 |
Non-Patent Citations (4)
Title |
---|
李弼程等: "《网络舆情分析理论技术与应对策略》", pages: 205 - 209 * |
索飞等: "多目标监督聚类GA研究", 《成都大学学报(自然科学版)》, no. 01, 30 March 2013 (2013-03-30), pages 58 - 63 * |
黄胜等: "基于深度学习的简历信息实体抽取方法", 《计算机工程与设计》 * |
黄胜等: "基于深度学习的简历信息实体抽取方法", 《计算机工程与设计》, no. 12, 16 December 2018 (2018-12-16), pages 281 - 286 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560912A (zh) * | 2020-12-03 | 2021-03-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、装置、电子设备和存储介质 |
CN112560912B (zh) * | 2020-12-03 | 2023-09-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、装置、电子设备和存储介质 |
CN112818996A (zh) * | 2021-01-29 | 2021-05-18 | 青岛海尔科技有限公司 | 指令识别方法和装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN112084790B (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
CN107735782B (zh) | 图像和文本数据层级分类器 | |
CN104281622B (zh) | 一种社交媒体中的信息推荐方法和装置 | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
CN108845988B (zh) | 一种实体识别方法、装置、设备及计算机可读存储介质 | |
CN110377727B (zh) | 一种基于多任务学习的多标签文本分类方法和装置 | |
CN114549874A (zh) | 多目标图文匹配模型的训练方法、图文检索方法及装置 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
CN112163081B (zh) | 标签确定方法、装置、介质及电子设备 | |
CN111046180A (zh) | 一种基于文本数据的标签识别方法 | |
WO2022188844A1 (zh) | 视频分类方法、装置、设备及介质 | |
CN109063787A (zh) | 一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法 | |
CN112434194A (zh) | 基于知识图谱的相似用户识别方法、装置、设备及介质 | |
CN109299263A (zh) | 文本分类方法、电子设备及计算机程序产品 | |
US20230004581A1 (en) | Computer-Implemented Method for Improving Classification of Labels and Categories of a Database | |
CN115270761A (zh) | 一种融合原型知识的关系抽取方法 | |
CN115168567A (zh) | 一种基于知识图谱的对象推荐方法 | |
CN116680420B (zh) | 基于知识表示增强的低资源跨语言文本检索方法及装置 | |
CN112565903B (zh) | 视频推荐方法、装置、服务器及存储介质 | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN115438141B (zh) | 一种基于知识图谱模型的信息检索方法 | |
US20200210760A1 (en) | System and method for cascading image clustering using distribution over auto-generated labels | |
CN111159370A (zh) | 一种短会话新问题生成方法、存储介质和人机交互装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200421 |