CN110362803B - 一种基于领域特征词法组合的文本模板生成方法 - Google Patents
一种基于领域特征词法组合的文本模板生成方法 Download PDFInfo
- Publication number
- CN110362803B CN110362803B CN201910658510.0A CN201910658510A CN110362803B CN 110362803 B CN110362803 B CN 110362803B CN 201910658510 A CN201910658510 A CN 201910658510A CN 110362803 B CN110362803 B CN 110362803B
- Authority
- CN
- China
- Prior art keywords
- text
- dictionary
- template
- domain
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000014509 gene expression Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000002372 labelling Methods 0.000 claims description 14
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 8
- 230000011218 segmentation Effects 0.000 abstract description 3
- 239000003550 marker Substances 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于领域特征词法组合的文本模板生成方法,属于自然语言处理领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。该方法的步骤包括:对原始文本进行分词、词性标注等预处理,建立领域特征词典;结合特征词典和正则表达式集合,对任意一条文本生成基于领域特征的标记序列;使用基于标记序列的无监督模板生成算法自动生成文本的模板。利用本发明实施例,能够将人工从底层面向大量重复的样本进行规律提取提升到了高层,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可迁移性,具有很大的实用价值。
Description
技术领域
本发明涉及自然语言处理领域,特别是指一种基于领域特征词法组合的文本模板生成方法。
背景技术
随着移动通信的高速发展,日常通讯过程中产生了海量的文本数据,这些数据中包含了大量由模板生成的文本数据,如运营商的话费情况提醒,航班和火车的订票成功提醒等。为了便于监管部门对这些文本数据进行大数据分析,需要根据文本数据中的规律逆向生成该文本的模板,进而获得有用的结构化信息。
目前解决这类问题的方法一般有两类,一种是采用规则匹配的方式,通过人工观察大量的领域文本数据建立领域知识库,再从领域知识库中总结规则,最后通过专业人员将规则用代码实现从而将文本转换为模板。该方法利用大量人工去总结文本中的统计特征和领域知识,耗时费力,且编写的规则经常会发生逻辑冲突。另一种是基于标注的方法,通过人工标注数据训练机器学习或深度学习模型,用模型对新文本进行模板抽取,这种方法需要大量标注数据,而且模型可解释性差,出错率较高,在实际应用场景中很少采用。所以,迫切需要一种新方法,能够让程序无监督的抽取中文本中的领域特征,再结合少量人工进行去噪和调优,最后自动分析文本生成模板,从而在减轻人工的基础上提高文本的抽取性能。
因此,本专利提出一种基于领域特征词法组合的文本模板生成方法,通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。
发明内容
本专利提出一种基于领域特征词法组合的文本模板生成方法。程序通过词性标注和词频统计自动从大量文本中提取领域业务词典,业务操作词典和操作状态词典,进而借助词典和正则表达式对文本进行标注,最后基于标注序列进行文本的模板生成。
本发明的技术方案如下:
一种基于领域特征词法组合的文本模板生成方法,包括以下步骤:
步骤S1:对大规模待处理原始文本列表进行预处理,建立领域业务词典,业务操作词典和操作状态词典;
步骤S2:使用通用数值正则表达式集合,结合步骤S1得到的词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;
(1)使用步骤S1得到的词典,对文本列表进行匹配和标注,得到初始标注序列;
(2)根据领域特征,将不同标记进行组合和替换,生成最终标记序列;
(3)基于标注序列的模板生成算法,即结合标注列表对文本列表进行替换,生成文本的模板;
步骤S3:将步骤S2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
本发明的有益效果在于:将人工从底层面向大量重复的样本进行规律提取提升到了高层。无需逐条样本分析再进行特征抽象和制定规则库,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,进而结合标注序列进行模板生成,提升了人工的价值。同时使程序具有良好的可迁移性:当领域发生变化时,只需要再次根据程序运行得到的特征词库进行调整即可迁移到新的领域,无需从头开始进行大量重复劳动。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于领域特征词法组合的文本模板生成方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开了一种基于领域特征词法组合的文本模板生成方法,该方法包括以下步骤:
步骤S1:对大规模待处理原始文本列表D={d1,d2,…,dn},di是第i条文本,进行预处理,建立领域业务词典B,业务操作词典V和操作状态词典S。
(1.1)使用jieba分词工具对文本列表D进行清洗、分词、词性标注,得到带有词性标注的文本列表D′={d′1,d′2,…,d′n};词性标注规则可参考jieba分词工具说明;
(1.2)对标注/n,/vn,/nz,/nt等名词进行词频统计,去掉单字,按词频倒序生成领域业务候选集B′;
(1.3)对标注/v,/vd等动词进行词频统计,去掉单字,按词频倒序生成业务操作候选集V′;
(1.4)对标注/d,/的副词进行词频统计,按词频倒序生成操作状态候选集S′;
(1.5)人工对上述候选集合进行特征选择,去掉噪声,得到领域业务词典B={b1,b2,…,bn1},比如“流量”、“余额”等;业务操作词典V={v1,v2,…,vn2},比如“申请”、“注册”等;操作状态词典S={s1,s2,…,sn3},比如:“成功”、“未”、“已”等。
步骤S2:使用通用数值正则表达式集合R={r1,r2,…,rn4},结合步骤S1得到的词典B、V、S,对D中任意一条文本di进行文本标注序列生成、文本标注序列合并和替换、基于标注序列的无监督模板生成算法,得到对应模板文本ti。
(2.1)文本标注序列初始生成m′i
(2.1.1)初始化标记序列m′i={′o′,′o′,…,′o′},长度=Length(di),并对三个词集合B、V、S,生成用于匹配的AC自动机;
(2.1.2)用三个AC自动机分别对di进行词匹配,将mi中对应di匹配部分的标注分别修改为领域业务标注′b′,业务操作标注′v′,操作状态标注′s′;
(2.1.3)用正则表达式集合进行正则匹配,将m′i中对应di匹配部分的标注修改为′r′。
(2.2)基于领域特征,对初始文本标注序列m′i进行合并和替换,生成最终的标记序列mi。
(2.2.1)特征1:若存在两个连续′b′序列仅被一个′o′分隔,且′o′对应di中的字符不是标点符号,则将′o′替换为′b′;
(2.2.2)特征2:若任意子句中存在相邻的连续′s′序列和连续′v′序列,且′v′序列后无′r′序列,则将′s′和′v′替换为′r′;
(2.2.3)特征3:若存在相邻的连续′b′序列和连续′v′序列,则将′v′序列替换为′b′;
(2.2.4)特征4:若任意子句中存在连续的′r′序列,但是不存在连续的′b′序列,则将′r′替换为′o′。
(2.3)基于标注序列的无监督模板生成算法,即根据mi对文本序列di进行替换,生成文本的模板ti,算法伪代码描述如下:
步骤S3:将步骤S2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合T={t1,t2,…,tl}。
以上结合附图对所提出的基于领域特征词法组合的文本模板生成方法及各模块的具体实施方式进行了阐述。本发明的有益效果在于,将人工从底层面向大量重复的样本进行规律提取提升到了高层。无需逐条样本分析再进行特征抽象和制定规则库,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,进而结合标注序列进行模板生成,提升了人工的价值。同时使程序具有良好的可迁移性:当领域发生变化时,只需要再次根据程序运行得到的特征词库进行调整即可迁移到新的领域,无需从头开始进行大量重复劳动。上述技术方案公开了本发明的改进点,未详细公开的技术内容,可由本领域技术人员通过现有技术实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
Claims (2)
1.一种基于领域特征词法组合的文本模板生成方法,其特征在于,包括以下步骤:
步骤1:对大规模待处理原始文本进行预处理,建立领域业务词典,业务操作词典和操作状态词典;
步骤2:使用通用数值正则表达式集合,结合步骤1得到的领域业务词典,业务操作词典和操作状态词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;
步骤3:将步骤2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
2.如权利要求1所述的一种基于领域特征词法组合的文本模板生成方法,其特征在于,所述步骤2具体包括:
(2.1)使用步骤1得到的领域业务词典,业务操作词典和操作状态词典,对文本进行匹配和标注,得到初始标注序列;
(2.2)根据领域特征,将初始标注序列进行组合和替换,生成最终标记序列;
(2.3)基于标记序列的无监督模板生成算法,即结合最终标记序列对文本进行替换,生成文本的模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910658510.0A CN110362803B (zh) | 2019-07-19 | 2019-07-19 | 一种基于领域特征词法组合的文本模板生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910658510.0A CN110362803B (zh) | 2019-07-19 | 2019-07-19 | 一种基于领域特征词法组合的文本模板生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362803A CN110362803A (zh) | 2019-10-22 |
CN110362803B true CN110362803B (zh) | 2020-12-18 |
Family
ID=68221349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910658510.0A Expired - Fee Related CN110362803B (zh) | 2019-07-19 | 2019-07-19 | 一种基于领域特征词法组合的文本模板生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362803B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378515B (zh) * | 2021-08-16 | 2021-11-02 | 宜科(天津)电子有限公司 | 一种基于生产数据的文本生成系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169495B (zh) * | 2011-04-11 | 2014-04-02 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN102360383B (zh) * | 2011-10-15 | 2013-07-31 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
US9229924B2 (en) * | 2012-08-24 | 2016-01-05 | Microsoft Technology Licensing, Llc | Word detection and domain dictionary recommendation |
CN104268160B (zh) * | 2014-09-05 | 2017-06-06 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
CN105069560B (zh) * | 2015-07-30 | 2018-05-01 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN108038234B (zh) * | 2017-12-26 | 2021-06-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
-
2019
- 2019-07-19 CN CN201910658510.0A patent/CN110362803B/zh not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
新手探索NLP(八)——序列标注;野营者007;《 https://blog.csdn.net/qq_40136685/article/details/90634006 》;20190528;第1-2页 * |
词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注;阴晋岭 等;《现代图书情报技术》;20090325;第46、49页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110362803A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271631B (zh) | 分词方法、装置、设备及存储介质 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN107392143B (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN107861947B (zh) | 一种基于跨语言资源的柬语命名实体识别的方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN110853625B (zh) | 语音识别模型分词训练方法、系统、移动终端及存储介质 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN112101014B (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN109190099B (zh) | 句模提取方法及装置 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN113420548A (zh) | 一种基于知识蒸馏和pu学习的实体抽取采样方法 | |
CN110362803B (zh) | 一种基于领域特征词法组合的文本模板生成方法 | |
CN111401004B (zh) | 一种基于机器学习的文章断句方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201218 |