CN110362803A - 一种基于领域特征词法组合的文本模板生成方法 - Google Patents
一种基于领域特征词法组合的文本模板生成方法 Download PDFInfo
- Publication number
- CN110362803A CN110362803A CN201910658510.0A CN201910658510A CN110362803A CN 110362803 A CN110362803 A CN 110362803A CN 201910658510 A CN201910658510 A CN 201910658510A CN 110362803 A CN110362803 A CN 110362803A
- Authority
- CN
- China
- Prior art keywords
- text
- dictionary
- template
- domain features
- template generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于领域特征词法组合的文本模板生成方法,属于自然语言处理领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。该方法的步骤包括:对原始文本进行分词、词性标注等预处理,建立领域特征词典;结合特征词典和正则表达式集合,对任意一条文本生成基于领域特征的标记序列;使用基于标记序列的无监督模板生成算法自动生成文本的模板。利用本发明实施例,能够将人工从底层面向大量重复的样本进行规律提取提升到了高层,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可迁移性,具有很大的实用价值。
Description
技术领域
本发明涉及自然语言处理领域,特别是指一种基于领域特征词法组合的文本模板生成方法。
背景技术
随着移动通信的高速发展,日常通讯过程中产生了海量的文本数据,这些数据中包含了大量由模板生成的文本数据,如运营商的话费情况提醒,航班和火车的订票成功提醒等。为了便于监管部门对这些文本数据进行大数据分析,需要根据文本数据中的规律逆向生成该文本的模板,进而获得有用的结构化信息。
目前解决这类问题的方法一般有两类,一种是采用规则匹配的方式,通过人工观察大量的领域文本数据建立领域知识库,再从领域知识库中总结规则,最后通过专业人员将规则用代码实现从而将文本转换为模板。该方法利用大量人工去总结文本中的统计特征和领域知识,耗时费力,且编写的规则经常会发生逻辑冲突。另一种是基于标注的方法,通过人工标注数据训练机器学习或深度学习模型,用模型对新文本进行模板抽取,这种方法需要大量标注数据,而且模型可解释性差,出错率较高,在实际应用场景中很少采用。所以,迫切需要一种新方法,能够让程序无监督的抽取中文本中的领域特征,再结合少量人工进行去噪和调优,最后自动分析文本生成模板,从而在减轻人工的基础上提高文本的抽取性能。
因此,本专利提出一种基于领域特征词法组合的文本模板生成方法,通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。
发明内容
本专利提出一种基于领域特征词法组合的文本模板生成方法。程序通过词性标注和词频统计自动从大量文本中提取领域业务词典,业务操作词典和操作状态词典,进而借助词典和正则表达式对文本进行标注,最后基于标注序列进行文本的模板生成。
本发明的技术方案如下:
一种基于领域特征词法组合的文本模板生成方法,包括以下步骤:
步骤S1:对大规模待处理原始文本列表进行预处理,建立领域业务词典,业务操作词典和操作状态词典;
步骤S2:使用通用数值正则表达式集合,结合步骤S1得到的词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;
(1)使用步骤S1得到的词典,对文本列表进行匹配和标注,得到初始标注序列;
(2)根据领域特征,将不同标记进行组合和替换,生成最终标记序列;
(3)基于标注序列的模板生成算法,即结合标注列表对文本列表进行替换,生成文本的模板;
步骤S3:将步骤S2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
本发明的有益效果在于:将人工从底层面向大量重复的样本进行规律提取提升到了高层。无需逐条样本分析再进行特征抽象和制定规则库,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,进而结合标注序列进行模板生成,提升了人工的价值。同时使程序具有良好的可迁移性:当领域发生变化时,只需要再次根据程序运行得到的特征词库进行调整即可迁移到新的领域,无需从头开始进行大量重复劳动。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于领域特征词法组合的文本模板生成方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开了一种基于领域特征词法组合的文本模板生成方法,该方法包括以下步骤:
步骤S1:对大规模待处理原始文本列表D={d1,d2,…,dn},di是第i条文本,进行预处理,建立领域业务词典B,业务操作词典V和操作状态词典S。
(1.1)使用jieba分词工具对文本列表D进行清洗、分词、词性标注,得到带有词性标注的文本列表D′={d′1,d′2,…,d′n};词性标注规则可参考jieba分词工具说明;
(1.2)对标注/n,/vn,/nz,/nt等名词进行词频统计,去掉单字,按词频倒序生成领域业务候选集B′;
(1.3)对标注/v,/vd等动词进行词频统计,去掉单字,按词频倒序生成业务操作候选集V′;
(1.4)对标注/d,/的副词进行词频统计,按词频倒序生成操作状态候选集S′;
(1.5)人工对上述候选集合进行特征选择,去掉噪声,得到领域业务词典B={b1,b2,…,bn1},比如“流量”、“余额”等;业务操作词典V={v1,v2,…,vn2},比如“申请”、“注册”等;操作状态词典S={s1,s2,…,sn3},比如:“成功”、“未”、“已”等。
步骤S2:使用通用数值正则表达式集合R={r1,r2,…,rn4},结合步骤S1得到的词典B、V、S,对D中任意一条文本di进行文本标注序列生成、文本标注序列合并和替换、基于标注序列的无监督模板生成算法,得到对应模板文本ti。
(2.1)文本标注序列初始生成m′i
(2.1.1)初始化标记序列m′i={′o′,′o′,…,′o′},长度=Length(di),并对三个词集合B、V、S,生成用于匹配的AC自动机;
(2.1.2)用三个AC自动机分别对di进行词匹配,将mi中对应di匹配部分的标注分别修改为领域业务标注′b′,业务操作标注′v′,操作状态标注′s′;
(2.1.3)用正则表达式集合进行正则匹配,将m′i中对应di匹配部分的标注修改为′r′。
(2.2)基于领域特征,对初始文本标注序列m′i进行合并和替换,生成最终的标记序列mi。
(2.2.1)特征1:若存在两个连续′b′序列仅被一个′o′分隔,且′o′对应di中的字符不是标点符号,则将′o′替换为′b′;
(2.2.2)特征2:若任意子句中存在相邻的连续′s′序列和连续′v′序列,且′v′序列后无′r′序列,则将′s′和′v′替换为′r′;
(2.2.3)特征3:若存在相邻的连续′b′序列和连续′v′序列,则将′v′序列替换为′b′;
(2.2.4)特征4:若任意子句中存在连续的′r′序列,但是不存在连续的′b′序列,则将′r′替换为′o′。
(2.3)基于标注序列的无监督模板生成算法,即根据mi对文本序列di进行替换,生成文本的模板ti,算法伪代码描述如下:
步骤S3:将步骤S2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合T={t1,t2,…,tl}。
以上结合附图对所提出的基于领域特征词法组合的文本模板生成方法及各模块的具体实施方式进行了阐述。本发明的有益效果在于,将人工从底层面向大量重复的样本进行规律提取提升到了高层。无需逐条样本分析再进行特征抽象和制定规则库,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,进而结合标注序列进行模板生成,提升了人工的价值。同时使程序具有良好的可迁移性:当领域发生变化时,只需要再次根据程序运行得到的特征词库进行调整即可迁移到新的领域,无需从头开始进行大量重复劳动。上述技术方案公开了本发明的改进点,未详细公开的技术内容,可由本领域技术人员通过现有技术实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
Claims (3)
1.一种基于领域特征词法组合的文本模板生成方法,其特征在于,包括以下步骤:
步骤1:对大规模待处理原始文本进行预处理,建立领域业务词典,业务操作词典和操作状态词典;
步骤2:使用通用数值正则表达式集合,结合步骤1得到的词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;
步骤3:将步骤2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
2.如权利要求1所述的一种基于领域特征词法组合的文本模板生成方法,其特征在于,所述步骤1具体包括:
(1.1)使用分词工具对文本列表进行清洗、分词、词性标注,得到带有词性标注的文本列表;
(1.2)对标注/n,/vn,/nz,/nt等名词进行词频统计,去掉单字,按词频倒序生成领域业务候选集;
(1.3)对标注/v,/vd等动词进行词频统计,去掉单字,按词频倒序生成业务操作候选集;
(1.4)对标注/d的副词进行词频统计,按词频倒序生成操作状态候选集;
(1.5)人工对上述候选集合进行特征选择,去掉噪声,得到领域业务词典,业务操作词典,操作状态词典。
3.如权利要求1所述的一种基于领域特征词法组合的文本模板生成方法,其特征在于,所述步骤(2)具体包括:
(2.1)使用步骤1得到的词典,对文本列表进行匹配和标注,得到初始标注序列;
(2.2)根据领域特征,将不同标记进行组合和替换,生成最终标记序列;
(2.3)基于标注序列的模板生成算法,即结合标注列表对文本列表进行替换,生成文本的模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910658510.0A CN110362803B (zh) | 2019-07-19 | 2019-07-19 | 一种基于领域特征词法组合的文本模板生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910658510.0A CN110362803B (zh) | 2019-07-19 | 2019-07-19 | 一种基于领域特征词法组合的文本模板生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362803A true CN110362803A (zh) | 2019-10-22 |
CN110362803B CN110362803B (zh) | 2020-12-18 |
Family
ID=68221349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910658510.0A Active CN110362803B (zh) | 2019-07-19 | 2019-07-19 | 一种基于领域特征词法组合的文本模板生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362803B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378515A (zh) * | 2021-08-16 | 2021-09-10 | 宜科(天津)电子有限公司 | 一种基于生产数据的文本生成系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
WO2014031505A1 (en) * | 2012-08-24 | 2014-02-27 | Microsoft Corporation | Word detection and domain dictionary recommendation |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
-
2019
- 2019-07-19 CN CN201910658510.0A patent/CN110362803B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
WO2014031505A1 (en) * | 2012-08-24 | 2014-02-27 | Microsoft Corporation | Word detection and domain dictionary recommendation |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
Non-Patent Citations (3)
Title |
---|
SATORU KOBAYASHI: "Towards an NLP-based log template generation algorithm for system log analysis", 《PROCEEDINGS OF THE NINTH INTERNATIONAL CONFERENCE ON FUTURE INTERNET TECHNOLOGIES》 * |
野营者007: "新手探索NLP(八)——序列标注", 《 HTTPS://BLOG.CSDN.NET/QQ_40136685/ARTICLE/DETAILS/90634006 》 * |
阴晋岭 等: "词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注", 《现代图书情报技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378515A (zh) * | 2021-08-16 | 2021-09-10 | 宜科(天津)电子有限公司 | 一种基于生产数据的文本生成系统 |
CN113378515B (zh) * | 2021-08-16 | 2021-11-02 | 宜科(天津)电子有限公司 | 一种基于生产数据的文本生成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110362803B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A two-stage parsing method for text-level discourse analysis | |
CN107392143B (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN109753650A (zh) | 一种融合多特征的老挝语人名地名实体识别方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及系统 | |
CN111143571A (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
CN111368532B (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
CN110362803A (zh) | 一种基于领域特征词法组合的文本模板生成方法 | |
CN112466277A (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN109902299B (zh) | 一种文本处理方法及装置 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN107451215B (zh) | 特征文本抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |