CN112487134A - 一种基于极简摘要策略的科技文本问题方法抽取的方法 - Google Patents
一种基于极简摘要策略的科技文本问题方法抽取的方法 Download PDFInfo
- Publication number
- CN112487134A CN112487134A CN202011441092.9A CN202011441092A CN112487134A CN 112487134 A CN112487134 A CN 112487134A CN 202011441092 A CN202011441092 A CN 202011441092A CN 112487134 A CN112487134 A CN 112487134A
- Authority
- CN
- China
- Prior art keywords
- text
- scientific
- technical
- words
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及计算机技术,具体涉及一种基于极简摘要策略的科技文本问题方法抽取的方法,包括获取科技文档数据集;对非结构化文本进行预处理,获取训练语料标签;利用BERT预训练模型对预处理后的文本进行向量化表征;采用Transformer模型搭建seq2seq架构的深度神经网络作为编码器、解码器,生成限定内容与样式的极简摘要;应用词性分析和句法分析算法抽取所生成极简摘要中的问题方法词。该方法包括数据爬取、自然语言处理和深度学习,能够实现大规模的科技文本自动化处理,并从中抽取出具有对应关系的问题词与方法词。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种基于极简摘要策略的科技文本问题方法抽取的方法。
背景技术
可获取数字图书资源的日益激增,使得信息精准检索和知识快速获取愈发困难。为方便文献的索引和知识的获取,现有符号系统制定了类目繁多的分类标引框架以提高检索效率。然而,以文献为粒度单元的检索策略,无法满足读者们细粒度、导向性的知识获取需求。研究表明,科研人员的信息获取行为往往基于目标和任务驱动,更为关注文献中的问题、方法或结果等特定内容。因此,在理解文本语义信息的基础上实现词汇粒度层面的问题方法抽取,具有重要的理论意义和实践价值。
现有的问题方法抽取研究,多将信息抽取问题转换为机器可解的标签判定问题或分类问题,通过判别词汇或词组是否属于特定类别完成问题方法词的识别。然而,‘人工标注语料+机器学习算法’模式下的问题方法抽取依赖于大规模、高质量的标注语料,训练数据的获取高成本使得模型在性能提升上颇受掣肘。其次,对于涉及多问题、多方法的科技文本,现有方法难以判别问题与方法间的对应关系。
发明内容
针对背景技术存在的问题,本发明提供一种采用极简摘要策略进行科技文本中的问题方法抽取的方法。
为解决上述技术问题,本发明采用如下技术方案:一种基于极简摘要策略的科技文本问题方法抽取的方法,包括以下步骤:
S1.输入科技文档,对非结构化文本进行预处理,得到语料标签;
S2.对预处理后的文本进行多粒度向量化表征;
S3.搭建seq2seq架构的神经网络模型,生成限定内容与样式的极简摘要;
S4.从S3生成的极简摘要中抽取问题词与方法词。
在上述的基于极简摘要策略的科技文本问题方法抽取的方法中,S1的具体实施包括:
S1.1.使用正则表达式去除非结构化文本中的特殊字符;
S1.2.使用NLTK工具包对非结构化文本进行句子切分;
S1.3.归约科技文本中对于问题方法的描述范式,构建字符串匹配模板集,从目标文档中获取训练语料标签。
在上述的基于极简摘要策略的科技文本问题方法抽取的方法中,S2的具体实施包括:使用BERT预训练模型对S1预处理后的文本进行向量化表征,得到含文本语义信息的特征向量。
在上述的基于极简摘要策略的科技文本问题方法抽取的方法中,S3的具体实施包括:
S3.1.采用Transformers模型搭建seq2seq架构的神经网络模型作为编码器,对S2所得特征向量进行编码,生成语义编码向量;
S3.2.将S3.1所得语义编码向量输入多头注意力网络层,输出中间状态向量;
S3.3.采用Transformers模型搭建seq2seq架构的神经网络模型作为解码器,对S3.2所得中间状态向量进行解码操作,生成限定内容与样式的极简摘要。
在上述的基于极简摘要策略的科技文本问题方法抽取的方法中,S4的具体实施包括:使用句法分析和词性分析从S3生成的极简摘要中抽取出问题词和方法词。
与现有技术相比,本发明的有益效果是:采用极简摘要策略实现科技文本中问题与方法的抽取,实现了标注语料的获取和问题方法配对。本发明方法包括数据爬取、自然语言处理和深度学习,能够实现大规模的科技文本自动化处理,并从中抽取出具有对应关系的问题词与方法词。
附图说明
图1为本发明一个实施例一种采用极简摘要策略进行科技文本中的问题方法抽取的方法流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
本实施例采用极简摘要策略进行科技文本中的问题方法抽取,应用seq2seq架构的神经网络模型,对每一篇目标文本生成样式特定且内容为问题方法描述的极简摘要,最终借助句法分析等算法完成问题词与方法词的抽取。其中,通过归约科技文本中对于问题方法的描述范式,构建相应的字符串匹配模板集,从目标文档中获取模型的训练标签,解决语料的标注问题。通过限定所生成极简摘要的输出样式,进而约束问题与方法之间的对应关系。
本实施例是通过以下技术方案来实现的,一种基于极简摘要策略的科技文本问题方法抽取的方法,包括:
步骤1、输入科技文档,对非结构化文本进行预处理;
步骤2、对文本进行多粒度向量化表征;
步骤3、搭建seq2seq架构的神经网络模型,输入步骤2所得特征向量,生成限定内容与样式的极简摘要;
步骤4、使用句法分析从步骤3生成的极简摘要中抽取出问题词和方法词。
其中,在步骤1中,对结构化的科技文本进行预处理操作,具体过程包括:
步骤11、使用正则表达等规则对文本进行清洗,除去特殊字符;
步骤12、使用NLTK工具对文本进行句子切分;
步骤13、归约科技文本中对于问题方法的描述范式,构建字符串匹配模板集,从目标文档中获取训练语料的标签。
在步骤2中,使用BERT预训练模型对步骤1中文本的预处理结果进行向量化表征,得到富含文本语义信息的特征向量。
其中,在步骤3中,使用Transformer模型搭建seq2seq架构的深度神经网络,输出限定内容与样式的极简摘要,具体过程包括:
步骤31、应用Transformer作为神经网络模型的编码器,对步骤2所得的特征向量进行编码操作,生成语义编码向量;
步骤32、将步骤31的语义编码向量输入多头注意力网络层,输出中间状态向量;
步骤33、应用Transformer作为神经网络模型的解码器,对S32所述的中间状态向量进行解码操作,生成限定内容与样式的极简摘要。
步骤4中,使用句法分析和词性分析从步骤33所得极简摘要中抽取出问题词和方法词。
具体实施时,一种基于极简摘要策略的科技文本问题方法抽取的方法,以基金项目文档,期刊文献,专利文本,会议资料四种数据源为例阐述融合多种数据源,生成学科主题演化过程的方法,包括以下步骤:
一、输入科技文档,对非结构化文本进行预处理,得到语料标签,具体过程包括:
⑴、输入学术论文、科学专著、基金文档、专利文本、会议报告;
⑵、对非结构化文本预处理,使用正则表达式去除文本中的特殊字符,应用NLTK工具包进行分句;
⑶、归约科技文本对于问题方法的描述范式,构建字符串匹配模板集并在目标文档中匹配出对应句子,作为模型训练的语料标签。
二、使用BERT预训练模型对步骤⑵中文本的预处理结果进行向量化表征,得到富含文本语义信息的特征向量。
三、搭建seq2seq架构的神经网络模型,输入步骤二所述特征向量,生成限定内容与样式的极简摘要,具体过程包括:
①搭建seq2seq架构的神经网络模型,应用Transformers模型作为其编码器、解码器;
②在编码器与解码器中添加多头注意力层。
③将步骤二所得特征向量输入神经网络模型,经编码、attention计算和解码后,得到样式特征且内容为问题方法描述的极简摘要。
四、使用句法分析和词性分析从步骤③所得极简摘要中抽取出问题词和方法词。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (5)
1.一种基于极简摘要策略的科技文本问题方法抽取的方法,其特征是,包括以下步骤:
S1.输入科技文档,对非结构化文本进行预处理,得到语料标签;
S2.对预处理后的文本进行多粒度向量化表征;
S3.搭建seq2seq架构的神经网络模型,生成限定内容与样式的极简摘要;
S4.从S3生成的极简摘要中抽取问题词与方法词。
2.如权利要求1所述的基于极简摘要策略的科技文本问题方法抽取的方法,其特征是,S1的具体实施包括:
S1.1.使用正则表达式去除非结构化文本中的特殊字符;
S1.2.使用NLTK工具包对非结构化文本进行句子切分;
S1.3.归约科技文本中对于问题方法的描述范式,构建字符串匹配模板集,从目标文档中获取训练语料标签。
3.如权利要求1所述的基于极简摘要策略的科技文本问题方法抽取的方法,其特征是,S2的具体实施包括:使用BERT预训练模型对S1预处理后的文本进行向量化表征,得到含文本语义信息的特征向量。
4.如权利要求3所述的基于极简摘要策略的科技文本问题方法抽取的方法,其特征是,S3的具体实施包括:
S3.1.采用Transformers模型搭建seq2seq架构的神经网络模型作为编码器,对S2所得特征向量进行编码,生成语义编码向量;
S3.2.将S3.1所得语义编码向量输入多头注意力网络层,输出中间状态向量;
S3.3.采用Transformers模型搭建seq2seq架构的神经网络模型作为解码器,对S3.2所得中间状态向量进行解码操作,生成限定内容与样式的极简摘要。
5.如权利要求1所述的基于极简摘要策略的科技文本问题方法抽取的方法,其特征是,S4的具体实施包括:使用句法分析和词性分析从S3生成的极简摘要中抽取出问题词和方法词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011441092.9A CN112487134A (zh) | 2020-12-08 | 2020-12-08 | 一种基于极简摘要策略的科技文本问题方法抽取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011441092.9A CN112487134A (zh) | 2020-12-08 | 2020-12-08 | 一种基于极简摘要策略的科技文本问题方法抽取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112487134A true CN112487134A (zh) | 2021-03-12 |
Family
ID=74941691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011441092.9A Withdrawn CN112487134A (zh) | 2020-12-08 | 2020-12-08 | 一种基于极简摘要策略的科技文本问题方法抽取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487134A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178835A (ja) * | 2004-12-24 | 2006-07-06 | Internatl Business Mach Corp <Ibm> | プログラム解析装置、その解析方法及びプログラム |
CN106951414A (zh) * | 2017-03-30 | 2017-07-14 | 万迅 | 一种基于机器学习排序的学术文本词汇功能识别方法 |
CN109670186A (zh) * | 2018-12-27 | 2019-04-23 | 六度云计算有限公司 | 基于机器学习的生成式摘要方法和装置 |
CN109766432A (zh) * | 2018-07-12 | 2019-05-17 | 中国科学院信息工程研究所 | 一种基于生成对抗网络的中文摘要生成方法和装置 |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
-
2020
- 2020-12-08 CN CN202011441092.9A patent/CN112487134A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178835A (ja) * | 2004-12-24 | 2006-07-06 | Internatl Business Mach Corp <Ibm> | プログラム解析装置、その解析方法及びプログラム |
CN106951414A (zh) * | 2017-03-30 | 2017-07-14 | 万迅 | 一种基于机器学习排序的学术文本词汇功能识别方法 |
CN109766432A (zh) * | 2018-07-12 | 2019-05-17 | 中国科学院信息工程研究所 | 一种基于生成对抗网络的中文摘要生成方法和装置 |
CN109670186A (zh) * | 2018-12-27 | 2019-04-23 | 六度云计算有限公司 | 基于机器学习的生成式摘要方法和装置 |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
Non-Patent Citations (3)
Title |
---|
JAN WIRA GOTAMA PUTRA等: "Automatic Title Generation in Scientific Articles for Authorship Assistance: A Summarization Approach", 《JOURNAL OF ICT RESEARCH AND APPLICATIONS》 * |
张少迪: "基于深度学习的文本摘要生成技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
程齐凯: "学术文本的词汇功能识别程", 《中国优秀博硕士学位论文全文数据库(博士)哲学与人文科学辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN112541356A (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112101014B (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN114970536A (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
Ansari et al. | Language Identification of Hindi-English tweets using code-mixed BERT | |
CN113360667B (zh) | 基于多任务学习的生物医学触发词检测和命名实体识别方法 | |
CN112487134A (zh) | 一种基于极简摘要策略的科技文本问题方法抽取的方法 | |
CN111368532B (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
Ma et al. | Joint pre-trained Chinese named entity recognition based on bi-directional language model | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN112990388B (zh) | 基于概念词的文本聚类方法 | |
CN113010676B (zh) | 一种文本知识提取方法、装置及自然语言推断系统 | |
CN114637852A (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN115048940A (zh) | 基于实体词属性特征和回译的中文金融文本数据增强方法 | |
CN114168720A (zh) | 一种基于深度学习的自然语言数据查询方法和存储设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210312 |