CN110852068A - 一种基于BiLSTM-CRF的体育新闻主题词提取方法 - Google Patents
一种基于BiLSTM-CRF的体育新闻主题词提取方法 Download PDFInfo
- Publication number
- CN110852068A CN110852068A CN201910978573.4A CN201910978573A CN110852068A CN 110852068 A CN110852068 A CN 110852068A CN 201910978573 A CN201910978573 A CN 201910978573A CN 110852068 A CN110852068 A CN 110852068A
- Authority
- CN
- China
- Prior art keywords
- subject
- sentence
- extracting
- crf
- bilstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于BiLSTM‑CRF的体育新闻主题词提取方法,包括以下步骤:从网站获取体育新闻作为训练数据,提取训练数据的标题和正文;从正文中提取主题句,提取训练数据的主题句;建立训练集和测试集,将得到的标题和主题句的部分划分到训练集中,剩余部分划分到测试集中;建立BiLSTM‑CRF模型,以训练集内的标题和主题句为对象对其进行训练,对训练集内的训练数据的主题词进行提取,得到最优预测模型;提取需要提取主题词的体育新闻的标题和主题句,并代入最优预测模型中,得到取需要提取主题词的体育新闻的主题词。本发明提供一种体育新闻主题词抽取方法,为读者提供新闻主题词,使其快速从新闻中准确地获取感兴趣的信息。
Description
技术领域
本发明涉及数据挖掘领域。更具体地说,本发明涉及一种基于BiLSTM-CRF的体育新闻主题词提取方法。
背景技术
进入大数据时代,主题词抽取技术在新闻检索、新闻文本聚类、分类等自然语言处理任务中发挥着重要作用。目前,主题词抽取方法主要有基于统计的方法和基于机器学习的方法。《计算机科学》2016年第43卷第12期出版的《基于词或词组长度和频数的短中文文本关键词提取算法》一文中,陈伟鹤采用基于统计的方法,依据词频及逆文档作为指标,选取Top-K作为文档的主题词。这种无监督的方法无需人工标注训练集,简单快捷,但是无法有效的利用句子的语法、语义特征。《软件学报》2017年第28卷第9期出版的《自动关键词抽取综述》一文中,赵京胜对基于机器学习的方法进行了论述,这类方法融合了语言模型以及统计机器学习的方法,需在大量的人工标注样本的基础进行主题词抽取,将主题词抽取问题转化为判断每个候选词是否为主题词的二分类问题。机器学习的方法对每个候选词单独判断是否为主题词,失去了文本本身的情感信息和句子结构的有效信息。
针对这些问题,诸多研究者将主题词抽取问题转化为序列标注问题,如隐马尔科夫模型(HMM)、最大熵马尔科夫(HEMMs)和条件随机场(CRF)。这种方法结合人工设计的特征,提高了识别的准确率。但是,这种基于机器学习的序列标注模型,在人工设计特征时需要反复尝试,耗时耗力。
近年来,长短期记忆网络(Long Short-Term Memory Network,LSTM)模型作为循环神经网络的代表已被有效用于各类NLP问题。LSTM模型对历史信息记忆的特点,使得模型对长序列依赖问题效果显著。但是,LSTM模型处理新闻主题词识别时每个字是相互独立的,最终得到的是每个字的最优预测,如果字与字之间存在较强的依赖关系(例如,以“B-”“I-”分别表示主题词的首字和非首字,主题词的第一字的标签应以“B-”开头,而非“I-”;预测标签“B-label1I-label2”则无效),LSTM模型无法对这些约束进行建模,预测性能将受到限制。
发明内容
本发明的目的是提供一种体育新闻主题词抽取方法,为读者提供新闻主题词,使其快速从新闻中准确地获取感兴趣的信息。
为了实现根据本发明的这些目的和其它优点,提供了一种基于BiLSTM-CRF的体育新闻主题词提取方法,包括以下步骤:
从网站获取体育新闻作为训练数据,提取所述训练数据的标题和正文;
从所述正文中提取主题句,提取所述训练数据的主题句;
建立训练集和测试集,将得到的所述标题和主题句的部分划分到所述训练集中,剩余部分划分到所述测试集中;
建立BiLSTM-CRF模型,以所述训练集内的所述标题和主题句为对象对其进行训练,对所述训练集内的所述训练数据的主题词进行提取,得到最优预测模型,其中,所述主题词包括体育新闻的新闻人物、新闻发生地点和体育项目;
提取需要提取主题词的体育新闻的标题和主题句,并代入所述最优预测模型中,得到取需要提取主题词的体育新闻的主题词。
本发明为了解决传统机器学习需要反复构建特征工程的不足和LSTM模型无法得到全局最优解的问题,在处理体育新闻主题词抽取的问题上引入双向长短期记忆网络和条件随机场模型,即BiLSTM-CRF,BiLSTM对长期的信息进行记忆并将其应用到当前的输出中,CRF自动从训练数据中学习字与字之间的约束以确保最终预测结果有效,实现主题词抽取。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中,得到所述最优预测模型后,以所述测试集内的所述标题和主题句为对象,对得到的所述最优预测模型的精度进行验证。
采用上述进一步方案的有益效果是:本进一步方案中,得到最优预测模型后,以测试集内的标题和主题句为对象,将测试集内的标题和主题句代入模型中进提取后,对其得到的主题词的准确率、召回率、F1值进行评价,对最优预测模型进行验证,保证其提取主题词的精度。
进一步,所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中,使用Python的Request和Beautiful Soup库从网站中获取体育新闻。
采用上述进一步方案的有益效果是:Python中使用request和BeautifulSoup库进行网络爬虫为现有技术,本处不再具体展开。
进一步,所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中,使用TextRank算法从所述正文中提取主题句。
采用上述进一步方案的有益效果是:依靠标题进行主题词抽取对主题词抽取的准确率、覆盖程度有一定影响,因此,在进行主题句抽取时,考虑新闻正文是对仅考虑新闻标题的抽取方法的补充,该方法对主题词的准确率和覆盖程度都有一定程度的提升。本发明首先采用TextRank算法对新闻正文进行主题句自动提取,在主题句的基础上再抽取主题词,这种方法避免了仅仅依赖新闻标题进行主题抽取导致的关键信息遗漏或覆盖不全的问题。
进一步,所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中,使用TextRank算法从所述正文中提取主题句时,句子Vi的权重WS(Vi)的计算方法如下:
其中,d为阻尼系数,0<d<1;In(Vi)和Out(Vi)分别为指向句子Vi的句子集合和句子Vi指向的句子集合;wji表示任意两个句子Vi和句子Vj之间边的权重;
用两个句子Vi和句子Vj的相似程度Similarity(Si,Sj)表示wji:
其中,Si为句子Vi去除停用词之后的词语集合;Sj为句子Vj去除停用词之后的词语集合。
采用上述进一步方案的有益效果是:TextRank拟定一个权重的评分标准,给新闻正文的每个句子进行打分,之后选取排名靠前的K个句子作为结果,本发明可以根据需要确定K的取值。TextRank将文本信息拆分成句子作为节点,并组成带权重的句子有向图模型,其中V为节点集合,即句子构成的节点集合,E为边集合,用来表示句子之间的结构关系。并通过图的迭代计算实现句子权重的排序。
进一步,所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中,所述BiLSTM-CRF模型的第一层为look-up层、第二层为双向LSTM层第三层为CRF层。
采用上述进一步方案的有益效果是:以经过主题句抽取后的文本和新闻标题为对象,使用基于字的双向LSTM网络联合条件随机场模型将主题词抽取问题转化为序列标注问题。本发明采用BIO标准标注,即B-PER、I-PER代表体育新闻中人名首字、人名非首字,B-LOC、I-LOC代表体育新闻中出现的国家和地名的首字、地名非首字,B-SPO、I-SPO代表体育项目名首字、体育项目名非首字,O代表该字不属于主题词的部分:
模型的第一层为look-up层,利用随机初始化的嵌入矩阵(embedding matrix)将句子中每个字的one-hot向量xi映射为含有嵌入特征的低维稠密的字向量xi∈Rd,其中d为嵌入矩阵的维度;
模型的第二层为双向LSTM层,将各个字向量作为各个时间步的输入,再将前向隐藏状态和后向隐藏状态进行拼接,得到该时间步完整的隐藏状态利用一个线性层将隐藏向量从m维映射为k维(k是标注的标签数)得到pi∈Rk,pi中的每一维pij为字xi到标签j的打分值;
模型的第三层为CRF层,该层具有一个状态转移矩阵的参数。通过这一层,模型可以有效地利用过去的标签和未来的标签来预测当前的标签,通过下式来计算句子x的标签等于y的分数:
其中,A是一个加了起始状态和终止状态的(k+2)×(k+2)矩阵,Aij表示的是从第i个标签到第j个标签的转移分数。可以看出整个序列的分值等于各个位置的分值之和,而每个位置的分数由两部分得到,一部分是由LSTM输出的决定,另一部分则由CRF的转移矩阵A决定。模型在预测过程时使用下式所示的Viterbi算法求解最优序列:
进一步,所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中,所述标题和主题句均按照20:1的比例划分到所述训练集和测试集中。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明所述的一实施例的BiLSTM-CRF模型示意图的结构示意图;
图2为本发明所述的一实施例的体育新闻主题词提取方法的流程图;
图3为本发明所述的一实施例中对得到的所述最优预测模型的精度进行验证结果。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
需要说明的是,在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1-图3所示,本发明的实施例提供一种基于BiLSTM-CRF的体育新闻主题词提取方法,包括以下步骤:
S1、使用Python的Request和Beautiful Soup库从新闻网站爬取真实新闻文本,清洗数据后得到新闻正文和新闻标题。
S2、对新闻正文使用TextRank方法提取新闻主题句,整理新闻标题和新闻主题句得到数据集,将数据集按20:1的分为训练集和测试集。
S3、如图1所示,构建BiLSTM-CRF主题词抽取模型,模型用来识别体育新闻中能够代表该篇体育新闻主题的新闻人物(PER)、新闻发生地点(LOC)、体育项目(SPO)。
S4、初始化BiLSTM-CRF主题词抽取模型,本实例采用TensorFlow进行搭建,各个参数设置如下:batch_size=64,clip=5.0,dropout=0.5,embedding_dim=300,epoch=150,hidden_dim=300,lr=0.001,optimizer='Adam'。
S5、、在训练集上训练主题词抽取模型,训练结束得到本实例的最优预测模型。
S6、将训练得到的预测模型在测试集上进行测试,采用了准确率(P)、召回率(R)、F1值进行评价,实验结果如附图3所示。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实施例。
Claims (7)
1.一种基于BiLSTM-CRF的体育新闻主题词提取方法,其特征在于,包括以下步骤:
从网站获取体育新闻作为训练数据,提取所述训练数据的标题和正文;
从所述正文中提取主题句,提取所述训练数据的主题句;
建立训练集和测试集,将得到的所述标题和主题句的部分划分到所述训练集中,剩余部分划分到所述测试集中;
建立BiLSTM-CRF模型,以所述训练集内的所述标题和主题句为对象对其进行训练,对所述训练集内的所述训练数据的主题词进行提取,得到最优预测模型,其中,所述主题词包括体育新闻的新闻人物、新闻发生地点和体育项目;
提取需要提取主题词的体育新闻的标题和主题句,并代入所述最优预测模型中,得到取需要提取主题词的体育新闻的主题词。
2.如权利要求1所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法,其特征在于,得到所述最优预测模型后,以所述测试集内的所述标题和主题句为对象,对得到的所述最优预测模型的精度进行验证。
3.如权利要求1所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法,其特征在于,使用Python的Request和Beautiful Soup库从网站中获取体育新闻。
4.如权利要求1所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法,其特征在于,使用TextRank算法从所述正文中提取主题句。
6.如权利要求1-5任一项所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法,其特征在于,所述BiLSTM-CRF模型的第一层为look-up层、第二层为双向LSTM层第三层为CRF层。
7.如权利要求1-5任一项所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法,其特征在于,所述标题和主题句均按照20:1的比例划分到所述训练集和测试集中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910978573.4A CN110852068A (zh) | 2019-10-15 | 2019-10-15 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910978573.4A CN110852068A (zh) | 2019-10-15 | 2019-10-15 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852068A true CN110852068A (zh) | 2020-02-28 |
Family
ID=69596389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910978573.4A Pending CN110852068A (zh) | 2019-10-15 | 2019-10-15 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852068A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950199A (zh) * | 2020-08-11 | 2020-11-17 | 杭州叙简科技股份有限公司 | 一种基于地震新闻事件的地震数据结构化自动方法 |
CN112149409A (zh) * | 2020-09-23 | 2020-12-29 | 平安国际智慧城市科技股份有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN112269949A (zh) * | 2020-10-19 | 2021-01-26 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015796A (ja) * | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN105912526A (zh) * | 2016-04-15 | 2016-08-31 | 北京大学 | 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
US20190205320A1 (en) * | 2017-12-28 | 2019-07-04 | Konica Minolta, Inc. | Sentence scoring apparatus and program |
-
2019
- 2019-10-15 CN CN201910978573.4A patent/CN110852068A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015796A (ja) * | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN105912526A (zh) * | 2016-04-15 | 2016-08-31 | 北京大学 | 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 |
US20190205320A1 (en) * | 2017-12-28 | 2019-07-04 | Konica Minolta, Inc. | Sentence scoring apparatus and program |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
Non-Patent Citations (2)
Title |
---|
RADA MIHALCEA等: "TextRank: Bringing Order into Texts" * |
尹倩;胡学钢;谢飞;吴信东;: "基于密度聚类模式的中文新闻网页关键词提取" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950199A (zh) * | 2020-08-11 | 2020-11-17 | 杭州叙简科技股份有限公司 | 一种基于地震新闻事件的地震数据结构化自动方法 |
CN112149409A (zh) * | 2020-09-23 | 2020-12-29 | 平安国际智慧城市科技股份有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN112149409B (zh) * | 2020-09-23 | 2024-04-02 | 深圳赛安特技术服务有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN112269949A (zh) * | 2020-10-19 | 2021-01-26 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
CN112269949B (zh) * | 2020-10-19 | 2023-09-22 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN110457675B (zh) | 预测模型训练方法、装置、存储介质及计算机设备 | |
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN112733541A (zh) | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN110188197B (zh) | 一种用于标注平台的主动学习方法及装置 | |
CN112989005A (zh) | 一种基于分阶段查询的知识图谱常识问答方法及系统 | |
CN112069408A (zh) | 一种融合关系抽取的推荐系统及方法 | |
CN110852068A (zh) | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN110263325A (zh) | 中文分词系统 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN108509423A (zh) | 一种基于二阶hmm的中标网页命名实体抽取方法 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN113553429A (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111027306A (zh) | 一种基于关键词抽取和词移距离的知识产权匹配技术 | |
CN113282711A (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN111428501A (zh) | 命名实体的识别方法、识别系统及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |