CN111666378A - 一种基于词向量的中文年报标题分类方法 - Google Patents

一种基于词向量的中文年报标题分类方法 Download PDF

Info

Publication number
CN111666378A
CN111666378A CN202010527929.5A CN202010527929A CN111666378A CN 111666378 A CN111666378 A CN 111666378A CN 202010527929 A CN202010527929 A CN 202010527929A CN 111666378 A CN111666378 A CN 111666378A
Authority
CN
China
Prior art keywords
word
vector
yearbook
chinese
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010527929.5A
Other languages
English (en)
Inventor
梁倬骞
潘定
曹志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202010527929.5A priority Critical patent/CN111666378A/zh
Publication of CN111666378A publication Critical patent/CN111666378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

发明公开了一种基于词向量的中文年报标题分类方法,具体步骤为:步骤1、输入企业年报数据集,步骤2、对数据进行人工标注,并划分训练集,步骤3、对数据进行预处理,并训练Word2vector模型,步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量,步骤5、通过分类抽取得到目录,步骤3预处理具体为分词和去掉停用词,步骤3中Word2vector模型采用CBOW模型,本发明涉及标题分类技术领域。该基于词向量的中文年报标题分类方法,解决了传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低的问题。

Description

一种基于词向量的中文年报标题分类方法
技术领域
发明涉及标题分类技术领域,具体为一种基于词向量的中文年报标题分类方法。
背景技术
随着网络技术的发展,以及互联网的普及,人们进入到了信息时代。在这个时代里,各种各样的信息充斥着人们的生活,人们在每天的工作学习中,都要面对数不胜数的新闻、微博、报告即使这样,信息还是在爆炸式地增长,因此对这些海量的数据进行信息抽取显得十分必要。
在金融领域,每天也同样会产生大量的文本数据,其中就包括企业年报。年报是企业的法定义务,企业通过年报向社会提供企业的基本信息,有利于社会公众和交易相对人了解企业,并让国家相关管理部门可以及时掌握企业的状况。企业年报是投资者重要的参考材料,抽取其中的重要信息十分关键,可以对市场、企业、投资方产生重要影响。各企业的年报虽然在格式上有相似的地方,但也存在些许差异,这给我们对企业年报进行研究带来了困难。因此,如果能对企业年报的标题进行抽取,有利于我们了解整篇年报的文章结构,对于将企业年报规范化也有着重要意义,传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低。
发明内容
针对现有技术的不足,发明提供了一种基于词向量的中文年报标题分类方法,解决了传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低的问题。
为实现以上目的,发明通过以下技术方案予以实现:一种基于词向量的中文年报标题分类方法,具体步骤为:
步骤1、输入企业年报数据集;
步骤2、对数据进行人工标注,并划分训练集;
步骤3、对数据进行预处理,并训练Word2vector模型;
步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量;
步骤5、通过分类抽取得到目录。
优选的,步骤3预处理具体为分词和去掉停用词。
优选的,步骤3中Word2vector模型采用CBOW模型,具体步骤为:
A、定窗口大小k,将窗口内除中心词wt外的所有词语分别生成独热向量;
B、将输入权重矩阵与独热向量相乘,得到每个词语的输入向量;
C、计算这2k个上下文词语词向量的平均值;
D、通过输出词向量矩阵乘以上下文词向量得到一个分数向量;
E、利用函数将分数向量转化为概率分布;
F、利用交叉熵作为损失函数,通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵。
优选的,步骤A中独热向量可通过对词语的词典序进行独热编码生成。
优选的,步骤E中所述函数具体为softmax函数。
优选的,步骤C中所述平均值用以表示上下文词向量。
有益效果
发明提供了一种基于词向量的中文年报标题分类方法。具备以下有益效果:
该基于词向量的中文年报标题分类方法,通过word2vec模型将每个词转化为向量,并用平均值代表标题的特征向量,最后通过支持向量机分类算法对标题进行分类识别,通过标题的识别对年报的架构进行划分,进一步提取出人们最想关注的重点,可以对企业年报进行规范化,统一相似标题,方便人们阅读和进一步的信息抽取,解决了传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低的问题。
附图说明
图1为本发明基于词向量的中文年报标题分类方法的流程图。
具体实施方式
下面将结合发明实施例中的附图,对发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是发明一部分实施例,而不是全部的实施例。基于发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于发明保护的范围。
请参阅图1,发明提供一种技术方案:一种基于词向量的中文年报标题分类方法,具体步骤为:
步骤1、输入企业年报数据集;
步骤2、对数据进行人工标注,并划分训练集;
步骤3、对数据进行预处理,并训练Word2vector模型;
步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量;
步骤5、通过分类抽取得到目录。
进一步地,步骤3预处理具体为分词和去掉停用词。
进一步地,步骤3中Word2vector模型采用CBOW模型,具体步骤为:
A、定窗口大小k,将窗口内除中心词wt外的所有词语分别生成独热向量;
B、将输入权重矩阵与独热向量相乘,得到每个词语的输入向量;
C、计算这2k个上下文词语词向量的平均值;
D、通过输出词向量矩阵乘以上下文词向量得到一个分数向量;
E、利用函数将分数向量转化为概率分布;
F、利用交叉熵作为损失函数,通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵。
进一步地,步骤A中独热向量可通过对词语的词典序进行独热编码生成。
进一步地,步骤E中函数具体为softmax函数。
进一步地,步骤C中平均值用以表示上下文词向量。
一种基于词向量的中文年报标题分类方法,具体步骤为:步骤1、输入企业年报数据集;步骤2、对数据进行人工标注,并划分训练集;步骤3、对数据进行预处理,步骤3预处理具体为分词和去掉停用词,并训练Word2vector 模型;步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量;步骤5、通过分类抽取得到目录;
步骤3中Word2vector模型采用CBOW模型,具体步骤为:A、定窗口大小k,将窗口内除中心词wt外的所有词语分别生成独热向量;B、将输入权重矩阵与独热向量相乘,得到每个词语的输入向量;C、计算这2k个上下文词语词向量的平均值;D、通过输出词向量矩阵乘以上下文词向量得到一个分数向量;E、利用函数将分数向量转化为概率分布;F、利用交叉熵作为损失函数,通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵,步骤A中独热向量可通过对词语的词典序进行独热编码生成,步骤E中函数具体为 softmax函数,步骤C中平均值用以表示上下文词向量。
通过word2vec模型将每个词转化为向量,并用平均值代表标题的特征向量,最后通过支持向量机分类算法对标题进行分类识别,通过标题的识别对年报的架构进行划分,进一步提取出人们最想关注的重点,可以对企业年报进行规范化,统一相似标题,方便人们阅读和进一步的信息抽取。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于词向量的中文年报标题分类方法,具体步骤为:
步骤1、输入企业年报数据集;
步骤2、对数据进行人工标注,并划分训练集;
步骤3、对数据进行预处理,并训练Word2vector模型;
步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量;
步骤5、通过分类抽取得到目录。
2.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3预处理具体为分词和去掉停用词。
3.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3中Word2vector模型采用CBOW模型,具体步骤为:
A、定窗口大小k,将窗口内除中心词wt外的所有词语分别生成独热向量;
B、将输入权重矩阵与独热向量相乘,得到每个词语的输入向量;
C、计算这2k个上下文词语词向量的平均值;
D、通过输出词向量矩阵乘以上下文词向量得到一个分数向量;
E、利用函数将分数向量转化为概率分布;
F、利用交叉熵作为损失函数,通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵。
4.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤A中独热向量可通过对词语的词典序进行独热编码生成。
5.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤E中所述函数具体为softmax函数。
6.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤C中所述平均值用以表示上下文词向量。
CN202010527929.5A 2020-06-11 2020-06-11 一种基于词向量的中文年报标题分类方法 Pending CN111666378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010527929.5A CN111666378A (zh) 2020-06-11 2020-06-11 一种基于词向量的中文年报标题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010527929.5A CN111666378A (zh) 2020-06-11 2020-06-11 一种基于词向量的中文年报标题分类方法

Publications (1)

Publication Number Publication Date
CN111666378A true CN111666378A (zh) 2020-09-15

Family

ID=72387083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010527929.5A Pending CN111666378A (zh) 2020-06-11 2020-06-11 一种基于词向量的中文年报标题分类方法

Country Status (1)

Country Link
CN (1) CN111666378A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268548A (zh) * 2021-04-02 2021-08-17 国网福建省电力有限公司信息通信分公司 一种基于数据中台数据分级分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
CN111046179A (zh) * 2019-12-03 2020-04-21 哈尔滨工程大学 一种面向特定领域开放网络问句的文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
CN111046179A (zh) * 2019-12-03 2020-04-21 哈尔滨工程大学 一种面向特定领域开放网络问句的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘秋慧, 柴玉梅,刘箴: "中文微博情感分析模型SR-CBOW" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268548A (zh) * 2021-04-02 2021-08-17 国网福建省电力有限公司信息通信分公司 一种基于数据中台数据分级分类方法

Similar Documents

Publication Publication Date Title
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN110851667B (zh) 一种多源头大量数据的整合分析方法及工具
CN111680073A (zh) 一种基于用户数据的金融服务平台政策资讯推荐方法
CN112989791B (zh) 一种基于文本信息抽取结果的去重方法、系统以及介质
CN109766416A (zh) 一种新能源政策信息抽取方法及系统
CN111859070A (zh) 一种海量互联网新闻清洗系统
CN111522950B (zh) 一种针对非结构化海量文本敏感数据的快速识别系统
WO2023071127A1 (zh) 政策推荐方法、装置、设备及存储介质
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN115249007A (zh) 一种基于电子投标文件比对的围串标行为检测方法及装置
CN115062117A (zh) 一种基于自然语言处理技术的文档自动生成分类的方法
CN113792081B (zh) 一种自动化进行数据资产盘点的方法和系统
CN111666378A (zh) 一种基于词向量的中文年报标题分类方法
CN117573876A (zh) 一种业务数据分类分级方法及装置
CN117575855A (zh) 一种基于大数据的知识产权数据分析方法及系统
CN112488736A (zh) 一种住建领域政务热线工单数据分析方法及系统
CN112084773A (zh) 一种基于词库双向最大匹配法的电网停电地址匹配方法
CN117009529A (zh) 一种swift报文智能分类方法、装置、设备及存储介质
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
CN113538011A (zh) 一种电力系统中非在册联系信息与在册用户的关联方法
CN112417220A (zh) 一种异构数据的整合方法
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
CN112559739A (zh) 电力设备绝缘状态数据处理方法
Zhang Intelligent Mining Method of Massive Digital Archives Based on Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200915