CN110928989A - 一种基于语言模型的年报语料库构建方法 - Google Patents

一种基于语言模型的年报语料库构建方法 Download PDF

Info

Publication number
CN110928989A
CN110928989A CN201911059126.5A CN201911059126A CN110928989A CN 110928989 A CN110928989 A CN 110928989A CN 201911059126 A CN201911059126 A CN 201911059126A CN 110928989 A CN110928989 A CN 110928989A
Authority
CN
China
Prior art keywords
language model
construction method
corpus construction
annual newspaper
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911059126.5A
Other languages
English (en)
Inventor
潘定
梁倬骞
温秋华
曹志鹏
翁秀木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201911059126.5A priority Critical patent/CN110928989A/zh
Publication of CN110928989A publication Critical patent/CN110928989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语言模型的年报语料库构建方法,具体步骤为:步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;步骤2、利用正则表达式进行目录提取;步骤3、运用语言模型进行数据分析;步骤4、进行模型训练并建立语料库,本发明涉及语料库构技术领域。该基于语言模型的年报语料库构建方法,解决了一般的规则对种类繁多、各式各样的标题适应性很差,需要人为不断修改规则进行改良,加上财务报告中含有众多表格,从中产生了许多干扰项,对机器自动识别造成阻碍的问题。

Description

一种基于语言模型的年报语料库构建方法
技术领域
本发明涉及语料库构建技术领域,具体为一种基于语言模型的年报语料库构建方法。
背景技术
年度报告是指公司整个会计年度的财务报告及其他相关文件,下文又称财务报告,又包含有审计报告和财务报表,可以说财务报告如同企业的成绩单,通过对其中的财务报表进行分析,能够熟悉企业的主要经济活动,专业人员还能从中看出企业的战略、竞争力、效益、风险和前景。
企业年度报告往往按照标准编写,符合某种格式上的要求,但并非完全统一,除了一二级标题大体相同,细致的内容差别很大,只是内容上有所指示,什么位置写什么东西,但具体怎么写,分几个子项,子标题是什么,没有明确的答案,加上不同企业不同行业,在某些指标上有适用不适用的说法,使得财务报告千差万别。
由于这些文档缺乏详细的目录索引,但一般的规则对种类繁多、各式各样的标题适应性很差,需要人为不断修改规则进行改良,加上财务报告中含有众多表格,从中产生了许多干扰项,对机器自动识别造成阻碍,想要在一篇100多页的文档中找到想要的信息,必须花费一定的时间和精力,而对专业分析人员来说,日常工作中难免与数量繁多的财务报告打交道,如果能快速查找到想要查询信息的位置,无疑能够节省相当的人力物力。
发明内容
针对现有技术的不足,本发明提供了一种基于语言模型的年报语料库构建方法,解决了一般的规则对种类繁多、各式各样的标题适应性很差,需要人为不断修改规则进行改良,加上财务报告中含有众多表格,从中产生了许多干扰项,对机器自动识别造成阻碍的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于语言模型的年报语料库构建方法,具体步骤为:
步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;
步骤2、利用正则表达式进行目录提取;
步骤3、运用语言模型进行数据分析;
步骤4、进行模型训练并建立语料库。
优选的,步骤1中网络爬取的具体步骤为:
A、抓取指下载一个页面,以便下一步处理解析搜索等其他操作;
B、分析即对抓取的内容进行分析;
C、筛选提炼出需要有价值的数据。
优选的,步骤1中PDFBox进行数据提取,能够创建修改PDF文档和从PDF 文档中提取内容,几行代码可以获得文档中的文本信息。
优选的,步骤2中正则表达式适用于处理匹配语法规则的字符串,通过一种可描述性语言对规则进行定义,匹配目标字符串,纯中文文本的txt文档本质上为本文字符串,由机器按字节流的形式读取,每个标题都单独占一行,对每一行进行读取并匹配,获得一个目录。
优选的,步骤3中包括统计语言模型,统计模型运用概率统计的方式揭示语言规律。
优选的,所述步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志。
优选的,所述中文分词使用了基于Python的jieba中文分词组件,精准模式进行分词。
优选的,所述去除停用词的具体为,建立一张停用词表,对分词后获得的词进行筛选,去掉停用词表中的词。
优选的,所述加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS。
有益效果
本发明提供了一种基于语言模型的年报语料库构建方法。具备以下有益效果:
该基于语言模型的年报语料库构建方法,通过分析研究并提取财务报告的目录结构等结构化信息,用于进行文档标记,区别于一般的目录,更加细致的标题,能给阅读者最为详细的指引。实现对文档目录的自动提取以及对标题内容的定位与跳转,便于用户快速检索,更进一步可以对文档的内容进行提取和归档,对每个标题下的各个详细数据项进行提取,按照预置的数据格式统一存入数据库,实现文档的数据化存储项。
附图说明
图1为本发明基于语言模型的年报语料库构建方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于语言模型的年报语料库构建方法,具体步骤为:
步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;
步骤2、利用正则表达式进行目录提取;
步骤3、运用语言模型进行数据分析;
步骤4、进行模型训练并建立语料库;
优选的,步骤1中网络爬取的具体步骤为:
A、抓取指下载一个页面,以便下一步处理解析搜索等其他操作;
B、分析即对抓取的内容进行分析;
C、筛选提炼出需要有价值的数据;
进一步地,步骤1中PDFBox进行数据提取,能够创建修改PDF文档和从 PDF文档中提取内容,几行代码可以获得文档中的文本信息;
进一步地,步骤2中正则表达式适用于处理匹配语法规则的字符串,通过一种可描述性语言对规则进行定义,匹配目标字符串,纯中文文本的txt 文档本质上为本文字符串,由机器按字节流的形式读取,每个标题都单独占一行,对每一行进行读取并匹配,获得一个目录;
进一步地,步骤3中包括统计语言模型,统计模型运用概率统计的方式揭示语言规律;
进一步地,步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志;
进一步地,中文分词使用了基于Python的jieba中文分词组件,精准模式进行分词;
进一步地,去除停用词的具体为,建立一张停用词表,对分词后获得的词进行筛选,去掉停用词表中的词;
进一步地,加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS。
一种基于语言模型的年报语料库构建方法,具体步骤为:步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;步骤1中网络爬取的具体步骤为:A、抓取指下载一个页面,以便下一步处理解析搜索等其他操作; B、分析即对抓取的内容进行分析;C、筛选提炼出需要有价值的数据;步骤1 中PDFBox进行数据提取,能够创建修改PDF文档和从PDF文档中提取内容,几行代码可以获得文档中的文本信息;
步骤2、利用正则表达式进行目录提取;正则表达式一般用于处理英文、数字和英文符号,没有对中文字符特殊支持,如0-9能快速的表达阿拉伯数字中的0至9,而中文的一至九并没有很简便的表示,由于中文编码无序性,或是中文构词元素的多样性,导致每个汉字都只能视为特殊符号,而且中文编码采用的是UTF-8,与计算机中使用的Unicode编码不同,需要进行转换;
下面列出的是部分使用到的几个正则表达式:
Figure BDA0002257388910000051
式一表示所有中文字符的任意组合;式二表示所有数字,记为str_number;式三表示所有中文数字,但不超过九十九(没有包含“百”、“千”、“万”、“亿”),记为str_cnnumber;式四表示标题中常见的连词,含“及”、“与”、“或”等等;式五表示常见的标题头;
步骤2中正则表达式适用于处理匹配语法规则的字符串,通过一种可描述性语言对规则进行定义,匹配目标字符串,纯中文文本的txt文档本质上为本文字符串,由机器按字节流的形式读取,每个标题都单独占一行,对每一行进行读取并匹配,获得一个目录;
步骤3、运用语言模型进行数据分析;步骤3中包括统计语言模型,统计模型运用概率统计的方式揭示语言规律;
语言模型目标在于计算出一个句子的概率,它通常基于一个语料库;
一个句子W是由n个词wi按次序先后构成的,记为W=(w1,w2,w3…wn);那么句子W的概率即可视为所有词wi的联合概率,即:
Figure BDA0002257388910000061
运用条件概率公式(Bayes公式),可将链式展开为:
Figure BDA0002257388910000062
以句子“公司基本情况”为例,有:
P(公司基本情况)
=P(公司)·P(基本|公司)·P(情况|公司,基本)
只要能计算得所有子的条件概率,那么就能快速的计算出句子的概率;
可以认为我们利用前面出现的词来预测后面出现词的概率,符合语言的上下文相关的性质,当人看到一个动词后,往往能预测出与之匹配的名词作为对象,如一些常用词语搭配,而这一点反映到机器中,就成为了概率,搭配越常见,统计中计数就越大,概率就越大;
步骤4、进行模型训练并建立语料库,步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志;中文分词使用了基于Python的jieba中文分词组件,精准模式进行分词;jieba分词基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法,采用精准模式进行分词,试图将句子最精确地切开,用于文本分析;
去除停用词的具体为,建立一张停用词表,对分词后获得的词进行筛选,去掉停用词表中的词;去掉停用词的目的是,去除这些噪音的干扰;停用词的频次往往很高,单“的”字在一个文本的出现次数就有可能上千次,不仅会稀释实词的频率,而且会影响二元模型的效果;
加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS,起始标志(Begin of Sign,简称BOS)和结束标志(End of Sign,简称EOS)都是占位标记,充当句子的边界,解决二元模型中参数欠缺的问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于语言模型的年报语料库构建方法,具体步骤为:
步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;
步骤2、利用正则表达式进行目录提取;
步骤3、运用语言模型进行数据分析;
步骤4、进行模型训练并建立语料库。
2.根据权利要求1所述的一种基于语言模型的年报语料库构建方法,其特征在于:步骤1中网络爬取的具体步骤为:
A、抓取指下载一个页面,以便下一步处理解析搜索等其他操作;
B、分析即对抓取的内容进行分析;
C、筛选提炼出需要有价值的数据。
3.根据权利要求1所述的一种基于语言模型的年报语料库构建方法,其特征在于:步骤1中PDFBox进行数据提取,能够创建修改PDF文档和从PDF文档中提取内容,几行代码可以获得文档中的文本信息。
4.根据权利要求1所述的一种基于语言模型的年报语料库构建方法,其特征在于:步骤2中正则表达式适用于处理匹配语法规则的字符串,通过一种可描述性语言对规则进行定义,匹配目标字符串,纯中文文本的txt文档本质上为本文字符串,由机器按字节流的形式读取,每个标题都单独占一行,对每一行进行读取并匹配,获得一个目录。
5.根据权利要求1所述的一种基于语言模型的年报语料库构建方法,其特征在于:步骤3中包括统计语言模型,统计模型运用概率统计的方式揭示语言规律。
6.根据权利要求1所述的一种基于语言模型的年报语料库构建方法,其特征在于:所述步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志。
7.根据权利要求6所述的一种基于语言模型的年报语料库构建方法,其特征在于:所述中文分词使用了基于Python的jieba中文分词组件,精准模式进行分词。
8.根据权利要求6所述的一种基于语言模型的年报语料库构建方法,其特征在于:所述去除停用词的具体为,建立一张停用词表,对分词后获得的词进行筛选,去掉停用词表中的词。
9.根据权利要求6所述的一种基于语言模型的年报语料库构建方法,其特征在于:所述加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS。
CN201911059126.5A 2019-11-01 2019-11-01 一种基于语言模型的年报语料库构建方法 Pending CN110928989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911059126.5A CN110928989A (zh) 2019-11-01 2019-11-01 一种基于语言模型的年报语料库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911059126.5A CN110928989A (zh) 2019-11-01 2019-11-01 一种基于语言模型的年报语料库构建方法

Publications (1)

Publication Number Publication Date
CN110928989A true CN110928989A (zh) 2020-03-27

Family

ID=69850018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911059126.5A Pending CN110928989A (zh) 2019-11-01 2019-11-01 一种基于语言模型的年报语料库构建方法

Country Status (1)

Country Link
CN (1) CN110928989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206854A (zh) * 2021-05-08 2021-08-03 首约科技(北京)有限公司 一种快速开发国标终端协议的方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN106257441A (zh) * 2016-06-30 2016-12-28 电子科技大学 一种基于词频的skip语言模型的训练方法
CN106682397A (zh) * 2016-12-09 2017-05-17 江西中科九峰智慧医疗科技有限公司 一种基于知识的电子病历质控方法
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109299248A (zh) * 2018-12-12 2019-02-01 成都航天科工大数据研究院有限公司 一种基于自然语言处理的商业情报收集方法
CN109783602A (zh) * 2018-12-04 2019-05-21 广东工业大学 一种基于词向量的云设计服务匹配方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN106257441A (zh) * 2016-06-30 2016-12-28 电子科技大学 一种基于词频的skip语言模型的训练方法
CN106682397A (zh) * 2016-12-09 2017-05-17 江西中科九峰智慧医疗科技有限公司 一种基于知识的电子病历质控方法
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109783602A (zh) * 2018-12-04 2019-05-21 广东工业大学 一种基于词向量的云设计服务匹配方法
CN109299248A (zh) * 2018-12-12 2019-02-01 成都航天科工大数据研究院有限公司 一种基于自然语言处理的商业情报收集方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206854A (zh) * 2021-05-08 2021-08-03 首约科技(北京)有限公司 一种快速开发国标终端协议的方法及装置

Similar Documents

Publication Publication Date Title
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
CN112800113B (zh) 一种基于数据挖掘分析技术的招投标审计方法及系统
CN109145260B (zh) 一种文本信息自动提取方法
US8352857B2 (en) Methods and apparatuses for intra-document reference identification and resolution
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
Ferschke et al. FlawFinder: A Modular System for Predicting Quality Flaws in Wikipedia.
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN112307741B (zh) 保险行业文档智能化解析方法和装置
Al-Barhamtoshy et al. Arabic documents information retrieval for printed, handwritten, and calligraphy image
CN111368539A (zh) 一种热点分析建模方法
CN114266256A (zh) 一种领域新词的提取方法及系统
CN109472020B (zh) 一种特征对齐中文分词方法
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及系统
CN110928989A (zh) 一种基于语言模型的年报语料库构建方法
Gutehrlé et al. Processing the structure of documents: logical layout analysis of historical newspapers in French
CN105005792A (zh) 一种基于knn算法的稿件翻译优化方法
CN110188340B (zh) 一种研报文本实体名词自动识别方法
Hocking et al. Optical character recognition for South African languages
CN111709228A (zh) 一种字词重复错误的自动识别方法
CN113254583B (zh) 一种基于语义向量的文档标记方法、装置及介质
Huang et al. A pragmatic approach for classical Chinese word segmentation
Généreux et al. NLP challenges in dealing with OCR-ed documents of derogated quality
CN112507060A (zh) 一种领域语料库构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200327

WD01 Invention patent application deemed withdrawn after publication