CN110928989A

CN110928989A - 一种基于语言模型的年报语料库构建方法

Info

Publication number: CN110928989A
Application number: CN201911059126.5A
Authority: CN
Inventors: 潘定; 梁倬骞; 温秋华; 曹志鹏; 翁秀木
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-03-27

Abstract

本发明公开了一种基于语言模型的年报语料库构建方法，具体步骤为：步骤1、通过网络爬取进行数据收集，并使用PDFBox进行数据提取；步骤2、利用正则表达式进行目录提取；步骤3、运用语言模型进行数据分析；步骤4、进行模型训练并建立语料库，本发明涉及语料库构技术领域。该基于语言模型的年报语料库构建方法，解决了一般的规则对种类繁多、各式各样的标题适应性很差，需要人为不断修改规则进行改良，加上财务报告中含有众多表格，从中产生了许多干扰项，对机器自动识别造成阻碍的问题。

Description

一种基于语言模型的年报语料库构建方法

技术领域

本发明涉及语料库构建技术领域，具体为一种基于语言模型的年报语料库构建方法。

背景技术

年度报告是指公司整个会计年度的财务报告及其他相关文件，下文又称财务报告，又包含有审计报告和财务报表，可以说财务报告如同企业的成绩单，通过对其中的财务报表进行分析，能够熟悉企业的主要经济活动，专业人员还能从中看出企业的战略、竞争力、效益、风险和前景。

企业年度报告往往按照标准编写，符合某种格式上的要求，但并非完全统一，除了一二级标题大体相同，细致的内容差别很大，只是内容上有所指示，什么位置写什么东西，但具体怎么写，分几个子项，子标题是什么，没有明确的答案，加上不同企业不同行业，在某些指标上有适用不适用的说法，使得财务报告千差万别。

由于这些文档缺乏详细的目录索引，但一般的规则对种类繁多、各式各样的标题适应性很差，需要人为不断修改规则进行改良，加上财务报告中含有众多表格，从中产生了许多干扰项，对机器自动识别造成阻碍，想要在一篇100多页的文档中找到想要的信息，必须花费一定的时间和精力，而对专业分析人员来说，日常工作中难免与数量繁多的财务报告打交道，如果能快速查找到想要查询信息的位置，无疑能够节省相当的人力物力。

发明内容

针对现有技术的不足，本发明提供了一种基于语言模型的年报语料库构建方法，解决了一般的规则对种类繁多、各式各样的标题适应性很差，需要人为不断修改规则进行改良，加上财务报告中含有众多表格，从中产生了许多干扰项，对机器自动识别造成阻碍的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于语言模型的年报语料库构建方法，具体步骤为：

步骤1、通过网络爬取进行数据收集，并使用PDFBox进行数据提取；

步骤2、利用正则表达式进行目录提取；

步骤3、运用语言模型进行数据分析；

步骤4、进行模型训练并建立语料库。

优选的，步骤1中网络爬取的具体步骤为：

A、抓取指下载一个页面，以便下一步处理解析搜索等其他操作；

B、分析即对抓取的内容进行分析；

C、筛选提炼出需要有价值的数据。

优选的，步骤1中PDFBox进行数据提取，能够创建修改PDF文档和从PDF 文档中提取内容，几行代码可以获得文档中的文本信息。

优选的，步骤2中正则表达式适用于处理匹配语法规则的字符串，通过一种可描述性语言对规则进行定义，匹配目标字符串，纯中文文本的txt文档本质上为本文字符串，由机器按字节流的形式读取，每个标题都单独占一行，对每一行进行读取并匹配，获得一个目录。

优选的，步骤3中包括统计语言模型，统计模型运用概率统计的方式揭示语言规律。

优选的，所述步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志。

优选的，所述中文分词使用了基于Python的jieba中文分词组件，精准模式进行分词。

优选的，所述去除停用词的具体为，建立一张停用词表，对分词后获得的词进行筛选，去掉停用词表中的词。

优选的，所述加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS。

有益效果

本发明提供了一种基于语言模型的年报语料库构建方法。具备以下有益效果：

该基于语言模型的年报语料库构建方法，通过分析研究并提取财务报告的目录结构等结构化信息，用于进行文档标记，区别于一般的目录，更加细致的标题，能给阅读者最为详细的指引。实现对文档目录的自动提取以及对标题内容的定位与跳转，便于用户快速检索，更进一步可以对文档的内容进行提取和归档，对每个标题下的各个详细数据项进行提取，按照预置的数据格式统一存入数据库，实现文档的数据化存储项。

附图说明

图1为本发明基于语言模型的年报语料库构建方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于语言模型的年报语料库构建方法，具体步骤为：

步骤2、利用正则表达式进行目录提取；

步骤3、运用语言模型进行数据分析；

步骤4、进行模型训练并建立语料库；

优选的，步骤1中网络爬取的具体步骤为：

B、分析即对抓取的内容进行分析；

C、筛选提炼出需要有价值的数据；

进一步地，步骤1中PDFBox进行数据提取，能够创建修改PDF文档和从 PDF文档中提取内容，几行代码可以获得文档中的文本信息；

进一步地，步骤2中正则表达式适用于处理匹配语法规则的字符串，通过一种可描述性语言对规则进行定义，匹配目标字符串，纯中文文本的txt 文档本质上为本文字符串，由机器按字节流的形式读取，每个标题都单独占一行，对每一行进行读取并匹配，获得一个目录；

进一步地，步骤3中包括统计语言模型，统计模型运用概率统计的方式揭示语言规律；

进一步地，步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志；

进一步地，中文分词使用了基于Python的jieba中文分词组件，精准模式进行分词；

进一步地，去除停用词的具体为，建立一张停用词表，对分词后获得的词进行筛选，去掉停用词表中的词；

进一步地，加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS。

一种基于语言模型的年报语料库构建方法，具体步骤为：步骤1、通过网络爬取进行数据收集，并使用PDFBox进行数据提取；步骤1中网络爬取的具体步骤为：A、抓取指下载一个页面，以便下一步处理解析搜索等其他操作； B、分析即对抓取的内容进行分析；C、筛选提炼出需要有价值的数据；步骤1 中PDFBox进行数据提取，能够创建修改PDF文档和从PDF文档中提取内容，几行代码可以获得文档中的文本信息；

步骤2、利用正则表达式进行目录提取；正则表达式一般用于处理英文、数字和英文符号，没有对中文字符特殊支持，如0-9能快速的表达阿拉伯数字中的0至9，而中文的一至九并没有很简便的表示，由于中文编码无序性，或是中文构词元素的多样性，导致每个汉字都只能视为特殊符号，而且中文编码采用的是UTF-8，与计算机中使用的Unicode编码不同，需要进行转换；

下面列出的是部分使用到的几个正则表达式：

式一表示所有中文字符的任意组合；式二表示所有数字，记为str_number；式三表示所有中文数字，但不超过九十九(没有包含“百”、“千”、“万”、“亿”)，记为str_cnnumber；式四表示标题中常见的连词，含“及”、“与”、“或”等等；式五表示常见的标题头；

步骤2中正则表达式适用于处理匹配语法规则的字符串，通过一种可描述性语言对规则进行定义，匹配目标字符串，纯中文文本的txt文档本质上为本文字符串，由机器按字节流的形式读取，每个标题都单独占一行，对每一行进行读取并匹配，获得一个目录；

步骤3、运用语言模型进行数据分析；步骤3中包括统计语言模型，统计模型运用概率统计的方式揭示语言规律；

语言模型目标在于计算出一个句子的概率，它通常基于一个语料库；

一个句子W是由n个词wi按次序先后构成的，记为W＝(w1，w2，w3…wn)；那么句子W的概率即可视为所有词wi的联合概率，即：

运用条件概率公式(Bayes公式)，可将链式展开为：

以句子“公司基本情况”为例，有：

P(公司基本情况)

＝P(公司)·P(基本|公司)·P(情况|公司,基本)

只要能计算得所有子的条件概率，那么就能快速的计算出句子的概率；

可以认为我们利用前面出现的词来预测后面出现词的概率，符合语言的上下文相关的性质，当人看到一个动词后，往往能预测出与之匹配的名词作为对象，如一些常用词语搭配，而这一点反映到机器中，就成为了概率，搭配越常见，统计中计数就越大，概率就越大；

步骤4、进行模型训练并建立语料库，步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志；中文分词使用了基于Python的jieba中文分词组件，精准模式进行分词；jieba分词基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用了动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法，采用精准模式进行分词，试图将句子最精确地切开，用于文本分析；

去除停用词的具体为，建立一张停用词表，对分词后获得的词进行筛选，去掉停用词表中的词；去掉停用词的目的是，去除这些噪音的干扰；停用词的频次往往很高，单“的”字在一个文本的出现次数就有可能上千次，不仅会稀释实词的频率，而且会影响二元模型的效果；

加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS，起始标志(Begin of Sign，简称BOS)和结束标志(End of Sign，简称EOS)都是占位标记，充当句子的边界，解决二元模型中参数欠缺的问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于语言模型的年报语料库构建方法，具体步骤为：

步骤2、利用正则表达式进行目录提取；

步骤3、运用语言模型进行数据分析；

步骤4、进行模型训练并建立语料库。

2.根据权利要求1所述的一种基于语言模型的年报语料库构建方法，其特征在于：步骤1中网络爬取的具体步骤为：

B、分析即对抓取的内容进行分析；

C、筛选提炼出需要有价值的数据。

3.根据权利要求1所述的一种基于语言模型的年报语料库构建方法，其特征在于：步骤1中PDFBox进行数据提取，能够创建修改PDF文档和从PDF文档中提取内容，几行代码可以获得文档中的文本信息。

4.根据权利要求1所述的一种基于语言模型的年报语料库构建方法，其特征在于：步骤2中正则表达式适用于处理匹配语法规则的字符串，通过一种可描述性语言对规则进行定义，匹配目标字符串，纯中文文本的txt文档本质上为本文字符串，由机器按字节流的形式读取，每个标题都单独占一行，对每一行进行读取并匹配，获得一个目录。

5.根据权利要求1所述的一种基于语言模型的年报语料库构建方法，其特征在于：步骤3中包括统计语言模型，统计模型运用概率统计的方式揭示语言规律。

6.根据权利要求1所述的一种基于语言模型的年报语料库构建方法，其特征在于：所述步骤4包括模型训练包括中文分词、去除停用词、加入起始和结束标志。

7.根据权利要求6所述的一种基于语言模型的年报语料库构建方法，其特征在于：所述中文分词使用了基于Python的jieba中文分词组件，精准模式进行分词。

8.根据权利要求6所述的一种基于语言模型的年报语料库构建方法，其特征在于：所述去除停用词的具体为，建立一张停用词表，对分词后获得的词进行筛选，去掉停用词表中的词。

9.根据权利要求6所述的一种基于语言模型的年报语料库构建方法，其特征在于：所述加入起始和结束标志具体为句子的首端均添加标记BOS和尾端均添加标记EOS。