CN113536783A

CN113536783A - 一种基于模型的新词发现方法

Info

Publication number: CN113536783A
Application number: CN202110797255.5A
Authority: CN
Inventors: 卢伟龙; 王小龙; 王燕蓉; 鲍琳子
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-22

Abstract

本发明公开了一种基于模型的新词发现方法，属于审计技术领域，包括以下步骤：S1、获取审计业务相关文档，S2、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据。本发明中，基于审计数据，利用新词发现技术，实现审计领域词的持续发现，结合梳理的现有行业词库，初步构建审计领域专业词库，后续将通过专业人员对词库进行审核，最终形成审计领域专业词库，为后续审计数据分析提供有效支撑，对文本进行初步的“新词”发现，再由人工发现的“新词”进行审核，提取出真正的审计领域专业词汇，能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量，提高审计专业词库构建效率。

Description

一种基于模型的新词发现方法

技术领域

本发明涉及审计技术领域，具体为一种基于模型的新词发现方法。

背景技术

近年来，随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展，逐渐改变着人们的生活和工作，给审计监督带了机遇和挑战，内部审计工作正面临着审计信息化的深刻变革。

在审计信息化过程中，需要对领域词进行抽取，如基于规则的抽取方法是根据词语的自身组成结构和外部上下文联系等建立相应的规则，并利用模式匹配来抽取领域词汇，这种抽取方式大多都是通过人工制定规则，很难用计算机自动发现规则，特别是如今网络流行语千奇百怪更难发现其规则性，所以十分困难，又如基于统计的属于抽取方法主要依赖于词频度、似然比、假设检验和互信息等，此种方法对单独的领域词汇和低频领域词汇的识别效果并不是很理想，因此亟需一种高质量的基于模型的新词发现方法。

发明内容

本发明提供的发明目的在于提供一种基于模型的新词发现方法，实现审计领域词的持续发现、能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量。提高审计专业词库构建效率的效果。

为了实现上述效果，本发明提供如下技术方案：一种基于模型的新词发现方法，包括以下步骤：

S1、获取审计业务相关文档。

S2、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据。

S3、完成对审计业务相关数据的标注，为训练模型提供数据。

S4、以标注数据作CRF算法的输入数据，完成模型训练。

S5、基于测试数据，完成模型的验证评估。

S6、构建模型运行容器及调用接口。

S7、将带检测的文本数据传入模型，收集模型输出结果。

进一步的，根据S1中的操作步骤，所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。

进一步的，根据S2中的操作步骤，将审计业务相关文档均转换成txt格式。

进一步的，根据S3中的操作步骤，采用标注工具进行数据标注，所述标注工具为精灵标注。

进一步的，根据S3中的操作步骤，采用BIO标注格式，完成对审计业务相关数据的标注。

进一步的，根据S4中的操作步骤，包括以下步骤：

S401、观察语料，编写正则表达式。

S402、执行正则表达式抽取，获得匹配的文本及其关键字段信息。

S403、将抽取的到的关键字段信息，提取前后30个字，一并导入CRF算法，训练抽取模型。

进一步的，根据S401中的操作步骤，所述正则表达式为待抽取目标。

进一步的，根据S5中的操作步骤，包括以下步骤：

S501、准备分类语料库。

S502、将语料库分解为训练集和测试集，训练集和测试集的占比为8：2。

S503、将集合中的各文档都转换为数学向量。

S504、利用测试集对所构建出来的模型进行评估。

进一步的，根据S504中的操作步骤，效果评估包括两个指标，分别是正确率和召回率，召回率和正确率分别采用以下公式计算：

召回率r＝a/(a+c)＊100％

正确率p＝a/(a+b)＊100％，

其中a表示分类器将输入的即测试集正确分类到某个类别的个数，b表示分类器将输入测试集错误分类到某个类别的个数，c表示分类器将输入测试集错误地排除在某个类别之外的个数，d表示分类器将输入测试集正确地排除在某个类别之外的个数。

进一步的，根据S6中的操作步骤，应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型，不断迭代不同的算法并基于评价指标发现最优的分类器。

本发明提供了一种基于模型的新词发现方法，具备以下有益效果：

(1)本发明中，基于审计数据，利用新词发现技术，实现审计领域词的持续发现，结合梳理的现有行业词库，初步构建审计领域专业词库，后续将通过专业人员对词库进行审核，最终形成审计领域专业词库，为后续审计数据分析提供有效支撑。

(2)本发明中，对文本进行初步的“新词”发现，再由人工发现的“新词”进行审核，提取出真正的审计领域专业词汇，能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量，提高审计专业词库构建效率。

附图说明

图1为一种基于模型的新词发现方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：请参阅图1，一种基于模型的新词发现方法，包括以下步骤：

(1)、获取审计业务相关文档。

(2)、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据。

(3)、完成对审计业务相关数据的标注，为训练模型提供数据。

(4)、以标注数据作CRF算法的输入数据，完成模型训练。

(5)、基于测试数据，完成模型的验证评估。

(6)、构建模型运行容器及调用接口。

(7)、将带检测的文本数据传入模型，收集模型输出结果。

进一步的，根据(1)中的操作步骤，审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。

进一步的，根据(2)中的操作步骤，将审计业务相关文档均转换成txt格式。

进一步的，根据(3)中的操作步骤，采用标注工具进行数据标注，标注工具为精灵标注。

进一步的，根据(3)中的操作步骤，采用BIO标注格式，完成对审计业务相关数据的标注。

进一步的，根据(4)中的操作步骤，包括以下步骤：

(401)、观察语料，编写正则表达式。

(402)、执行正则表达式抽取，获得匹配的文本及其关键字段信息。

(403)、将抽取的到的关键字段信息，提取前后30个字，一并导入CRF算法，训练抽取模型。

进一步的，根据(401)中的操作步骤，正则表达式为待抽取目标。

进一步的，根据(5)中的操作步骤，包括以下步骤：

(501)、准备分类语料库。

(502)、将语料库分解为训练集和测试集，训练集和测试集的占比为8：2。

(503)、将集合中的各文档都转换为数学向量。

(504)、利用测试集对所构建出来的模型进行评估。

进一步的，根据(504)中的操作步骤，效果评估包括两个指标，分别是正确率和召回率，召回率和正确率分别采用以下公式计算：

召回率r＝a/(a+c)＊100％

正确率p＝a/(a+b)＊100％，

进一步的，根据(6)中的操作步骤，应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型，不断迭代不同的算法并基于评价指标发现最优的分类器。

实施例的方法进行检测分析，并与现有技术进行对照，得出如下数据：

	新词持续发现情况	工作量	审计专业词库构建效率
				实施例	持续发现	较小	较高
现有技术	无法持续发现	较大	较低

根据上述表格数据可以得出，当实施实施例时，通过本发明一种基于模型的新词发现方法获得新词持续发现、工作量较小及审计专业词库构建效率较高的效果。

一种基于模型的新词发现方法，包括以下步骤：

(1)、获取审计业务相关文档，审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。

(2)、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据，将审计业务相关文档均转换成txt格式。

(3)、完成对审计业务相关数据的标注，为训练模型提供数据，采用标注工具进行数据标注，标注工具为精灵标注，采用BIO标注格式，完成对审计业务相关数据的标注。

(4)、基于python语言，以标注数据作CRF算法的输入数据，完成模型训练，CRF即为条件随机场算法，是一种无向图模型，包括以下步骤：(401)、观察语料，编写正则表达式，正则表达式为待抽取目标，如：投标地址：XXXXX，(402)、执行正则表达式抽取，获得匹配的文本及其关键字段信息，(403)、将抽取的到的关键字段信息，提取前后30个字，一并导入CRF算法，训练抽取模型。

(5)、基于测试数据，完成模型的验证评估，包括以下步骤：(501)、准备分类语料库，(502)、将语料库分解为训练集和测试集，训练集和测试集的占比为8：2，即训练集训练集80％，测试集20％，(503)、将集合中的各文档都转换为数学向量，(504)、利用测试集对所构建出来的模型进行评估，效果评估包括两个指标，分别是正确率和召回率，召回率和正确率分别采用以下公式计算：

召回率r＝a/(a+c)＊100％

正确率p＝a/(a+b)＊100％，

其中a表示分类器将输入的即测试集正确分类到某个类别的个数，b表示分类器将输入测试集错误分类到某个类别的个数，c表示分类器将输入测试集错误地排除在某个类别之外的个数，d表示分类器将输入测试集正确地排除在某个类别之外的个数，从上述定义可知，正确率是评价分类器找到的属于某个分类的文档是否正确的指标，而召回率是评价分类器在发现属于该分类文档过程中是否存在“遗漏”的指标，两个指标值均为越高越好，特别是当正确率和召回率都为100％时，表示该分类器发现了所有属于特定分类的文档(没有遗漏)，并且发现的文档全部都是属于该分类(全部正确)，故，在实际过程中，可以结合业务目标基于上述两个数值对分类器效果进行评价，对于不超过10个分类，在语料库质量较好的情况下，分类模型的召回率和正确率一般都可以超过70％。

(6)、构建模型运行容器及调用接口，应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型，不断迭代不同的算法并基于评价指标发现最优的分类器。

(7)、将带检测的文本数据传入模型，收集模型输出结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于模型的新词发现方法，其特征在于，包括以下步骤：

S1、获取审计业务相关文档；

S2、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据；

S3、完成对审计业务相关数据的标注，为训练模型提供数据；

S4、以标注数据作CRF算法的输入数据，完成模型训练；

S5、基于测试数据，完成模型的验证评估；

S6、构建模型运行容器及调用接口；

S7、将带检测的文本数据传入模型，收集模型输出结果。

2.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S1中的操作步骤，所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。

3.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S2中的操作步骤，将审计业务相关文档均转换成txt格式。

4.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S3中的操作步骤，采用标注工具进行数据标注，所述标注工具为精灵标注。

5.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S3中的操作步骤，采用BIO标注格式，完成对审计业务相关数据的标注。

6.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S4中的操作步骤，包括以下步骤：

S401、观察语料，编写正则表达式；

S402、执行正则表达式抽取，获得匹配的文本及其关键字段信息；

7.根据权利要求6所述的一种基于模型的新词发现方法，其特征在于，根据S401中的操作步骤，所述正则表达式为待抽取目标。

8.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S5中的操作步骤，包括以下步骤：

S501、准备分类语料库；

S502、将语料库分解为训练集和测试集，训练集和测试集的占比为8：2；

S503、将集合中的各文档都转换为数学向量；

S504、利用测试集对所构建出来的模型进行评估。

9.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S504中的操作步骤，效果评估包括两个指标，分别是正确率和召回率，召回率和正确率分别采用以下公式计算：

召回率r＝a/(a+c)＊100％

正确率p＝a/(a+b)＊100％，

10.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S6中的操作步骤，应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型，不断迭代不同的算法并基于评价指标发现最优的分类器。