CN113536783A - 一种基于模型的新词发现方法 - Google Patents
一种基于模型的新词发现方法 Download PDFInfo
- Publication number
- CN113536783A CN113536783A CN202110797255.5A CN202110797255A CN113536783A CN 113536783 A CN113536783 A CN 113536783A CN 202110797255 A CN202110797255 A CN 202110797255A CN 113536783 A CN113536783 A CN 113536783A
- Authority
- CN
- China
- Prior art keywords
- audit
- data
- model
- test set
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012550 audit Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract 1
- 230000002459 sustained effect Effects 0.000 description 2
- 241000592183 Eidolon Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于模型的新词发现方法,属于审计技术领域,包括以下步骤:S1、获取审计业务相关文档,S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。本发明中,基于审计数据,利用新词发现技术,实现审计领域词的持续发现,结合梳理的现有行业词库,初步构建审计领域专业词库,后续将通过专业人员对词库进行审核,最终形成审计领域专业词库,为后续审计数据分析提供有效支撑,对文本进行初步的“新词”发现,再由人工发现的“新词”进行审核,提取出真正的审计领域专业词汇,能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量,提高审计专业词库构建效率。
Description
技术领域
本发明涉及审计技术领域,具体为一种基于模型的新词发现方法。
背景技术
近年来,随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展,逐渐改变着人们的生活和工作,给审计监督带了机遇和挑战,内部审计工作正面临着审计信息化的深刻变革。
在审计信息化过程中,需要对领域词进行抽取,如基于规则的抽取方法是根据词语的自身组成结构和外部上下文联系等建立相应的规则,并利用模式匹配来抽取领域词汇,这种抽取方式大多都是通过人工制定规则,很难用计算机自动发现规则,特别是如今网络流行语千奇百怪更难发现其规则性,所以十分困难,又如基于统计的属于抽取方法主要依赖于词频度、似然比、假设检验和互信息等,此种方法对单独的领域词汇和低频领域词汇的识别效果并不是很理想,因此亟需一种高质量的基于模型的新词发现方法。
发明内容
本发明提供的发明目的在于提供一种基于模型的新词发现方法,实现审计领域词的持续发现、能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量。提高审计专业词库构建效率的效果。
为了实现上述效果,本发明提供如下技术方案:一种基于模型的新词发现方法,包括以下步骤:
S1、获取审计业务相关文档。
S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。
S3、完成对审计业务相关数据的标注,为训练模型提供数据。
S4、以标注数据作CRF算法的输入数据,完成模型训练。
S5、基于测试数据,完成模型的验证评估。
S6、构建模型运行容器及调用接口。
S7、将带检测的文本数据传入模型,收集模型输出结果。
进一步的,根据S1中的操作步骤,所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
进一步的,根据S2中的操作步骤,将审计业务相关文档均转换成txt格式。
进一步的,根据S3中的操作步骤,采用标注工具进行数据标注,所述标注工具为精灵标注。
进一步的,根据S3中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
进一步的,根据S4中的操作步骤,包括以下步骤:
S401、观察语料,编写正则表达式。
S402、执行正则表达式抽取,获得匹配的文本及其关键字段信息。
S403、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
进一步的,根据S401中的操作步骤,所述正则表达式为待抽取目标。
进一步的,根据S5中的操作步骤,包括以下步骤:
S501、准备分类语料库。
S502、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2。
S503、将集合中的各文档都转换为数学向量。
S504、利用测试集对所构建出来的模型进行评估。
进一步的,根据S504中的操作步骤,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数。
进一步的,根据S6中的操作步骤,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
本发明提供了一种基于模型的新词发现方法,具备以下有益效果:
(1)本发明中,基于审计数据,利用新词发现技术,实现审计领域词的持续发现,结合梳理的现有行业词库,初步构建审计领域专业词库,后续将通过专业人员对词库进行审核,最终形成审计领域专业词库,为后续审计数据分析提供有效支撑。
(2)本发明中,对文本进行初步的“新词”发现,再由人工发现的“新词”进行审核,提取出真正的审计领域专业词汇,能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量,提高审计专业词库构建效率。
附图说明
图1为一种基于模型的新词发现方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:请参阅图1,一种基于模型的新词发现方法,包括以下步骤:
(1)、获取审计业务相关文档。
(2)、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。
(3)、完成对审计业务相关数据的标注,为训练模型提供数据。
(4)、以标注数据作CRF算法的输入数据,完成模型训练。
(5)、基于测试数据,完成模型的验证评估。
(6)、构建模型运行容器及调用接口。
(7)、将带检测的文本数据传入模型,收集模型输出结果。
进一步的,根据(1)中的操作步骤,审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
进一步的,根据(2)中的操作步骤,将审计业务相关文档均转换成txt格式。
进一步的,根据(3)中的操作步骤,采用标注工具进行数据标注,标注工具为精灵标注。
进一步的,根据(3)中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
进一步的,根据(4)中的操作步骤,包括以下步骤:
(401)、观察语料,编写正则表达式。
(402)、执行正则表达式抽取,获得匹配的文本及其关键字段信息。
(403)、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
进一步的,根据(401)中的操作步骤,正则表达式为待抽取目标。
进一步的,根据(5)中的操作步骤,包括以下步骤:
(501)、准备分类语料库。
(502)、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2。
(503)、将集合中的各文档都转换为数学向量。
(504)、利用测试集对所构建出来的模型进行评估。
进一步的,根据(504)中的操作步骤,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数。
进一步的,根据(6)中的操作步骤,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
实施例的方法进行检测分析,并与现有技术进行对照,得出如下数据:
新词持续发现情况 | 工作量 | 审计专业词库构建效率 | |
实施例 | 持续发现 | 较小 | 较高 |
现有技术 | 无法持续发现 | 较大 | 较低 |
根据上述表格数据可以得出,当实施实施例时,通过本发明一种基于模型的新词发现方法获得新词持续发现、工作量较小及审计专业词库构建效率较高的效果。
一种基于模型的新词发现方法,包括以下步骤:
(1)、获取审计业务相关文档,审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
(2)、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据,将审计业务相关文档均转换成txt格式。
(3)、完成对审计业务相关数据的标注,为训练模型提供数据,采用标注工具进行数据标注,标注工具为精灵标注,采用BIO标注格式,完成对审计业务相关数据的标注。
(4)、基于python语言,以标注数据作CRF算法的输入数据,完成模型训练,CRF即为条件随机场算法,是一种无向图模型,包括以下步骤:(401)、观察语料,编写正则表达式,正则表达式为待抽取目标,如:投标地址:XXXXX,(402)、执行正则表达式抽取,获得匹配的文本及其关键字段信息,(403)、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
(5)、基于测试数据,完成模型的验证评估,包括以下步骤:(501)、准备分类语料库,(502)、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2,即训练集训练集80%,测试集20%,(503)、将集合中的各文档都转换为数学向量,(504)、利用测试集对所构建出来的模型进行评估,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数,从上述定义可知,正确率是评价分类器找到的属于某个分类的文档是否正确的指标,而召回率是评价分类器在发现属于该分类文档过程中是否存在“遗漏”的指标,两个指标值均为越高越好,特别是当正确率和召回率都为100%时,表示该分类器发现了所有属于特定分类的文档(没有遗漏),并且发现的文档全部都是属于该分类(全部正确),故,在实际过程中,可以结合业务目标基于上述两个数值对分类器效果进行评价,对于不超过10个分类,在语料库质量较好的情况下,分类模型的召回率和正确率一般都可以超过70%。
(6)、构建模型运行容器及调用接口,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
(7)、将带检测的文本数据传入模型,收集模型输出结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于模型的新词发现方法,其特征在于,包括以下步骤:
S1、获取审计业务相关文档;
S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据;
S3、完成对审计业务相关数据的标注,为训练模型提供数据;
S4、以标注数据作CRF算法的输入数据,完成模型训练;
S5、基于测试数据,完成模型的验证评估;
S6、构建模型运行容器及调用接口;
S7、将带检测的文本数据传入模型,收集模型输出结果。
2.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S1中的操作步骤,所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
3.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S2中的操作步骤,将审计业务相关文档均转换成txt格式。
4.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S3中的操作步骤,采用标注工具进行数据标注,所述标注工具为精灵标注。
5.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S3中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
6.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S4中的操作步骤,包括以下步骤:
S401、观察语料,编写正则表达式;
S402、执行正则表达式抽取,获得匹配的文本及其关键字段信息;
S403、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
7.根据权利要求6所述的一种基于模型的新词发现方法,其特征在于,根据S401中的操作步骤,所述正则表达式为待抽取目标。
8.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S5中的操作步骤,包括以下步骤:
S501、准备分类语料库;
S502、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2;
S503、将集合中的各文档都转换为数学向量;
S504、利用测试集对所构建出来的模型进行评估。
9.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S504中的操作步骤,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数。
10.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S6中的操作步骤,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797255.5A CN113536783A (zh) | 2021-07-14 | 2021-07-14 | 一种基于模型的新词发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797255.5A CN113536783A (zh) | 2021-07-14 | 2021-07-14 | 一种基于模型的新词发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536783A true CN113536783A (zh) | 2021-10-22 |
Family
ID=78099157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110797255.5A Pending CN113536783A (zh) | 2021-07-14 | 2021-07-14 | 一种基于模型的新词发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536783A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及系统 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
-
2021
- 2021-07-14 CN CN202110797255.5A patent/CN113536783A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及系统 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210216723A1 (en) | Classification model training method, classification method, device, and medium | |
CN105260356B (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
CN111104466A (zh) | 一种海量数据库表快速分类的方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN107330627B (zh) | 一种创新创意的大数据处理方法、服务器及系统 | |
Lenz et al. | Measuring the diffusion of innovations with paragraph vector topic models | |
CN109255027B (zh) | 一种电商评论情感分析降噪的方法和装置 | |
CN108363748B (zh) | 基于知乎的话题画像系统及话题画像方法 | |
WO2023035330A1 (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN115062732A (zh) | 基于大数据用户标签信息的资源共享合作推荐方法及系统 | |
CN114722810A (zh) | 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 | |
CN111651606A (zh) | 一种文本处理方法、装置及电子设备 | |
CN115099310A (zh) | 训练模型、对企业进行行业分类的方法和装置 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN112200674B (zh) | 一种证券市场情绪指数智能计算信息系统 | |
CN112163069A (zh) | 一种基于图神经网络节点特征传播优化的文本分类方法 | |
AL-Rubaiee et al. | Techniques for improving the labelling process of sentiment analysis in the saudi stock market | |
CN109947932B (zh) | 一种推送信息分类方法及系统 | |
CN113536783A (zh) | 一种基于模型的新词发现方法 | |
CN110807096A (zh) | 一种小样本集上的信息对匹配方法及系统 | |
CN114997331A (zh) | 基于度量学习的小样本关系分类方法及系统 | |
Qian et al. | Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |