CN113536783A - 一种基于模型的新词发现方法 - Google Patents

一种基于模型的新词发现方法 Download PDF

Info

Publication number
CN113536783A
CN113536783A CN202110797255.5A CN202110797255A CN113536783A CN 113536783 A CN113536783 A CN 113536783A CN 202110797255 A CN202110797255 A CN 202110797255A CN 113536783 A CN113536783 A CN 113536783A
Authority
CN
China
Prior art keywords
audit
data
model
test set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110797255.5A
Other languages
English (en)
Inventor
卢伟龙
王小龙
王燕蓉
鲍琳子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Fujian Yirong Information Technology Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202110797255.5A priority Critical patent/CN113536783A/zh
Publication of CN113536783A publication Critical patent/CN113536783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模型的新词发现方法,属于审计技术领域,包括以下步骤:S1、获取审计业务相关文档,S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。本发明中,基于审计数据,利用新词发现技术,实现审计领域词的持续发现,结合梳理的现有行业词库,初步构建审计领域专业词库,后续将通过专业人员对词库进行审核,最终形成审计领域专业词库,为后续审计数据分析提供有效支撑,对文本进行初步的“新词”发现,再由人工发现的“新词”进行审核,提取出真正的审计领域专业词汇,能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量,提高审计专业词库构建效率。

Description

一种基于模型的新词发现方法
技术领域
本发明涉及审计技术领域,具体为一种基于模型的新词发现方法。
背景技术
近年来,随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展,逐渐改变着人们的生活和工作,给审计监督带了机遇和挑战,内部审计工作正面临着审计信息化的深刻变革。
在审计信息化过程中,需要对领域词进行抽取,如基于规则的抽取方法是根据词语的自身组成结构和外部上下文联系等建立相应的规则,并利用模式匹配来抽取领域词汇,这种抽取方式大多都是通过人工制定规则,很难用计算机自动发现规则,特别是如今网络流行语千奇百怪更难发现其规则性,所以十分困难,又如基于统计的属于抽取方法主要依赖于词频度、似然比、假设检验和互信息等,此种方法对单独的领域词汇和低频领域词汇的识别效果并不是很理想,因此亟需一种高质量的基于模型的新词发现方法。
发明内容
本发明提供的发明目的在于提供一种基于模型的新词发现方法,实现审计领域词的持续发现、能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量。提高审计专业词库构建效率的效果。
为了实现上述效果,本发明提供如下技术方案:一种基于模型的新词发现方法,包括以下步骤:
S1、获取审计业务相关文档。
S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。
S3、完成对审计业务相关数据的标注,为训练模型提供数据。
S4、以标注数据作CRF算法的输入数据,完成模型训练。
S5、基于测试数据,完成模型的验证评估。
S6、构建模型运行容器及调用接口。
S7、将带检测的文本数据传入模型,收集模型输出结果。
进一步的,根据S1中的操作步骤,所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
进一步的,根据S2中的操作步骤,将审计业务相关文档均转换成txt格式。
进一步的,根据S3中的操作步骤,采用标注工具进行数据标注,所述标注工具为精灵标注。
进一步的,根据S3中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
进一步的,根据S4中的操作步骤,包括以下步骤:
S401、观察语料,编写正则表达式。
S402、执行正则表达式抽取,获得匹配的文本及其关键字段信息。
S403、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
进一步的,根据S401中的操作步骤,所述正则表达式为待抽取目标。
进一步的,根据S5中的操作步骤,包括以下步骤:
S501、准备分类语料库。
S502、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2。
S503、将集合中的各文档都转换为数学向量。
S504、利用测试集对所构建出来的模型进行评估。
进一步的,根据S504中的操作步骤,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数。
进一步的,根据S6中的操作步骤,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
本发明提供了一种基于模型的新词发现方法,具备以下有益效果:
(1)本发明中,基于审计数据,利用新词发现技术,实现审计领域词的持续发现,结合梳理的现有行业词库,初步构建审计领域专业词库,后续将通过专业人员对词库进行审核,最终形成审计领域专业词库,为后续审计数据分析提供有效支撑。
(2)本发明中,对文本进行初步的“新词”发现,再由人工发现的“新词”进行审核,提取出真正的审计领域专业词汇,能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量,提高审计专业词库构建效率。
附图说明
图1为一种基于模型的新词发现方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:请参阅图1,一种基于模型的新词发现方法,包括以下步骤:
(1)、获取审计业务相关文档。
(2)、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。
(3)、完成对审计业务相关数据的标注,为训练模型提供数据。
(4)、以标注数据作CRF算法的输入数据,完成模型训练。
(5)、基于测试数据,完成模型的验证评估。
(6)、构建模型运行容器及调用接口。
(7)、将带检测的文本数据传入模型,收集模型输出结果。
进一步的,根据(1)中的操作步骤,审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
进一步的,根据(2)中的操作步骤,将审计业务相关文档均转换成txt格式。
进一步的,根据(3)中的操作步骤,采用标注工具进行数据标注,标注工具为精灵标注。
进一步的,根据(3)中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
进一步的,根据(4)中的操作步骤,包括以下步骤:
(401)、观察语料,编写正则表达式。
(402)、执行正则表达式抽取,获得匹配的文本及其关键字段信息。
(403)、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
进一步的,根据(401)中的操作步骤,正则表达式为待抽取目标。
进一步的,根据(5)中的操作步骤,包括以下步骤:
(501)、准备分类语料库。
(502)、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2。
(503)、将集合中的各文档都转换为数学向量。
(504)、利用测试集对所构建出来的模型进行评估。
进一步的,根据(504)中的操作步骤,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数。
进一步的,根据(6)中的操作步骤,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
实施例的方法进行检测分析,并与现有技术进行对照,得出如下数据:
新词持续发现情况 工作量 审计专业词库构建效率
实施例 持续发现 较小 较高
现有技术 无法持续发现 较大 较低
根据上述表格数据可以得出,当实施实施例时,通过本发明一种基于模型的新词发现方法获得新词持续发现、工作量较小及审计专业词库构建效率较高的效果。
一种基于模型的新词发现方法,包括以下步骤:
(1)、获取审计业务相关文档,审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
(2)、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据,将审计业务相关文档均转换成txt格式。
(3)、完成对审计业务相关数据的标注,为训练模型提供数据,采用标注工具进行数据标注,标注工具为精灵标注,采用BIO标注格式,完成对审计业务相关数据的标注。
(4)、基于python语言,以标注数据作CRF算法的输入数据,完成模型训练,CRF即为条件随机场算法,是一种无向图模型,包括以下步骤:(401)、观察语料,编写正则表达式,正则表达式为待抽取目标,如:投标地址:XXXXX,(402)、执行正则表达式抽取,获得匹配的文本及其关键字段信息,(403)、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
(5)、基于测试数据,完成模型的验证评估,包括以下步骤:(501)、准备分类语料库,(502)、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2,即训练集训练集80%,测试集20%,(503)、将集合中的各文档都转换为数学向量,(504)、利用测试集对所构建出来的模型进行评估,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数,从上述定义可知,正确率是评价分类器找到的属于某个分类的文档是否正确的指标,而召回率是评价分类器在发现属于该分类文档过程中是否存在“遗漏”的指标,两个指标值均为越高越好,特别是当正确率和召回率都为100%时,表示该分类器发现了所有属于特定分类的文档(没有遗漏),并且发现的文档全部都是属于该分类(全部正确),故,在实际过程中,可以结合业务目标基于上述两个数值对分类器效果进行评价,对于不超过10个分类,在语料库质量较好的情况下,分类模型的召回率和正确率一般都可以超过70%。
(6)、构建模型运行容器及调用接口,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
(7)、将带检测的文本数据传入模型,收集模型输出结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于模型的新词发现方法,其特征在于,包括以下步骤:
S1、获取审计业务相关文档;
S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据;
S3、完成对审计业务相关数据的标注,为训练模型提供数据;
S4、以标注数据作CRF算法的输入数据,完成模型训练;
S5、基于测试数据,完成模型的验证评估;
S6、构建模型运行容器及调用接口;
S7、将带检测的文本数据传入模型,收集模型输出结果。
2.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S1中的操作步骤,所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
3.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S2中的操作步骤,将审计业务相关文档均转换成txt格式。
4.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S3中的操作步骤,采用标注工具进行数据标注,所述标注工具为精灵标注。
5.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S3中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
6.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S4中的操作步骤,包括以下步骤:
S401、观察语料,编写正则表达式;
S402、执行正则表达式抽取,获得匹配的文本及其关键字段信息;
S403、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
7.根据权利要求6所述的一种基于模型的新词发现方法,其特征在于,根据S401中的操作步骤,所述正则表达式为待抽取目标。
8.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S5中的操作步骤,包括以下步骤:
S501、准备分类语料库;
S502、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2;
S503、将集合中的各文档都转换为数学向量;
S504、利用测试集对所构建出来的模型进行评估。
9.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S504中的操作步骤,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
召回率r=a/(a+c)*100%
正确率p=a/(a+b)*100%,
其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数。
10.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S6中的操作步骤,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
CN202110797255.5A 2021-07-14 2021-07-14 一种基于模型的新词发现方法 Pending CN113536783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110797255.5A CN113536783A (zh) 2021-07-14 2021-07-14 一种基于模型的新词发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110797255.5A CN113536783A (zh) 2021-07-14 2021-07-14 一种基于模型的新词发现方法

Publications (1)

Publication Number Publication Date
CN113536783A true CN113536783A (zh) 2021-10-22

Family

ID=78099157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110797255.5A Pending CN113536783A (zh) 2021-07-14 2021-07-14 一种基于模型的新词发现方法

Country Status (1)

Country Link
CN (1) CN113536783A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具

Similar Documents

Publication Publication Date Title
US20210216723A1 (en) Classification model training method, classification method, device, and medium
CN105260356B (zh) 基于多任务学习的中文交互文本情感与话题识别方法
CN111104466A (zh) 一种海量数据库表快速分类的方法
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN107330627B (zh) 一种创新创意的大数据处理方法、服务器及系统
Lenz et al. Measuring the diffusion of innovations with paragraph vector topic models
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN108363748B (zh) 基于知乎的话题画像系统及话题画像方法
WO2023035330A1 (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN115062732A (zh) 基于大数据用户标签信息的资源共享合作推荐方法及系统
CN114722810A (zh) 一种基于信息抽取和多属性决策的房地产客户画像方法和系统
CN111651606A (zh) 一种文本处理方法、装置及电子设备
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN111754208A (zh) 一种招聘简历自动筛选方法
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
CN112163069A (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
AL-Rubaiee et al. Techniques for improving the labelling process of sentiment analysis in the saudi stock market
CN109947932B (zh) 一种推送信息分类方法及系统
CN113536783A (zh) 一种基于模型的新词发现方法
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
CN114997331A (zh) 基于度量学习的小样本关系分类方法及系统
Qian et al. Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination