CN115392251A - 一种互联网金融业务的实体实时识别方法 - Google Patents

一种互联网金融业务的实体实时识别方法 Download PDF

Info

Publication number
CN115392251A
CN115392251A CN202211065582.2A CN202211065582A CN115392251A CN 115392251 A CN115392251 A CN 115392251A CN 202211065582 A CN202211065582 A CN 202211065582A CN 115392251 A CN115392251 A CN 115392251A
Authority
CN
China
Prior art keywords
entity
financial
text
real
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211065582.2A
Other languages
English (en)
Inventor
陈平华
匡翊政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211065582.2A priority Critical patent/CN115392251A/zh
Publication of CN115392251A publication Critical patent/CN115392251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种互联网金融业务的实体实时识别的方法,步骤包括:步骤1):对输入的金融文本数据X进行数据预处理,使用BIO标注体系对数据集进行标注;步骤2):用五折切割来切分训练集,使用ALBERT‑CRF模型对处理过的文本进行实体识别得到实体集合,接着用频繁模式挖掘对数据进行后处理,由此得到金融文本对应的实体集合;步骤3):通过得到的实体和关系构建金融领域知识图谱,接着将上述步骤进行综合,通过Micro‑Averaging来计算评测分数,最终得到金融文本对应的最优实体集合。本发明重点强调对于互联网中实时的金融文本数据,可以实时识别出金融文本中的实体,提升了金融实体识别的实时性,从而更好的为金融领域相关机构和个人提供信息支撑。

Description

一种互联网金融业务的实体实时识别方法
技术领域
本发明涉及到特定场景下的实体识别领域,具体为一种互联网金融业务的实体实时识别方法。
背景技术
随着互联网的快速进步和世界金融行业的高速发展,互联网金融实体呈现爆炸式增长。面对每时每刻都在更新的互联网金融信息,如何实时准确的识别出自身所需互联网金融实体信息成为了一道难题。因此互联网金融实体实时识别成为了一种迫切的社会需要,构建一种针对互联网金融业务场景下的实体实时识别的方法具有重要的现实意义和使用价值。
通过命名实体识别将文本和金融业务的实体信息关联起来,可以为用户提供更优质的金融智能化服务。相比于通用领域中文的命名实体识别,金融领域是一个具有高度专业性的领域,其命名实体识别除了人名、地名的识别以外,还包含属于专业领域的金融实体,比如金融公司名、项目名称、产品名称等具有强专业性的实体名称。当前金融领域的命名实体识别存在以下三点问题,其一是文本数据量大,噪声高且更新快;其二是缺乏实体丰富且有质量的金融领域数据集供实验研究;其三是金融领域存在大量结构复杂的实体,比如实体内层嵌套多,边界不易识别。
命名实体识别最早是由第六届语义理解会议(Message UnderstandingConference)提出,属于自然语言处理中的一项基础任务。命名实体一般指的是从大量待处理文本中识别出具有特定意义或者指代性强的实体,一般包括人名、地名、组织机构名、专有名词和日期时间等。目前命名实体识别任务已经深入各种垂直领域,如金融、电商、社交媒体等。命名实体识别技术就是从正式文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如项目名称、项目资金等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。命名实体识别技术为信息抽取、信息检索、知识图谱、文本摘要、机器翻译、问答系统等多种自然语言处理技术奠定了基础。
发明内容
针对现有金融领域的实体识别存在识别速度慢和识别的准确性较差的问题,本发明提出了一种互联网金融业务的实体实时识别方法,提升了金融实体识别的实时性,帮助金融从业者更加快速高效地获取信息,从而能够提前把握行业动态,追踪行业发展趋势。其包含以下步骤:
步骤1,数据预处理模块中,对输入的金融文本数据X进行格式判断,格式不正确则进行数据预处理,包括数据清洗和数据划分,然后定义多个实体类型标签,使用BIO标注体系对数据集进行标注;
步骤2,实体集合提取模块中,用五折切割来切分训练集,保证模型泛化性,再使用ALBERT-CRF模型对文本进行实时的实体识别得到实体集合,对上一步骤得到的实体集合进行后处理,采用频繁模式挖掘可能遗漏的实体,并过滤掉误识别的实体,由此得到当前训练轮次金融文本对应的最优实体。
步骤3,实时处理模块中,通过上一步骤得到的实体和关系从而构建金融领域知识图谱,再用ALBERT-CRF模型针对数据集进行三轮fine-tunning,最后引用两种参数减少技术,提升实体识别的实时性。
进一步地,所述步骤1中,数据预处理模块的具体方法包括:
步骤1.1,针对金融文本常出现的噪音及错误标签等问题,本发明使用正则表达式定位噪声与错误标签数据;
步骤1.2,找出数据集中所有的非中文、非英文和非数字符号,比如一些HTML标签、特殊符号、无意义字符等,利用正则表达式进行过滤清除实现数据清洗,对文本中出现的错误标签进行定位并针对互联网金融文本进行数据清洗;
步骤1.3,定义多个实体类型标签,比如“FIN”金融实体,“LOC”地名实体,“ORG”机构实体,“PER”人名实体,“O”非命名实体;
步骤1.4,采用BIO标注体系,将标签细分为“B-LOC”、“I-LOC”、“B-ORG”、“I-ORG”、“B-PER”、“I-PER”、“B-FIN”、“I-FIN”、“O”;
步骤1.5,在句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号,然后以逗号,句号,感叹号,问号的优先级将长文本分割成多个独立短文本,同时还要对切割索引进行保存,方便之后拼接。
进一步地,所述步骤2中,实体集合提取模块的具体方法包括:
步骤2.1,用五折切割来切分训练集,分成训练集和验证集,多维度利用训练集信息,保证模型的泛化性;
步骤2.2,使用ALBERT预训练语言模型对待处理金融领域文本进行编码完成词嵌入,获取动态词向量;
步骤2.3,将上一步的动态词向量输入至CRF层并解码,
设两组随机变量X=(x1,x2,...,xn)和Y=(y1,y2,...,yn),
线性链式条件随机场定义如下:p(yi|X,y1,y2,...,yi-1,yy+1,...,yn)=p(yi|X,yi-1,yi+1),i=1,2,...,n
其中:X为观察状态,Y为隐藏状态。
使用以下CRF的判别计算公式,可以得到本发明实体识别模型的预测标签序列的分值:
Figure BDA0003828264980000031
Figure BDA0003828264980000032
其中:mask(X,y)表示预测标签序列y的分值,P表示从ALBERT层得到的分数矩阵,T表示CRF学习得到的转移矩阵,p(y|X)表示输入序列与标签序列的对应概率;YX表示金融文本数据序列X对应的所有可能的字符序列。
步骤2.4,进一步地,根据所属分数最高的标签序列,得到当前语句文本对应的实体,使用以下公式来计算最大化正确标签序列的对数概率:
Figure BDA0003828264980000033
其中,X代表输入的金融文本数据序列X=(x0,x1,...,xn),y代表预测的字符标签序列,YX表示金融文本数据序列X对应的所有可能的字符序列,mask(X,y)表示预测标签序列y的分值。
步骤2.5,再使用以下公式,解码得到最大值的预测输出序列:ymax=argmax(mask(X,y′)),接着结合预测的标签序列和实体标注信息,完成实体边界及分类识别;
步骤2.6,再对得到的实体集合进行后处理,采用频繁模式挖掘遗漏的实体并过滤误判的实体,由此提取到金融文本对应的实体集合。
进一步地,所述步骤3中,实时处理模块的具体方法包括:
步骤3.1,通过得到的实体和关系构建金融知识图谱,并用Dgraph图数据库进行存储,Dgraph数据库操作高效,支持实时运行任意复杂的查询;
步骤3.2,基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标,然后用ALBERT-CRF模型针对我们的金融数据集进行3轮fine-tuning训练,提升识别速度;
步骤3.3,为了更进一步减少模型训练时间和推理时间,本发明采用两种方法,第一种是跨层参数共享,相当于模型仅学习第一层参数,在其他所有层中重用该层参数,这样即减少了参数量又有效提升了模型稳定性;第二种是分解嵌入向量参数因式,设W为词向量大小,H为隐藏层大小,在BERT、RoBERTa等预训练语言模型中W≡H,参数规模为O(V×H)。ALBERT采用因式分解的方法来降低参数量,在词嵌入后加入一个矩阵以完成维度变化,参数量从O(V×H)降低为O(V×E+E×H),当H>>E时参数量明显减少。
步骤3.4,将实时处理模块和实体集合提取模块进行综合,通过命名实体识别常用指标Micro-Averaging来计算评测分数,得到金融文本对应的最优实体集合,公式如下:
Figure BDA0003828264980000041
Figure BDA0003828264980000042
Figure BDA0003828264980000051
其中,n代表金融文本个数,TPi代表第i条文本中正确识别出实体的数量,FPi代表第i条文本中错误识别出实体的数量,FNi代表第i条文本中没有识别出实体的数量。最后通过以上步骤,可以有效提升金融实体识别的实时性,有利于快速找到金融决策信息。
本发明提供的一种互联网金融业务的实体实时识别方法,优点在于实现了特定领域的实体识别,在金融领域缺少优秀的实体识别模型的情况下,构建了高速且精准的命名实体识别模型,并区别于以BERT作为嵌入层的传统模型,使用ALBERT作为嵌入层并进行微调,有效地学习基于金融领域业务的上下语义特征,实现对输入的金融文本语句进行实时精准的实体识别,提升了金融实体识别的实时性,解决了金融领域实体识别困难的问题,为金融从业者高效获取信息、及时把握行业动态提供了便利,从而更好的为金融领域相关机构和个人提供信息支撑。
附图说明
图1为本发明的一种互联网金融业务的实体实时识别的方法模型流程图;
图2为本发明所提出的实体集合提取模型流程图;
图3为本发明中的跨层参数共享流程图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚,以下结合说明书附图和本发明实施例方式,对本发明作进一步详细说明。
针对现有金融领域的实体识别存在识别速度慢和识别的准确性较差的问题,本发明提出了一种互联网金融业务的实体实时识别方法,如图1所示,该方法包括以下步骤:
步骤1,数据预处理模块中,对输入的金融文本数据X进行格式判断,格式不正确则进行数据预处理,包括数据清洗和数据划分,具体为:
在步骤1.1中,本实施例通过requests库直接调用新浪微博官方提供的数据API接口,从新浪微博获得实时的金融领域本文数据,针对获取到的文本出现的噪音及错误标签等问题,本发明使用正则表达式定位噪声与错误标签数据;
在步骤1.2中,找出数据集中所有的非中文、非英文和非数字符号,比如超链接"<a>“标签、段落标签”<p>"、图片标签"<img>"以及一些url标签等等,然后利用正则表达式进行过滤清除实现数据清洗;
在步骤1.3中,首先定义多个实体类型标签,比如“FIN”金融实体,“LOC”地名实体,“ORG”机构实体,“PER”人名实体,“O”非命名实体;
在步骤1.4中,采用BIO标注体系,将标签细分为“B-LOC”、“I-LOC”、“B-ORG”、“I-ORG”、“B-PER”、“I-PER”、“B-FIN”、“I-FIN”、“O”;
在步骤1.5中,对于序列X中的句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号,然后以逗号,句号,感叹号,问号的优先级将长文本分割成多个独立短文本,同时还要对切割索引进行保存,方便之后拼接。
步骤2,实体集合提取模块中,首先定义多个实体类型标签,使用BIO标注体系对数据集进行标注,然后使用ALBERT-CRF模型对文本进行实时的实体识别得到实体集合,对上一步骤得到的实体集合进行后处理,采用频繁模式挖掘可能遗漏的实体,并过滤掉误识别的实体,由此得到当前训练轮次金融文本对应的最优实体,具体为:
在步骤2.1中,用五折切割来切分训练集,分成训练集和验证集,多维度利用训练集信息,保证模型的泛化性;
在步骤2.2中,使用ALBERT预训练语言模型对待处理金融文本数据序列X进行编码完成词嵌入,获取动态词向量,比如”互联网金融在最近几年成全面爆发的趋势,从”支付宝“的一组数据可窥一斑。杭州的阿里巴巴旗下蚂蚁金服可谓是突飞猛进。“从这段话我们可以通过模型识别出互联网金融对应我们自定义的金融实体,支付宝、阿里巴巴、蚂蚁金服对应组织机构实体,杭州对应地点实体;
在步骤2.3中,接着用得到的动态词向量输入至CRF层并解码,再使用以下CRF的判别计算公式,可以得到本发明实体识别模型的预测标签序列的分值:
Figure BDA0003828264980000071
Figure BDA0003828264980000072
其中:mask(X,y)表示预测标签序列y的分值,P表示从ALBERT层得到的分数矩阵,T表示CRF学习得到的转移矩阵,p(y|X)表示输入序列与标签序列的对应概率;YX表示金融文本数据序列X对应的所有可能的字符序列。
在步骤2.4中,进一步地,根据所属分数最高的标签序列,得到当前语句文本对应的实体,使用以下公式来计算最大化正确标签序列的对数概率:
Figure BDA0003828264980000073
其中,X代表输入的金融文本数据序列X=(x0,x1,...,xn),y代表预测的字符标签序列,YX表示金融文本数据序列X对应的所有可能的字符序列,mask(X,y)表示预测标签序列y的分值。
在步骤2.5中,再使用以下公式,解码得到最大值的预测输出序列:ymax=argmax(mask(X,y′)),接着结合预测的标签序列和实体标注信息,完成实体边界及分类识别;
在步骤2.6中,再对得到的实体集合进行后处理,采用频繁模式挖掘遗漏的实体并过滤误判的实体,比如对于不完整的实体,像″支付宝基(金)/(上)海能源期货交易中心“,我们根据预测标签进行判读,一部分直接丢掉,一部分根据后缀补全,由此提取到金融文本对应的实体集合。
步骤3,实时处理模块中,通过上一步骤得到的实体和关系从而构建金融领域知识图谱,再用ALBERT-CRF模型针对数据集进行三轮fine-tunning,最后引用两种参数减少技术,提升实体识别的实时性,具体为:
在步骤3.1中,通过得到的实体和关系构建金融知识图谱,并用Dgraph图数据库进行存储,Dgraph数据库操作高效,支持实时运行任意复杂的查询,Dgraph图数据库创建的知识图谱基于属性图模型,每个实体都有唯一的标识,每个节点由标签分组,每个关系有一个唯一的类型,基本概念有:实体、标记、属性。
在步骤3.2中,基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标,然后用ALBERT-CRF模型针对我们的金融数据集进行3轮fine-tuning训练,提升识别速度;
在步骤3.3中,为了更进一步减少模型训练时间和推理时间,本发明采用两种方法,第一种是跨层参数共享,相当于模型仅学习第一层参数,在其他所有层中重用该层参数,这样即减少了参数量又有效提升了模型稳定性;第二种是分解嵌入向量参数因式,设W为词向量大小,H为隐藏层大小,在BERT、RoBERTa等预训练语言模型中W≡H,参数规模为O(V×H)。ALBERT采用因式分解的方法来降低参数量,在词嵌入后加入一个矩阵以完成维度变化,参数量从O(V×H)降低为O(V×E+E×H),当H>>E时参数量明显减少。
在步骤3.4中,将实时处理模块和实体集合提取模块进行综合,通过命名实体识别常用指标Micro-Averaging来计算评测分数,得到金融文本对应的最优实体集合,公式如下:
Figure BDA0003828264980000081
Figure BDA0003828264980000082
Figure BDA0003828264980000083
其中,n代表金融文本个数,TPi代表第i条文本中正确识别出实体的数量,FPi代表第i条文本中错误识别出实体的数量,FNi代表第i条文本中没有识别出实体的数量。最后通过以上步骤,可以有效提升金融实体识别的实时性,有利于快速找到金融决策信息。
应当理解,本发明所描述的实施例仅仅属于本发明中实施例的一部分,并不是全部实施例。上述的具体实施方式仅仅是示意性的,而不是限制性的。在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (4)

1.一种互联网金融业务的实体实时识别的方法,其特征在于,包含以下步骤:
步骤1,数据预处理模块中,对输入的金融文本数据X进行格式判断,格式不正确则进行数据预处理,包括数据清洗和数据划分,然后定义多个实体类型标签,使用BIO标注体系对数据集进行标注;
步骤2,实体集合提取模块中,用五折切割来切分训练集,保证模型泛化性,再使用ALBERT-CRF模型对文本进行实时的实体识别得到实体集合,对上一步骤得到的实体集合进行后处理,采用频繁模式挖掘可能遗漏的实体,并过滤掉误识别的实体,由此得到当前训练轮次金融文本对应的最优实体;
步骤3,实时处理模块中,通过上一步骤得到的实体和关系从而构建金融领域知识图谱,再用ALBERT-CRF模型针对数据集进行三轮fine-tunning,最后引用两种参数减少技术,提升实体识别的实时性。
2.如权利要求1所述的一种互联网金融业务的实体实时识别的方法,其特征在于,所述步骤1具体包括:
步骤1.1,针对金融文本常出现的噪音及错误标签等问题,本发明使用正则表达式定位噪声与错误标签数据;
步骤1.2,找出数据集中所有的非中文、非英文和非数字符号,比如一些HTML标签、特殊符号、无意义字符等,利用正则表达式进行过滤清除实现数据清洗,对文本中出现的错误标签进行定位并针对互联网金融文本进行数据清洗;
步骤1.3,定义多个实体类型标签,比如“FIN”金融实体,“LOC”地名实体,“ORG”机构实体,“PER”人名实体,“O”非命名实体;
步骤1.4,采用BIO标注体系,将标签细分为“B-LOC”、“I-LOC”、“B-ORG”、“I-ORG”、“B-PER”、“I-PER”、“B-FIN”、“I-FIN”、“O”;
步骤1.5,在句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号,然后以逗号,句号,感叹号,问号的优先级将长文本分割成多个独立短文本,同时还要对切割索引进行保存,方便之后拼接。
3.如权利要求1所述的一种互联网金融业务的实体实时识别的方法,其特征在于,所述步骤2具体包括:
步骤2.1,用五折切割来切分训练集,分成训练集和验证集,多维度利用训练集信息,保证模型的泛化性;
步骤2.2,使用ALBERT预训练语言模型对待处理金融领域文本进行编码完成词嵌入,获取动态词向量;
步骤2.3,将上一步的动态词向量输入至CRF层并解码,
设两组随机变量X=(x1,x2,...,xn)和Y=(y1,y2,...,yn),
线性链式条件随机场定义如下:p(yi|X,y1,y2,...,yi-1,yy+1,...,yn)=p(yi|X,yi-1,yi+1),i=1,2,...,n
其中:X为观察状态,Y为隐藏状态;
使用以下CRF的判别计算公式,可以得到本发明实体识别模型的预测标签序列的分值:
Figure FDA0003828264970000021
Figure FDA0003828264970000022
其中:mask(X,y)表示预测标签序列y的分值,P表示从ALBERT层得到的分数矩阵,T表示CRF学习得到的转移矩阵,p(y|X)表示输入序列与标签序列的对应概率,YX表示金融文本数据序列X对应的所有可能的字符序列;
步骤2.4,进一步地,根据所属分数最高的标签序列,得到当前语句文本对应的实体,使用以下公式来计算最大化正确标签序列的对数概率:
Figure FDA0003828264970000023
其中,X代表输入的金融文本数据序列X=(x0,x1,...,xn),y代表预测的字符标签序列;
步骤2.5,再使用以下公式,解码得到最大值的预测输出序列:ymax=argmax(mask(X,y′)),接着结合预测的标签序列和实体标注信息,完成实体边界及分类识别;
步骤2.6,再对得到的实体集合进行后处理,采用频繁模式挖掘遗漏的实体并过滤误判的实体,由此提取到金融文本对应的实体集合。
4.如权利要求1所述的一种互联网金融业务的实体实时识别的方法,其特征在于,所述步骤3具体包括:
步骤3.1,通过得到的实体和关系构建金融知识图谱,并用Dgraph图数据库进行存储,Dgraph数据库操作高效,支持实时运行任意复杂的查询;
步骤3.2,基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标,然后用ALBERT-CRF模型针对我们的金融数据集进行3轮fine-tuning训练,提升识别速度;
步骤3.3,为了更进一步减少模型训练时间和推理时间,本发明采用两种方法,第一种是跨层参数共享,相当于模型仅学习第一层参数,在其他所有层.中重用该层参数,这样即减少了参数量又有效提升了模型稳定性;第二种是分解嵌入向量参数因式,设W为词向量大小,H为隐藏层大小,在BERT、RoBERTa等预训练语言模型中W≡H,参数规模为O(V×H);ALBERT采用因式分解的方法来降低参数量,在词嵌入后加入一个矩阵以完成维度变化,参数量从O(V×H)降低为O(V×E+E×H),当H>>E时参数量明显减少;
步骤3.4,将实时处理模块和实体集合提取模块进行综合,通过命名实体识别常用指标Micro-Averaging来计算评测分数,得到金融文本对应的最优实体集合,公式如下:
Figure FDA0003828264970000031
Figure FDA0003828264970000032
Figure FDA0003828264970000033
其中,n代表金融文本个数,TPi代表第i条文本中正确识别出实体的数量,FPi代表第i条文本中错误识别出实体的数量,FNi代表第i条文本中没有识别出实体的数量,最后通过以上步骤,可以有效提升金融实体识别的实时性,有利于快速找到金融决策信息。
CN202211065582.2A 2022-09-01 2022-09-01 一种互联网金融业务的实体实时识别方法 Pending CN115392251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211065582.2A CN115392251A (zh) 2022-09-01 2022-09-01 一种互联网金融业务的实体实时识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211065582.2A CN115392251A (zh) 2022-09-01 2022-09-01 一种互联网金融业务的实体实时识别方法

Publications (1)

Publication Number Publication Date
CN115392251A true CN115392251A (zh) 2022-11-25

Family

ID=84123703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211065582.2A Pending CN115392251A (zh) 2022-09-01 2022-09-01 一种互联网金融业务的实体实时识别方法

Country Status (1)

Country Link
CN (1) CN115392251A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453921A (zh) * 2023-12-22 2024-01-26 南京华飞数据技术有限公司 一种大语言模型的数据信息标签处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453921A (zh) * 2023-12-22 2024-01-26 南京华飞数据技术有限公司 一种大语言模型的数据信息标签处理方法
CN117453921B (zh) * 2023-12-22 2024-02-23 南京华飞数据技术有限公司 一种大语言模型的数据信息标签处理方法

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110110335B (zh) 一种基于层叠模型的命名实体识别方法
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN110609983B (zh) 一种政策文件结构化分解方法
CN109460725B (zh) 小票消费明细内容融合及提取方法、设备以及存储介质
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
Chen et al. Information extraction from resume documents in pdf format
CN110941720A (zh) 一种基于知识库的特定人员信息纠错方法
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111782793A (zh) 智能客服处理方法和系统及设备
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN116049419A (zh) 融合多模型的威胁情报信息抽取方法及系统
CN115392251A (zh) 一种互联网金融业务的实体实时识别方法
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN109670045A (zh) 基于本体模型和多核支持向量机的情感原因抽取方法
Dölek et al. A deep learning model for Ottoman OCR
CN112256765A (zh) 一种数据挖掘方法、系统及计算机可读存储介质
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
CN111274354B (zh) 一种裁判文书结构化方法及装置
CN111538805A (zh) 一种基于深度学习和规则引擎的文本信息抽取方法及系统
CN112000782A (zh) 一种基于k-means聚类算法的智能客服问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination