CN112257444B - 金融信息负面实体发现方法、装置、电子设备及存储介质 - Google Patents

金融信息负面实体发现方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112257444B
CN112257444B CN202011086272.XA CN202011086272A CN112257444B CN 112257444 B CN112257444 B CN 112257444B CN 202011086272 A CN202011086272 A CN 202011086272A CN 112257444 B CN112257444 B CN 112257444B
Authority
CN
China
Prior art keywords
entity
financial information
negative
candidate
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011086272.XA
Other languages
English (en)
Other versions
CN112257444A (zh
Inventor
邓蔚
刘智若
林智敏
王晓浪
穆磊
陈岚
刘永聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Heritage Data Design Co ltd
Original Assignee
Sichuan Heritage Data Design Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Heritage Data Design Co ltd filed Critical Sichuan Heritage Data Design Co ltd
Priority to CN202011086272.XA priority Critical patent/CN112257444B/zh
Publication of CN112257444A publication Critical patent/CN112257444A/zh
Application granted granted Critical
Publication of CN112257444B publication Critical patent/CN112257444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,提出了基于实体特征的金融信息负面实体发现方法、装置、电子设备及存储介质。在金融信息负面实体发现方法中,利用爬虫技术从金融类目标网页上爬取数据,构建金融信息数据集,通过分词处理、词性标注、命名实体识别,构建金融信息初始实体集,在删除冗余实体后,生成具有特殊格式的实体特征信息,再经BERT模型训练和全连接层处理,使用sigmoid激活函数进行二分类处理,判定是否属于负面实体,生成负面实体二分类信息。本发明将金融信息负面实体识别和负面实体二分类两个任务转换为一个负面实体二分类任务,增强了每个实体的重要性,能更有效的挖掘候选实体与文档内容的内在联系,大大提高了金融负面实体识别的准确度。

Description

金融信息负面实体发现方法、装置、电子设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其是命名实体识别技术,提出了基于实体特征的金融信息负面实体发现方法、装置、电子设备及存储介质。
背景技术
随着互联网的飞速进步和全球金融的高速发展,金融信息呈现爆炸式增长。如何从海量的金融文本中快速准确地挖掘出关键信息,成为了投资者和决策者重点考虑的问题之一。而在金融文本中的信息主体的挖掘和面向主体的负面消息检测,在风控和舆情分析等领域又很大的现实意义。
目前广泛应用于互联网产品中的是命名实体识别技术(Named EntityRecognition,简称NER),主要是识别文本中具有特定意义的实体。目前命名实体识别方法主要分为三大类:
1、基于规则的方法
通过人为编写规则,将文本与规则匹配,进而识别出命名实体。基于规则的命名实体识别需要大量的专业人士,耗费人力、物力,且规则之间容易冲突,针对不同的领域都需要重新编写规则,可执行性不好。
2、基于特征模板的方法
在统计机器学习中,NER被视为序列标注任务,从大规模的预料中学习出标注模型,再对句子的各个位置进行标注。基于特征模板的方法需基于大量预料训练,对数据量要求比较高;且基于统计机器学习,无法识别新的未出现过的命名实体;对于专有领域和目的的识别效果并不理想。
3、基于深度学习的方法
神经网络可以解决大多数的自然语言处理任务。与序列标注任务中的分词和词性标注处理方法类似,将Token从离散的One-hot表示映射到低维空间中,转换为稠密的Embedding,再将居中的Embedding序列输入到循环神经网络(RNN)中,神经网络可自动提取特征,再使用Softmax来预测每个Token的标签。使用神经网络模型训练是一个端到端的整体训练过程,并非传统的Pipeline。目前最流行的模型是LSTM-CRF,再LSTM层后接入CRF来做句子级别的标签预测,这样就不再是对每个Token独立分类。
传统的负面实体识别任务包括:对给定的文本分别进行负面信息判断和负面主体判定两个任务。应用到金融信息负面实体判断中时,需分别执行以下过程:
(1)负面信息判断任务:判定该文本是否包含金融实体的负面信息,如果文本不包含负面信息,或者包含负面信息但负面信息未涉及金融实体,则负面信息判定为没有。
(2)负面主体判定任务:如果文本中包含金融实体的负面信息,则继续判断负面信息的主体对象是候选实体中的哪些实体。
上述过程将负面实体识别分为负面信息识别和负面实体识别两个任务,会引起误差传递问题,难以挖掘实体与文档更深层次的关系,存在候选实体影响力不足等缺点。
发明内容
本发明的发明目的在于:为了克服现有技术中的至少一个不足,提出了基于实体特征的金融信息负面实体发现方法、装置、电子设备及存储介质。
本申请实施例的目的之一在于提供基于实体特征的金融信息负面实体发现方法,应用于电子设备,所述方法包括以下步骤:
构建金融信息数据集:从金融类目标网页上爬取数据,获取所述目标网页数据的文档标题和文档内容,构建金融信息数据集;
命名实体识别:载入常用分隔符对所述金融信息数据集进行正向匹配,通过金融信息分词词典进行分词处理,对分词结果进行词性标注后,对金融信息数据做命名实体识别,找出所有命名实体生成金融信息初始实体集;
构建金融信息候选实体集:遍历所述金融信息初始实体集中所有实体子集,根据包含关系删除被包含和重复的冗余实体,生成金融信息候选实体集;
构建金融信息实体特征:遍历所述金融信息候选实体集中所有实体子集,利用所述金融信息候选实体集中的候选实体、文档标题和文档内容生成实体特征信息,其中所述候选实体放在所述实体特征信息的头部;
发现负面实体:将所述实体特征信息输入经BERT模型调整参数后的已训练的语义识别模型进行处理,再经全连接层处理后,使用sigmoid激活函数进行二分类处理,计算属于负面实体的概率,判断是否属于负面实体并做负面实体标记,生成负面实体二分类信息;
进行所述二分类处理时,可对每个候选实体均执行一次二分类任务,每个所述实体特征信息中的候选实体的向量重要性高于该实体特征信息中的文档标题和文档内容部分。
可选的,所述根据包含关系删除被包含和重复的冗余实体的具体方式包括:可遍历所述金融信息初始实体集中所有实体子集,计算第一候选实体在所有文档中出现的频率,计为第一词频,计算第一候选实体与第二候选实体同时在所有文档中出现的频率,计为第二词频,通过所述第一词频和所述第二词频计算所述第一候选实体与所述第二候选实体在所有文档中出现的频率差;利用所述频率差及文档频率、文档总数,计算所述第一候选实体伴随所述第二候选实体出现的概率;将所述概率与预设阈值进行比较,当所述概率大于所述预设阈值时,则表示所述第一候选实体可能伴随所述第二候选实体出现,则删除所述第一候选实体或所述第二候选实体。
可选的,所述实体特征信息的格式可以主要由候选实体、第一特定分隔符、第二特定分隔符、第一特定分隔符、候选实体集、第一特定分隔符、第二特定分隔符、第一特定分隔符、文档标题、第一特定分隔符、第二特定分隔符、第一特定分隔符和文档内容按顺序组成;所述候选实体为头部信息。
可选的,所述实体特征信息的格式中:所述第一特定分隔符可以包括加号;所述第二特点分割符可以包括双引号和减号;所述实体特征信息的格式可以为:候选实体+“-”+候选实体集+“-”+文档标题+“-”+文档内容。
可选的,所述实体特征信息中,每个候选实体及其对应的文档内容可以均生成一条实体特征数据。
可选的,所述命名实体可以为以名称为标识的实体,可包括人名、机构名、地名和专有名词等。
可选的,所述对分词结果进行词性标注后,可删除被标注为时间词性和数字词性的数据,所述命名实体不包括时间和数字等。
本申请实施例的目的之二在于提供基于实体特征的金融信息负面实体发现装置,所述装置包括:
金融信息数据集构建模块,用于从金融类目标网页上爬取数据,获取所述目标网页数据的文档标题和文档内容,构建金融信息数据集;
命名实体识别模块,用于载入常用分隔符对所述金融信息数据集进行正向匹配,通过金融信息分词词典进行分词处理,对分词结果进行词性标注后,对金融信息数据做命名实体识别,找出所有命名实体生成金融信息初始实体集;
金融信息候选实体集构建模块,用于遍历所述金融信息初始实体集中所有实体子集,根据包含关系删除被包含和重复的冗余实体,生成金融信息候选实体集;
金融信息实体特征构建模块,用于遍历所述金融信息候选实体集中所有实体子集,利用所述金融信息候选实体集中的候选实体、文档标题和文档内容生成实体特征信息,其中所述候选实体放在所述实体特征信息的头部;
负面实体发现模块,用于将所述实体特征信息输入经BERT模型调整参数后的已训练的语义识别模型进行处理,再经全连接层处理后,使用sigmoid激活函数进行二分类处理,计算属于负面实体的概率,判断是否属于负面实体并做负面实体标记,生成负面实体二分类信息;进行所述二分类处理时,对每个候选实体均执行一次二分类任务,每个所述实体特征信息中的候选实体的向量重要性高于该实体特征信息中的文档标题和文档内容部分。
本申请实施例的目的之三在于提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有能够被所述处理器执行的可执行指令,所述可执行指令被所述处理器执行时,能够实现本申请实施例的目的之一中的基于实体特征的金融信息负面实体发现方法。
本申请实施例的目的之四在于提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理执行时,实现本申请实施例的目的之一中的基于实体特征的金融信息负面实体发现方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1)本发明将金融信息负面实体识别归为负面实体二分类判断问题,提出新的实体特征信息作为输入,将候选实体放在实体特征信息的头部,能更有效的挖掘候选实体与文档内容的内在联系;
2)本发明提高了候选实体的向量重要性,增强候选实体的影响力。在构建金融信息实体特征时,使候选实体的向量重要性高于文档标题和文档内容,提高了候选实体与文档中的其他实体的区分度;
3)本发明利用二分类任务简化了常规实体识别的任务步骤,解决误差传递问题。在进行所述二分类处理时,会对每个候选实体均执行一次二分类任务,每个候选实体与文档内容都可以形成一个样本,增加了训练样本量,同时也大大提高了金融负面实体识别的精度,效果更佳。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明实施例提供的金融信息负面实体发现方法的处理流程图。
图2为本发明实施例提供的金融信息负面实体发现装置的结构示意图。
图3为本发明实施例提供的金融信息负面实体发现电子设备的结构示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一,基于实体特征的金融信息负面实体发现方法,应用于电子设备,如图1所示,所述方法包括以下步骤:
构建金融信息数据集步骤:
首先在金融类网站利用爬虫技术爬取网页数据,从金融类目标网页上爬取数据,获取所述目标网页数据的文档标题和文档内容,以文档标题和文档内容作为金融信息数据,构建金融信息数据集。
命名实体识别步骤:
在进行命名实体识别处理之前,一般需先对构建好的金融信息数据集做分割处理,载入常用分隔符对所述金融信息数据集进行正向匹配,与所述常用分隔符匹配成功的字符串用第三特定分隔符替换,这样就可以使得最初的金融信息数据集能够被分割成由第三特定分隔符隔开的一系列的短字符串。一般的,所述第三特定分隔符可以为空格、顿号、逗号、斜杠等指定的符号,所述常用分隔符可包括中英文的标点符号、阿拉伯数字、特殊符号、图表以及中文中常见的停用词。
将分割处理后得到的所述短字符串输入到用于自然语言处理的命名实体识别模块中,对所述金融信息数据集进行分词、词性标注及命名实体识别等处理,找出金融信息数据集中所有可能的命名实体。所述命名实体识别模块可采用Python封装的PYLTP工具。随后通过金融信息分词词典对金融信息数据进行分词处理,由于添加了专业词典,分词结果会和普通的分词结果有区别,同时也便于后续得到相关领域的命名实体。
对分词结果继续进行词性标注,由于命名实体一般都是人名、机构名、地名、专有名词以及其他所有以名称为标识的实体,在对金融信息负面实体识别时,识别的实体一般不包括时间和数字,因此对分词结果进行词性标注后,可删除被标注为时间词性和数字词性的数据,保留其他词性数据继续做命名实体识别,找出所有命名实体生成金融信息初始实体集。
构建金融信息候选实体集步骤:
构建金融信息候选实体集时,由于在总的初始实体集中,有很多实体与实体集中的其他实体存在包含关系,且大多数实体并不是关键实体。针对这些冗余实体,可采用以下两个规则去掉冗余实体:去掉被包含的实体;去掉关联度太高的实体。
进行冗余实体删除时,需对所有初始实体子集作筛选,基于实体出现的频率删除一些冗余实体。可遍历所述金融信息初始实体集中所有实体子集,计算各个实体子集的词频差、文档频率、逆文档频率等特征,统计所有命名实体在当前文档及所有文档中出现的频率,再计算出该命名实体的词频差DF值,最后计算该命名实体的概率GF值。当命名实体的概率GF大于设定的阈值时,则删掉该命名实体。本发明根据包含关系删除被包含和重复的冗余实体,剩余的命名实体就是候选实体,完成候选实体的筛选,生成金融信息候选实体集。
具体方式可包括:
计算第一候选实体a在文档D中出现的频率,计为第一词频TF(a,D);
计算第一候选实体a与第二候选实体b同时在文档D中出现的频率,计为第二词频TF((a,b),D);
通过所述第一词频TF(a,D)和所述第二词频TF((a,b),D)计算所述第一候选实体a与所述第二候选实体b在文档D中出现的频率差DF(a,b),所述频率差DF(a,b)的计算公式为:
式中D表示所述第一候选实体a所对应的文档集合,i∈[l,m],m表示所述第一候选实体a所对应的文档总数;
利用所述第一候选实体a的文档频率g(a)和文档总数m,计算所述第一候选实体的逆文档频率
利用所述第一候选实体a的逆文档频率和所述第一候选实体a与所述第二候选实体b在文档D中出现的频率差DF(a,b),计算所述第一候选实体a伴随所述第二候选实体b出现的概率GF,计算公式为:
其中,g(a)表示出现实体a的文档数,m是文档总数。
进一步将所述第一候选实体a伴随所述第二候选实体b出现的概率GF与预设阈值进行比较,当所述概率GF大于所述预设阈值时,则表示所述第一候选实体概率GF可能伴随所述第二候选实体b出现,则删除所述第一候选实体a或所述第二候选实体b。
进一步的,当所述概率GF小于所述预设阈值时,则表示所述第一候选实体概率GF没有伴随所述第二候选实体b出现,则保留所述第一候选实体a和所述第二候选实体b。
而当所述概率GF等于所述预设阈值时,可根据预设阈值的高低,以及管理员对冗余实体的筛查要求,来设定是否将其视为冗余实体。如当所述概率GF大于或等于所述预设阈值时,可视为所述第一候选实体概率GF可能伴随所述第二候选实体b出现,则删除所述第一候选实体a或所述第二候选实体b。也可以调整为当所述概率GF小于或等于所述预设阈值时,可视为所述第一候选实体概率GF没有伴随所述第二候选实体b出现,则保留所述第一候选实体a和所述第二候选实体b。
构建金融信息实体特征步骤:
对保留的金融信息候选实体集提取特征,可遍历所述金融信息候选实体集中所有实体子集,利用所述金融信息候选实体集中的候选实体、文档标题和文档内容生成实体特征信息。
构建金融信息实体特征时,可将所述候选实体放在所述实体特征信息的头部,将文档标题放在所述实体特征信息的中部,将文档内容放在所述实体特征信息的尾部。将候选实体放在标题与内容前面,在将该实体特征信息作为二分类模型的特征输入之前,每个候选实体都新生成一条数据,这使得在提取实体特征的同时,还使实体特征信息与原数据有较大区别,实现了数据增强功能。
对于所述实体特征信息中,每个候选实体及其对应的文档内容均可以生成一条实体特征数据。例如:
数据1:候选实体E1,文档标题T1,文档内容W1;
数据2:候选实体E2,文档标题T2,文档内容W2;
……
数据N:候选实体En,文档标题Tn,文档内容Wn;
由于在执行负面实体二分类任务时,二分类模型会对每个命名实体生成一个二分类模型,而对于同一个文档中的二分类问题,文档标题和文档内容是一样的,不同的命名实体没有区别,同一个文档中的不同候选实体无法得到关注。针对该问题,在生成实体特征信息时,可将候选实体在格式中用特殊符号标注出。并且,为了提高候选实体的向量重要性,以便在后续的BERT模型、二分类模型执行负面信息二分类任务时,提高候选实体的[CLS]重要性,提高候选实体的关注度,本发明中选择将候选实体放在文档标题与文档内容前面。
例如,所生成的实体特征信息的格式可以主要由候选实体、第一特定分隔符、第二特定分隔符、第一特定分隔符、候选实体集、第一特定分隔符、第二特定分隔符、第一特定分隔符、文档标题、第一特定分隔符、第二特定分隔符、第一特定分隔符和文档内容按顺序组成;所述候选实体为头部信息。
进一步的,所述实体特征信息的格式中:
所述第一特定分隔符可以包括加号;
所述第二特点分割符可以包括双引号和减号的组合,当然也是可以其他符合的组合,如单引号和减号的组合;
所述实体特征信息的格式可以为:候选实体+“-”+候选实体集+“-”+文档标题+“-”+文档内容。
如表1所示,在金融信息负面实体发现案例中,在金融类目标网页中爬取到一篇标题为“XXX和YYY两家P2P因涉嫌非吸被立案侦查!”的数据。
表1金融信息负面实体发现案例表
表1中,“title”表示文档标题,“text”表示文档内容,“all_entity”表示候选实体集,“negative”表示负面实体标记,其中“1”表示属于负面实体,“0”表示不属于负面实体,“key_entity”表示候选实体,ZZZ、XXX、YYY分别表示识别出的3个命名实体。
采用本发明中提出的实体特征信息的格式:候选实体+“-”+候选实体集+“-”+文档标题+“-”+文档内容,构建该候选实体的实体特征时,其实新体特征信息表达为:
XXX+“-”+ZZZ;XXX;YYY+“-”+XXX和YYY两家P2P因涉嫌非吸被立案侦查!+“-”+近日,某市公安局高新区分局发布关于XXX和YYY两家P2P公司因涉嫌...
负面实体发现步骤:
BERT(Bidirectional Encoder Representations from Transformers)模型是基于大量无标注的训练数据得到的,采用Transformers架构,设置12层Encoder编码器,可以更好的表征语义信息。
将所述实体特征信息输入经BERT模型调整参数后的已训练的语义识别模型进行处理,再经全连接层处理后,使用sigmoid激活函数进行二分类处理,计算属于负面实体的概率,判断是否属于负面实体并做负面实体标记,生成负面实体二分类信息。
如当负面实体概率大于正面实体概率时,则判定该候选实体为负面实体,将其负面实体标记写作“1”。当负面实体概率小于正面实体概率时,则判定该候选实体为正面实体,非负面实体,将其负面实体标记写作“0”。
在进行所述二分类处理时,可对每个候选实体均执行一次二分类任务,每个所述实体特征信息中的候选实体的向量重要性高于该实体特征信息中的文档标题和文档内容部分。
本发明将负面二分类和负面实体识别两个任务转换为一个负面实体二分类任务,基于实体特征作为输入,增强了每个实体的重要性,实现了二分类任务,并简化了任务步骤。
实施例二,基于实体特征的金融信息负面实体发现装置,如图2所示,所述装置至少包括金融信息数据集构建模块、命名实体识别模块、金融信息候选实体集构建模块、金融信息实体特征构建模块和负面实体发现模块等。
所述基于实体特征的金融信息负面实体发现装置能通过上述各模块实现实施例一中描述的基于实体特征的金融信息负面实体方法。
所述金融信息数据集构建模块,用于从金融类目标网页上爬取数据,获取所述目标网页数据的文档标题和文档内容,构建金融信息数据集。所述金融信息数据集构建模块能够完成如实施例一中描述的构建金融信息数据集步骤。
所述命名实体识别模块,用于载入常用分隔符对所述金融信息数据集进行正向匹配,通过金融信息分词词典进行分词处理,对分词结果进行词性标注后,对金融信息数据做命名实体识别,找出所有命名实体生成金融信息初始实体集。所述命名实体识别模块能够完成如实施例一中描述的命名实体识别步骤。
所述金融信息候选实体集构建模块,用于遍历所述金融信息初始实体集中所有实体子集,根据包含关系删除被包含和重复的冗余实体,生成金融信息候选实体集。所述金融信息候选实体集构建模块能够完成如实施例一中描述的构建金融信息候选实体集步骤。
所述金融信息实体特征构建模块,用于遍历所述金融信息候选实体集中所有实体子集,利用所述金融信息候选实体集中的候选实体、文档标题和文档内容生成实体特征信息,其中所述候选实体放在所述实体特征信息的头部。所述金融信息实体特征构建模块能够完成如实施例一中描述的构建金融信息实体特征步骤。
所述负面实体发现模块,用于将所述实体特征信息输入经BERT模型调整参数后的已训练的语义识别模型进行处理,再经全连接层处理后,使用sigmoid激活函数进行二分类处理,计算属于负面实体的概率,判断是否属于负面实体并做负面实体标记,生成负面实体二分类信息;进行所述二分类处理时,对每个候选实体均执行一次二分类任务,每个所述实体特征信息中的候选实体的向量重要性高于该实体特征信息中的文档标题和文档内容部分。所述负面实体发现模块能够完成如实施例一中描述的负面实体发现步骤。
实施例三,一种电子设备,如图3所示,所述电子设备包括存储器和处理器,所述存储器存储有能够被所述处理器执行的可执行指令,所述可执行指令被所述处理器执行时,能够实现实施例一中描述的基于实体特征的金融信息负面实体发现方法。
其中,存储器、处理器以及其他相关元件相互之间直接或间接地通信连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述处理器用于执行所述存储器中存储的可执行指令模块,例如所述基于实体特征的金融信息负面实体发现装置所包括的软件功能模块及计算机程序等。
该存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
该处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
实施例四,一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理执行时,能够实现实施例一中描述的基于实体特征的金融信息负面实体发现方法。
综上所述,本发明提供了基于实体特征的金融信息负面实体发现方法、装置、电子设备及存储介质。在金融信息负面实体发现方法中,利用爬虫技术从金融类目标网页上爬取数据,构建金融信息数据集,通过分词处理、词性标注、命名实体识别,构建金融信息初始实体集,在删除冗余实体后,生成具有特殊格式的实体特征信息,再经BERT模型训练和全连接层处理,使用sigmoid激活函数进行二分类处理,判定是否属于负面实体,生成负面实体二分类信息。本发明将金融信息负面实体识别和负面实体二分类两个任务转换为一个负面实体二分类任务,增强了每个实体的重要性,能更有效的挖掘候选实体与文档内容的内在联系,大大提高了金融负面实体识别的准确度。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.基于实体特征的金融信息负面实体发现方法,其特征在于,所述方法包括以下步骤:
从金融类目标网页上爬取数据,获取所述目标网页数据的文档标题和文档内容,构建金融信息数据集;
载入常用分隔符对所述金融信息数据集进行正向匹配,通过金融信息分词词典进行分词处理,对分词结果进行词性标注后,对金融信息数据做命名实体识别,找出所有命名实体生成金融信息初始实体集;
遍历所述金融信息初始实体集中所有实体子集,根据包含关系删除被包含和重复的冗余实体,生成金融信息候选实体集;
遍历所述金融信息候选实体集中所有实体子集,利用所述金融信息候选实体集中的候选实体、文档标题和文档内容生成实体特征信息,其中所述候选实体放在所述实体特征信息的头部;
将所述实体特征信息输入经BERT模型调整参数后的已训练的语义识别模型进行处理,再经全连接层处理后,使用sigmoid激活函数进行二分类处理,计算属于负面实体的概率,判断是否属于负面实体并做负面实体标记,生成负面实体二分类信息;
进行所述二分类处理时,对每个候选实体均执行一次二分类任务,每个所述实体特征信息中的候选实体的向量重要性高于该实体特征信息中的文档标题和文档内容部分。
2.根据权利要求1所述的基于实体特征的金融信息负面实体发现方法,其特征在于,所述根据包含关系删除被包含和重复的冗余实体的具体方式包括:
遍历所述金融信息初始实体集中所有实体子集,计算第一候选实体在所有文档中出现的频率,计为第一词频,计算第一候选实体与第二候选实体同时在所有文档中出现的频率,计为第二词频,通过所述第一词频和所述第二词频计算所述第一候选实体与所述第二候选实体在所有文档中出现的频率差;
利用所述频率差及文档频率、文档总数,计算所述第一候选实体伴随所述第二候选实体出现的概率;
将所述概率与预设阈值进行比较,当所述概率大于所述预设阈值时,则表示所述第一候选实体可能伴随所述第二候选实体出现,则删除所述第一候选实体或所述第二候选实体。
3.根据权利要求1所述的基于实体特征的金融信息负面实体发现方法,其特征在于:
所述实体特征信息的格式主要由候选实体、第一特定分隔符、第二特定分隔符、第一特定分隔符、候选实体集、第一特定分隔符、第二特定分隔符、第一特定分隔符、文档标题、第一特定分隔符、第二特定分隔符、第一特定分隔符和文档内容按顺序组成;
所述候选实体为头部信息。
4.根据权利要求3所述的基于实体特征的金融信息负面实体发现方法,其特征在于,所述实体特征信息的格式中:
所述第一特定分隔符包括加号;
所述第二特点分割符包括双引号和减号;
所述实体特征信息的格式为:候选实体+“-”+候选实体集+“-”+文档标题+“-”+文档内容。
5.根据权利要求1所述的基于实体特征的金融信息负面实体发现方法,其特征在于,所述实体特征信息中,每个候选实体及其对应的文档内容均生成一条实体特征数据。
6.根据权利要求1所述的基于实体特征的金融信息负面实体发现方法,其特征在于,所述命名实体为以名称为标识的实体,包括人名、机构名、地名和专有名词。
7.根据权利要求1所述的基于实体特征的金融信息负面实体发现方法,其特征在于,所述对分词结果进行词性标注后,删除被标注为时间词性和数字词性的数据,所述命名实体不包括时间和数字。
8.基于实体特征的金融信息负面实体发现装置,其特征在于,所述装置包括:
金融信息数据集构建模块,用于从金融类目标网页上爬取数据,获取所述目标网页数据的文档标题和文档内容,构建金融信息数据集;
命名实体识别模块,用于载入常用分隔符对所述金融信息数据集进行正向匹配,通过金融信息分词词典进行分词处理,对分词结果进行词性标注后,对金融信息数据做命名实体识别,找出所有命名实体生成金融信息初始实体集;
金融信息候选实体集构建模块,用于遍历所述金融信息初始实体集中所有实体子集,根据包含关系删除被包含和重复的冗余实体,生成金融信息候选实体集;
金融信息实体特征构建模块,用于遍历所述金融信息候选实体集中所有实体子集,利用所述金融信息候选实体集中的候选实体、文档标题和文档内容生成实体特征信息,其中所述候选实体放在所述实体特征信息的头部;
负面实体发现模块,用于将所述实体特征信息输入经BERT模型调整参数后的已训练的语义识别模型进行处理,再经全连接层处理后,使用sigmoid激活函数进行二分类处理,计算属于负面实体的概率,判断是否属于负面实体并做负面实体标记,生成负面实体二分类信息;进行所述二分类处理时,对每个候选实体均执行一次二分类任务,每个所述实体特征信息中的候选实体的向量重要性高于该实体特征信息中的文档标题和文档内容部分。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有能够被所述处理器执行的可执行指令,所述可执行指令被所述处理器执行时,能够实现如权利要求1-7任意一项所述的基于实体特征的金融信息负面实体发现方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理执行时,实现如权利要求1-7任意一项所述的基于实体特征的金融信息负面实体发现方法。
CN202011086272.XA 2020-10-12 2020-10-12 金融信息负面实体发现方法、装置、电子设备及存储介质 Active CN112257444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011086272.XA CN112257444B (zh) 2020-10-12 2020-10-12 金融信息负面实体发现方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011086272.XA CN112257444B (zh) 2020-10-12 2020-10-12 金融信息负面实体发现方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112257444A CN112257444A (zh) 2021-01-22
CN112257444B true CN112257444B (zh) 2023-08-04

Family

ID=74242258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011086272.XA Active CN112257444B (zh) 2020-10-12 2020-10-12 金融信息负面实体发现方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112257444B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221572B (zh) * 2021-05-31 2024-05-07 抖音视界有限公司 一种信息处理方法、装置、设备及介质
CN113779999B (zh) * 2021-11-12 2022-02-15 航天宏康智能科技(北京)有限公司 命名实体识别方法和命名实体识别装置
CN116227496B (zh) * 2023-05-06 2023-07-14 国网智能电网研究院有限公司 一种基于深度学习的电力舆情实体关系抽取方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US20170199930A1 (en) * 2009-08-18 2017-07-13 Jinni Media Ltd. Systems Methods Devices Circuits and Associated Computer Executable Code for Taste Profiling of Internet Users
US11010673B2 (en) * 2015-07-30 2021-05-18 Tata Consultancy Limited Services Method and system for entity relationship model generation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质

Also Published As

Publication number Publication date
CN112257444A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN107102993B (zh) 一种用户诉求分析方法和装置
CN111680490A (zh) 一种跨模态的文档处理方法、装置及电子设备
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN110825998A (zh) 一种网站识别方法及可读存储介质
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及系统
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
CN112257413A (zh) 地址参数处理方法及相关设备
CN112148862A (zh) 一种问题意图识别方法、装置、存储介质及电子设备
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN112257442B (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
Rahat et al. Automated detection of gdpr disclosure requirements in privacy policies using deep active learning
Sreejith et al. N-gram based algorithm for distinguishing between Hindi and Sanskrit texts
US20120197894A1 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN115936932A (zh) 司法文书的处理方法、装置、电子设备和存储介质
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant