CN115048940B - 基于实体词属性特征和回译的中文金融文本数据增强方法 - Google Patents

基于实体词属性特征和回译的中文金融文本数据增强方法 Download PDF

Info

Publication number
CN115048940B
CN115048940B CN202210724689.7A CN202210724689A CN115048940B CN 115048940 B CN115048940 B CN 115048940B CN 202210724689 A CN202210724689 A CN 202210724689A CN 115048940 B CN115048940 B CN 115048940B
Authority
CN
China
Prior art keywords
entity
text
company name
financial
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210724689.7A
Other languages
English (en)
Other versions
CN115048940A (zh
Inventor
李栓
刘智
胡汉一
卢冰洁
胡明睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210724689.7A priority Critical patent/CN115048940B/zh
Publication of CN115048940A publication Critical patent/CN115048940A/zh
Application granted granted Critical
Publication of CN115048940B publication Critical patent/CN115048940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。

Description

基于实体词属性特征和回译的中文金融文本数据增强方法
技术领域
本发明涉及自然语言处理、金融两个交叉领域,具体是一种基于实体词属性特征和回译的中文金融文本数据增强方法。
背景技术
文本数据增强是自然语言处理(Natural Language Processing,NLP)中一项基础且重要的技术,是应用NLP技术处理下游任务过程中重要的一环。然而,由于文本离散化,字与字、字与词、词与词之间存在较强前后关系的特点,通常更改其中的某个字或某个词,尤其是核心词时,会导致句子的语义与原意产生巨大差异,使得文本数据增强存在一定的难度。因此,当前中文文本增强技术、尤其是金融领域的文本增强技术生成的文本质量尚存在巨大的提升空间。现阶段中文文本增强方法及其优缺点主要存在以下几点:
(1)token的增删查改:常见的有同义词替换,同音词替换,字符的随机插入、删除、替换等。这类方法的优势是方法简单、直观,缺点是生成的文本与原文本之间的语法结构极为相似,多样性不足,生成的新文本在语义上较为依赖中文分词模型的性能及加载的近义词等相关词表质量。
(2)词嵌入扰动:按一定比例随机对中文文本词向量的某些维度进行噪声化处理丢弃文本的词向量,对文本的词向量随机添加一定的噪声。该方法的优点是通用性较强,简单易用;缺点是针对不同任务、不同质量的文本数据,扰动参数的调整极为耗时且依赖专家经验,在大规模语料的无监督或自监督训练场景尤为明显。
(3)使用深度学习生成相似文本:具有代表性的方法包括,回译,simbert等深度学习开源模型。这类方法的优点是生成文本的语法结构多样;缺点是文本生成质量高度依赖模型的性能,在金融领域,通常无法准确生成金融属性的专有名词。
在当前的“AI+金融”背景下,金融行业每天都在产生大量的、实时的无标签金融文本数据。面对标签数据不足,人工标注任务量大,常规数据增强方法生成的文本质量差等问题,一种泛化性强,鲁棒性高的金融文本数据增强方法来处理这类金融文本数据时非常迫切的。
发明内容
针对以上挑战,本发明提出一种基于实体词属性特征和回译的中文金融文本数据增强方法,该方法包括:金融文本的清洗和预处理;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符-实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符-实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
本发明公开的方法是通过以下技术方案来实现的:一种基于实体词属性特征和回译的中文金融文本数据增强方法,包括以下步骤:
(1)将金融文本依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;
(2)识别并抽取步骤(1)处理好的金融文本中的实体词,将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典;其中实体词的属性特征包括:公司名实体词、金融名词实体词、货币描述实体词、人名实体词及时间实体词,公司名包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;指代字符-实体词映射关系形式如下::{c1:com1,c2:com2,c3:com3…},{f1:fin1,f2:fin2,f3:fin3…},{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…},其中,代表公司名实体词、代表金融名词实体词、m代表货币描述实体词、p代表人名实体词、代表时间描述实体词;
(3)使用通用的机器学习翻译算法将金融文本的中间结果翻译成其他语种的文本;然后,通过机器学习翻译算法将其他语种的文本结果再次翻译为中文文本,完成回译;
(4)使用步骤(2)生成的映射关系字典复原步骤(3)回译后金融文本中的指代字符。
进一步地,所述步骤(2)中,金融文本中的实体词为公司名实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(2.1)收集带有公司名实体识别的有标签数据集,并将文本中公司名实体词的位置标志为1,其他位置标志为0;以BERT和MLP模型为基础构建命名实体识别模型;将经过步骤(1)处理的有标签数据输入命名实体识别模型进行训练;然后,将需要增强的金融文本输入训练后的命名实体识别模型,得到实体命名识别模型识别出的公司名实体词列表
(2.2)引入公司名实体词词库,建立公司名实体词字典树,根据该公司名实体词字典树使用前向最大匹配算法抽取待增强的金融文本中包含的公司名实体词 将公司名实体词词库中的所有公司名实体词以空格为隔断拼接生成公司名长字符串Comstr;所述公司名实体词词库包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;
(2.3)建立公司名实体词黑名单Comblack和歧义公司名实体词列表Comdiff;公司名实体词黑名单Comblack包括指代性公司名实体词;歧义公司名实体词列表Comdiff包括既是公司名简称实体词、又可以表示人名实体词或其他实体词的实体词;
(2.4)将命名实体识别模型得到的每个公司名实体词与公司名实体词黑名单Comblack和公司名实体词长字符串Comstr进行逻辑判断,若判定结果为1,则保留该公司名实体词/>若判定为0,则丢弃该公司名实体词/>逻辑判断公式为:
(2.5)将前向最大匹配算法匹配出的每个公司名实体词与歧义公司名实体词列表Comdiff和命名实体识别模型识别出的公司名实体词Comner进行逻辑判断,若判断结果为1,则保留该公司名实体词/>若判断结果为0,则丢弃该公司名实体词/>判定公式为:
(2.6)将过滤后的Commatch与Comner进行去重合并,生成公司名实体词列表Com,使用指代字符C=[c1,c2,c3…]替换待增强金融文本中的公司名实体词Com生成金融文本的中间结果,并建立指代字符与公司名实体词之间的映射字典{c1:com1,c2:com2,c3:com3…}。
进一步地,所述步骤(2)中,金融文本中的实体词为金融名词实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(A)引入金融名词实体词词库,删除与公司名实体词词库重叠的词,建立金融名词实体词字典树,根据该金融名词实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的金融名词实体词Fin={fin1,fin2,fin3…};
(B)使用开源的自然语言词性标注工具加载步骤(A)中引入的金融名词实体词词库,对待增强的金融文本进行分词和词性标注;
(C)将前向最大匹配算法匹配出的每个公司名实体词fini,与自然语言词性标注工具识别出的词性进行逻辑判断,若判定结果为1,则保留该金融名词实体词,若判定结果为0,则丢弃该金融名词实体词,判定公式为:
在词性标注集中,j,n,nz分别表示缩写词、一般名词和其他名词;
(D)使用指代字符F=[f1,f2,f3…]替换金融文本中的金融名词实体词Fin生成金融文本的中间文本,并建立指代字符与金融名词实体词之间的映射关系字典{f1:fin1,f2:fin2,f3:fin3…}。
进一步地,所述步骤(2)中,金融文本中的实体词为货币描述实体词、人名实体词或时间描述实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:货币描述实体词、人名实体词及时间描述实体词的识别、抽取及字符指代替换包括以下子步骤:
(a)使用paddlenlp开源函数识别并抽取金融文本中的货币描述实体词、人名实体词和时间实体词;
(b)使用指代字符T=[t1,t2,t3…]、M=[m1,m2,m3…]、P=[p1,p2,p3…]替换文本中的时间实体词、货币描述实体词以及人名实体词生成金融文本的中间结果,并建立指代字符与时间实体词、货币描述实体词以及人名实体词之间的映射关系字典:{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…}。
本发明的有益效果是,本发明在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
附图说明
图1一种基于实体词属性特征和回译的中文金融文本数据增强方法流程示意图;
图2实体词替换模块流程示意图;
图3公司名实体词替换流程示意图;
图4金融名词实体词替换流程示意图;
图5货币描述实体词、人名实体词和时间实体词指代替换流程示意图。
具体实施方式
下面根据附图进一步地对本发明进行说明:
参考图1,本发明提供了一种基于实体词属性特征和回译的中文金融文本数据增强方法,首先对输入的金融文本进行文本预处理工作,紧接着,进行实体词替换,具体是通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符-实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符-实体映射关系字典还原文本中的指代字符完成文本后处理工作,进而生成与原文本语义相似的新文本。
所述文本预处理具体用于清洗输入的金融文本,包括英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作。
所述实体词替换具体是识别并抽取预处理好的金融文本中的较难翻译的实体词,将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典。其中实体词的属性特征包括:公司名(包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名)、金融名词、货币描述实体词、人名及时间等实体词;指代字符-实体词映射关系形式如下::{c1:com1,c2:com2,c3:com3…},{f1:fin1,f2:fin2,f3:fin3…},{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…},其中c代表公司名实体词、f代表金融名词实体词、m代表货币描述实体词、p代表人名实体词、代表时间描述实体词。
所述实体词替换具体是使用通用的机器学习翻译算法将实体词替换模块中输出的金融文本中间结果翻译成其他语种的文本。然后,通过机器学习翻译算法将其他语种的文本结果再次翻译为中文文本,完成回译。
所述文本后处理具体是使用实体词替换生成的指代字符-实体映射关系字典复原回译生成的金融文本中的指代字符。
参考图2,实体词替换流程示意图,主要包括公司名实体词替换方法、金融名词实体词替换方法、时间实体词替换方法、货币描述实体词替换方法以及人名实体词替换方法分别对输入的金融文本中的公司名实体、金融名词实体、货币描述实体词、人名实体词及时间实体词使用字符进行指代替换生成金融文本的中间结果和指代字符与实体词之间的映射关系字典。
参考图3,公司名实体词替换流程示意图,通过命名实体识别与前向最大匹配的方法识别文本中的公司名实体词,并使用指代字母c进行替换,具体实施方式为:
收集带有公司名实体识别的有标签数据集,并将文本中公司名实体词的位置标志为1,其他位置标志为0;以BERT和MLP模型为基础构建命名实体识别模型;将经过文本预处理的有标签数据输入命名实体识别模型进行训练。然后,将需要增强的金融文本输入训练后的命名实体识别模型,得到模型识别出的公司名实体词列表
引入公司名实体词词库(包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名),建立公司名实体词字典树,根据该公司名实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的公司名实体词将公司名实体词词库中的所有公司名实体词以空格为隔断拼接生成公司名长字符串Comstr;所述公司名实体词词库包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;
建立公司名实体词黑名单Comblack,具体指“公司”,“集团”这种指代性公司名实体词;建立歧义公司名实体词列表Comdiff,具体指“红太阳”、“林肯”这种既是公司名简称实体词、又可以表示人名实体词或其他实体词。
将命名实体识别模型得到的每个公司名实体词与公司名实体词黑名单Comblack和公司名实体词长字符串Comstr进行逻辑判断,若判定结果为1,则保留该公司名实体词/>若判定为0,则丢弃该公司名实体词/>逻辑判断公式为:
将前向最大匹配算法匹配出的每个公司名实体词与歧义公司名实体词列表Comdiff和命名实体识别模型识别出的公司名实体词Comner进行逻辑判断,若判断结果为1,则保留该公司名实体词/>若判断结果为0,则丢弃该公司名实体词/>判定公式为:
将过滤后的Commatch与Comner进行去重合并,生成公司名实体词列表Com,使用指代字符C=[c1,c2,c3…]替换待增强金融文本中的公司名实体词Com生成金融文本的中间结果,并建立指代字符与公司名实体词之间的映射字典{c1:com1,c2:com2,c3:com3…}。
参考图4,金融名词实体词替换流程示意图,通过开源的自然语言词性标注工具与前向最大匹配的方法识别文本中的金融名词实体词,并使用指代字母f进行替换,具体实施方式为:
引入金融名词实体词词库,删除与公司名实体词词库重叠的词,建立金融名词实体词字典树,根据该金融名词实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的金融名词实体词Fin={fin1,fin2,fin3…};
使用开源的自然语言词性标注工具加载引入的金融名词实体词词库,对待增强的金融文本进行分词和词性标注;
将前向最大匹配算法匹配出的每个公司名实体词i,与自然语言词性标注工具识别出的词性进行逻辑判断,若判定结果为1,则保留该金融名词实体词,若判定结果为0,则丢弃该金融名词实体词,判定公式为:
在词性标注集中,j,n,nz分别表示缩写词、一般名词和其他名词。
使用指代字符F=[f1,f2,f3…]替换金融文本中的金融名词实体词Fin生成金融文本的中间文本,并建立指代字符与金融名词实体词之间的映射关系字典{f1:fin1,f2:fin2,f3:fin3…}。
参考图5,货币描述实体词、人名实体词和时间实体词替换流程示意图,通过paddlenlp开源函数识别出金融文本中的货币描述实体词、人名实体词和时间实体词,并使用指代字母t、m、p分别进行替换,具体实施方式为:
使用paddlenlp开源函数抽取金融文本中的货币描述实体词、人名实体词和时间实体词。
使用指代字符T=[t1,t2,t3…]、M=[m1,m2,m3…]、P=[p1,p2,p3…]替换文本中的时间实体词、货币描述实体词以及人名实体词生成金融文本的中间结果,并建立指代字符与时间实体词、货币描述实体词以及人名实体词之间的映射关系字典:{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…}。

Claims (4)

1.一种基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,包括以下步骤:
(1)将金融文本依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;
(2)识别并抽取步骤(1)处理好的金融文本中的实体词,将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典;其中实体词的属性特征包括:公司名实体词、金融名词实体词、货币描述实体词、人名实体词及时间实体词,公司名包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;指代字符-实体词映射关系形式如下::{c1:com1,c2:com2,c3:com3...},{f1:fin1,f2:fin2,f3:fin3...},{m1:mon1,m2:mon2,m3:mon3...},{p1:per1,p2:per2,p3:per3...},{t1:time1,t2:time2,t3:time3...},其中,c代表公司名实体词、f代表金融名词实体词、m代表货币描述实体词、p代表人名实体词、t代表时间描述实体词;
(3)使用通用的机器学习翻译算法将金融文本的中间结果翻译成其他语种的文本;然后,通过机器学习翻译算法将其他语种的文本结果再次翻译为中文文本,完成回译;
(4)使用步骤(2)生成的映射关系字典复原步骤(3)回译后金融文本中的指代字符。
2.根据权利要求1所述的基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,所述步骤(2)中,金融文本中的实体词为公司名实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(2.1)收集带有公司名实体识别的有标签数据集,并将文本中公司名实体词的位置标志为1,其他位置标志为0;以BERT和MLP模型为基础构建命名实体识别模型;将经过步骤(1)处理的有标签数据输入命名实体识别模型进行训练;然后,将需要增强的金融文本输入训练后的命名实体识别模型,得到实体命名识别模型识别出的公司名实体词列表
(2.2)引入公司名实体词词库,建立公司名实体词字典树,根据该公司名实体词字典树使用前向最大匹配算法抽取待增强的金融文本中包含的公司名实体词 将公司名实体词词库中的所有公司名实体词以空格为隔断拼接生成公司名长字符串Comstr;所述公司名实体词词库包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;
(2.3)建立公司名实体词黑名单Comblack和歧义公司名实体词列表Comdiff;公司名实体词黑名单Comblack包括指代性公司名实体词;歧义公司名实体词列表Comdiff包括既是公司名简称实体词、又可以表示人名实体词或其他实体词的实体词;
(2.4)将命名实体识别模型得到的每个公司名实体词与公司名实体词黑名单Comblack和公司名实体词长字符串Comstr进行逻辑判断,若判定结果为1,则保留该公司名实体词/>若判定为0,则丢弃该公司名实体词/>逻辑判断公式为:
(2.5)将前向最大匹配算法匹配出的每个公司名实体词与歧义公司名实体词列表Comdiff和命名实体识别模型识别出的公司名实体词Comner进行逻辑判断,若判断结果为1,则保留该公司名实体词/>若判断结果为0,则丢弃该公司名实体词/>判定公式为:
(2.6)将过滤后的Commatch与Comner进行去重合并,生成公司名实体词列表Com,使用指代字符C=[c1,c2,c3...]替换待增强金融文本中的公司名实体词Com生成金融文本的中间结果,并建立指代字符与公司名实体词之间的映射字典{c1:com1,c2:com2,c3:com3...}。
3.根据权利要求1中所述的基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,所述步骤(2)中,金融文本中的实体词为金融名词实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(A)引入金融名词实体词词库,删除与公司名实体词词库重叠的词,建立金融名词实体词字典树,根据该金融名词实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的金融名词实体词Fin={fin1,fin2,fin3...};
(B)使用开源的自然语言词性标注工具加载步骤(A)中引入的金融名词实体词词库,对待增强的金融文本进行分词和词性标注;
(C)将前向最大匹配算法匹配出的每个公司名实体词fini,与自然语言词性标注工具识别出的词性进行逻辑判断,若判定结果为1,则保留该金融名词实体词,若判定结果为0,则丢弃该金融名词实体词,判定公式为:
在词性标注集中,j,n,nz分别表示缩写词、一般名词和其他名词;
(D)使用指代字符F=[f1,f2,f3...]替换金融文本中的金融名词实体词Fin生成金融文本的中间文本,并建立指代字符与金融名词实体词之间的映射关系字典{f1:fin1,f2:fin2,f3:fin3...}。
4.根据权利要求1中所述的基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,所述步骤(2)中,金融文本中的实体词为货币描述实体词、人名实体词或时间描述实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:货币描述实体词、人名实体词及时间描述实体词的识别、抽取及字符指代替换包括以下子步骤:
(a)使用paddlenlp开源函数识别并抽取金融文本中的货币描述实体词、人名实体词和时间实体词;
(b)使用指代字符T=[t1,t2,t3...]、M=[m1,m2,m3...]、P=[p1,p2,p3...]替换文本中的时间实体词、货币描述实体词以及人名实体词生成金融文本的中间结果,并建立指代字符与时间实体词、货币描述实体词以及人名实体词之间的映射关系字典:{m1:mon1,m2:mon2,m3:mon3...},{p1:per1,p2:per2,p3:per3...},{t1:time1,t2:time2,t3:time3...}。
CN202210724689.7A 2022-06-23 2022-06-23 基于实体词属性特征和回译的中文金融文本数据增强方法 Active CN115048940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210724689.7A CN115048940B (zh) 2022-06-23 2022-06-23 基于实体词属性特征和回译的中文金融文本数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210724689.7A CN115048940B (zh) 2022-06-23 2022-06-23 基于实体词属性特征和回译的中文金融文本数据增强方法

Publications (2)

Publication Number Publication Date
CN115048940A CN115048940A (zh) 2022-09-13
CN115048940B true CN115048940B (zh) 2024-04-09

Family

ID=83164175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210724689.7A Active CN115048940B (zh) 2022-06-23 2022-06-23 基于实体词属性特征和回译的中文金融文本数据增强方法

Country Status (1)

Country Link
CN (1) CN115048940B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910070A (zh) * 2022-12-12 2023-04-04 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
CN116522911B (zh) * 2023-06-29 2023-10-03 恒生电子股份有限公司 实体对齐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN114153968A (zh) * 2021-11-09 2022-03-08 浙江大学 基于词属性位置关系与贝叶斯的少样本金融文本分类系统
CN114186533A (zh) * 2021-11-04 2022-03-15 北京百度网讯科技有限公司 模型训练方法及装置、知识抽取方法及装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN114186533A (zh) * 2021-11-04 2022-03-15 北京百度网讯科技有限公司 模型训练方法及装置、知识抽取方法及装置、设备和介质
CN114153968A (zh) * 2021-11-09 2022-03-08 浙江大学 基于词属性位置关系与贝叶斯的少样本金融文本分类系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多层次特征集成的中文实体指代识别;张海雷;曹菲菲;陈文亮;任飞亮;王会珍;朱靖波;;中文信息学报;20070915(05);全文 *

Also Published As

Publication number Publication date
CN115048940A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN115048940B (zh) 基于实体词属性特征和回译的中文金融文本数据增强方法
WO2019085779A1 (zh) 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN112347796B (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN111061882A (zh) 一种知识图谱构建方法
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN116483991A (zh) 一种对话摘要生成方法及系统
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
CN111680524A (zh) 基于逆向矩阵分析的人机反馈翻译方法与系统
Tennage et al. Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation
CN112651241A (zh) 一种基于半监督学习的汉语并列结构自动识别方法
CN112307756A (zh) 基于Bi-LSTM和字词融合的汉语分词方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script
Granell et al. Study of the influence of lexicon and language restrictions on computer assisted transcription of historical manuscripts
Romro et al. Using mouse feedback in computer assisted transcription of handwritten text images
CN112487134A (zh) 一种基于极简摘要策略的科技文本问题方法抽取的方法
Dinarelli et al. Concept segmentation and labeling for conversational speech
CN116738984B (zh) 一种基于提示学习的自动化数据标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant