CN115048940B - 基于实体词属性特征和回译的中文金融文本数据增强方法 - Google Patents
基于实体词属性特征和回译的中文金融文本数据增强方法 Download PDFInfo
- Publication number
- CN115048940B CN115048940B CN202210724689.7A CN202210724689A CN115048940B CN 115048940 B CN115048940 B CN 115048940B CN 202210724689 A CN202210724689 A CN 202210724689A CN 115048940 B CN115048940 B CN 115048940B
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- company name
- financial
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013519 translation Methods 0.000 title claims abstract description 30
- 238000013507 mapping Methods 0.000 claims abstract description 30
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 238000006467 substitution reaction Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
Description
技术领域
本发明涉及自然语言处理、金融两个交叉领域,具体是一种基于实体词属性特征和回译的中文金融文本数据增强方法。
背景技术
文本数据增强是自然语言处理(Natural Language Processing,NLP)中一项基础且重要的技术,是应用NLP技术处理下游任务过程中重要的一环。然而,由于文本离散化,字与字、字与词、词与词之间存在较强前后关系的特点,通常更改其中的某个字或某个词,尤其是核心词时,会导致句子的语义与原意产生巨大差异,使得文本数据增强存在一定的难度。因此,当前中文文本增强技术、尤其是金融领域的文本增强技术生成的文本质量尚存在巨大的提升空间。现阶段中文文本增强方法及其优缺点主要存在以下几点:
(1)token的增删查改:常见的有同义词替换,同音词替换,字符的随机插入、删除、替换等。这类方法的优势是方法简单、直观,缺点是生成的文本与原文本之间的语法结构极为相似,多样性不足,生成的新文本在语义上较为依赖中文分词模型的性能及加载的近义词等相关词表质量。
(2)词嵌入扰动:按一定比例随机对中文文本词向量的某些维度进行噪声化处理丢弃文本的词向量,对文本的词向量随机添加一定的噪声。该方法的优点是通用性较强,简单易用;缺点是针对不同任务、不同质量的文本数据,扰动参数的调整极为耗时且依赖专家经验,在大规模语料的无监督或自监督训练场景尤为明显。
(3)使用深度学习生成相似文本:具有代表性的方法包括,回译,simbert等深度学习开源模型。这类方法的优点是生成文本的语法结构多样;缺点是文本生成质量高度依赖模型的性能,在金融领域,通常无法准确生成金融属性的专有名词。
在当前的“AI+金融”背景下,金融行业每天都在产生大量的、实时的无标签金融文本数据。面对标签数据不足,人工标注任务量大,常规数据增强方法生成的文本质量差等问题,一种泛化性强,鲁棒性高的金融文本数据增强方法来处理这类金融文本数据时非常迫切的。
发明内容
针对以上挑战,本发明提出一种基于实体词属性特征和回译的中文金融文本数据增强方法,该方法包括:金融文本的清洗和预处理;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符-实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符-实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
本发明公开的方法是通过以下技术方案来实现的:一种基于实体词属性特征和回译的中文金融文本数据增强方法,包括以下步骤:
(1)将金融文本依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;
(2)识别并抽取步骤(1)处理好的金融文本中的实体词,将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典;其中实体词的属性特征包括:公司名实体词、金融名词实体词、货币描述实体词、人名实体词及时间实体词,公司名包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;指代字符-实体词映射关系形式如下::{c1:com1,c2:com2,c3:com3…},{f1:fin1,f2:fin2,f3:fin3…},{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…},其中,代表公司名实体词、代表金融名词实体词、m代表货币描述实体词、p代表人名实体词、代表时间描述实体词;
(3)使用通用的机器学习翻译算法将金融文本的中间结果翻译成其他语种的文本;然后,通过机器学习翻译算法将其他语种的文本结果再次翻译为中文文本,完成回译;
(4)使用步骤(2)生成的映射关系字典复原步骤(3)回译后金融文本中的指代字符。
进一步地,所述步骤(2)中,金融文本中的实体词为公司名实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(2.1)收集带有公司名实体识别的有标签数据集,并将文本中公司名实体词的位置标志为1,其他位置标志为0;以BERT和MLP模型为基础构建命名实体识别模型;将经过步骤(1)处理的有标签数据输入命名实体识别模型进行训练;然后,将需要增强的金融文本输入训练后的命名实体识别模型,得到实体命名识别模型识别出的公司名实体词列表
(2.2)引入公司名实体词词库,建立公司名实体词字典树,根据该公司名实体词字典树使用前向最大匹配算法抽取待增强的金融文本中包含的公司名实体词 将公司名实体词词库中的所有公司名实体词以空格为隔断拼接生成公司名长字符串Comstr;所述公司名实体词词库包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;
(2.3)建立公司名实体词黑名单Comblack和歧义公司名实体词列表Comdiff;公司名实体词黑名单Comblack包括指代性公司名实体词;歧义公司名实体词列表Comdiff包括既是公司名简称实体词、又可以表示人名实体词或其他实体词的实体词;
(2.4)将命名实体识别模型得到的每个公司名实体词与公司名实体词黑名单Comblack和公司名实体词长字符串Comstr进行逻辑判断,若判定结果为1,则保留该公司名实体词/>若判定为0,则丢弃该公司名实体词/>逻辑判断公式为:
(2.5)将前向最大匹配算法匹配出的每个公司名实体词与歧义公司名实体词列表Comdiff和命名实体识别模型识别出的公司名实体词Comner进行逻辑判断,若判断结果为1,则保留该公司名实体词/>若判断结果为0,则丢弃该公司名实体词/>判定公式为:
(2.6)将过滤后的Commatch与Comner进行去重合并,生成公司名实体词列表Com,使用指代字符C=[c1,c2,c3…]替换待增强金融文本中的公司名实体词Com生成金融文本的中间结果,并建立指代字符与公司名实体词之间的映射字典{c1:com1,c2:com2,c3:com3…}。
进一步地,所述步骤(2)中,金融文本中的实体词为金融名词实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(A)引入金融名词实体词词库,删除与公司名实体词词库重叠的词,建立金融名词实体词字典树,根据该金融名词实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的金融名词实体词Fin={fin1,fin2,fin3…};
(B)使用开源的自然语言词性标注工具加载步骤(A)中引入的金融名词实体词词库,对待增强的金融文本进行分词和词性标注;
(C)将前向最大匹配算法匹配出的每个公司名实体词fini,与自然语言词性标注工具识别出的词性进行逻辑判断,若判定结果为1,则保留该金融名词实体词,若判定结果为0,则丢弃该金融名词实体词,判定公式为:
在词性标注集中,j,n,nz分别表示缩写词、一般名词和其他名词;
(D)使用指代字符F=[f1,f2,f3…]替换金融文本中的金融名词实体词Fin生成金融文本的中间文本,并建立指代字符与金融名词实体词之间的映射关系字典{f1:fin1,f2:fin2,f3:fin3…}。
进一步地,所述步骤(2)中,金融文本中的实体词为货币描述实体词、人名实体词或时间描述实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:货币描述实体词、人名实体词及时间描述实体词的识别、抽取及字符指代替换包括以下子步骤:
(a)使用paddlenlp开源函数识别并抽取金融文本中的货币描述实体词、人名实体词和时间实体词;
(b)使用指代字符T=[t1,t2,t3…]、M=[m1,m2,m3…]、P=[p1,p2,p3…]替换文本中的时间实体词、货币描述实体词以及人名实体词生成金融文本的中间结果,并建立指代字符与时间实体词、货币描述实体词以及人名实体词之间的映射关系字典:{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…}。
本发明的有益效果是,本发明在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
附图说明
图1一种基于实体词属性特征和回译的中文金融文本数据增强方法流程示意图;
图2实体词替换模块流程示意图;
图3公司名实体词替换流程示意图;
图4金融名词实体词替换流程示意图;
图5货币描述实体词、人名实体词和时间实体词指代替换流程示意图。
具体实施方式
下面根据附图进一步地对本发明进行说明:
参考图1,本发明提供了一种基于实体词属性特征和回译的中文金融文本数据增强方法,首先对输入的金融文本进行文本预处理工作,紧接着,进行实体词替换,具体是通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符-实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符-实体映射关系字典还原文本中的指代字符完成文本后处理工作,进而生成与原文本语义相似的新文本。
所述文本预处理具体用于清洗输入的金融文本,包括英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作。
所述实体词替换具体是识别并抽取预处理好的金融文本中的较难翻译的实体词,将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典。其中实体词的属性特征包括:公司名(包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名)、金融名词、货币描述实体词、人名及时间等实体词;指代字符-实体词映射关系形式如下::{c1:com1,c2:com2,c3:com3…},{f1:fin1,f2:fin2,f3:fin3…},{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…},其中c代表公司名实体词、f代表金融名词实体词、m代表货币描述实体词、p代表人名实体词、代表时间描述实体词。
所述实体词替换具体是使用通用的机器学习翻译算法将实体词替换模块中输出的金融文本中间结果翻译成其他语种的文本。然后,通过机器学习翻译算法将其他语种的文本结果再次翻译为中文文本,完成回译。
所述文本后处理具体是使用实体词替换生成的指代字符-实体映射关系字典复原回译生成的金融文本中的指代字符。
参考图2,实体词替换流程示意图,主要包括公司名实体词替换方法、金融名词实体词替换方法、时间实体词替换方法、货币描述实体词替换方法以及人名实体词替换方法分别对输入的金融文本中的公司名实体、金融名词实体、货币描述实体词、人名实体词及时间实体词使用字符进行指代替换生成金融文本的中间结果和指代字符与实体词之间的映射关系字典。
参考图3,公司名实体词替换流程示意图,通过命名实体识别与前向最大匹配的方法识别文本中的公司名实体词,并使用指代字母c进行替换,具体实施方式为:
收集带有公司名实体识别的有标签数据集,并将文本中公司名实体词的位置标志为1,其他位置标志为0;以BERT和MLP模型为基础构建命名实体识别模型;将经过文本预处理的有标签数据输入命名实体识别模型进行训练。然后,将需要增强的金融文本输入训练后的命名实体识别模型,得到模型识别出的公司名实体词列表
引入公司名实体词词库(包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名),建立公司名实体词字典树,根据该公司名实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的公司名实体词将公司名实体词词库中的所有公司名实体词以空格为隔断拼接生成公司名长字符串Comstr;所述公司名实体词词库包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;
建立公司名实体词黑名单Comblack,具体指“公司”,“集团”这种指代性公司名实体词;建立歧义公司名实体词列表Comdiff,具体指“红太阳”、“林肯”这种既是公司名简称实体词、又可以表示人名实体词或其他实体词。
将命名实体识别模型得到的每个公司名实体词与公司名实体词黑名单Comblack和公司名实体词长字符串Comstr进行逻辑判断,若判定结果为1,则保留该公司名实体词/>若判定为0,则丢弃该公司名实体词/>逻辑判断公式为:
将前向最大匹配算法匹配出的每个公司名实体词与歧义公司名实体词列表Comdiff和命名实体识别模型识别出的公司名实体词Comner进行逻辑判断,若判断结果为1,则保留该公司名实体词/>若判断结果为0,则丢弃该公司名实体词/>判定公式为:
将过滤后的Commatch与Comner进行去重合并,生成公司名实体词列表Com,使用指代字符C=[c1,c2,c3…]替换待增强金融文本中的公司名实体词Com生成金融文本的中间结果,并建立指代字符与公司名实体词之间的映射字典{c1:com1,c2:com2,c3:com3…}。
参考图4,金融名词实体词替换流程示意图,通过开源的自然语言词性标注工具与前向最大匹配的方法识别文本中的金融名词实体词,并使用指代字母f进行替换,具体实施方式为:
引入金融名词实体词词库,删除与公司名实体词词库重叠的词,建立金融名词实体词字典树,根据该金融名词实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的金融名词实体词Fin={fin1,fin2,fin3…};
使用开源的自然语言词性标注工具加载引入的金融名词实体词词库,对待增强的金融文本进行分词和词性标注;
将前向最大匹配算法匹配出的每个公司名实体词i,与自然语言词性标注工具识别出的词性进行逻辑判断,若判定结果为1,则保留该金融名词实体词,若判定结果为0,则丢弃该金融名词实体词,判定公式为:
在词性标注集中,j,n,nz分别表示缩写词、一般名词和其他名词。
使用指代字符F=[f1,f2,f3…]替换金融文本中的金融名词实体词Fin生成金融文本的中间文本,并建立指代字符与金融名词实体词之间的映射关系字典{f1:fin1,f2:fin2,f3:fin3…}。
参考图5,货币描述实体词、人名实体词和时间实体词替换流程示意图,通过paddlenlp开源函数识别出金融文本中的货币描述实体词、人名实体词和时间实体词,并使用指代字母t、m、p分别进行替换,具体实施方式为:
使用paddlenlp开源函数抽取金融文本中的货币描述实体词、人名实体词和时间实体词。
使用指代字符T=[t1,t2,t3…]、M=[m1,m2,m3…]、P=[p1,p2,p3…]替换文本中的时间实体词、货币描述实体词以及人名实体词生成金融文本的中间结果,并建立指代字符与时间实体词、货币描述实体词以及人名实体词之间的映射关系字典:{m1:mon1,m2:mon2,m3:mon3…},{p1:per1,p2:per2,p3:per3…},{t1:time1,t2:time2,t3:time3…}。
Claims (4)
1.一种基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,包括以下步骤:
(1)将金融文本依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;
(2)识别并抽取步骤(1)处理好的金融文本中的实体词,将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典;其中实体词的属性特征包括:公司名实体词、金融名词实体词、货币描述实体词、人名实体词及时间实体词,公司名包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;指代字符-实体词映射关系形式如下::{c1:com1,c2:com2,c3:com3...},{f1:fin1,f2:fin2,f3:fin3...},{m1:mon1,m2:mon2,m3:mon3...},{p1:per1,p2:per2,p3:per3...},{t1:time1,t2:time2,t3:time3...},其中,c代表公司名实体词、f代表金融名词实体词、m代表货币描述实体词、p代表人名实体词、t代表时间描述实体词;
(3)使用通用的机器学习翻译算法将金融文本的中间结果翻译成其他语种的文本;然后,通过机器学习翻译算法将其他语种的文本结果再次翻译为中文文本,完成回译;
(4)使用步骤(2)生成的映射关系字典复原步骤(3)回译后金融文本中的指代字符。
2.根据权利要求1所述的基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,所述步骤(2)中,金融文本中的实体词为公司名实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(2.1)收集带有公司名实体识别的有标签数据集,并将文本中公司名实体词的位置标志为1,其他位置标志为0;以BERT和MLP模型为基础构建命名实体识别模型;将经过步骤(1)处理的有标签数据输入命名实体识别模型进行训练;然后,将需要增强的金融文本输入训练后的命名实体识别模型,得到实体命名识别模型识别出的公司名实体词列表
(2.2)引入公司名实体词词库,建立公司名实体词字典树,根据该公司名实体词字典树使用前向最大匹配算法抽取待增强的金融文本中包含的公司名实体词 将公司名实体词词库中的所有公司名实体词以空格为隔断拼接生成公司名长字符串Comstr;所述公司名实体词词库包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;
(2.3)建立公司名实体词黑名单Comblack和歧义公司名实体词列表Comdiff;公司名实体词黑名单Comblack包括指代性公司名实体词;歧义公司名实体词列表Comdiff包括既是公司名简称实体词、又可以表示人名实体词或其他实体词的实体词;
(2.4)将命名实体识别模型得到的每个公司名实体词与公司名实体词黑名单Comblack和公司名实体词长字符串Comstr进行逻辑判断,若判定结果为1,则保留该公司名实体词/>若判定为0,则丢弃该公司名实体词/>逻辑判断公式为:
(2.5)将前向最大匹配算法匹配出的每个公司名实体词与歧义公司名实体词列表Comdiff和命名实体识别模型识别出的公司名实体词Comner进行逻辑判断,若判断结果为1,则保留该公司名实体词/>若判断结果为0,则丢弃该公司名实体词/>判定公式为:
(2.6)将过滤后的Commatch与Comner进行去重合并,生成公司名实体词列表Com,使用指代字符C=[c1,c2,c3...]替换待增强金融文本中的公司名实体词Com生成金融文本的中间结果,并建立指代字符与公司名实体词之间的映射字典{c1:com1,c2:com2,c3:com3...}。
3.根据权利要求1中所述的基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,所述步骤(2)中,金融文本中的实体词为金融名词实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:
(A)引入金融名词实体词词库,删除与公司名实体词词库重叠的词,建立金融名词实体词字典树,根据该金融名词实体词字典树使用前向最大匹配算法抽取待增强的金融文本中出现的金融名词实体词Fin={fin1,fin2,fin3...};
(B)使用开源的自然语言词性标注工具加载步骤(A)中引入的金融名词实体词词库,对待增强的金融文本进行分词和词性标注;
(C)将前向最大匹配算法匹配出的每个公司名实体词fini,与自然语言词性标注工具识别出的词性进行逻辑判断,若判定结果为1,则保留该金融名词实体词,若判定结果为0,则丢弃该金融名词实体词,判定公式为:
在词性标注集中,j,n,nz分别表示缩写词、一般名词和其他名词;
(D)使用指代字符F=[f1,f2,f3...]替换金融文本中的金融名词实体词Fin生成金融文本的中间文本,并建立指代字符与金融名词实体词之间的映射关系字典{f1:fin1,f2:fin2,f3:fin3...}。
4.根据权利要求1中所述的基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,所述步骤(2)中,金融文本中的实体词为货币描述实体词、人名实体词或时间描述实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:货币描述实体词、人名实体词及时间描述实体词的识别、抽取及字符指代替换包括以下子步骤:
(a)使用paddlenlp开源函数识别并抽取金融文本中的货币描述实体词、人名实体词和时间实体词;
(b)使用指代字符T=[t1,t2,t3...]、M=[m1,m2,m3...]、P=[p1,p2,p3...]替换文本中的时间实体词、货币描述实体词以及人名实体词生成金融文本的中间结果,并建立指代字符与时间实体词、货币描述实体词以及人名实体词之间的映射关系字典:{m1:mon1,m2:mon2,m3:mon3...},{p1:per1,p2:per2,p3:per3...},{t1:time1,t2:time2,t3:time3...}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210724689.7A CN115048940B (zh) | 2022-06-23 | 2022-06-23 | 基于实体词属性特征和回译的中文金融文本数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210724689.7A CN115048940B (zh) | 2022-06-23 | 2022-06-23 | 基于实体词属性特征和回译的中文金融文本数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115048940A CN115048940A (zh) | 2022-09-13 |
CN115048940B true CN115048940B (zh) | 2024-04-09 |
Family
ID=83164175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210724689.7A Active CN115048940B (zh) | 2022-06-23 | 2022-06-23 | 基于实体词属性特征和回译的中文金融文本数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048940B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910070A (zh) * | 2022-12-12 | 2023-04-04 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN116522911B (zh) * | 2023-06-29 | 2023-10-03 | 恒生电子股份有限公司 | 实体对齐方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN114153968A (zh) * | 2021-11-09 | 2022-03-08 | 浙江大学 | 基于词属性位置关系与贝叶斯的少样本金融文本分类系统 |
CN114186533A (zh) * | 2021-11-04 | 2022-03-15 | 北京百度网讯科技有限公司 | 模型训练方法及装置、知识抽取方法及装置、设备和介质 |
-
2022
- 2022-06-23 CN CN202210724689.7A patent/CN115048940B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN114186533A (zh) * | 2021-11-04 | 2022-03-15 | 北京百度网讯科技有限公司 | 模型训练方法及装置、知识抽取方法及装置、设备和介质 |
CN114153968A (zh) * | 2021-11-09 | 2022-03-08 | 浙江大学 | 基于词属性位置关系与贝叶斯的少样本金融文本分类系统 |
Non-Patent Citations (1)
Title |
---|
基于多层次特征集成的中文实体指代识别;张海雷;曹菲菲;陈文亮;任飞亮;王会珍;朱靖波;;中文信息学报;20070915(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115048940A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115048940B (zh) | 基于实体词属性特征和回译的中文金融文本数据增强方法 | |
WO2019085779A1 (zh) | 机器处理及文本纠错方法和装置、计算设备以及存储介质 | |
CN108519890A (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN112347796B (zh) | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN116483991A (zh) | 一种对话摘要生成方法及系统 | |
CN113408307B (zh) | 一种基于翻译模板的神经机器翻译方法 | |
CN111680524A (zh) | 基于逆向矩阵分析的人机反馈翻译方法与系统 | |
Tennage et al. | Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation | |
CN112651241A (zh) | 一种基于半监督学习的汉语并列结构自动识别方法 | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN113128199B (zh) | 基于预训练语言模型与多重词信息嵌入的字向量生成方法 | |
Cristea et al. | From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script | |
Granell et al. | Study of the influence of lexicon and language restrictions on computer assisted transcription of historical manuscripts | |
Romro et al. | Using mouse feedback in computer assisted transcription of handwritten text images | |
CN112487134A (zh) | 一种基于极简摘要策略的科技文本问题方法抽取的方法 | |
Dinarelli et al. | Concept segmentation and labeling for conversational speech | |
CN116738984B (zh) | 一种基于提示学习的自动化数据标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |