CN116089594B - 基于bert问答模型从文本中抽取结构化数据的方法和装置 - Google Patents

基于bert问答模型从文本中抽取结构化数据的方法和装置 Download PDF

Info

Publication number
CN116089594B
CN116089594B CN202310362137.0A CN202310362137A CN116089594B CN 116089594 B CN116089594 B CN 116089594B CN 202310362137 A CN202310362137 A CN 202310362137A CN 116089594 B CN116089594 B CN 116089594B
Authority
CN
China
Prior art keywords
text
question
bert
original
answering model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310362137.0A
Other languages
English (en)
Other versions
CN116089594A (zh
Inventor
王永恒
金宁嘉
金雄男
邵研
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310362137.0A priority Critical patent/CN116089594B/zh
Publication of CN116089594A publication Critical patent/CN116089594A/zh
Application granted granted Critical
Publication of CN116089594B publication Critical patent/CN116089594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BERT问答模型从文本中抽取结构化数据的方法和装置,该方法通过词袋模型对原始文本集进行基于结构的文本向量化,再对所有文本向量进行凝聚层次聚类,形成代表文本集;再利用代表文本集生成训练集,从而训练BERT问答模型;最后利用训练好的BERT问答模型抽取结构化数据。本发明从机器阅读理解的角度出发,通过训练BERT问答模型来让机器从文本中自动筛选出需要抽取的数据,整个过程无需进行实体识别、实体关系识别等,大大缩短了转化时间且可直接应用到不同的领域内文本中。

Description

基于BERT问答模型从文本中抽取结构化数据的方法和装置
技术领域
本发明涉及计算机自然语言处理领域,尤其涉及一种基于BERT问答模型从文本中抽取结构化数据的方法和装置。
背景技术
文本作为一种非结构化或半结构化的数据类型,如何对其进行信息抽取一直是自然语言处理领域的热点研究方向之一。在网络时代,文本是信息传递的重要媒介,尤其是新闻文本或正式公告文件,其往往包含有用且密集的数据信息,若能将它们转换为结构化数据,一是可作为相应领域科学研究的数据来源,二是可在一定程度上为数据的整理和查询工作带来便利。
一直以来,从文本中抽取数据最直接也最普遍的方法是用正则表达式对给定字符串进行匹配。通过人工概括总结给定文本的行文结构,编写正则表达式将嵌入文本的数据摘取出来。不可否认的是,正则匹配这一方法在行文结构有规律可循的文本中可以发挥巨大的作用。若原始文本集中的所有文本均严格由少数种结构构成,那么通过编写一套或几套正则表达式即可覆盖所有可能的文本结构。但对于文章结构不固定的文本来说,细微的行文结构变化便可使正则表达式的匹配规则全部或部分失效,致使数据抓取的准确性大打折扣。因此,用正则表达式匹配的方法需要耗费大量人力和时间浏览并概括文本中所有可能出现的句式结构。加之,若文本数据量增大,正则匹配方法需要的工作量也随之成倍增加。除此之外,该方法还无法将这些人工投入得到的结果迁移至另一个案例中使用,即过于定制化,不具备普遍应用价值。
近年来,随着自然语言处理领域的高速发展,衍生出若干可应用于文本信息抽取的技术。基于语义分析的文本分析方法在文本结构化这类文本分析任务中应用较多。例如,除了上述基于规则的正则匹配方法外,还可先构建知识图谱再将其应用于结构化文本数据。其分析思路是,对于特定领域内的文本,先识别出文本涉及的实体和实体关系。再根据识别出的实体和实体关系拆解文本结构,从而抽取出想要结构化的数据。具体来说,需要先对给定文本进行知识抽取,其中包括实体识别、关系抽取、属性抽取等,而后再通过知识融合、知识存储等构建特定的知识图谱,最后将其应用于抽取结构化数据。当前,在实体识别任务中应用较多的技术有基于深度学习的LSTM-CRF、BiLSTM-CRF、BiLSTM-CNNs-CRF等,以及在基于神经网络的结构上加入注意力机制、GNN、迁移学习、远监督学习等。关系抽取技术大致分为基于机器学习和基于深度学习两种,目前主要采用基于深度学习的模型进行关系抽取,例如BERT模型是目前使用较多的语言模型之一。对于已有现成知识图谱的领域内的文本来说,直接使用现成的知识图谱对其进行信息抽取而后将数据结构化是非常高效的技术路线。但对于专业性较强的文本或者新兴领域内的文本,其包含许多新的专有命名实体和实体关系,重新构建或者在已有的领域内知识图谱基础上增加或筛选来构建可供使用的知识图谱,或者需要大量的人力成本投入,或者需要长链条的技术路线。当然,丰富知识图谱的构建也会给同领域内的自然语言处理任务带来方便,但从高效的角度,这样的技术路线仍然需要大量的前期技术准备工作。
现有的从文本中抽取结构化数据的技术基本都属于上述两类。还有一些是结合正则匹配和知识抽取中的部分内容来作为技术方案。例如在医疗类文本结构化案例中,由于医疗专业术语不能被通用的分词工具识别,考虑使用词向量工具word2vec训练文本来发现新词,并把发现的新词加入词库,再通过正则匹配抽取结构化数据。显然,在这类技术方案中,上述所提到的短处依然存在。
综上,目前现有的技术主要包括基于规则的正则匹配和基于语义分析的知识抽取方法。而将机器阅读理解思想应用于文本数据结构化的研究或专利文件很少。本发明从机器阅读理解的角度出发,通过训练BERT问答模型来让机器从文本中自动筛选出需要抽取的数据。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于BERT问答模型从文本中抽取结构化数据的方法和装置。
本发明的目的是通过以下技术方案来实现的:一种基于BERT问答模型从文本中抽取结构化数据的方法,包括以下步骤:
(1)通过词袋模型对原始文本集进行基于结构的文本向量化,即得到文本向量;
(2)将步骤(1)得到的所有文本向量进行凝聚层次聚类,形成代表文本集;
(3)利用步骤(2)中形成的代表文本集生成原始训练集,再随机改变代表文本集中的文本扩充原始训练集,通过该训练集训练BERT问答模型;
(4)利用步骤(3)中训练好的BERT问答模型从原始文本集中抽取结构化数据。
进一步地,所述步骤(1)包括以下子步骤:
(1.1)用分词工具对原始文本集中的每个文本进行分词并标注词性,筛选出与行文结构相关的词语和标点符号,删除与文章内容和信息有关而与行文结构无关的词语,从而将原始文本集中的每个文本转化为对应的分词列表;
(1.2)利用词袋模型将原始文本集中的每个文本对应的分词列表转化为文本向量,并用余弦相似度计算原始文本集的相似度矩阵,即对原始文本集中的所有文本计算两两之间的余弦相似度,构成一个相似度矩阵,其中对角线均为1;
进一步地,所述步骤(1.1)中的分词工具为jieba分词工具。
进一步地,所述步骤(2)包括以下子步骤:
(2.1)用凝聚层次聚类的算法对文本向量进行聚类;具体为:首先将原始文本集中的每个文本作为一个簇,然后找到文本相似度矩阵中除对角线外相似度最高的一对矩阵,并将它们合并成一个簇,直到原始文本集中的所有文本都在一个簇中;
(2.2)针对每一层的聚类结果计算平均相似度,即加总每个簇的平均相似度后再取平均;取平均相似度大于等于0.8的层次聚类;
(2.3)选定聚类层后,对每个簇随机选择一个文本作为代表,获得代表文本集;代表文本集中的每一个文本均作为对应类的代表,对应类的代表的行文结构即为每个类的行文结构;
进一步地,所述步骤(3)包括以下子步骤:
(3.1)根据代表文本集中的每个文本为每个簇生成对应的问题生成机制;利用所述问题生成机制对原始文本集中的每个文本生成对应的问题,以通过BERT问答模型获得对应的问题答案;
(3.2)将代表文本集中的每个文本生成对应的问题答案作为原始训练集;再通过随机改变代表文本集中的文本的对应的问题答案扩充代表文本集,从而扩充原始训练集;
(3.3)利用扩充的原始训练集训练BERT问答模型,从而获得一个训练好的BERT问答模型。
进一步地,所述步骤(4)包括以下子步骤:
(4.1)利用所述问题生成机制对原始文本集中的每个文本生成对应的问题,从而获得原始文本集的问题集;
(4.2)将所述问题集作为测试集输入训练好的BERT问答模型,输出对应文本中的答案;而对应文本中的答案即为需要结构化的数据;
(4.3)最后根据所述问题生成机制、所述问题集和所述对应文本中的答案即可获得结构化数据。
进一步地,所述问题集包含原始文本集所有需要结构化的数据抽取问题。
进一步地,若追求最优的聚类层,选择若干聚类层,重复步骤(2.3)、步骤(3)和步骤(4),根据训练好的BERT问答模型评估最佳的聚类层选择。
一种基于BERT问答模型从文本中抽取结构化数据的装置,包括一个或多个处理器,用于实现上述的一种基于BERT问答模型从文本中抽取结构化数据的方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的一种基于BERT问答模型从文本中抽取结构化数据的方法。
本发明的有益效果是:本发明利用BERT问答模型将含有密集信息的文本转换为结构化数据。相比之前的方法,本发明(a)通过BERT问答模型对文本进行信息提取的方法避免了对文本中的实体进行实体关系识别,在保证准确率的同时提高了技术的可操作性和可迁移性。其次,(b)区别于传统的基于规则的正则匹配方法,减少了人力投入,极大提高了处理大体量文本数据集的能力。(c)借助BERT问答模型,大大提高了数据提取的准确性。以下文阐述的疫情数据提取案例为例,当正则匹配方法的准确率至多能达到80%左右时,本发明的技术方案的准确率达到95%。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本发明聚类形成代表文本集的流程图;
图2为本发明训练BERT问答模型的流程图;
图3为本发明利用训练好的BERT问答模型抽取结构化数据;
图4为本发明的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明提出一种基于BERT问答模型从文本中抽取结构化数据的方法和装置。
实施例1:
现以从A省关于某疾病的通告中提取结构化数据为例。A省发布了关于某疾病的通告。以该通告的文本作为原始文本集,该通告的文本包括“今日报告新增确诊病例1例。其中无境外输入确诊病例:本土病例1例(B市),当日新检出确诊为1例。今日报告新增无症状感染者17例。其中境外输入1例(C国输入);本土16例(B市3例,D市2例,E市11例)。全省累计报告确诊病例3128例。其中境外输入病例593例,本土病例2535例。”。如表1、表2和表3所示,在本案例中,希望每个数据信息对应其地区来源,例如,如表1所示,从“本土病例1例(B市)”字段中,不仅要抽取新增本土病例1例,还要抽取出该本土病例来自B市,即B市新增本土病例1例。
步骤1:通过词袋模型对原始文本集进行基于结构的文本向量化,即得到文本向量;如图1所示;
(1.1)用jieba分词工具对文本进行分词并标注词性。由于数字和地名对文本的行文结构无关,只与文本信息和内容有关,在用词袋模型聚类时会产生干扰,于是,根据词性筛选出数字和地名,并将这些词语删除。从而获得原始文本集中的文本经过分词后包含词和标点符号的列表。
(1.2)利用词袋模型对词列表进行词频计算获得对应向量,从而将原始文本集中的每个文本转化为向量,并用余弦相似度计算文本相似度矩阵,即对所有文本向量两两组合计算其文本相似度。
步骤2:将所有文本向量进行凝聚层次聚类,形成代表文本集;
(2.1)用凝聚层次聚类的算法对文本向量进行聚类,具体来说,首先将原始文本集中的每个文本作为一个簇,然后找到文本相似度矩阵中除对角线外相似度最高的一对矩阵,并将它们合并成一个簇,直到原始文本集中的所有文本都在一个簇中。
(2.2)针对每一层的聚类计算平均相似度,即加总每个簇的平均相似度后再取平均。取平均相似度高于0.9的层次中簇数最少的层次聚类。
(2.3)选定聚类层后,对每个簇随机选择一个文本作为代表,从而获得代表文本集。
步骤3:利用代表文本集生成训练集,从而训练BERT问答模型;如图2所示;
(3.1)代表文本集中的文本结构均不相同,需要根据代表文本集中的每个文本为每个簇生成对应的问题生成机制。后续需要利用这个问题生成机制对原始文本集中的每个文本生成对应的问题,以通过模型获得对应的数据答案。
(3.2)根据代表文本集中的每个文本生成对应的问题答案集作为原始训练集。以该文本为例,其生成的问题-答案为:
Q1:“新增确诊病例几例?”
A1:“1”
Q2:“新增确诊病例境外几例?”
A2:“无”
Q3:“新增确诊病例本土几例?”
A3:“1”
Q4:“新增确诊病例B市几例?”
A4:“1”
Q5:“新增无症状感染者几例?”
A5:“17”
Q6:“新增无症状感染者境外几例?”
A6:“1”
Q7:“新增无症状感染者C国几例?”
A7:“1”
Q8:“新增无症状感染者本土几例?”
A8:“16”
Q9:“新增无症状感染者B市几例?”
A9:“3”
Q10:“新增无症状感染者D市几例?”
A10:“2”
Q11:“新增无症状感染者E市几例?”
A11:“11”
Q12:“累计报告确诊病例几例?”
A12:“3128”
Q13:“累计报告确诊病例境外几例?”
A13:“593”
Q14:“累计报告确诊病例本土几例?”
A14:“2535”
再通过随机改变文本中的“答案”来扩充文本集,例如将该文本中的“3128”随机替换为“2839”,从而获得一个新的文本,再修改A12为“2839”即可。用这样的方法可以无限制扩充训练集,从而解决文本数量稀少的问题。
(3.3)通过训练集训练BERT问答模型。从而获得训练好的BERT问答模型。
步骤4:利用训练好的BERT问答模型提取结构化数据;如图3所示;
(4.1)利用步骤2中获得的问题生成机制对原始文本集中的每个文本生成对应的问题。从而获得原始文本集的问题集。该问题集包含了原始文本集所有需要结构化的数据问题。
以该文本为例,其形成的问题集为:
Q1:“新增确诊病例几例?”
Q2:“新增确诊病例境外几例?”
Q3:“新增确诊病例本土几例?”
Q4:“新增确诊病例B市几例?”
Q5:“新增无症状感染者几例?”
Q6:“新增无症状感染者境外几例?”
Q7:“新增无症状感染者C几例?”
Q8:“新增无症状感染者本土几例?”
Q9:“新增无症状感染者B市几例?”
Q10:“新增无症状感染者D市几例?”
Q11:“新增无症状感染者E市几例?”
Q12:“累计报告确诊病例几例?”
Q13:“累计报告确诊病例境外几例?”
Q14:“累计报告确诊病例本土几例?”
(4.2)将上述问题集作为测试集输入训练好的BERT问答模型,让模型自动输出对应文本中的答案。而该答案即为需要结构化的数据。
(4.3)如表1、表2和表3所示,根据问题生成机制、问题、答案稍加整理即可获得结构化数据。
表1:结构化数据实例 - A省通报新增确诊病例
表2:结构化数据实例 - A省通报新增无症状感染者
表3:结构化数据实例 - A省通报累计确诊病例
实施例2:
现以从F省食品安全监督抽检信息通告中提取结构化数据为例。该通报的文本包括“近期,F省组织抽检粮食加工品、食用油、油脂及其制品、调味品、肉制品、乳制品、饮料、方便食品、饼于、罐头、速冻食品、薯类和膨化食品、糖果制品、茶叶及相关制品、酒类、蔬菜制品、水果制品、炒货食品及坚果制品、蛋制品、可可及焙烤咖啡产品、水产制品、淀粉及淀粉制品、糕点、豆制品、餐饮食品、食品添加剂、食用农产品等26类食品639批次样品。根据食品安全国家标准检验和判定:抽样检验合格620批次、不合格19批次。不合格项日涉及微生物污染、食品添加剂超标、农普药残留超标、质量指标不达标、重金属污染、其他污染物。”
具体步骤如下:
步骤1:通过词袋模型对原始文本集进行基于结构的文本向量化,即得到文本向量;
(1.1)用jieba分词工具对文本进行分词并标注词性。从而获得原始文本集中的文本经过分词后包含词和标点符号的列表。
(1.2)利用词袋模型对词列表进行词频计算获得对应向量,从而将原始文本集中的每个文本转化为向量,并用余弦相似度计算文本相似度矩阵,即对所有文本向量两两组合计算其文本相似度。
步骤2:将所有文本向量进行凝聚层次聚类,形成代表文本集;
(2.1)用凝聚层次聚类的算法对文本向量进行聚类,具体来说,首先将原始文本集中的每个文本作为一个簇,然后找到文本相似度矩阵中除对角线外相似度最高的一对矩阵,并将它们合并成一个簇,直到原始文本集中的所有文本都在一个簇中。
(2.2)针对每一层的聚类计算平均相似度,即加总每个簇的平均相似度后再取平均。取平均相似度高于0.9的层次中簇数最少的层次聚类。
(2.3)选定聚类层后,对每个簇随机选择一个文本作为代表,从而获得代表文本集。
步骤3:利用代表文本集生成训练集,从而训练BERT问答模型;
(3.1)代表文本集中的文本结构均不相同,需要根据代表文本集中的每个文本为每个簇生成对应的问题生成机制。后续需要利用这个问题生成机制对原始文本集中的每个文本生成对应的问题,以通过模型获得对应的数据答案。
(3.2)根据代表文本集中的每个文本生成对应的问题答案集作为原始训练集。其生成的问题-答案为:
Q1:“抽检食品类别包括?”
A1:“粮食加工品、食用油、油脂及其制品、调味品、肉制品、乳制品、饮料、方便食品、饼干、罐头、速冻食品、薯类和膨化食品、糖果制品、茶叶及相关制品、酒类、蔬菜制品、水果制品、炒货食品及坚果制品、蛋制品、可可及焙烤咖啡产品、水产制品、淀粉及淀粉制品、糕点、豆制品、餐饮食品、食品添加剂、食用农产品”
Q2:“抽检食品几类?”
A2:“26”
Q3:“抽检食品多少批次样品?”
A3:“639”
Q4:“抽样检验合格多少批次?”
A4:“620”
Q5:“抽样检验不合格多少批次?”
A5:“19”
Q6:“不合格项目涉及?”
A6:“微生物污染、食品添加剂超标、农兽药残留超标、质量指标不达标、重金属污染、其他污染物”
再通过随机改变文本中的“答案”来扩充文本集,例如将该文本中的“620”随机替换为“623”,从而获得一个新的文本,再修改A4为“623”即可。用这样的方法可以无限制扩充训练集,从而解决文本数量稀少的问题。
(3.3)通过训练集训练BERT问答模型。从而获得训练好的BERT问答模型。
步骤4:利用训练好的BERT问答模型提取结构化数据;
(4.1)利用步骤2中获得的问题生成机制对原始文本集中的每个文本生成对应的问题。从而获得原始文本集的问题集。该问题集包含了原始文本集所有需要结构化的数据问题。
以该文本为例,其形成的问题集为:
Q1:“抽检食品类别包括?”
Q2:“抽检食品几类?”
Q3:“抽检食品多少批次样品?”
Q4:“抽样检验合格多少批次?”
Q5:“抽样检验不合格多少批次?”
Q6:“不合格项目涉及?”
(4.2)将上述问题集作为测试集输入训练好的BERT问答模型,让模型自动输出对应文本中的答案。而该答案即为需要结构化的数据。
(4.3)如表4所示,根据问题生成机制、问题、答案稍加整理即可获得结构化数据。
表4:结构化数据实例 - F省食品安全监督抽检结果
与前述一种基于BERT问答模型从文本中抽取结构化数据的方法的实施例相对应,本发明还提供了一种基于BERT问答模型从文本中抽取结构化数据的装置的实施例。
参见图4,本发明实施例提供的一种基于BERT问答模型从文本中抽取结构化数据的装置,包括一个或多个处理器,用于实现上述实施例中的一种基于BERT问答模型从文本中抽取结构化数据的方法。
本发明的一种基于BERT问答模型从文本中抽取结构化数据的装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明的一种基于BERT问答模型从文本中抽取结构化数据的装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于BERT问答模型从文本中抽取结构化数据的方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (8)

1.一种基于BERT问答模型从文本中抽取结构化数据的方法,其特征在于,包括以下步骤:
(1)通过词袋模型对原始文本集进行基于结构的文本向量化,即得到文本向量;包括以下子步骤:
(1.1)用分词工具对原始文本集中的每个文本进行分词并标注词性,筛选出与行文结构相关的词语和标点符号,删除与文章内容和信息有关而与行文结构无关的词语,从而将原始文本集中的每个文本转化为对应的分词列表;
(1.2)利用词袋模型将原始文本集中的每个文本对应的分词列表转化为文本向量,并用余弦相似度计算原始文本集的相似度矩阵,即对原始文本集中的所有文本计算两两之间的余弦相似度,构成一个相似度矩阵,其中对角线均为1;
(2)将步骤(1)得到的所有文本向量进行凝聚层次聚类,形成代表文本集;包括以下子步骤:
(2.1)用凝聚层次聚类的算法对文本向量进行聚类;具体为:首先将原始文本集中的每个文本作为一个簇,然后找到文本相似度矩阵中除对角线外相似度最高的一对矩阵,并将它们合并成一个簇,直到原始文本集中的所有文本都在一个簇中;
(2.2)针对每一层的聚类结果计算平均相似度,即加总每个簇的平均相似度后再取平均;取平均相似度大于等于0.8的层次聚类;
(2.3)选定聚类层后,对每个簇随机选择一个文本作为代表,获得代表文本集;代表文本集中的每一个文本均作为对应类的代表,对应类的代表的行文结构即为每个类的行文结构;
(3)利用步骤(2)中形成的代表文本集生成原始训练集,再随机改变代表文本集中的文本扩充原始训练集,通过该训练集训练BERT问答模型;
(4)利用步骤(3)中训练好的BERT问答模型从原始文本集中抽取结构化数据。
2.根据权利要求1中所述的一种基于BERT问答模型从文本中抽取结构化数据的方法,其特征在于,所述步骤(1.1)中的分词工具为jieba分词工具。
3.根据权利要求1中所述的一种基于BERT问答模型从文本中抽取结构化数据的方法,其特征在于,所述步骤(3)包括以下子步骤:
(3.1)根据代表文本集中的每个文本为每个簇生成对应的问题生成机制;利用所述问题生成机制对原始文本集中的每个文本生成对应的问题,以通过BERT问答模型获得对应的问题答案;
(3.2)将代表文本集中的每个文本生成对应的问题答案作为原始训练集;再通过随机改变代表文本集中的文本的对应的问题答案扩充代表文本集,从而扩充原始训练集;
(3.3)利用扩充的原始训练集训练BERT问答模型,从而获得一个训练好的BERT问答模型。
4.根据权利要求1中所述的一种基于BERT问答模型从文本中抽取结构化数据的方法,其特征在于,所述步骤(4)包括以下子步骤:
(4.1)利用问题生成机制对原始文本集中的每个文本生成对应的问题,从而获得原始文本集的问题集;
(4.2)将所述问题集作为测试集输入训练好的BERT问答模型,输出对应文本中的答案;而对应文本中的答案即为需要结构化的数据;
(4.3)最后根据所述问题生成机制、所述问题集和所述对应文本中的答案即可获得结构化数据。
5.根据权利要求4中所述的一种基于BERT问答模型从文本中抽取结构化数据的方法,其特征在于,所述问题集包含原始文本集所有需要结构化的数据抽取问题。
6.根据权利要求1-5任一项所述的一种基于BERT问答模型从文本中抽取结构化数据的方法,其特征在于,若追求最优的聚类层,选择若干聚类层,重复步骤(2.3)、步骤(3)和步骤(4),根据训练好的BERT问答模型评估最佳的聚类层选择。
7.一种基于BERT问答模型从文本中抽取结构化数据的装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-6中任一项所述的一种基于BERT问答模型从文本中抽取结构化数据的方法。
8.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求1-6中任一项所述的一种基于BERT问答模型从文本中抽取结构化数据的方法。
CN202310362137.0A 2023-04-07 2023-04-07 基于bert问答模型从文本中抽取结构化数据的方法和装置 Active CN116089594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310362137.0A CN116089594B (zh) 2023-04-07 2023-04-07 基于bert问答模型从文本中抽取结构化数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310362137.0A CN116089594B (zh) 2023-04-07 2023-04-07 基于bert问答模型从文本中抽取结构化数据的方法和装置

Publications (2)

Publication Number Publication Date
CN116089594A CN116089594A (zh) 2023-05-09
CN116089594B true CN116089594B (zh) 2023-07-25

Family

ID=86210499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310362137.0A Active CN116089594B (zh) 2023-04-07 2023-04-07 基于bert问答模型从文本中抽取结构化数据的方法和装置

Country Status (1)

Country Link
CN (1) CN116089594B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115238B (zh) * 2020-10-29 2022-11-15 电子科技大学 一种基于bert和知识库的问答方法和系统
CN113704462A (zh) * 2021-03-31 2021-11-26 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
US20230075341A1 (en) * 2021-08-19 2023-03-09 Digital Asset Capital, Inc. Semantic map generation employing lattice path decoding
CN114791971A (zh) * 2022-03-30 2022-07-26 北京三快在线科技有限公司 信息聚合方法、装置、设备及计算机可读存储介质
CN115600561A (zh) * 2022-10-24 2023-01-13 武汉览山科技有限公司(Cn) 融合规则与小样本的网页结构化方法、设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An overview, empirical application, and discussion of the future research potential of Q&A models in B2B contexts;Lawrence, Benjamin;INDUSTRIAL MARKETING MANAGEMENT;第212-221页 *
基于BERT-BiLSTM-CRF模型的中文实体识别;谢腾;杨俊安;刘辉;;计算机系统应用(07);第48-55页 *

Also Published As

Publication number Publication date
CN116089594A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Mezgec et al. Mixed deep learning and natural language processing method for fake-food image recognition and standardization to help automated dietary assessment
US20230306869A1 (en) System and Method for Food Categorization
CN107329995B (zh) 一种语义受控的答案生成方法、装置及系统
CN116821308B (zh) 生成方法、模型的训练方法、设备及存储介质
CN109739995B (zh) 一种信息处理方法及装置
CN109800418B (zh) 文本处理方法、装置和存储介质
CN107833088A (zh) 内容提供方法、装置及智能设备
Ruede et al. Multi-task learning for calorie prediction on a novel large-scale recipe dataset enriched with nutritional information
Karmila et al. The relationship of the duration of social media instagram usage and student's eating Behavior in University of Sumatera Utara, 2019
CN115017320A (zh) 结合词袋模型和深度学习模型的电商文本聚类方法及系统
Gjorshoska et al. Missing value imputation in food composition data with denoising autoencoders
Qu et al. RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments
CN116089594B (zh) 基于bert问答模型从文本中抽取结构化数据的方法和装置
CN117746143A (zh) 基于aigc的图像描述文本的生成方法及装置、存储介质
WO2024002216A1 (zh) 一种服务问题归因方法及装置
CN115329757A (zh) 一种产品创新概念挖掘方法、装置、存储介质及终端设备
Do et al. 30VNFoods: A dataset for Vietnamese foods recognition
Brüggemann et al. Framing food in the news: Still keeping the politics out of the broccoli
Yanai et al. Large-scale twitter food photo mining and its applications
US10860678B2 (en) Information extraction from data
Luo et al. TipScreener: A Framework for Mining Tips for Online Review Readers
Hamilton et al. Natural language processing
Ahsani et al. Food Image Retrieval with Gray Level Co-Occurrence Matrix Texture Feature and CIE L* a* b* Color Moments Feature
Popovski et al. Exploring a standardized language for describing foods using embedding techniques
Shi et al. Multi-context label embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant