CN116910251A - 基于bert模型的文本分类方法、装置、设备及介质 - Google Patents
基于bert模型的文本分类方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116910251A CN116910251A CN202310803556.3A CN202310803556A CN116910251A CN 116910251 A CN116910251 A CN 116910251A CN 202310803556 A CN202310803556 A CN 202310803556A CN 116910251 A CN116910251 A CN 116910251A
- Authority
- CN
- China
- Prior art keywords
- text
- bert model
- entity
- model
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 208000024891 symptom Diseases 0.000 description 8
- 206010037660 Pyrexia Diseases 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 210000002784 stomach Anatomy 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 206010036790 Productive cough Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010008479 Chest Pain Diseases 0.000 description 1
- 206010015137 Eructation Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域以及数字医疗领域,公开了一种基于BERT模型的文本分类方法、装置、设备及介质,其方法包括:获取样本数据,所述样本数据为文本;对所述文本进行分词、提取实体词以及提取关键词;将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本;基于所述融合格式输入文本,训练所述BERT模型;基于训练后的所述BERT模型,执行文本分类任务。本申请通过将实体词和关键词信息融入到Bert模型的输入中,间接增加了文本分类过程中实体词和关键词的权重,进而提高了模型分类的准确率。
Description
技术领域
本申请是关于人工智能技术领域以及数字医疗领域,特别是关于一种基于BERT模型的文本分类方法、装置、设备及介质。
背景技术
近年来,随着计算机技术和网络通信技术的高速发展,电视、广播、报纸等传统获取信息的方式已不再是人们获取信息的主要方式,人们开始更多关注网络新闻。互联网所容纳的信息量大、内容丰富、信息及时、准确、更有相关信息的全面介绍与比较,更加能满足人们对于信息的需求。但也正是随着互联网技术的发展和智能设备的高度普及,信息爆炸已经成为了一个越来越棘手的问题,如何在海量的各行业资讯中帮助各类人准确、快速地获取到有价值的信息成为了一个迫切需要解决的热点问题,提高新闻文本分类的准确率是亟待解决的技术问题。
不仅在新闻媒体领域需要准确的文本分类,在数字医疗领域也会遇到如何在海量的医疗文本中快速的获取有价值的信息,提高医疗文本分类的准确率同样是亟待解决的技术问题。
发明内容
本申请实施例针对上述情况,提出一种基于BERT模型的文本分类方法、装置、设备及介质,通过将实体词和关键词信息融入到Bert模型的输入中,提高模型分类的准确率,以克服或者至少部分克服现有技术的不足之处。
第一方面,本申请实施例提供了一种基于BERT模型的文本分类方法,所述方法包括:
获取样本数据,所述样本数据为文本;
对所述文本进行分词、提取实体词以及提取关键词;
将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本;
基于所述融合格式输入文本,训练所述BERT模型;
基于训练后的所述BERT模型,执行文本分类任务。
第二方面,本申请实施例还提供了一种基于BERT模型的文本分类装置,所述装置包括:
获取模块,用以获取样本数据,所述样本数据为文本;
提取模块,用以对所述文本进行分词、抽取实体词以及提取关键词;
融合文本构建模块,用以将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本;
训练模块,用以基于所述融合格式输入文本,训练所述BERT模型;
预测模块,用以基于训练后的所述BERT模型,执行文本分类任务。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请基于本申请将实体词和关键词融合到文本中,相较Bert base的将文本作为模型的输入,本申请在此基础上将文本中的实体词和关键词抽取出来,然后拼接到文本文本中,通过修改Bert模型的输入,可以有效的将实体词和关键词信息融入到Bert模型的输入中,间接增加了文本分类过程中,实体词和关键词的权重,进而提高模型分类的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出根据本申请的第一实施例的基于BERT模型的文本分类方法的流程示意图;
图2示出根据本申请的第三实施例的基于BERT模型文的本分类装置的结构示意图;
图3为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
随着Bert等预训练模型在自然语言处理领域的快速发展,越来越多的预训练模型应运而生。文本分类也在各个领域得到了广泛的应用,如在线问诊系统、客户情感分类等等。现有技术中,在文本分类领域,通常将文本输入到预训练模型中,通过微调预训练模型完成分类模型的训练。
当前,通过微调预训练模型可以有效提高模型的准确率。然而,这种方法往往会忽略文本中关键词和实体词等信息对分类结果的影响,尤其在特定领域更为明显,如数字医疗领域,因为实体词和关键词中往往蕴含着该领域的核心信息。通常的预训练模型属于端到端模型,将文本直接作为模型的输入,进而获取分类结果,该过程往往忽略了文本中的关键词和实体词。
因此本申请提出了一种基于BERT模型的文本分类方法,具体为基于关键词和实体词的Bert文本分类方法,通过改变Bert预训练模型的输入,充分挖掘文本中关键词和实体词等信息,从而提高模型的分类准确率。
本申请的基于BERT模型的文本分类方法可应用各种领域,以下分别以新闻分类和线上问诊场景为例进行说明。
图1示出根据本申请的一个实施例的基于BERT模型的文本分类方法的流程示意图,从图1可以看出,本申请至少包括步骤S110~步骤S150:
步骤S110:获取样本数据,所述样本数据为文本。
在本实施例中,以新闻推荐系统为背景,需要说明的是,该场景不对本申请构成任何限定,仅作为说明示例,在此背景下,上述的文本为新闻文本。
该样本数据选用人工标注的新闻文本,该样本数据作为训练样本,该样本集合表示为:D={(x1,y1),…,(xi,yi),…,(xn,yn)},其中,(xi,yi)表示数据集D中第i条数据和对应的类别标签,xi为数据,yi为xi数据对应的类别,n表示数据集总数量,本申请的将新闻数据主要分为七大类,主要包括:体育、娱乐、军事、国际、社会、游戏、教育七大类,yi属于该七大类之一。由于作为样本数据的这些新闻文本类别各不相同,所以对作为样本数据的新闻文本的篇幅不做要求,符合用户需求的新闻文本均适用于本申请实施例的内容。
步骤S120:对所述文本进行分词、提取实体词以及提取关键词。
本申请需要对所述新闻文本进行预处理。新闻文本中往往蕴含着很多空白字符、无用字符等特殊字符。
对所述新闻文本进行预处理具体包括:
步骤S1200,过滤新闻文本的特殊字符,得到预处理新闻文本。
步骤S1210,对预处理新闻文本进行分词。对所述新闻文本进行分词具体为,例如采用结巴中文分词方法或者称谓jieba分词工具(Jieba字典)对中文句子进行分割转化从而提取出多个中文词汇。假设数据集D中的第i条数据经过分词可表示为xi={ti1,ti2,…,tip},其中,tip表示文本xi经分词后的第p个词语。
本申请对分词的方式不作限定,分词可以采用基于词典的规则匹配方法,也可以采用基于统计的机器学习方法。
其中,基于词典的分词算法,本质上就是字符串匹配,将待匹配的字符串基于一定的算法策略,和一个足够大的词典进行字符串匹配,如果匹配命中,则可以分词。根据不同的匹配策略,又分为正向最大匹配法,逆向最大匹配法,双向匹配分词,全切分路径选择等。
基于统计的分词算法,本质上是一个序列标注问题,将语句中的字,按照它们在词中的位置进行标注。标注主要有:B(词开始的一个字),E(词最后一个字),M(词中间的字,可能多个),S(一个字表示的词)。例如“中国平安是全球资产规模最大的保险集团”,标注后结果为“BMMESBMMEBMMMESBME”,对应的分词结果为“中国平安是/全球资产/规模/最大/的/保险集团”。这类算法基于机器学习或者深度学习,主要有HMM(隐含马尔柯夫模型),CRF(条件随机场),SVM(支持向量机),以及深度学习等。
对所述新闻文本进行实体词抽取,抽取出实体词。
新闻文本进行关键词抽取实体词抽取主要任务就是给定一段文本,从中抽取出实体类词汇,所谓实体词指实体类词汇,在具体的代码实现中,需预先定义抽取哪几类实体词汇,根据具体的新闻文本类别而定,假设实体词抽取的结果为s1,s2…,sq,其中sq表示文本xi经过命名实体识别技术提取的第q个实体词,其中实体类词汇主要包括:人名、地名、组织机构名、时间、日期、货币等。其中实体sq可能是集合{ti1,ti2,…,tip}中的某个词汇,也可能是集合中多个词汇的合体。
提取所述新闻文本的关键词。
提取所述新闻文本的关键词,可采用有监督关键词提取算法和无监督关键词提取算法,所述有监督关键词提取算法具体为训练已有的样本数据以及其关键词,生成可以用来检测样本数据的关键词的模型,之后利用这个模型处理新的样本数据,并检测出其中的关键词。所谓有监督的文本关键词提取算法,目前需要高昂的人工成本,也就是需要对已有的数据集进行标注,例如将文本标记为积极、消极或中立来评估文本隐含的情感。而无监督关键词提取算法,只需要选择一种评估关键词的方法,比如这个词出现的频率、位置等,通过这种方法来抽取可能的关键词。现有的文本关键词提取主要采用适用性较强、成本较低的无监督关键词抽取。
本方案的训练样本采用的新闻文本是经过人工标注的,可采用有监督关键词提取算法,有监督关键词提取算法例如使用LTP模型进行关键词抽取,本方案使用关键词抽取的方法,提取新闻文本中的关键词,假设提取的结果为:k1,k2…,kl,其中kl表示新闻文本xi经过关键词抽取技术获取的的第l个关键词,而在新闻领域的关键词,主要类似,“战争”、“明星”、“捐赠”等,其中关键词kl可能是集合{ti1,ti2,…,tip}中的某个词汇,也可能是集合中多个词汇的合体。
当然本方案也可采用无标注的训练样本,采用无监督关键词提取算法,无监督关键词提取算法包括TF-IDF算法、LDA算法等。提取所述新闻文本的关键词为成熟技术,可采用现有的关键词提取算法,再此不再赘述。
步骤S130:将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本。
BERT模型的全称是:Bidirectional Encoder Representations fromTransformer。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。现有技术中BERT模型输入包括token embedding、segmentembedding(段向量)、position embedding三部分。token embedding例如为设定的符号[CLS],对于模型而言,token是一种数字化的表示形式。每个token都与一个唯一的数字ID相关联,模型通过这些ID来区分不同的token。在训练过程中,模型学习了将文本映射到这些数字ID的方法,以便能够对新的文本进行编码和解码。segment embedding(段向量)对应的是输入的一句话,句子末尾加[SEP],两句拼接开头都有[CLS]符号。positionembedding,人为加入表示位置的向量。
对于不同的NLP任务,可对模型输入有微调,对模型输出的利用也有差异,例如:
文本分类任务:对于文本分类任务,BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文本分类,如下图所示。可以理解为:与文本中已有的其它字/词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。
语句对分类任务:该任务的实际应用场景包括:问答(判断一个问题与一个答案是否匹配)、语句匹配(两句话是否表达同一个意思)等。对于该任务,BERT模型除了添加[CLS]符号并将对应的输出作为文本的语义表示,还对输入的两句话用一个[SEP]符号作分割,并分别对两句话附加两个不同的文本向量以作区分。
基于Bert模型而言,在传统的微调预训练模型中,Bert模型的输入格式xi如下:
[CLS][ti1][ti2],…[tip][SEP]
本申请将实体词和关键词结合,新的BERT模型的输入格式:[CLS][ti1][ti2],…[tip][SEP][s1][s2],…[sq][SEP][k1][k2][kl][SEP]。
本申请将实体词和关键词融合到新闻文本(原始文本)中,将得到的文本记为融合格式输入文,相较Bert base的将原始文本作为模型的输入,本申请在此基础上将新闻文本中的实体词和关键词抽取出来,然后拼接到新闻文本(原始文本)中,通过修改Bert模型的输入,可以有效的将实体词和关键词信息融入到Bert模型的输入中,间接增加了新闻文本分类过程中,实体词和关键词的权重,进而提高模型分类的准确率。
步骤S140:基于所述融合格式输入文,训练所述BERT模型。
使用新的BERT模型的输入格式,对训练数据集中的文本数据进行处理,然后输入训练BERT模型,BERT模型的类别标签和原始标签相同。通过不断的训练的BERT模型,优化BERT模型的参数,直到BERT模型收敛为止。
步骤S150:基于训练后的所述BERT模型,执行文本分类任务。
在对BERT模型训练后,可以采用更新后的BERT模型执行相关的文本分类任务。当采用更新后的BERT模型执行相关的文本分类任务时,会对预测文本进行步骤S120和步骤130一样的处理,这里不再赘述。
由图1所示的方法可以看出,本申请将实体词和关键词融合到新闻文本(原始文本)中,相较Bert base的将原始文本作为模型的输入,本申请在此基础上将新闻文本中的实体词和关键词抽取出来,然后拼接到新闻文本(原始文本)中,通过修改Bert模型的输入,可以有效的将实体词和关键词信息融入到Bert模型的输入中,间接增加了新闻文本分类过程中,实体词和关键词的权重,进而提高新闻文本分类的准确率。
在本申请的一些实施例中,为了验证更新后的BERT模型的分类的准确性,可以对所述BERT模型的输出结果进行线上ABtest测试,得到所述BERT模型的文本分类结果的测试结果。
其中,ABtest测试方法参考现有技术。
为进一步描述采用本方案的有益效果,特举一示例说明,利用上述基于BERT模型的文本分类方法,选取1353名用户的历史新闻推荐记录作为训练样本,每个用户选取最新的20条记录,剔除掉较短的文本,最终的数据集条数(新闻文本数量)为25420条,上述25420条新闻文本利用上述新闻分了方法,经过线上ABtest测试,最终新闻的分类结果比现有技术采用的新闻分类方法提升3.34%。
图2示出根据本申请的第二实施例的医疗文本分类方法的流程示意图,从图2可以看出,本实施例至少包括步骤S210~步骤S240:
步骤S210:获取样本数据,所述样本数据为医疗文本。
在本申请中,以数字医疗领域的智能导诊为背景,需要说明的是,该场景不对本申请构成任何限定,仅作为说明示例。
示例性,医疗文本具体为病人的病例文本,病例文本含症状类别、症状时长、严重程度描述和就医意图。可以预先对病例文本进行人工标注该病例文本作为训练样本。
该样本集合表示为:D={(x1,y1),…,(xi,yi),…,(xn,yn)},其中,(xi,yi)表示数据集D中第i条数据和对应的类别标签,xi为数据,yi为xi数据对应的类别,n表示数据集总数量,
步骤S220,对所述医疗文本进行分词。
该步骤与本申请第一实施例中的步骤S120基本相同,本实施例需要对所述医疗文本进行预处理。相同部分不再赘述,不同之处在于,由于医疗用语的专业性较强,BERT原始的分词机制强行将医疗术语拆开会导致医疗术语信息的缺失,影响患者病例文本的表征效果。比如“发烧”这个词语拆成字的话就变成了“发”和“烧”,将这两个字单独用字向量表示很难表征出“发烧”这个词语原有的语义。
本方案改进现有的分词机制,具体流程如下:
步骤S221,从互联网在线医疗网站上抓取疾病名称、疾病别名、症状名称等医疗术语并去重,然后将上述词语扩充到Jieba字典和BERT原始字典中,Jieba字典扩充以后,Jieba分词模块会更加适用于医疗文本。
步骤S222,使用Jieba分词模块对输入的患者病例文本进行分词,这里假设分词后的结果为ti1,ti2,…,tip},接下来循环遍历每个词语tip,如果tipi能够在BERT字典中匹配到,则保留tip,否则将其拆分成每个字符char1,char2,...,charm;
步骤S223,修改BERT模型中的相关参数和权重,由于对BERT词典进行了扩充,因此需要修改词向量层中的词向量数量以及权重,其中字向量部分保持不变,词向量部分用词语中每个字符的原始向量的平均值来初始化。
为了能够更好的理解改进前后BERT的差异,接下来以“胃一直不舒服嗳气”为例并且对比结果如图3所示,基于原始BERT分词机制会得到以下分词结果:[‘[CLS]’,‘胃’,‘一’,‘直’,‘不’,‘舒’,‘服’,‘嗳’,‘气’,‘[SEP]’]。
而由于医疗术语“嗳气”存在于扩充后的BERT字典中,所以基于改进后的分词会得到以下分词结果:[‘[CLS]’,‘胃’,‘一’,‘直’,‘不’,‘舒’,‘服’,‘嗳气’,‘[SEP]’]。
采用上述步骤步骤S221-步骤S223,对所述医疗文本进行分词,得到医疗文本的分词集合,为了尽可能保留医疗术语中的语义信息。
步骤S230,对所述医疗文本进行实体词抽取,抽取出实体词。
具体包括步骤:
步骤S231,获取预构建的初始化医疗实体识别模型及有标注训练样本集及无标注训练样本集,并根据预设的半监督学习策略,利用所述有标注训练样本集及所述无标注训练样本集对所述初始化医疗实体识别模型进行训练,得到训练完成的医疗实体识别模型。
步骤S2311,初始化医疗实体识别模型为一种基于神经网络的文本分类模型,可用于对文本信息中的实体或组合实体进行提取。获取预构建的BERT模型及包含识别语义及词性的激活函数的词性—语义识别网络;将所述BERT网络作为输入层,将所述词性—语义识别网络作为处理层及输出层进行连接,得到初始化医疗实体识别模型。
S232,将所述医疗分词集合导入所述医疗实体识别模型中,利用所述医疗实体识别模型的BERT网络对所述医疗分词集合进行向量化操作,得到一级量化数据集合,并对所述一级量化数据集合进行注意力权重计算操作,得到二级量化数据集合。
S233,利用所述医疗实体识别模型中的词性—语义识别网络,识别所述二级量化数据集合中各个相邻的二级量化数据间的词性关系与语义关系,得到词性—语义特征序列。
S234,利用所述医疗实体识别模型中的输出层网络,根据所述词性—语义特征序列,判断所述二级量化数据集合中各个二级量化数据是否为实体或组合实体,并根据判断结果将所述实体及所述组合实体进行输出,得到实体词。
示例性,医疗文本为“一个月前咳嗽咳痰,胸部疼痛持续1周,加重2天,无发热”,则实体可以包括“一个月前”,其对应的实体类别为“发生时间”;实体“咳嗽”,对应的实体类别标签为“症状”;实体“咳痰”,对应的实体类别标签为“症状”;实体为“胸部”,对应的实体类别标签为“部位”;实体为“疼痛”,对应的实体类别标签为“症状”;实体为“1周”,对应的实体类别标签为“持续时间”;实体为“2周”,对应的实体类别标签为“加重时间”;实体为“无”,对应的实体类别标签为“否定词”;实体为“发热”,对应的实体类别标签为“症状”。
假设实体词抽取的结果为s1,s2…,sq,其中sq表示文本xi经过命名实体识别技术提取的第q个实体词,其中实体类词汇主要包括:症状名称、身体部位、持续时间等。其中实体sq可能是集合{ti1,ti2,…,tip}中的某个词汇,也可能是集合中多个词汇的合体。
步骤S240,提取所述医疗文本的关键词。
其中关键词kl可能是集合{ti1,ti2,…,tip}中的某个词汇,也可能是集合中多个词汇的合体。
提取所述医疗文本的关键词可采用现有技术中的技术。
步骤S250,基于实体词、关键词、医疗文本构建新的BERT模型的输入格式。
基于Bert模型而言,在传统的微调预训练模型中,Bert模型的输入格式xi如下:
[CLS][ti1][t12],…[tip][SEP]
本申请将实体词和关键词结合,新的BERT模型的输入格式:[CLS][ti1][ti2],…[tip][SEP][s1][s2],…[sq][SEP][k1][k2][kl][SEP]。
步骤S260,采用上述构建的输入格式的文本,对BERT模型进行训练,将训练得到的BERT模型用于后续相关的文本分类任务中。
本申请将实体词和关键词融合到医疗文本中,相较Bert base的将文本作为模型的输入,本申请在此基础上将新闻文本中的实体词和关键词抽取出来,然后拼接到医疗文本中,通过修改Bert模型的输入,可以有效的将实体词和关键词信息融入到Bert模型的输入中,间接增加了医疗文本分类过程中,实体词和关键词的权重,进而提高模型分类的准确率。
图2示出根据本申请的第三实施例的基于BERT模型文的本分类装置的结构示意图,从图2可以看出,该基于Bert模型的文本分类装置300包括:
获取模块310,用以获取样本数据,所述样本数据为文本;
提取模块320,用以对所述文本进行分词、抽取实体词以及提取关键词;
融合文本构建模块330,用以将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本;
训练模块340,用以基于所述融合格式输入文本,训练所述BERT模型;
预测模块350,用以基于训练后的所述BERT模型,执行文本分类任务。
在本申请的一些实施例中,在上述装置中,提取模块320,还用以过滤所述文本的特殊字符,得到预处理文本;对所述预处理文本进行分词。
在本申请的一些实施例中,在上述装置中,所述样本数据为选用人工标注的文本。
在本申请的一些实施例中,在上述装置中,所述关键词为实体词中的一个或多个词的合体。
在本申请的一些实施例中,在上述装置中,融合文本构建模块330,用以将实体词和关键词融合到所述文本中,得到所述融合格式输入文本。
在本申请的一些实施例中,在上述装置中,提取模块320,用以采用有监督关键词提取算法提取所述文本的关键词。
在本申请的一些实施例中,上述装置还包括:测试模块,用以对所述BERT模型的训练输出结果进行线上ABtest测试,得到所述BERT模型的文本分类结果的测试结果。
上述的基于Bert模型的文本分类装置可应用于新闻推荐系统的新闻文本的分类以及数字医疗领域的医疗文本等的分类,相较传统的机器学习模型或者循环神经网络的文本分类方法,本申请以Bert模型为基础,在新闻领域语料中微调模型,该过程可以有效的挖掘预训练模型的中的信息,使得模型的准确率。相较Bertbase的将原始文本作为BERT模型的输入,本申请在此基础上将文本中的实体词和关键词抽取出来,然后拼接到文本中,通过修改BERT模型的输入,可以有效的将实体词信息和关键词信息融入到模型的输入中,间接增加了文本分类过程中,实体词和关键词的权重,进而提高模型分类的准确率。
需要说明的是,上述的基于Bert模型的文本分类装置可一一实现前述的基于BERT模型的文本分类方法,这里不再赘述。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于Bert模型的文本分类装置。处理器,执行存储器所存放的程序,并具体用于执行前述方法。
上述如本申请图2所示实施例揭示的基于Bert模型的文本分类装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2中基于Bert模型的文本分类装置执行的方法,并实现基于Bert模型的文本分类装置在图2所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图2所示实施例中基于Bert模型的文本分类装置执行的方法,并具体用于执行前述方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的同一要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于BERT模型的文本分类方法,其特征在于,包括:
获取样本数据,所述样本数据为文本;
对所述文本进行分词、提取实体词以及提取关键词;
将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本;
基于所述融合格式输入文本,训练所述BERT模型;
基于训练后的所述BERT模型,执行文本分类任务。
2.如权利要求1所述的方法,其特征在于,所述对所述文本进行分词,还包括:
过滤所述文本的特殊字符,得到预处理文本;
对所述预处理文本进行分词。
3.如权利要求1所述的方法,其特征在于,所述样本数据为选用人工标注的文本。
4.如权利要求1所述的方法,其特征在于,所述关键词为实体词中的一个或多个词的合体。
5.如权利要求1所述的方法,其特征在于,所述将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本进一步包括:
将实体词和关键词融合到所述文本中,得到所述融合格式输入文本。
6.如权利要求1所述的方法,其特征在于,所述对所述文本进行分词、提取实体词以及提取关键词进一步包括:
采用有监督关键词提取算法提取所述文本的关键词。
7.如权利要求1所述的方法,其特征在于,还包括:
对所述BERT模型的训练输出结果进行线上ABtest测试,得到所述BERT模型的文本分类结果的测试结果。
8.一种基于BERT模型的文本分类装置,其特征在于,包括:
获取模块,用以获取样本数据,所述样本数据为文本;
提取模块,用以对所述文本进行分词、抽取实体词以及提取关键词;
融合文本构建模块,用以将所述实体词、所述关键词、和所述文本,构建为融合格式输入文本;
训练模块,用以基于所述融合格式输入文本,训练所述BERT模型;
预测模块,用以基于训练后的所述BERT模型,执行文本分类任务。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7任一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310803556.3A CN116910251A (zh) | 2023-06-30 | 2023-06-30 | 基于bert模型的文本分类方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310803556.3A CN116910251A (zh) | 2023-06-30 | 2023-06-30 | 基于bert模型的文本分类方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910251A true CN116910251A (zh) | 2023-10-20 |
Family
ID=88359408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310803556.3A Pending CN116910251A (zh) | 2023-06-30 | 2023-06-30 | 基于bert模型的文本分类方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910251A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591674A (zh) * | 2024-01-18 | 2024-02-23 | 交通运输部公路科学研究所 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
-
2023
- 2023-06-30 CN CN202310803556.3A patent/CN116910251A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591674A (zh) * | 2024-01-18 | 2024-02-23 | 交通运输部公路科学研究所 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
CN117591674B (zh) * | 2024-01-18 | 2024-04-26 | 交通运输部公路科学研究所 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106328147B (zh) | 语音识别方法和装置 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
US20210064821A1 (en) | System and method to extract customized information in natural language text | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN115080750A (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN116910251A (zh) | 基于bert模型的文本分类方法、装置、设备及介质 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN116257616A (zh) | 面向音乐领域的实体关系抽取方法及系统 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN113190659B (zh) | 基于多任务联合训练的文言文机器阅读理解方法 | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN114298048A (zh) | 命名实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |