CN113536735A - 一种基于关键词的文本标记方法、系统和存储介质 - Google Patents
一种基于关键词的文本标记方法、系统和存储介质 Download PDFInfo
- Publication number
- CN113536735A CN113536735A CN202111092687.2A CN202111092687A CN113536735A CN 113536735 A CN113536735 A CN 113536735A CN 202111092687 A CN202111092687 A CN 202111092687A CN 113536735 A CN113536735 A CN 113536735A
- Authority
- CN
- China
- Prior art keywords
- text
- word list
- sentence
- model
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000002372 labelling Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于关键词的文本标记方法,其中,该方法包括:获取训练数据,训练数据包括:文本、标签和与标签相关的关键词;将文本和关键词分别进行词语列表表示,得到文本词语列表和关键词词语列表,将关键词词语列表连接至标签得到第一句子;以文本词语列表为第二句子,基于第一句子和第二句子进行BERT模型的微调训练,得到训练好的文本标记模型;接收待标记文本,通过文本标记模型输出待标记文本的预测标记信息,根据预测标记信息标记待标记文本。通过本申请,解决了相关文本标记方法中步骤复杂且缺乏可解释性的问题,提升了标记效率和标记效果。
Description
技术领域
本申请涉及自然语言处理领域,特别是涉及一种基于关键词的文本标记方法、系统和计算机可读存储介质。
背景技术
文本标记任务,即在一个固定的标签集合基础上,判断该文本是否可以被标签集合中的一个或多个标记所标记。与文本分类任务不同,文本标记任务的标签是相互独立的,一个文本可以同时被标记为多个标签。
在相关技术中,文本标记常用的方法是通过BERT(Bidirectional EncoderRepresentations from Transformer,基于Transformer 的双向编码器表征)模型,将文本和标签输入模型进行判断,如果模型输出结果是0,即表示该文本和该标签不相关,如果输出结果为1,则表示相关。但是,该方法中存在以下问题:
1.在BERT模型训练时,为了得到较好的训练效果,需要基于大量的标注数据进行训练。因此,在语料非常庞大时,人工标记数据需要消耗大量的人力和时间成本;
2.采用完全基于标注数据训练的BERT模型用于标记,存在缺乏可解释性的问题。即无法确定模型某个异常输出的原因,也无法快速纠正。
目前针对相关文本标记方法中步骤复杂且缺乏可解释性的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于关键词的文本标记方法、系统计算机可读存储介质,以至少解决相关技术中文本标记步骤复杂且缺乏可解释性的问题。
第一方面,本申请实施例提供了一种基于关键词的文本标记方法,所述方法包括:
获取训练数据,所述训练数据包括:文本、标签和与所述标签相关的关键词;
将所述文本和所述关键词分别进行词语列表表示,得到所述文本词语列表和关键词词语列表,将所述关键词词语列表连接至标签得到第一句子;
以所述文本词语列表为第二句子,基于所述第一句子和所述第二句子进行BERT模型的微调训练,得到训练好的文本标记模型;
接收待标记文本,通过所述文本标记模型输出所述待标记文本的预测标记信息,根据所述预测标记信息标记所述待标记文本。
在其中一些实施例中,所述基于所述第一句子和第二句子进行所述BERT模型的微调训练包括:
分别获取所述第一句子和所述第二句子的输入ID词语列表、分段标识词语列表和输入掩码,并分别对所述输入ID词语列表和所述分段标识词语列表配置不同的标识信息;
以所述输入ID词语列表、所述分段标识词语列表和所述输入掩码作为模型输入,以所述待标记文本是否会被所述标签标记作为模型输出,对所述BERT模型进行二分类任务训练。
在其中一些实施例中,所述根据所述预测标记信息标记所述待标记文本包括:
在所述预测标记信息指示所述待标记文本与一个或者多个所述标签相关的情况下,对所述待标记文本配置对应的标签作为标记;
在所述预测标记信息指示所述待标记文本与所述标签无关的情况下,所述文本标记模型不对所述待标记文本配置标签。
在其中一些实施例中,所述将所述文本进行词语列表表示,得到所述文本词语列表包括:
对所述文本进行分词,得到分词结果;
将所述分词结果进行词语列表表示,得到所述文本的文本词语列表。
在其中一些实施例中,所述通过所述文本标记模型输出所述待标记文本的预测标记信息之后,所述方法还包括:
在所述文本标记模型输出的所述预测标记信息出现错误的情况下,通过分析所述错误标记结果,更新所述关键词;
将所述更新之后的关键词对应的词语列表连接至标签得到第一句子并用于模型训练。
在其中一些实施例中,所述将所述关键词词语列表连接至标签的过程中:
通过如下公式实现将所述关键词词语列表连接至所述标签得到第一句子:
第二方面,本申请实施例提供了一种基于关键词的文本标记系统,所述系统包括:数据采集模块、预处理模块和训练模块,其中,
所述数据采集模块用于获取训练数据,所述训练数据包括:文本、标签和与所述标签相关的关键词;
所述预处理模块用于将所述文本和所述关键词分别进行词语列表表示,得到文本词语列表和关键词词语列表,以及将所述关键词词语列表连接至标签得到第一句子;
所述训练模块用于以所述文本词语列表为第二句子,基于所述第一句子和所述第二句子进行BERT模型的微调训练,得到训练好的文本标记模型,以及接收待标记文本,通过所述文本标记模型输出所述待标记文本的预测标记信息,根据所述预测标记信息标记所述待标记文本。
在其中一些实施例中,所述训练模块用于:分别获取所述第一句子和所述第二句子的输入ID词语列表、分段标识词语列表和输入掩码,并分别对所述输入ID词语列表和所述分段标识词语列表配置不同的标识信息;
以所述输入ID词语列表、所述分段标识词语列表和所述输入掩码作为模型输入,以所述待标记文本是否会被所述标签标记作为模型输出,对所述BERT模型进行二分类任务训练。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种基于关键词的文本标记方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种基于关键词的文本标记方法。
相比于相关技术,本申请实施例提供的基于关键词的文本标记方法,在BERT模型微调训练过程中,添加与各个标记标签相关的关键词作为辅助训练信息;BERT模型在原有训练基础上,通过搜索文本中是否存在一些与标签相关的关键词,来进一步的判断该文本是否应该被该标签标记。通过本申请提供的方案,解决了相关文本标记方法步骤复杂且缺乏可解释性的问题,提升了标记效率;在模型输出错误标记时,可以通过调整关键词及时纠错,从而提升了可解释性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种基于关键词的文本标记方法的应用环境示意图;
图2是根据本申请实施例的一种基于关键词的文本标记方法的流程图;
图3是根据本申请实施例的微调训练的流程图;
图4是根据本申请实施例的一种基于关键词的文本标记方法的示意图;
图5是根据本申请实施例的基于关键词的文本标记系统的结构框图;
图6是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的一种基于关键词的文本标记方法,可以应用在如图1所示的应用环境中,图1是根据本申请实施例的一种基于关键词的文本标记方法的应用环境示意图,如图1所示,服务器11上部署有文本标记模型,终端10上存储并随时更新各种类型的文本文件,服务器11可以接受终端10上传的文本文件,并通过该文本标记模型对该文本文件配置各种类型的标签。结合一个具体的场景进行介绍:例如,服务器11通过文本标记模型,根据用户兴趣对某用户生产的文本文件添加兴趣标签,进一步的,再依据兴趣标签分析获取该用户近期关注的领域或方向,进行精准的信息推送,从而提升用户的黏着度。需要说明的是,本申请实施例中的终端10可以是智能手机、平板电脑、台式电脑、笔记本电脑和智能可穿戴设备,服务器11可以是独立的服务器或者是多个服务器组成的服务器集群。
本申请提供了一种基于关键词的文本标记方法,图2是根据本申请实施例的一种基于关键词的文本标记方法的流程图,如图2所示,该流程包括如下步骤:
S201,获取训练数据,训练数据包括:文本、标签和与标签相关的关键词;
本实施例中,训练数据可以从现有的任一开源数据集下载获取,也可以从单位、机构或者个人的自有数据集中获取。其中,文本作为标记对象,标签和关键词作为对文本标记的参考信息。以文本、用于文本标记的标签和关键词作为训练数据,对后续的模型进行有监督训练。
S202,将文本和关键词分别进行词语列表表示,得到文本词语列表和关键词词语列表;
另外,需要说明的是,在将文本转换为文本词语列表时,可以先对文档进行分词,再对分词结果进行词语列表表示。
S203,将关键词词语列表连接至标签得到第一句子;
在本实施例中,通过在数据预处理阶段将关键词词语列表与标签连接,引入关键词作为训练参量。在后续模型微调训练中,模型不仅可以基于数据标注进行学习训练,同时,还能以关键词作为参考条件,而关键词又与标签存在关联,从而,最终获得的模型可以得到较好的预测效果。
S204,以文本词语列表为第二句子,基于第一句子和第二句子进行BERT模型的微调训练,得到训练好的文本标记模型;
BERT 模型相较于原来的 RNN(Recurrent NeuraL Networks,循环神经网络)、LSTM(Long short-term memory,长短期记忆) 可以做到并发执行,并且能在多个不同层次提取关系特征,进而更全面反映句子的语义。同时,能根据句子上下文获取词义,从而避免歧义出现。
需要说明的是,本步骤中应用的BERT模型为已经过预训练之后的模型,其已具有一部分的文本标记/分类能力。为了进一步提升其预测效果,引入第一句子和第二句子作为模型的输入,在原有BERT模型的基础上进行微调训练。
S205,接收待标记文本,通过文本标记模型输出待标记文本的预测标记信息,根据预测标记信息标记待标记文本。
将待标记文本输入到标记模型后,模型会从输入端到输出端会得到一个预测结果,该预测结果即指示该待标记文本是否与一个或多个标签相关,若是,则对其添加对应的标签作为标记;若否,则保持继续执行。
通过上述步骤S201至S205,本申请通过将标签对应的关键词连接至标签,并基于标签、文本和标签相关的关键词进行标记模型的训练,从而在数据量较大,且现有标注数据不足时,为模型融入一些已知的关键词规则,提升了模型的预测效果。进一步的,当模型出现异常输出时,由于模型的输出还取决于关键词,因此可以通过修正关键词达到快速纠正的目的,提升了标记模型的可解释性。
在其中一些实施例中,图3是根据本申请实施例的微调训练的流程图,如图3所示,该流程包括如下步骤:
S301,分别获取第一句子和第二句子的输入ID词语列表(Input Ids)、分段标识词语列表(Segment Embeddings)和输入掩码,并对输入ID词语列表和分段标识词语列表配置不同的标识信息;
其中,配置标识信息的作用是:使BERT模型能够分辨第一句子和第二句子是两个不同的类型,可选的,可将第一句子配置为0,将第二句子配置为1;
S302,以输入ID词语列表、分段标识词语列表和输入掩码作为模型输入,以待标记文本是否会被标签标记作为模型输出,对BERT模型进行二分类任务训练。
需要说明的是,本实施例中的BERT模型具体为连续的两个句子的分类模型,对应的,进行二分类任务训练的作用即为:将文本与标签的关系分为相关和无关。可选的,在模型输出为0时,表示该标签与文本无关;在模型输出为1时,表示该标签与文本相关。
通过上述步骤S301至S302,在现有BERT模型的基础上基于添加关键词的标签,训练二分类任务得到的得到的标记模型,在同时执行多个待标记文本和多个标签标记任务时,能够依次判断每个文本与每个标签是否相关,并最后输出完整的预测标记信息用于文本的标记,从而提升了标记准确性。
在其中一些实施例中,根据预测标记信息标记待标记文本包括:在预测标记信息指示待标记文本与一个或者多个标签相关的情况下,对待标记文本配置对应的标签作为标记;在预测标记信息指示待标记文本与标签无关的情况下,文本标记模型不对待标记文本配置标签。
在其中一些实施例中,由于与标签相关的关键词由人工确定,而标记模型的输出结果取决于该关键词,因此, 在出现上述输出结果错误时,可以根据输出的错误标记结果回溯当前关键词中存在的缺陷。因此,本实施例提供的方法具有一定的可解释性。进一步的,可以通过减少或增加与标签相关的关键词,达到快速纠正的作用。
在其中一些实施例中,在将关键词词语列表连接至标签的过程中,优选的,通过如下公式1实现将关键词词语列表与标签连接:
结合一个具体的场景对上述实施例进行举例说明,图4是根据本申请实施例的一种基于关键词的文本标记方法的示意图,如图4所示,现以某科技企业发展现状的相关文本为待标记文本,进行分类标记。
第一步,依据人工规则确定用于文本标记的标签和标签相关的关键词。其中,关键词可以是“投融资”、“对外合作”、“荣誉资质”;其中,关键词及关键词与标签的从属关系可以如表1所示:
第二步,对关键词进行词语列表表示得到关键词词语列表,并将该关键词词词语列表与标签连接组成第一句子。具体步骤包括:将标签放入一个空列表,再将与标签相关的关键词词语放入该列表,其中,列表中的元素为关键词词语,在列表中,通过如下公式,在编程语言环境中实现关键词词语列表与标签的连接:
其中,是连接之后的结果, 是标签, 是关键词词语列表,需要说明
的是,将词语列表作为BERT模型的输入之后,模型内部会默认根据列表中的各个词语生成
对应的词向量,并在词向量的基础上进行如连接,训练处理等步骤。
第三步,使用jieba分词工具对待标记文本进行分词,将文本分割为多个词语,对这些词语进行词语列表表示得到文本词语列表,将文本词语列表作为第二句子。在文本词语列表中,每个文本单词为列表中的元素;
第四步,设置最大输入序列长度、第一句子的长度和第二句子的长度,并依据长度设置的结果截取第一句子和第二句子;
可选的,可设置最大输入序列长度为512、第一句子最大长度为29、第二句子最大长度为480。当第一句子的词语列表长度超过29时,只保留列表中前29个词语,去除剩下的元素。当第二句子的词语列表长度超过480时,只保留列表中前480个词语,去掉剩下的元素;
第五步,添加特殊字符,具体步骤包括:分别在第一句子和第二句子的词语列表中添加特殊字符,并将第一句子和第二句子的词语列表中的元素,依次放入一个空列表得到输入词语列表。其中,在词语列表中,添加特殊字符之后的元素可以为如下形式:{“[CLS]”、第二句子词语列表中的元素、“[SEP]”、第一句子词语列表中的元素、“[SEP]”};
第六步,获取输入词语列表的输入ID词语列表。具体步骤包括:对于输入词语列表中的词语,通过BERT模型的词典查询各词语对应的词语ID,进一步的,使用词语ID替换输入列表中的各个词语元素,即实现将输入词语列表转换为输入词语ID列表。在输入词语ID列表中,元素以词语ID的形式表示,即可获得输入ID词语列表;
第七步,获取分段标识词语列表。具体步骤包括:记seq_b_len为第一句子的词语列表的长度,创建一个长度为seq_b_len+1、元素全部为1的列表作为第一句子的分段标识列表;记seq_a_len为第二句子的词语列表的长度,创建一长度为seq_a_len+2的、元素全部为0的列表为第二句子的分段标识列表。将第一句子和第二句子的分段标识列表连接,得到整体分段标识列表。在整体分段标识列表中,元素以分段标识的形式表示,即可获得分段标识词语列表。
需要说明的是,第一句子和第二句子的分段标识词语列表连接的意思为,将第一句子和第二句子分段标识列表中的每个元素依次放入一个空列表,得到一个新列表,该新列表即表示连接之后的结果。
第八步,长度填充。具体步骤包括:
如果输入ID列表的长度等于512,则该列表即为用于模型训练的输入词语ID列表,与其对应的分段标识列表也同样可用于模型训练。此外,还需将一长度和该输入词语ID列表一致的,且元素全部为1的列表,作为输入掩码。
另外,如果输入词语ID列表的长度小于512,则创建一长度为512 - ids_len,且元素全部为0的填充列表(ids_len为输入词语id列表的长度),将一长度和输入词语ID列表相同,且元素全部为1的列表和该填充列表连接,得到输入掩码。连接的方式与第八步中的连接方式相同。
将输入词语ID列表和填充列表连接得到更新后的输入词语ID列表,更新后的输入词语ID列表即用于模型训练的输入词语ID列表。进一步的,对于分段标识列表,同样还需将分段标识列表和填充列表连接,得到更新后的分段标识列表用于模型训练;
第九步,将输入ID词语列表、输入掩码和分段词语列表输入BERT模型,训练二分类任务;
第十步,输出标记预测结果。此任务的输出标签中,0表示输入的文本和此标签无关,即该文本不需被该标签标记;1表示相关,即该文本可以被该标签标记。本实施例中,采用huggingface transformers库中的BertForSequenceClassification模型。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种基于关键词的文本标记系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的基于关键词的文本标记系统的结构框图,如图5所示,该系统包括:数据采集模块51、预处理模块52和训练模块53,其中,
数据采集模块51用于获取训练数据,训练数据包括:文本、标签和与标签相关的关键词;
预处理模块52用于将文本关键词分别进行词语列表表示得到文本词语列表和关键词词语列表,以及将关键词词语列表连接至标签得到第一句子;
训练模块53用于以文本词语列表为第二句子,基于第一句子和第二句子进行BERT模型的微调训练,得到训练好的文本标记模型;通过文本标记模型输出待标记文本的预测标记信息,根据预测标记信息标记待标记文本。
另外,结合上述实施例中的基于关键词的文本标记方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于关键词的文本标记方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于关键词的文本标记方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图6是根据本申请实施例的电子设备的内部结构示意图,如图6所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图6所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于关键词的文本标记方法,数据库用于存储数据。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于关键词的文本标记方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括:文本、标签和与所述标签相关的关键词;
将所述文本和所述关键词分别进行词语列表表示,得到所述文本词语列表和关键词词语列表,将所述关键词词语列表连接至标签得到第一句子;
以所述文本词语列表为第二句子,基于所述第一句子和所述第二句子进行BERT模型的微调训练,得到训练好的文本标记模型;
接收待标记文本,通过所述文本标记模型输出所述待标记文本的预测标记信息,根据所述预测标记信息标记所述待标记文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一句子和第二句子进行所述BERT模型的微调训练包括:
分别获取所述第一句子和所述第二句子的输入ID词语列表、分段标识词语列表和输入掩码,并分别对所述输入ID词语列表和所述分段标识词语列表配置不同的标识信息;
以所述输入ID词语列表、所述分段标识词语列表和所述输入掩码作为模型输入,以所述待标记文本是否会被所述标签标记作为模型输出,对所述BERT模型进行二分类任务训练。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预测标记信息标记所述待标记文本包括:
在所述预测标记信息指示所述待标记文本与一个或者多个所述标签相关的情况下,对所述待标记文本配置对应的标签作为标记;
在所述预测标记信息指示所述待标记文本与所述标签无关的情况下,所述文本标记模型不对所述待标记文本配置标签。
4.根据权利要求1所述的方法,其特征在于,所述将所述文本进行词语列表表示,得到所述文本词语列表包括:
对所述文本进行分词,得到分词结果;
将所述分词结果进行词语列表表示,得到所述文本的文本词语列表。
5.根据权利要求1所述的方法,其特征在于,所述通过所述文本标记模型输出所述待标记文本的预测标记信息之后,所述方法还包括:
在所述文本标记模型输出的所述预测标记信息出现错误的情况下,通过分析所述预测标记信息,更新所述关键词;
将所述更新之后的关键词对应的词语列表连接至标签得到第一句子并用于模型训练。
7.一种基于关键词的文本标记系统,其特征在于,所述系统包括:数据采集模块、预处理模块和训练模块,其中,
所述数据采集模块用于获取训练数据,所述训练数据包括:文本、标签和与所述标签相关的关键词;
所述预处理模块用于将所述文本和所述关键词分别进行词语列表表示,得到文本词语列表和关键词词语列表,以及将所述关键词词语列表连接至标签得到第一句子;
所述训练模块用于以所述文本词语列表为第二句子,基于所述第一句子和所述第二句子进行BERT模型的微调训练,得到训练好的文本标记模型,以及接收待标记文本,通过所述文本标记模型输出所述待标记文本的预测标记信息,根据所述预测标记信息标记所述待标记文本。
8.根据权利要求7所述的系统,其特征在于,所述训练模块用于:
分别获取所述第一句子和所述第二句子的输入ID词语列表、分段标识词语列表和输入掩码,并分别对所述输入ID词语列表和所述分段标识词语列表配置不同的标识信息;
以所述输入ID词语列表、所述分段标识词语列表和所述输入掩码作为模型输入,以所述待标记文本是否会被所述标签标记作为模型输出,对所述BERT模型进行二分类任务训练。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的一种基于关键词的文本标记方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的一种基于关键词的文本标记方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111092687.2A CN113536735B (zh) | 2021-09-17 | 2021-09-17 | 一种基于关键词的文本标记方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111092687.2A CN113536735B (zh) | 2021-09-17 | 2021-09-17 | 一种基于关键词的文本标记方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536735A true CN113536735A (zh) | 2021-10-22 |
CN113536735B CN113536735B (zh) | 2021-12-31 |
Family
ID=78092804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111092687.2A Active CN113536735B (zh) | 2021-09-17 | 2021-09-17 | 一种基于关键词的文本标记方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536735B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806237A (zh) * | 2021-11-18 | 2021-12-17 | 杭州费尔斯通科技有限公司 | 一种基于词典的语言理解模型的测评方法和系统 |
CN114186043A (zh) * | 2021-12-10 | 2022-03-15 | 北京三快在线科技有限公司 | 预训练方法、装置、设备和存储介质 |
CN114492419A (zh) * | 2022-04-01 | 2022-05-13 | 杭州费尔斯通科技有限公司 | 基于标注中新增关键词语的文本标注方法、系统及装置 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159414A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111177326A (zh) * | 2020-04-10 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN112699645A (zh) * | 2021-03-25 | 2021-04-23 | 北京健康之家科技有限公司 | 语料标注方法、装置及设备 |
CN112818694A (zh) * | 2021-03-02 | 2021-05-18 | 浙江工业大学 | 一种基于规则和改进预训练模型的命名实体识别方法 |
-
2021
- 2021-09-17 CN CN202111092687.2A patent/CN113536735B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159414A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111177326A (zh) * | 2020-04-10 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN112818694A (zh) * | 2021-03-02 | 2021-05-18 | 浙江工业大学 | 一种基于规则和改进预训练模型的命名实体识别方法 |
CN112699645A (zh) * | 2021-03-25 | 2021-04-23 | 北京健康之家科技有限公司 | 语料标注方法、装置及设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806237A (zh) * | 2021-11-18 | 2021-12-17 | 杭州费尔斯通科技有限公司 | 一种基于词典的语言理解模型的测评方法和系统 |
CN113806237B (zh) * | 2021-11-18 | 2022-03-08 | 杭州费尔斯通科技有限公司 | 一种基于词典的语言理解模型的测评方法和系统 |
CN114186043A (zh) * | 2021-12-10 | 2022-03-15 | 北京三快在线科技有限公司 | 预训练方法、装置、设备和存储介质 |
CN114492419A (zh) * | 2022-04-01 | 2022-05-13 | 杭州费尔斯通科技有限公司 | 基于标注中新增关键词语的文本标注方法、系统及装置 |
CN114492419B (zh) * | 2022-04-01 | 2022-08-23 | 杭州费尔斯通科技有限公司 | 基于标注中新增关键词语的文本标注方法、系统及装置 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN115827815B (zh) * | 2022-11-17 | 2023-12-29 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113536735B (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN109635838B (zh) | 人脸样本图片标注方法、装置、计算机设备及存储介质 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN111553164A (zh) | 命名实体识别模型的训练方法、装置、计算机设备 | |
CN108959271B (zh) | 描述文本生成方法、装置、计算机设备和可读存储介质 | |
CN110674319A (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN112711660B (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
CN110955608B (zh) | 测试数据处理方法、装置、计算机设备和存储介质 | |
CN114443850B (zh) | 基于语义相似模型的标签生成方法、系统、装置和介质 | |
CN113177411A (zh) | 命名实体识别模型的训练方法和命名实体识别的方法 | |
CN111382570B (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN112541079A (zh) | 多意图识别方法、装置、设备及介质 | |
CN114881035A (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN113591469A (zh) | 一种基于词语解释的文本增强的方法和系统 | |
CN113343711A (zh) | 工单生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |