CN115248855A - 文本处理方法及装置、电子设备、计算机可读存储介质 - Google Patents
文本处理方法及装置、电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN115248855A CN115248855A CN202110464021.9A CN202110464021A CN115248855A CN 115248855 A CN115248855 A CN 115248855A CN 202110464021 A CN202110464021 A CN 202110464021A CN 115248855 A CN115248855 A CN 115248855A
- Authority
- CN
- China
- Prior art keywords
- training
- machine learning
- text
- learning model
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 198
- 238000010801 machine learning Methods 0.000 claims abstract description 176
- 238000002347 injection Methods 0.000 claims abstract description 102
- 239000007924 injection Substances 0.000 claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 64
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 12
- 238000012550 audit Methods 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims 5
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 238000004590 computer program Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000287828 Gallus gallus Species 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本申请的实施例揭示了一种文本处理方法及装置、电子设备、计算机可读存储介质。该方法包括:获取待处理的文本;将所述文本输入至用于提取文本语义特征的机器学习模型中,所述机器学习模型基于多个知识注入任务进行循环训练得到,在每个训练周期内所述多个知识注入任务相互并列,每个知识注入任务用于根据特定类型的信息流知识提升所述机器学习模型的语义理解性能;获取所述机器学习模型针对所述文本输出的文本语义特征,并按照预设的文本处理目标对所述文本语义特征进行特征处理,得到与所述文本处理目标相符合的文本处理结果。本申请实施例的技术方案能够得到具有更高准确性的文本处理结果。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种文本处理方法及装置、电子设备、计算机可读存储介质。
背景技术
随着人工智能技术的发展,机器学习已逐渐成为文本处理的重要技术手段。文本处理过程通常使用BERT(Bidirectional Encoder Representations from Transformers,是谷歌公司提出的一种自然语言理解模型)等机器学习模型来提取文本语义特征,但如何提升这些机器学习模型的语义理解性能,仍是本领域技术人员需要不断研究的问题。
发明内容
为解决上述技术问题,本申请的实施例提供了一种文本处理方法及装置、电子设备、计算机可读存储介质。
根据本申请实施例的一个方面,提供了一种文本处理方法,包括:获取待处理的文本;将所述文本输入至用于提取文本语义特征的机器学习模型中,所述机器学习模型基于多个知识注入任务进行循环训练得到,在每个训练周期内所述多个知识注入任务相互并列,每个知识注入任务用于根据特定类型的信息流知识提升所述机器学习模型的语义理解性能;获取所述机器学习模型针对所述文本输出的文本语义特征,并按照预设的文本处理目标对所述文本语义特征进行特征处理,得到与所述文本处理目标相符合的文本处理结果。
根据本申请实施例的一个方面,提供了一种文本处理装置,包括:文本获取模块,配置为获取待处理的文本;模型输入模块,配置为将所述文本输入至用于提取文本语义特征的机器学习模型中,所述机器学习模型基于多个知识注入任务进行循环训练得到,在每个训练周期内所述多个知识注入任务相互并列,每个知识注入任务用于根据特定类型的信息流知识提升所述机器学习模型的语义理解性能;特征处理模块,配置为获取所述机器学习模型针对所述文本输出的文本语义特征,并按照预设的文本处理目标对所述文本语义特征进行特征处理,得到与所述文本处理目标相符合的文本处理结果。
根据本申请实施例的一个方面,提供了一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的文本处理方法。
在本申请的实施例提供的技术方案中,用于提取文本语义特征的机器学习模型基于多个知识注入任务进行循环训练得到,由于每个知识注入任务用于根据特定类型的信息流知识提升机器学习模型的语义理解性能,并且在每个训练周期内多个知识注入任务相互并列,能够避免机器学习模型在训练过程中产生知识遗忘,训练好的机器学习模型在语义理解性能上具有较大提升,使得该机器学习模型针对文本输出的文本语义特征更加符合文本的真实语义,也使得基于该文本语义特征进行特征处理所得到的文本处理结果具有更高的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请涉及的一种实施环境的示意图;
图2是一示例性实施例示出的一种文本处理方法的流程图;
图3是在图2所示实施例的基础上所提出的另一文本处理方法的流程图;
图4是以BERT模型作为机器学习模型的示例所示出的训练框架示意图;
图5是一示例性实施例示出的训练策略融合流程的示意图;
图6是图3所示实施例中的步骤S230在一个实施例中的流程图;
图7是一示例性实施例示出的采用单字遮蔽的方式来预测被遮蔽文本位置的单字的流程图;
图8是一示例性实施例示出的采用实体词遮蔽的方式来预测被遮蔽文本位置的实体词的流程图;
图9是图3所示实施例中的步骤S230在另一个实施例中的流程图;
图10是一示例性实施例示出的收集用于预测语句之间关联性的语料的过程的示意图;
图11是图3所示实施例中的步骤S230在另一个实施例中的流程图;
图12是本申请的一示例性实施例示出的信息流分享系统的示意图;
图13是本申请的一示例性实施例示出的文本处理装置的框图;
图14示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:本申请中提及的“多个”是指两个或者两个以上。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提出的文本处理方法及装置、电子设备、计算机可读存储介质涉及人工智能技术、机器学习技术以及自然语言处理技术,以下将对这些实施例进行详细说明。
首先请参阅图1,图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端100和服务器200,终端100和服务器200之间通过有线或者无线网络进行通信。
服务器200中加载有文本处理程序,用于提取文本语义特征的机器学习模型也以程序的形式包含于该文本处理程序中,该文本处理程序用于获取待处理的文本,并将获取的文本输入机器学习模型中,在获取机器学习模型针对文本输出的文本语义特征之后,按照预设的文本处理目标对该文本语义特征进行特征处理,得到与文本处理目标相符合的文本处理结果。
终端100用于对服务器200获得的文本处理结果进行显示等操作,例如在信息流业务场景中,服务器200获得的文本处理结果指示某个信息流的内容存在质量低下的问题,通过终端100对该文本处理结果的显示,使得有关人员可以通过终端100获知此问题,并针对此问题进行应对处理。
其中,终端100可以是智能手机、平板、笔记本、计算机等电子设备,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,例如多个服务器可组成一区块链,服务器为区块链上的节点,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处不对此进行限制。
图2是根据一示例性实施例示出的一种文本处理方法的流程图。该方法可以应用于图1所示的实施环境,并由图1所示实施环境中的服务器200具体执行。而在其它的实施环境中,该方法也可以由其它设备具体执行,本处不对此进行限制。
如图2所示,该方法至少包括步骤S110至步骤S150,详细介绍如下:
步骤S110,获取待处理的文本。
首先需要说明的是,本实施例提出的文本处理方法可以应用于任意的文本处理应用场景,例如文本分类场景、文本信息抽取场景、文本生成场景等,在不同的文本处理场景下,待处理的文本的获取来源可能不同。
示例来说,近年来信息流分享系统得到了极大的发展,信息流分享系统以信息流的方式来展示用户发布的文章、图文、视频等信息流,其它的用户在消费信息流后,还可以针对信息流进行评论、点赞、转发、收藏等各种互动行为。由于用户发布信息流的门槛的降低,导致了用户生产的信息流的质量参差不齐,比如存在标题党、低俗涉黄、攻击谩骂、诱导跳转、引导点击资料、营销内容等低质量的信息流,严重影响信息流分享系统的生态。为了高效率低识别质量低下的信息流,可以采用本实施例提供的方法进行文本处理,所获取的待处理的文本来源于待识别的信息流,例如该信息流的标题、文章正文、视频字幕等,可以根据实际应用场景进行确定。后续通过对待处理的文本提取文本语义特征,并对该文本语义特征进行特征处理,所得到的文本处理结果用于指示该文本所来源的信息流的内容的质量情况。
步骤S130,将文本输入至用于提取文本语义特征的机器学习模型中,该机器学习模型基于多个知识注入任务进行循环训练得到,在每个训练周期内多个知识注入任务相互并列,每个知识注入任务用于根据特定类型的信息流知识提升机器学习模型的语义理解性能。
文本表示在文本挖掘中有着核心的地位,因此本实施例进行的文本处理需依赖于文本的语义特征,具体通过机器学习模型自动进行提取。需要理解的是,本实施例涉及的机器学习模型是指用于提取文本语义特征的算法模型,具体是由用于提取文本语义特征的算法程序所形成。
目前主流的用于提取文本语义特征的机器学习模型为BERT模型,BERT模型是谷歌公司提出的一种算法模型,采用双向编码模型结构,在自然语言理解方面具有很大优势。也存在一些用于提取文本语义特征的其它机器学习模型,例如词袋模型等。这些机器学习模型至少具有以下两个方面的缺陷:
第一、常识的缺失。人类日常活动需要大量的常识背景知识支持,目前的机器学习模型能够学习到样本空间的特征和表征,类似于大型的文本匹配模型,但是大量的背景常识是隐式且模糊的,并且背景常识在预训练数据中难以进行体现;
第二、缺乏对语义的理解。目前的机器学习模型对于数据中蕴含的语义知识的理解缺乏推理能力,对于一些需要语义理解和相关推理的任务的细腻程度还不能达到理想效果。例如,对于“宫保鸡丁”和“宫保鸡丁酱料”两个语句,二者的BERT语义表征非常接近,但实际蕴含的搜索意图截然不同,这这种场景下,BERT模型很难模拟正常人一样做出正确的推理判断。
以上的两个方面均反映出目前的用于提取文本语义特征的机器学习模型的语义理解性能还有待提升。为解决此问题,在本实施例提出的文本处理方法中,针对待处理的文本提取文本语义特征的机器学习模型预先基于多个知识注入任务进行循环训练得到,每个知识注入任务用于根据特定类型的信息流知识提升机器学习模型的语义理解性能,也即,本实施例在机器学习模型的预训练过程中实现外部知识的注入,通过所注入的外部知识来提升机器学习模型的语义理解能力。
本实施例在每个训练周期内采用多个知识注入任务相互并列的方式进行机器学习模型的训练,能够有效避免机器学习模型在预训练过程中出现知识遗忘的问题,进一步优化了预训练效果。
由此可知,本实施例用于提取文本语义特征的机器学习模型具有很强的语义理解能力,该机器学习模型能够更加准确地预测输入其中的文本的语义,所输出的文本语义特征更加符合文本的真实语义。
步骤S150,获取机器学习模型针对文本输出的文本语义特征,并按照预设的文本处理目标对文本语义特征进行特征处理,得到与文本处理目标相符合的文本处理结果。
在本实施例中,预设的文本处理目标与具体的应用场景有关,例如在上述识别信息流质量的应用场景中,预设的文本处理目标即指示基于文本语义特征识别文本所来源的信息流的质量。针对文本语义特征进行特征处理具体为文本分类处理,以获得相应的质量标签,该质量标签用于表征文本所来源的信息流的质量识别结果。例如,质量标签可以是“标题党”、“低俗涉黄”、“攻击谩骂”、“诱导跳转”、“引导点击资料”、“营销内容”等用于描述信息流质量类型的标签,也可以是“高”、“中”、“低”等用于描述信息流质量等级的标签,本处不对此进行限定。
在上述的搜索场景中,预设的文本处理目标指示基于文本语义特征识别出用户的搜索意图,所得到的与文本处理目标相符合的文本处理结果可以是用于描述用户搜索意图的类型标签。本处不对不同应用场景下的文本处理目标一一进行列举,可以基于实际情况进行设置。
在本实施例中,由于步骤S130中获得的文本语义特征更加符合文本的真实语义,步骤S150中基于该文本语义特征进行特征处理所得到的文本处理结果也能够具有更高的准确性。
图3是在图2所示实施例的基础上所提出的另一文本处理方法的流程图。如图3所示,该方法在图2所示步骤的基础上,还包括步骤S210至步骤S230,详细介绍如下:
步骤S210,获取多个知识注入任务的训练语料以及训练目标。
在本实施例中,用于训练机器学习模型的多个知识注入任务的训练语料以及训练目标各不相同,以使得每个知识注入任务是根据特定类型的信息流知识来提升机器学习模型的语义理解性能的。
步骤S230,在每个训练周期内分别从各个知识注入任务的训练语料中获取一批训练样本,根据获取到的训练样本以及各个知识注入任务的训练目标,并列进行多次机器学习模型的训练。
由于多个知识注入任务的训练语料以及训练目标各不相同,通常难以将多种训练策略融合至同一个机器学习模型中,为解决此问题,本实施例采用的多策略训练框架基于循环并列方式对用于提取文本语义特征的机器学习模型进行预训练,循环是指多个知识注入任务的训练语料需分批次地输入机器学习模型中进行机器学习模型的预训练,并列是指在每个训练周期内,机器学习模型依次采用不同的知识注入任务的训练样本学习对应的一个训练目标,以避免知识遗忘,且能够较好地解决局部最优限制。
以图4所示的BERT模型的训练框架为例,将BERT模型抽象表示为特征嵌入网络层、编解码网络层和目标网络层,多种训练策略在特征嵌入网络层和编解码层进行共享,而在目标网络层接入不同的训练目标,BERT模型根据输入其中的每批训练样本对应学习其中一个训练目标。
为更加便于理解,如图5所示,本实施例提出的训练策略融合原理可以理解为是多个任务并行交叉地进行训练,每个任务有自身的训练样本和训练目标,由于训练样本数据无法一次性全部加载到机器学习模型中,所以每个训练周期内需逐次地加载一个任务的一个批次的训练样本,并对应学习这个任务的训练目标,完成一轮预训练后,下一个训练周期内切换获取另一批次的训练样本进行模型预训练,如此循环避免出现知识遗忘的问题。
多个知识注入任务中包含有第一知识注入任务,第一知识注入任务的训练目标在于提升机器学习模型的整体语义表示。如图6所示,根据从第一知识注入任务的训练语料中获取的训练样本,以及第一知识注入任务的训练目标,进行机器学习模型的训练,具体可以通过步骤S310至步骤S350实现,详细描述如下:
步骤S310,获取训练样本中含有的实体词,实体词用于描述现实事物。
本实施例通过第一知识注入任务向机器学习模型的预训练过程中注入知识图谱信息,知识图谱用于组织现实世界中的知识,具体描述实体与实体之间的关系,因此将知识图谱信息注入机器学习模型的预训练过程,能够为机器学习模型提供先验知识,使得训练后的机器学习模型具备一定的常识和推理能力。
为保证机器学习模型能够正确地学习到这些先验知识,首先需要获取训练样本中含有的实体词。示例性的,第一知识注入任务的训练语料中包含有知识图谱,通过对训练样本进行分词处理,得到训练样本对应的分词集合,并进行知识图谱与分词集合之间的匹配处理,则可获得训练样本中所含有的实体词。知识图谱与分词集合之间的匹配处理可理解为是对分词集合和知识图谱取交集,分词集合中并不是每个分词都为实体词。
需要说明的是,本实施例涉及的知识图谱可以通过对来自实际应用场景中的大量语料进行“实体-关系-实体”三元知识组的提取得到,来自实际应用场景中的语料可以包括第一知识注入任务的训练语料,还可以包括其它知识注入任务的训练语料。在一些实施例中,多个知识注入任务的训练语料均是从实际应场景中收集得到的。
步骤S330,随机遮蔽训练样本中含有的实体词,并将遮蔽了实体词的训练样本输入至机器学习模型中,获得机器学习模型针对被遮蔽了实体词的文本位置所预测的词语。
为保证机器学习模型能够正确地学习到这些先验知识,在获取到训练样本中含有的实体词之后,随机遮蔽训练样本中含有的实体词,并将遮蔽了实体词的训练样本输入至机器学习模型中。实体词的遮蔽应理解为机器学习模型能够获知实体词在输入文本中的位置,但无法获知实体词的内容,该模型的训练目标则相应为对遮蔽了实体词的文本位置进行内容预测。如果模型预测到的词语与输入文本中真实被遮蔽的实体词相同,则表示该模型能够理解该实体词的真实语义。
应理解的是,训练样本输入机器学习模型的方式为单字形式,即将输入文本当作由多个单字组成的序列,本实施例并不是采用单字遮蔽的预测方式,而是采用实体词遮蔽的预测方式的目的在于,使得机器学习模型学习到实体词的整体语义表示,这对于提升机器学习模型的语义理解性能具有很大帮助。采用单字遮蔽的预测方式使得机器学习模型则只能学习到实体词内单字之间的共现关系,无法学习到实体词的整体语义表示。
图7中示出了采用单字遮蔽的方式来预测被遮蔽文本位置的单字的流程,即随机遮住一些字,只在模型中输入上下文信息,让模型去预测这些字的表示。在输入端随机地“遮蔽”掉部分单字,在输出端使得模型预测出这些被遮蔽的单字,模型在最初并不知道要预测哪些单字,因此它输出的每个单字的嵌入表示,都涵盖了上下文的语义信息,以便把被遮蔽的单字准确的预测出来。如图7所示,输入文本是“西安是陕西的省会,国际历史文化名城”,将“安”、“陕”、“国”、“史”四个字在输入时被随机遮蔽,模型预训练过程中需要对这4个被遮蔽的文本位置做出预测。
图8中示出了采用实体词遮蔽的方式来预测被遮蔽文本位置的实体词的流程,其中,“西安”、“历史”这两个实体词被随机遮蔽,模型需要根据输入文本中含有的“陕西”、“省会”、“文化名城”等可知的实体词准确的预测出被遮蔽的实体词。通过这种方式,机器学习模型可学习到“西安”、“历史”这两个实体的语义表示,以及它跟上下文中含有的其他实体词之间的关联,从而增强了模型语义表征能力。
步骤S350,将被遮蔽的实体词作为监督信息,并基于预测得到的词语进行机器学习模型的有监督训练。
有监督训练又称为监督学习,这是一种机器学习的方法,由于机器学习模型的输入和输出已知,意味着输入和输出之间应存在一定关系,监督学习的过程也即是获得这种关系的过程,实际体现为机器学习模型中参数的调整。在有监督训练过程中,将不断地调整模型参数,以通过这些模型参数更准确地表征输入和输出之间的关系,模型预测得到的输出也更加符合真实输出。
本实施例将被遮蔽的实体词作为监督信息,并基于模型预测得到的词语进行机器学习模型的有监督训练,使得模型在训练过程中,通过不断地调整模型参数来保证机器学习模型能够正确地学习到先验知识,从而增强模型的语义表征能力。
由此,本实施例提供的第一知识注入任务基于已有语料包含的实体信息作为先验知识注入到机器学习模型的训练过程中,使得机器学习模型具备一定的常识和推理能力。
多个知识注入任务中还包含有第二知识注入任务,第二知识注入任务的训练目标在于提升机器学习模型对于语句之间关联性的理解能力,从而提升模型的语义理解性能。语句之间的关联性是指语句之间是否连续,例如以语句A和语句B为示例,语句之间的关联性可以包括语句B是否为语句A的下一句,也可以包括语句B是否基于语句A进行搜索点击得到,本实施例不对此进行限制。
第二知识注入任务的训练语料中含有的训练样本包括由第一语句和第二语句组成的语句对,第一语句与第二语句之间的关联程度可通过关联性标签描述,例如关联性标签包括“强关联”、“弱关联”以及“无关联”。
如图9所示,根据从第二知识注入任务的训练语料中获取的训练样本,以及第二知识注入任务的训练目标,进行机器学习模型的训练,具体可以通过步骤S410至步骤S430实现,详细描述如下:
步骤S410,将语句对中含有第一语句和第二语句输入至机器学习模型中,获取机器学习模型针对第一语句和第二语句预测得到的关联性标签。
在本实施例提出的第二知识注入任务实现中,为了让机器学习模型对句子之间的段落关系有更好的理解,需要训练机器学习模型理解语句间的关联关系,具体是将作为训练样本的语句对中含有第一语句和第二语句输入至机器学习模型中,机器学习模型通过获取第一语句和第二语句之间的信息来预测关联性标签,从而能够获得机器学习模型针对第一语句和第二语句所预测得到的关联性标签,该关联性标签用于描述第一语句和第二语句之间的关联程度。
步骤S430,将第一语句和第二语句之间真实的关联性标签作为监督信息,并基于预测得到的关联性标签对机器学习模型进行有监督训练。
在本实施例提出的第二知识注入任务的实现中,有监督训练的原理与第一知识注入任务的实现中提及的有监督训练的原理类似,本实施例将第一语句和第二语句之间真实的关联性标签作为监督信息,并基于模型预测得到的关联性标签进行机器学习模型的有监督训练,使得模型在训练过程中,通过不断地调整模型参数来保证机器学习模型能够正确地预测第一语句和第二语句之间的关联关系,从而增强模型对于语句的语义理解能力。
在一个实施例中,在信息流业务场景下,有大量的相关性内容语料,即可以在用户主动通过搜索查询相关新闻和资讯的场景下,通过收集用户输入的搜索语句和用户点击的结果标题,将这些信息作为用于预测语句之间关联性的语料,机器学习模型则能够从中学习到不同表述的相似度,从而提升模型对于语句之间段落关系的理解能力。
示例性的,如图10所示,收集用于预测语句之间关联性的语料的过程包括步骤S510至步骤S550,详细介绍如下:
步骤S510,获取搜索点击日志,搜索点击日志中含有搜索语句和点击标题,搜索语句用于表征用户搜索意图,点击标题是在根据用户搜索意图执行信息搜索得到多个结果标题之后,从多个结果标题中触发点击的结果标题。
搜索点击日志是同于记录用户搜索信息的载体,因此搜索点击日志中通常记载了关于用户搜索行为有关的数据,例如包括本实施例提及的搜索语句和点击标题。
搜索语句用于表征用户搜索意图,例如搜索语句是用户在信息流搜索框中输入的语句。点击标题是在根据用户搜索意图执行信息搜索得到多个结果标题之后从多个结果标题中触发点击的结果标题,若假设针对搜索语句C搜索得到10个结果标题,其中有3个结果标题是由用户触发点击过的,根据搜索点击日志可以明确地获得这些信息。
步骤S530,将搜索语句作为第一语句,将点击标题作为第二语句,获得训练样本中含有的语句对。
步骤S550,基于触发点击的结果标题在多个结果标题中的触发点击统计,确定语句对所对应的关联性标签。
在本实施例中,基于触发点击的结果标题在多个结果标题中的触发点击统计,可以获知某个结果标题在多个结果标题中的触发点击详细信息,例如该标题是否为首次触发点击的结果标题,首次触发点击的结果标题与搜索语句之间的关联程度应高于非首次触发点击的结果标题与搜索语句之间的关联程度。
示例性的,如果触发点击的结果标题是多个结果标题中首次点击的结果标题,则确定步骤S530获得的语句对所对应的关联性标签为第一标签。如果触发点击的结果标题并非是多个结果标题中首次点击的结果标题,则确定语句对所对应的关联性标签为第二标签。如果触发点击的结果标题并非是多个结果标题中点击的结果标题,则确定语句对所对应的关联性标签为第三标签。其中,第一标签所描述的关联程度应大于第二标签所描述的关联程度,第二标签所描述的关联程度应大于第三标签所描述的关联程度,例如第一标签为“强关联”,第二标签为“弱关联”,第二标签为“无关联”。
基于本实施例收集的用于预测语句之间关联性的语料,使得机器学习模型则能够从中学习到不同表述的相似度,从而提升模型对于语句之间段落关系的理解能力,也能够提升模型的语义理解能力。
多个知识注入任务中还包含有第三知识注入任务,第三知识注入任务的训练目标在于提升机器学习模型对于篇章语句之间的相关性理解能力,从而提升模型的语义理解性能。第三知识注入任务的训练语料中含有的训练样本包括段落。
如图11所示,根据从第三知识注入任务的训练语料中获取的训练样本,以及第三知识注入任务的训练目标,进行机器学习模型的训练,具体可以通过步骤S610至步骤S650实现,详细描述如下:
步骤S610,根据段落中含有的终止标识符将段落分割为多个语句,并随机打乱多个语句之间的排序。
首先需要说明的是,段落通常是由多个语句按照一定的先后顺序组成,每个语句的末尾具有终止标识符,以标题该语句的结束。例如,终止标识符可以是逗号、句号、分号、问号等标点符号。
段落中的上下语句中通常包含了互补的信息,本实施例基于此特点训练机器学习模型,使得机器学习模型在训练过程中实现篇章语句相关性知识的注入。具体首先需要根据段落中含有的终止标识符将段落分割为多个语句,并随机打乱多个语句之间的排序。
步骤S630,从打乱了排序的多个语句中随机选取相邻排序的两个语句,并将选取的两个语句输入至机器学习模型中,获取机器学习模型针对输入其中的两个语句所预测的关联性标签。
本实施例从打乱了排序的多个语句中随机选取相邻排序的两个语句,并将选取的两个语句输入至机器学习模型中,以通过机器学习模型预测这两个语句之间是否被打乱,并输出相应的关联性标签。
步骤S650,将选取的两个语句之间真实的关联性标签作为监督信息,并基于预测得到的关联性标签对机器学习模型进行有监督训练。
本实施例涉及的有监督训练的原理与第一知识注入任务和第二知识注入任务的实现过程中提及的有监督训练的原理类似,本处不进行赘述。
相比于第二知识注入任务中对于两个语句之间的关联性标签的预测,本实施例对于语句间关联性标签的预测难度更高,但在本实施例中,机器学习模型能够进一步将语句上下文之间的关系学习得到,由此实现篇章语句间相关性知识的注入。
在另一示例性的实施例中,对于第二知识注入任务和第三知识注入任务的实现过程,还可以针对进行了有监督训练的机器学习模型进行任务微调。任务微调包括冻结机器学习模型中靠近于输入端的卷积网络层,并在机器学习模型的输出端连接另一卷积网络层,该卷积网络层应为浅层网络层,例如SVM(Support Vector Machine,支持向量机)网络或LR(Logistic Regression,逻辑回归)网络。再通过少量的训练样本对更新后的机器学习模型进行训练,在此训练过程中仅需调整少量的模型参数,以充分利用预训练模型已经学习到的能力进行任务的微调,进一步加强知识注入任务对于机器学习模型的模型性能提升。
图12是本申请的一示例性实施例示出的信息流分享系统的示意图。该信息流分享系统用于实现信息流的生产和消费,信息流的生产是指用户向互联网上发布信息流,信息流的消费是指用户从互联网上获取其它用户发布的视频流。视频流可以是文章、图文、视频等形式。
如图12所示,该信息流分享系统主要由内容生产端10、上下行内容服务端20、内容消费端30、文本处理服务端40和人工审核子系统50。内容生产端10和内容消费端30用于进行信息流内容的生产和消费。上下行内容服务端20用于和内容生产端10以及内容消费端30直接通信,用于实现信息流的内容处理和流转分发。
文本处理服务端40用于执行具体的文本处理过程,其中部署有统计上报服务、信息流搜索服务、文本语料与样本数据库、模型预训练服务等模块。其中,统计上报服务用于获取信息流的评论、点赞、转发、收藏等用户互动信息。信息流搜索服务用于获取信息流的搜索点击日志。文本语料与样本数据库用于存储这些与信息流有关的多方数据,例如搜索点击日志、信息流中含有文本、用户针对信息流的评论等,通过对获取的多方数据进行清洗,可以得到用于训练机器学习模型的语料。模型预训练服务根据文本语料与样本数据库中存储的语料和样本数据,则可以对用于提取文本语义特征的机器学习模型进行预训练,训练得到的机器学习模型则可以应用于各种文本处理场景,例如文本分类、文本信息抽取、文本生成等场景,可根据实际需求进行设置。
人工审核子系统50用于生成针对信息流进行人工审核的审核记录。通过周期性获取人工审核子系统50中生成的审核记录,并根据获取到的审核记录对用于训练机器学习模型的语料进行更新,则可以实现机器学习模型的定期更新,从而确保用于提取文本语义特征的机器学习模型不会衰退,有利于机器学习模型的长期使用。
需要说明的是,在实际应用场景中,信息流分享系统的结构可以与图12所示的系统结构有所差异,可以根据实际需求构建信息流分析系统中的功能模块,本处不对此进行限制。
图13是本申请的一示例性实施例示出的文本处理装置的框图。如图13所示,该装置包括:
文本获取模块710,配置为获取待处理的文本;模型输入模块730,配置为将文本输入至用于提取文本语义特征的机器学习模型中,机器学习模型基于多个知识注入任务进行循环训练得到,在每个训练周期内多个知识注入任务相互并列,每个知识注入任务用于根据特定类型的信息流知识提升机器学习模型的语义理解性能;特征处理模块750,配置为获取机器学习模型针对文本输出的文本语义特征,并按照预设的文本处理目标对文本语义特征进行特征处理,得到与文本处理目标相符合的文本处理结果。
由于用于提取文本语义特征的机器学习模型基于多个知识注入任务进行循环训练得到,每个知识注入任务用于根据特定类型的信息流知识提升机器学习模型的语义理解性能,并且在每个训练周期内多个知识注入任务相互并列,能够避免机器学习模型在训练过程中产生知识遗忘,训练好的机器学习模型在语义理解性能上具有较大提升,使得该机器学习模型针对文本输出的文本语义特征更加符合文本的真实语义,也使得本实施例提出的文本处理装置基于该文本语义特征进行特征处理所得到的文本处理结果具有更高的准确性。
在另一示例性实施例中,该装置还包括:
训练数据获取模块,配置为获取多个知识注入任务的训练语料以及训练目标;模型训练模块,配置为在每个训练周期内分别从各个知识注入任务的训练语料中获取一批训练样本,根据获取到的训练样本以及各个知识注入任务的训练目标,并列进行多次机器学习模型的训练。
在另一示例性实施例中,多个知识注入任务中包含有第一知识注入任务;模型训练模块包括:
实体词获取单元,配置为获取训练样本中含有的实体词,实体词用于描述现实事物;遮蔽预测单元,配置为随机遮蔽训练样本中含有的实体词,并将遮蔽了实体词的训练样本输入至机器学习模型中,获得机器学习模型针对被遮蔽了实体词的文本位置所预测的词语;第一有监督训练单元,配置为将被遮蔽的实体词作为监督信息,并基于预测得到的词语进行机器学习模型的有监督训练。
在另一示例性实施例中,实体词获取单元包括:
分词处理子单元,配置为对训练样本进行分词处理,得到训练样本对应的分词集合;知识图谱匹配子单元,配置为进行知识图谱与分词集合之间的匹配处理,获得训练样本中含有的实体词。
在另一示例性实施例中,多个知识注入任务包括第二知识注入任务,第二知识注入任务的训练语料中含有的训练样本包括由第一语句和第二语句组成的语句对,第一语句与第二语句之间的关联程度通过关联性标签描述;模型训练模块包括:
第一关联性预测单元,配置为将语句对中含有第一语句和第二语句输入至机器学习模型中,获取机器学习模型针对第一语句和第二语句预测得到的关联性标签;第二有监督训练单元,配置为将第一语句和第二语句之间真实的关联性标签作为监督信息,并基于预测得到的关联性标签对机器学习模型进行有监督训练。
在另一示例性实施例中,模型训练模块还包括:
搜索点击日志获取单元,配置为获取搜索点击日志,搜索点击日志中含有搜索语句和点击标题,搜索语句用于表征用户搜索意图,点击标题是在根据用户搜索意图执行信息搜索得到多个结果标题之后,从多个结果标题中触发点击的结果标题;语句对获取单元,配置为将搜索语句作为第一语句,将点击标题作为第二语句,获得训练样本中含有的语句对;关联性标签获取单元,配置为基于触发点击的结果标题在多个结果标题中的触发点击统计,确定语句对所对应的关联性标签。
在另一示例性实施例中,关联性标签获取单元配置为:
若触发点击的结果标题是多个结果标题中首次点击的结果标题,则确定语句对所对应的关联性标签为第一标签;若触发点击的结果标题并非是多个结果标题中首次点击的结果标题,则确定语句对所对应的关联性标签为第二标签;若触发点击的结果标题并非是多个结果标题中点击的结果标题,则确定语句对所对应的关联性标签为第三标签,其中,第一标签所描述的关联程度大于第二标签所描述的关联程度,第二标签所描述的关联程度大于第三标签所描述的关联程度。
在另一示例性实施例中,多个知识注入任务包括第三知识注入任务,第三知识注入任务的训练语料中含有的训练样本包括段落;模型训练模块包括:
段落切割单元,配置为根据段落中含有的终止标识符将段落分割为多个语句,并随机打乱多个语句之间的排序;第二关联性预测单元,配置为从打乱了排序的多个语句中随机选取相邻排序的两个语句,并将选取的两个语句输入至机器学习模型中,获取机器学习模型针对输入其中的两个语句所预测的关联性标签;第三有监督训练单元,配置为将选取的两个语句之间真实的关联性标签作为监督信息,并基于预测得到的关联性标签对机器学习模型进行有监督训练。
在另一示例性实施例中,模型训练模块还包括:
微调训练单元,配置为针对进行了有监督训练的机器学习模型进行任务微调,任务微调包括冻结机器学习模型中靠近于输入端的卷积网络层,在机器学习模型的输出端连接另一卷积网络层,并通过其它的训练样本对更新后的机器学习模型进行训练。
在另一示例性实施例中,该装置应用于信息流分享系统,信息流分享系统用于实现信息流的生产和消费;该装置还包括:
多方数据获取模块,配置为从信息流分享系统中获取与信息流有关的多方数据,多方数据包括用户针对信息流的搜索点击日志、信息流中含有文本、用户针对信息流的评论中的至少一种;数据清洗模块,配置为对获取的多方数据进行清洗,以得到用于训练机器学习模型的语料。
在另一示例性实施例中,信息流分享系统中含有人工核验子系统,人工核验子系统用于生成针对信息流进行人工审核的审核记录;该装置还包括:审核记录获取模块,配置为周期性获取人工核验子系统中生成的审核记录;语料更新模块,配置为根据获取到的审核记录,对用于训练机器学习模型的语料进行更新。
在另一示例性实施例中,预设的文本处理目标包括识别文本所来源的信息流的质量;特征处理模块750包括:文本分类处理单元,配置为对文本语义特征进行文本分类处理,得到文本对应的质量标签,质量标签用于表征文本所来源的信息流的质量识别结果。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前所述的文本处理方法。
图14示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图14示出的电子设备的计算机系统1600仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14所示,计算机系统1600包括中央处理单元(Central Processing Unit,CPU)1601,其可以根据存储在只读存储器(Read-Only Memory,ROM)1602中的程序或者从储存部分1608加载到随机访问存储器(Random Access Memory,RAM)1603中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1603中,还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output,I/O)接口1605也连接至总线1604。
以下部件连接至I/O接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1607;包括硬盘等的储存部分1608;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入储存部分1608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的文本处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的文本处理方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (15)
1.一种文本处理方法,其特征在于,包括:
获取待处理的文本;
将所述文本输入至用于提取文本语义特征的机器学习模型中,所述机器学习模型基于多个知识注入任务进行循环训练得到,在每个训练周期内所述多个知识注入任务相互并列,每个知识注入任务用于根据特定类型的信息流知识提升所述机器学习模型的语义理解性能;
获取所述机器学习模型针对所述文本输出的文本语义特征,并按照预设的文本处理目标对所述文本语义特征进行特征处理,得到与所述文本处理目标相符合的文本处理结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述多个知识注入任务的训练语料以及训练目标;
在每个训练周期内分别从各个知识注入任务的训练语料中获取一批训练样本,根据获取到的训练样本以及各个知识注入任务的训练目标,并列进行多次机器学习模型的训练。
3.根据权利要求2所述的方法,其特征在于,所述多个知识注入任务中包含有第一知识注入任务;根据从所述第一知识注入任务的训练语料中获取的训练样本,以及所述第一知识注入任务的训练目标,进行机器学习模型的训练,包括:
获取所述训练样本中含有的实体词,所述实体词用于描述现实事物;
随机遮蔽所述训练样本中含有的实体词,并将遮蔽了实体词的训练样本输入至机器学习模型中,获得所述机器学习模型针对被遮蔽了实体词的文本位置所预测的词语;
将被遮蔽的实体词作为监督信息,并基于预测得到的词语进行所述机器学习模型的有监督训练。
4.根据权利要求3所述的方法,其特征在于,所述第一知识注入任务的训练语料中还含有知识图谱;所述获取所述训练样本中含有的实体词,包括:
对所述训练样本进行分词处理,得到所述训练样本对应的分词集合;
进行所述知识图谱与所述分词集合之间的匹配处理,获得所述训练样本中含有的实体词。
5.根据权利要求2所述的方法,其特征在于,所述多个知识注入任务包括第二知识注入任务,所述第二知识注入任务的训练语料中含有的训练样本包括由第一语句和第二语句组成的语句对,所述第一语句与所述第二语句之间的关联程度通过关联性标签描述;根据从所述第二知识注入任务的训练语料中获取的训练样本,以及所述第二知识注入任务的训练目标,进行机器学习模型的训练,包括:
将所述语句对中含有第一语句和第二语句输入至机器学习模型中,获取所述机器学习模型针对所述第一语句和第二语句预测得到的关联性标签;
将所述第一语句和所述第二语句之间真实的关联性标签作为监督信息,并基于预测得到的关联性标签对所述机器学习模型进行有监督训练。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取搜索点击日志,所述搜索点击日志中含有搜索语句和点击标题,所述搜索语句用于表征用户搜索意图,所述点击标题是在根据所述用户搜索意图执行信息搜索得到多个结果标题之后,从所述多个结果标题中触发点击的结果标题;
将所述搜索语句作为所述第一语句,将所述点击标题作为所述第二语句,获得所述训练样本中含有的语句对;
基于所述触发点击的结果标题在所述多个结果标题中的触发点击统计,确定所述语句对所对应的关联性标签。
7.根据权利要求6所述的方法,其特征在于,基于所述触发点击的结果标题在所述多个结果标题中的触发点击统计,确定所述语句对所对应的关联性标签,包括:
若所述触发点击的结果标题是所述多个结果标题中首次点击的结果标题,则确定所述语句对所对应的关联性标签为第一标签;
若所述触发点击的结果标题并非是所述多个结果标题中首次点击的结果标题,则确定所述语句对所对应的关联性标签为第二标签;
若所述触发点击的结果标题并非是所述多个结果标题中点击的结果标题,则确定所述语句对所对应的关联性标签为第三标签,其中,所述第一标签所描述的关联程度大于所述第二标签所描述的关联程度,所述第二标签所描述的关联程度大于所述第三标签所描述的关联程度。
8.根据权利要求2所述的方法,其特征在于,所述多个知识注入任务包括第三知识注入任务,所述第三知识注入任务的训练语料中含有的训练样本包括段落;根据从所述第三知识注入任务的训练语料中获取的训练样本,以及所述第三知识注入任务的训练目标,进行机器学习模型的训练,包括:
根据所述段落中含有的终止标识符将所述段落分割为多个语句,并随机打乱所述多个语句之间的排序;
从打乱了排序的多个语句中随机选取相邻排序的两个语句,并将选取的两个语句输入至机器学习模型中,获取所述机器学习模型针对输入其中的两个语句所预测的关联性标签;
将所述选取的两个语句之间真实的关联性标签作为监督信息,并基于预测得到的关联性标签对所述机器学习模型进行有监督训练。
9.根据权利要求5或8所述的方法,其特征在于,所述方法还包括:
针对进行了有监督训练的机器学习模型进行任务微调,所述任务微调包括冻结机器学习模型中靠近于输入端的卷积网络层,在机器学习模型的输出端连接另一卷积网络层,并通过其它的训练样本对更新后的机器学习模型进行训练。
10.根据权利要求1所述的方法,其特征在于,所述方法应用于信息流分享系统,所述信息流分享系统用于实现信息流的生产和消费;所述方法还包括:
从所述信息流分享系统中获取与信息流有关的多方数据,所述多方数据包括用户针对信息流的搜索点击日志、信息流中含有文本、用户针对信息流的评论中的至少一种;
对获取的多方数据进行清洗,以得到用于训练机器学习模型的语料。
11.根据权利要求10所述的方法,其特征在于,所述信息流分享系统中含有人工核验子系统,所述人工核验子系统用于生成针对信息流进行人工审核的审核记录;所述方法还包括:
周期性获取所述人工核验子系统中生成的审核记录;
根据获取到的审核记录,对所述用于训练机器学习模型的语料进行更新。
12.根据权利要求1所述的方法,其特征在于,所述预设的文本处理目标包括识别所述文本所来源的信息流的质量;所述按照预设的文本处理目标对所述文本语义特征进行特征处理,得到与所述文本处理目标相符合的文本处理结果,包括:
对所述文本语义特征进行文本分类处理,得到所述文本对应的质量标签,所述质量标签用于表征所述文本所来源的信息流的质量识别结果。
13.一种文本处理装置,其特征在于,包括:
文本获取模块,配置为获取待处理的文本;
模型输入模块,配置为将所述文本输入至用于提取文本语义特征的机器学习模型中,所述机器学习模型基于多个知识注入任务进行循环训练得到,在每个训练周期内所述多个知识注入任务相互并列,每个知识注入任务用于根据特定类型的信息流知识提升所述机器学习模型的语义理解性能;
特征处理模块,配置为获取所述机器学习模型针对所述文本输出的文本语义特征,并按照预设的文本处理目标对所述文本语义特征进行特征处理,得到与所述文本处理目标相符合的文本处理结果。
14.一种电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-12中的任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-12中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464021.9A CN115248855A (zh) | 2021-04-27 | 2021-04-27 | 文本处理方法及装置、电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464021.9A CN115248855A (zh) | 2021-04-27 | 2021-04-27 | 文本处理方法及装置、电子设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115248855A true CN115248855A (zh) | 2022-10-28 |
Family
ID=83695973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110464021.9A Pending CN115248855A (zh) | 2021-04-27 | 2021-04-27 | 文本处理方法及装置、电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115248855A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095416A (zh) * | 2023-07-19 | 2023-11-21 | 人民网股份有限公司 | 文本来源识别方法、装置、计算设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN110717339A (zh) * | 2019-12-12 | 2020-01-21 | 北京百度网讯科技有限公司 | 语义表示模型的处理方法、装置、电子设备及存储介质 |
CN112507706A (zh) * | 2020-12-21 | 2021-03-16 | 北京百度网讯科技有限公司 | 知识预训练模型的训练方法、装置和电子设备 |
-
2021
- 2021-04-27 CN CN202110464021.9A patent/CN115248855A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN110717339A (zh) * | 2019-12-12 | 2020-01-21 | 北京百度网讯科技有限公司 | 语义表示模型的处理方法、装置、电子设备及存储介质 |
CN112507706A (zh) * | 2020-12-21 | 2021-03-16 | 北京百度网讯科技有限公司 | 知识预训练模型的训练方法、装置和电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095416A (zh) * | 2023-07-19 | 2023-11-21 | 人民网股份有限公司 | 文本来源识别方法、装置、计算设备及存储介质 |
CN117095416B (zh) * | 2023-07-19 | 2024-03-29 | 人民网股份有限公司 | 文本来源识别方法、装置、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
WO2014160282A1 (en) | Classifying resources using a deep network | |
CN110390052B (zh) | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
Liu et al. | Learning to predict population-level label distributions | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN113011172B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN112257452A (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
US20210004602A1 (en) | Method and apparatus for determining (raw) video materials for news | |
CN112148881A (zh) | 用于输出信息的方法和装置 | |
US9830533B2 (en) | Analyzing and exploring images posted on social media | |
Wang et al. | News recommendation via multi-interest news sequence modelling | |
Sendhilkumar | Developing a conceptual framework for short text categorization using hybrid CNN-LSTM based Caledonian crow optimization | |
Lee et al. | DVC‐Net: A deep neural network model for dense video captioning | |
CN112165639B (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN115248855A (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 | |
Gupta et al. | Real-time sentiment analysis of tweets: A case study of Punjab elections | |
WO2022148108A1 (en) | Systems, devices and methods for distributed hierarchical video analysis | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN116484085A (zh) | 一种信息投放方法、装置、设备及存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |