CN112084789A - 文本处理方法、装置、设备及存储介质 - Google Patents

文本处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112084789A
CN112084789A CN202010964816.1A CN202010964816A CN112084789A CN 112084789 A CN112084789 A CN 112084789A CN 202010964816 A CN202010964816 A CN 202010964816A CN 112084789 A CN112084789 A CN 112084789A
Authority
CN
China
Prior art keywords
target
text
noun
pronoun
noun entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010964816.1A
Other languages
English (en)
Other versions
CN112084789B (zh
Inventor
卢睿轩
文瑞
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010964816.1A priority Critical patent/CN112084789B/zh
Publication of CN112084789A publication Critical patent/CN112084789A/zh
Application granted granted Critical
Publication of CN112084789B publication Critical patent/CN112084789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本处理方法、装置、设备及存储介质,其中方法可包括:获取文本数据对,文本数据对中包括样本对,样本对包括正样本和负样本;调用文本处理模型确定正样本中目标代名词与第一名词实体之间的第一语义相似度,并基于第一语义相似度进行正确的指代关系预测,得到第一预测概率;调用文本处理模型确定负样本中目标代名词与第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率;基于第一预测概率和第二预测概率训练文本处理模型。采用本发明实施例,可以提高文本处理模型的准确性。

Description

文本处理方法、装置、设备及存储介质
技术领域
本申请涉及人工智能中的自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及存储介质。
背景技术
指代消解是自然语言处理领域中的重要内容之一,指代消解是指确定出文本中具有正确的指代关系的代名词与名词实体的处理。与某一个名词实体具有正确的指代关系的代名词,可以在该名词实体非首次出现的位置处代替名词实体。例如,假设某个文本为:“播散性嗜酸粒细胞增多性胶原病是一种变态反应性疾病,其特征为发热,呼吸道症状、肝脾肿大和周围血象嗜酸粒细胞增加。”,对该文本进行指代消解处理是指:确定出与代名词“其”具有正确的指代关系的名词实体,也即“播散性嗜酸粒细胞增多性胶原病”。
随着机器学习技术的发展,目前常用的指代消解方法可以是基于神经网络模型实现的。具体实现中,训练得到一个能够完成指代消解任务的神经网络模型;然后,调用训练完成的神经网络模型对待处理文本进行指代消解处理。因此,当前在自然语言处理领域中,如何得到一个准确度较高的能够完成指代消解的神经网络模型成为研究的热点问题。
发明内容
本发明实施例提供了一种文本处理方法、装置、设备及存储介质,可以基于具有正确的指代关系的代名词与第一名词实体之间的语义相似度和具有错误的指代关系的代名词与第二名词实体之间的语义相似度训练文本处理模型,有助于提高文本处理模型的准确度。
一方面,本发明实施例提供了一种文本处理方法,包括:
获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确指代关系预测,得到第一预测概率;
调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确指代关系预测,得到第二预测概率;
基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
一方面,本发明实施例提供了一种文本处理装置,其特征在于,包括:
获取单元,用于获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
处理单元,用于调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确指代关系预测,得到第一预测概率;
所述处理单元,还用于调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确指代关系预测,得到第二预测概率;
优化单元,用于基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
一方面,本发明实施例提供了一种文本处理设备,其特征在于,包括:
处理器,适于实现一条或多条指令;以及,计算机存储介质,所述计算机存储介质有一条或多条指令适于由所述处理器加载并执行:
获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确指代关系预测,得到第一预测概率;
调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确指代关系预测,得到第二预测概率;
基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
一方面,本发明实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行:
获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确指代关系预测,得到第一预测概率;
调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确指代关系预测,得到第二预测概率;
基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
一方面,本发明实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;文本处理设备的处理器从所述计算机存储介质中读取所述计算机指令,所述处理器执行所述计算机指令执行:
获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确指代关系预测,得到第一预测概率;
调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确指代关系预测,得到第二预测概率;
基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
本发明实施例中,获取文本数据对,该文本数据对中包括正样本和负样本,正样本是对目标训练文本进行正例构建得到的,负样本是对目标训练文本进行负例构建得到的。其中,目标训练文本中包括目标代名词、第一名词实体以及第二名词实体,正样本用于标识目标代名词与第一名词实体具有正确的指代关系,负样本用于标识目标代名词与第二名词实体具有错误的指代关系;进一步的,调用文本处理模型确定正样本中目标代名词与第一名词实体之间的第一语义相似度,进而基于第一语义相似度进行正确指代关系预测,得到第一预测概率,并且调用文本处理模型确定负样本中目标代名词与第一名词实体之间的第二语义相似度,进而基于第二语义相似度进行正确指代关系预测,得到第二预测概率;然后基于第一预测概率和第二预测概率训练文本处理模型。
在上述文本处理过程中,对文本处理模型的优化需要依赖于第一预测概率和第二预测概率,而第一预测概率是基于第一语义相似度确定的,第二预测概率是基于第二语义相似度确定的,并且第一语义相似度用于表示目标代名词与第一名词实体之间的语义距离,第二语义相似度用于表示目标代名词与第二名词实体之间的语义距离。基于此,可以理解为对文本处理模型的训练时综合考虑了具有正确的指代关系的代名词和名词实体的语义距离,以及具有错误的指代关系的代名词和名词实体的语义距离,如此一来,有助于使得文本处理模型能够学习到对正样本的预测结果和对负样本的预测结果之间的差异,从而在文本处理模型的使用时,能够较为准确的进行指代消解,从而提高了文本处理模型的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本处理模型的示意图;
图2是本发明实施例提供的一种文本处理方法的流程示意图;
图3是本发明实施例提供的一种对文本处理模型的训练方法的示意图;
图4是本发明实施例提供的另一种文本处理方法的流程示意图;
图5是本发明实施例提供的一种文本处理装置的结构示意图;
图6是本发明实施例提供的一种文本处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。
在自然语言处理技术中,指代消解是重要的研究内容之一,随着人工智能技术的发展,基于神经网络模型进行指代消解成为流行趋势,但是不同的神经网络结构在进行指代消解时具有不同的性能。为了更好地实现指代消解任务,本发明实施例提出了一种新的文本处理模型,参见图1,为本发明实施例提供的一种文本处理模型的结构示意图。
在一个实施例中,图1所示的文本处理模型中,可以包括文本预训练子模型101,所述文本预训练子模型可以包括Roberta模型、Bert模型以及GPT2模型中的任意一种或多种。其中,GPT2模型和Bert模型均是基于transformer构建的,相比于循环神经网络,transformer可以捕捉到更长范围的信息,基于transformer构建的预训练模型计算速度比循环精神网络更快,易于并行化。GPT2模型采用的是单向的transformer,Bert模型使用的是双向transformer,相比较而言双向transformer更加高效、能捕捉更长距离的依赖,并且Bert模型使用两个损失函数,一个损失函数用于建模更广泛的上下文,强制给每个词记住更多的上下文信息;另外一个损失函数用于建模多个句子之间的关系,编码更多的篇章信息,因此Bert模型的性能优于GPT2模型。Roberta模型的全称可以为强力优化的Bert方法(Robustly optimized BERT approach),Roberta模型是对Bert模型的优化,其性能优于Bert模型。在一种实施方式中,为了提高文本预训练的准确性,本发明实施例可选用Roberta模型作为文本训练子模型。
所述文本预训练子模型101用于对输入的文本进行特征提取处理,得到文本中每个字的特征向量,以及根据每个词的特征向量输出该文本的语义特征。假设输入的文本长度为a,文本预训练子模型101对文本处理后每个词的特征向量为1*1024,输入的文本的语义特征表示为(a+2)*1024。例如,如图1中11所示,假设10表示输入的文本,11表示经过文本预训练子模型101后输出的文本的语义特征(11只示出(a+2)*1的语义特征)。
在一个实施例中,图1所示的文本处理模型还可以包括全连接层102,全连接层102的数量可以为两个,每个全连接层102与一个激活函数连接。
可选的,在对文本处理模型训练时,输入的文本中标识了代名词的位置以及与代名词具有正确的指代关系的名词实体的位置。例如,输入的文本为:“……阿莫西林是一种……。本药可以用于……”,代名词为:“本药”,与该代名词具有正确的指代关系的名词实体为:“阿莫西林”。文本训练模型调用文本预训练子模型101得到文本中每个词的特征向量,进一步基于每个词的特征向量得到代名词的特征向量以及名词实体的特征向量,如1A和1B所示。进而,将代名词的特征向量和名词实体的特征向量进行拼接后输入到全连接层102,全连接层102基于拼接后的特征向量进行正确的指代关系预测,最后输出代名词与名词实体具有正确的指代关系的概率。
在对训练完成的文本处理模型使用过程中,输入的文本中不会标识代名词以及与代名词具有正确的指代关系的名词实体的位置,此时输入到全连接层102的特征向量可以是:代名词的特征向量与多个名词实体中每个名词实体的特征向量的拼接结果,全连接层102对每一个拼接结果进行正确的指代关系进行预测,并输出多个概率。
在一个实施例中,图1所示的文本处理模型还可以包括损失函数103,该损失函数103在对文本处理模型训练时工作,用于根据全连接层102的输出的概率计算文本处理模型的损失函数的值,以使得文本处理设备按照减小损失函数的值的方向调整文本处理模型的模型参数,以使得文本处理模型逐渐趋于收敛。
基于上述文本处理模型,本发明实施例提供了一种模型处理方案,所述模型处理方案指导图1所示的文本处理模型学习具有正确的指代关系的词对(代名词和名词实体)之间的语义距离,和具有错误的指代关系的词对之间的语义距离的差异,从而使得文本处理模型在使用过程中,可以较为准确对待处理文本进行指代消解。
基于上述的文本处理模型以及模型处理方案,本发明实施例提供了一种文本处理方法。参见图2,为本发明实施例提供的一种文本处理方法的流程示意图,图2所示的文本处理方法可由文本处理设备执行,具体可由文本处理设备的处理器执行。所述文本处理设备可以为终端或者服务器,所述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等;所述服务器可以为独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。图2所示的文本处理方法可包括如下步骤:
步骤S201、获取文本数据对,文本数据对包括正样本和负样本。
在一个实施例中,所述文本数据对包括一个正样本和一个负样本,所述正样本是对目标训练文本进行正例构建得到的,所述负样本是对所述目标训练文本进行负例构建得到的。具体实现中,基于目标训练文本得到正样本和负样本的实施方式,可以包括:获取目标训练文本,并对目标训练文本进行实体识别处理,得到所述目标训练文本包括的目标代名词和至少一个名词实体;从所述至少一个名词实体中获取与目标代名词具有正确的指代关系的第一名词实体,并基于第一名词实体和目标代名词对所述目标训练文本进行正例构建得到正样本;从所述至少一个名词实体中获取与目标代名词具有错误的指代关系的第二名词实体,并基于第二名词实体和目标代名词对所述目标训练文本进行负例构建得到负样本。由此可见,正样本用于标识目标代名词与第一名词实体具有正确的指代关系,负样本用于标识目标代名词与第二名词实体具有错误的指代关系。
在一个实施例中,所述对目标训练文本进行实体识别处理可以是采用开源语言处理工具包spacy执行的。例如,目标训练文本为:播散性嗜酸粒细胞增多性胶原病是一种变态反应性疾病,其特征为发热,呼吸道症状、肝脾肿大和周围血象嗜酸粒细胞增加;采用开源语言处理工具包spacy对目标训练文本进行实体词识别后,得到目标训练文本包括的目标代名词为:其,目标训练文本包括的至少一个名词实体为:播散性嗜酸粒细胞增多性胶原病、变态反应性疾病、呼吸道症状、肝脾以及血象嗜酸粒细胞等。
再如,目标训练文本为:宫外孕的主要原因是由于输卵管的堵塞不畅引起的,它对女性伤害较大,建议您到医院检查一下;采用开源语言处理工具包spacy对目标训练文本进行实体词识别后,得到目标训练文本包括的目标代名词为:它,目标训练文本包括的至少一个名词实体为:宫外孕、输卵管以及医院等。
应当理解的,目标训练文本包括的至少一个名词实体中,可能存在多个与目标代名词之间存在错误的指代关系的名词实体,因此上述第二名词实体的数量可以为至少一个,从而基于第二名词实体和目标代名词构建得到的负样本的数量也为至少一个。虽然负样本的数量为至少一个,但是每次输入到文本处理模型的负样本为一个,并且在向文本处理模型中输入一个负样本时,要同时输入一个正样本。也就是说,正样本和负样本是成对输入到文本处理模型中的。为了方便描述,在下面的阐述中除特殊说明外,所述负样本为多个负样本中任意一个。
在一个实施例中,所述基于所述第一名词实体和所述目标代名词对所述目标训练文本进行正例构建得到正样本,可以包括:标记在目标训练文本中目标代名词和第一名词实体具有正确的指代关系。可选的,标记目标训练文本中正确的指代关系的方式可以是标记目标代名词在目标训练文本中的位置,以及标记第一名词实体在目标训练文本中的位置。其中,目标代名词在目标训练文本中的位置包括组成所述目标代名词的至第一字组中每个字在所述目标训练文本中的位置,同理的,第一名词实体在目标训练文本中的位置包括组成所述第一名词实体的第二组中每个字在所述目标训练文本中的位置。
在一个实施例中,目标训练文本中每个字均是按照顺序排列的,任意一个字在目标训练文本中的位置可以采用该字在目标训练文本中的排列序号表示。例如,目标训练文本为:播散性嗜酸粒细胞增多性胶原病是一种变态反应性疾病,其特征为发热,呼吸道症状、肝脾肿大和周围血象嗜酸粒细胞增加;其中,目标代名词为:其,第一名词实体为:播散性嗜酸粒细胞增多性胶原病,对目标训练文本进行正例构建得到的正样本可以为:播散性嗜酸粒细胞增多性胶原病是一种变态反应性疾病,其特征为发热,呼吸道症状、肝脾肿大和周围血象嗜酸粒细胞增加,(第一名词实体的位置,目标代名词的位置)。组成第一名词实体的第二字组为(播,散,性,嗜,酸,粒,细,胞,增,多,性,胶,原,病),那么第一名词实体在目标训练文本中的位置可以是第二字组中每个字在目标训练文本中的排列序号,具体可以为0-14;组成目标代名词的第一字组为(其),那么目标代名词在目标训练文本中的位置可以是第一字组中每个字在目标训练文本中的排列序号,具体可以表示为26。
因此,上述正样本可以具体表示为:播散性嗜酸粒细胞增多性胶原病是一种变态反应性疾病,其特征为发热,呼吸道症状、肝脾肿大和周围血象嗜酸粒细胞增加,(0-14,26)。
在其他可选的实施例中,标记目标训练文本中正确的指代关系的方式还可以是在目标训练文本中为目标代名词和第一名词实体添加特殊标记,比如双引号、单引号以及其他特征标记。例如,目标训练文本为:宫外孕的主要原因是由于输卵管的堵塞不畅引起的,它对女性伤害较大,建议您到医院检查一下;对目标训练文本进行正例构建得到的正样本可以为:“宫外孕”的主要原因是由于输卵管的堵塞不畅引起的,“它”对女性伤害较大,建议您到医院检查一下。
在一个实施例中,所述基于所述第二名词实体和所述目标代名词对所述目标训练文本进行负例构建得到负样本,可以是指:标记在目标训练文本中目标代名词和第二名词实体具有错误的指代关系。可选的,标记错误的指代关系的方式可以与上述标记正确的指代关系的方式相同,在此不再赘述。例如,目标训练文本为:宫外孕的主要原因是由于输卵管的堵塞不畅引起的,它对女性伤害较大,建议您到医院检查一下;对目标训练文本进行负例构建得到的负样本可以表示为:宫外孕的主要原因是由于“输卵管”的堵塞不畅引起的,“它”对女性伤害较大,建议您到医院检查一下;或者,对目标训练文本进行负例构建得到的负样本可以表示为:宫外孕的主要原因是由于输卵管的堵塞不畅引起的,它对女性伤害较大,建议您到医院检查一下,(位置A,位置B),位置A表示第二名词实体在目标训练文本中的位置,位置B表示目标代名词在目标训练文本中的位置。
步骤S202、调用文本处理模型确定正样本中目标代名词与第一名词实体之间的语义相似度,并基于第一语义相似度进行正确的指代关系预测,得到第一预测概率。
在一个实施例中,文本处理设备获取到用于训练的正样本和负样本之后,调用文本处理模型分别对正样本和负样本进行处理。具体地,对正样本的处理可以包括:调用文本处理模型确定正样本中目标代名词与第一名词实体之间的语义相似度,并基于第一语义相似度进行正确的指代关系预测,得到第一预测概率。
由前述可知,所述文本处理模型可以包括文本预训练子模型和全连接层,所述调用文本处理模型确定正样本中目标代名词与第一名词实体之间的语义相似度,可包括:通过文本预训练子模型对正样本进行特征提取处理,得到目标代名词的特征向量以及第一名词实体的特征向量;将所述目标代名词的特征向量和第一名词实体的特征向量进行拼接处理,并通过全连接层对拼接处理的结果进行语义相似度确定,得到第一语义相似度。
其中,所述通过所述文本预训练子模型对所述正样本进行特征提取处理,得到目标代名词的特征向量以及所述第一名词实体的特征向量,包括:通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述正样本包括的多个字中每个字对应的特征向量;确定所述正样本包括的多个字中用于组成所述目标代名词的第一字组,并对所述第一字组中每个字的特征向量进行预设运算,运算结果作为所述目标代名词的特征向量;确定所述正样本包括的多个字中用于组成所述第一名词实体的第二字组,并对所述第二字组中每个字的特征向量进行预设运算,运算结果作为所述第一名词实体的特征向量。
可选的,对第一字组中每个字的特征向量进行的预设运算可以是指取平均运算,同理的,对第二字组中每个字的特征向量进行的预设运算也可以指取平均运算。
采用上述方法确定了正样本中目标代名词与第一名词实体之间的第一语义相似度后,进一步的,文本处理设备基于第一语义相似度进行正确的指代关系预测,得到第一预测概率。应该理解的,如果目标代名词和第一名词实体之间具有正确的指代关系,那么目标代名词和第一名词实体在正样本中的语义含义应该是类似的,也就是说目标代名词和第一名词实体之间的第一语义相似度越大,两者之间具有正确的指代关系的可能性越大,也就是概率越高。
基于此,所述基于第一语义相似度进行正确的指代关系预测,得到第一预测概率的实施方式可以包括:将第一语义相似度归一化处理,使得归一化处理后的第一语义相似度位于0到1的范围内;将归一化处理后的第一语义相似度确定为第一预测概率。
步骤S203、调用文本处理模型确定负样本中目标代名词与第二名词实体之间的语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率。
由前述可知,文本处理设备获取到用于训练的正样本和负样本之后,调用文本处理模型分别对正样本和负样本进行处理。具体地,对负样本的处理可以包括:调用文本处理模型确定负样本中目标代名词与第二名词实体之间的语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率。
在一个实施例中,所述调用文本处理模型确定负样本中目标代名词与第二名词实体之间的语义相似度,包括:通过所述文本预训练子模型对所述负样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第二名词实体的特征向量;将所述目标代名词的特征向量和所述第二名词实体的特征向量进行拼接处理,并通过所述全连接层对拼接处理的结果进行语义相似度确定,得到第二语义相似度。
其中,所述通过所述文本预训练子模型对所述负样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第二名词实体的特征向量,可以包括:通过所述文本预训练子模型对所述负样本进行特征提取处理,得到所述负样本包括的多个字中每个字对应的特征向量;确定所述负样本包括的多个字中用于组成所述目标代名词的第一字组,并对所述第一字组中每个字的特征向量进行预设运算,运算结果作为所述目标代名词的特征向量;确定所述负样本包括的多个字中用于组成所述第二名词实体的第三字组,并对所述第三字组中每个字的特征向量进行预设运算,运算结果作为所述第二名词实体的特征向量。
文本处理设备确定了负样本中目标代名词与第二名词实体之间的第二语义相似度后,进一步地基于第二语义相似度进行正确的指代关系预测,得到第二预测概率。应该理解的,如果目标代名词和第二名词实体之间具有错误的指代关系,那么目标代名词和第而名词实体在负样本中的语义含义应该是存在较大差异的。
基于此,所述基于第二语义相似度进行正确的指代关系预测,得到第二预测概率的实施方式可以包括:将第二语义相似度归一化处理,使得归一化处理后的第二语义相似度位于0到1的范围内;将归一化处理后的第二语义相似度确定为第二预测概率。
步骤S204、基于第一预测概率和第二预测概率训练文本处理模型。
在一个实施例中,文本处理设备调用文本处理模型对正样本和负样本处理后,可以基于对正样本处理过程中得到的第一预测概率以及对负样本处理过程中得到的第二预测概率对文本处理模型进行训练。可选的,所述基于第一预测概率和所述第二预测概率训练文本处理模型,包括:获取所述文本处理模型对应的目标损失函数;基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值;按减小所述目标损失函数的值的方向调整所述文本处理模型的模型参数。
本发明实施例中,获取文本数据对,该文本数据对中包括正样本和负样本,正样本是对目标训练文本进行正例构建得到的,负样本是对目标训练文本进行负例构建得到的。其中,目标训练文本中包括目标代名词、第一名词实体以及第二名词实体,正样本用于标识目标代名词与第一名词实体具有正确的指代关系,负样本用于标识目标代名词与第二名词实体具有错误的指代关系;进一步的,调用文本处理模型确定正样本中目标代名词与第一名词实体之间的第一语义相似度,进而基于第一语义相似度进行正确指代关系预测,得到第一预测概率,并且调用文本处理模型确定负样本中目标代名词与第一名词实体之间的第二语义相似度,进而基于第二语义相似度进行正确指代关系预测,得到第二预测概率;然后基于第一预测概率和第二预测概率训练文本处理模型。
在上述文本处理过程中,对文本处理模型的优化需要依赖于第一预测概率和第二预测概率,而第一预测概率是基于第一语义相似度确定的,第二预测概率是基于第二语义相似度确定的,并且第一语义相似度用于表示目标代名词与第一名词实体之间的语义距离,第二语义相似度用于表示目标代名词与第二名词实体之间的语义距离。基于此,可以理解为对文本处理模型的优化时综合考虑了具有正确的指代关系的代名词和名词实体的语义距离,以及具有错误的指代关系的代名词和名词实体的语义距离,如此一来,有助于使得文本处理模型能够学习到对正正样本的预测结果和对负样本的预测结果之间的差异,从而在文本处理模型的使用时,能够较为准确的执行指代消解,提高了模型的准确性。
基于图2所示的文本处理方法,本发明实施例提供了一种对文本处理模型的训练方法,参见图3为本发明实施例提供的一种对文本处理模型的训练方法的示意图。
由前述可知,对目标训练文本进行负例构建可以得到多个负样本,每次输入到文本处理模型中的样本对中均包括一个正样本和一个负样本,对于目标训练文本来说,对目标训练文本进行正例构建得到的正样本的数量是唯一的,也就是说每次输入到文本处理模型的样本对中,正样本是不变的,负样本是变换的。上述步骤S201-步骤S204中所述的样本对,可以是基于目标训练文件得到的样本对中任意一个。
在实际应用中,文本处理设备将基于目标训练文本得到的样本对依次输入到文本处理模型中,每次输入一个样本对都采用步骤S202-步骤S204相同的方式得到一个相应的目标损失函数的值,每次均会基于得到的目标损失函数的值对模型参数进行更新,如图3所示。
在图3所示的文本处理模型训练过程中,首先,获取对文本处理模型进行优化训练的训练文本集合,训练文本集合中可包括目标训练文本和其他训练文本。对训练文本集合中每个训练文本进行实体词识别处理,并基于对每个训练文本进行实体词识别处理的结果,对每个训练文本进行正例构建,得到每个训练文本对应的正样本,以及对每个训练文本进行负例构建,得到每个训练文本对应的多个负样本。
然后,对于一个训练文本而言比如目标训练文本,从目标训练文本中选取正样本以及选取任意一个未被选取的负样本组成一个样本对,将样本对输入到文本处理模型中进行指代关系预测处理,得到一个目标损失函数的值;然后基于目标损失函数的值对文本处理模型的模型参数进行更新。
接着,判断是否目标训练文本对应的所有负样本均被选取过;如果不是,则选取一个未被选取的负样本重复上述模型参数的更新过程;如果是,则确定使用目标训练文本对文本处理模型的优化结果,则从其他训练文本中选取一个正样本和任意一个未被选取的负样本组成一个样本对,重复上述模型参数的更新过程。
直到模型收敛后,可以停止训练,此时得到的文本处理模型可以认为是已经训练完成的文本处理模型。
在一个实施例中,在对文本处理模型训练完成后,为了测试文本处理模型的准确性,文本处理设备可以获取至少一个测试样本,在该测试样本中标记代名词以及与该代名词具有正确的或者错误的指代关系的名词实体,调用文本处理模型对测试样本对每个测试样本中标记的指代关系是否正确做出判断。
例如,表1中包括5个测试样本,每个测试样本中通过“xx”标识出代名词与名词实体的对应关系,将5个测试样本分别输入到文本处理模型中,以对测试样本中每个测试样本中标记的指代关系是否正确做出判断,并输出判断的置信度。
从表1中可见,采用文本处理模型可以正确到判断出每个样本中标记出的指代关系是否正确,表明采用上述方式训练得到的文本处理模型在准确性和可靠性方面的性能较为突出。
表1
Figure BDA0002680652380000151
在上述对文本处理模型的训练过程中,每次输入到文本处理模型中的样本是一个包括正样本和负样本的样本对,如此一来,实现了不仅指导文本处理模型学习具有正确的指代关系的代名词和名词实体之间的语义相似度,还指导文本处理模型学习具有正确的指代关系的词对之间的语义相似度,与具有错误的指代关系的词对之间的语义相似度的差异,在实际应用中,可以使得文本处理模型通过分析待处理文本中代名词与各个名词实体之间的语义相似度,更为准确的确定出具有正确的指代关系的代名词和名词实体。
基于上述的实施例,本发明实施例提供了另一种文本处理方法,参见图4,为本发明实施例提供的另一种文本处理方法的流程示意图。图4所示的文本处理方法可由文本处理设备执行,具体可由文本处理设备的处理器执行,所述文本处理设备可以包括终端或者服务器。图4所示的文本处理方法可包括如下步骤:
步骤S401、获取文本数据对,文本数据对包括正样本和负样本。
步骤S402、调用文本处理模型确定正样本中目标代名词和第一名词实体之间的第一语义相似度,并基于第一语义相似度进行正确的指代关系预测,得到第一预测概率。
步骤S403、调用文本处理模型确定负样本中目标代名词和第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率。
在一个实施例中,步骤S401-步骤S403包括的一些可行的实施方式可参见图2实施例中相关步骤的描述,在此不再赘述。
步骤S404、基于第一预测概率和第二预测概率训练文本处理模型。
由前述可知,所述基于第一预测概率和第二预测概率优化文本处理模型可以包括:获取所述文本处理模型对应的目标损失函数;基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值;按减小所述目标损失函数的值的方向调整所述文本处理模型的模型参数。
在一个实施例中,所述目标损失函数可以为间隔排序损失函数Marginrankingloss,Margin rankingloss是基于排序损失函数Ranking loss和间隔损失Marginloss函数损失设计的。其中,排序损失函数Ranking loss的目的是预测输入的样本之间的相对距离,在本发明实施例中所述Ranking loss函数的目的是预测输入的正样本中目标代名词和第一名词实体之间的第一语义相似度,或者,预测输入的负样本中目标代名词与第二名词实体之间的第二语义相似度。在本发明实施例中,Margin loss用于学习第一语义相似度和第二语义相似度之间的差异。因此,新的损失函数间隔排序损失Margin rankingloss函数不仅能够指导文本处理模型学习目标代名词与第一名词实体之间的第一语义相似度,还能够指导文本处理模型学习第一语义相似度和第二语义相似度之间的差异,在文本处理模型使用时,有助于在多个名词实体中更为准确的选取与代名词具有正确的指代关系的目标名词实体。
在一个实施例中,获取到的文本处理模型对应的目标损失函数可以表示为以下公式所示:L=-对正样本的预测概率+参数1*max(0,对负样本的预测概率-对正样本的预测概率+参数2)。
在上述目标损失函数中,参数1*max(0,对负样本的预测概率-对正样本的预测概率+参数2)称为间隔损失项,参数1和参数2是间隔损失项的超参,用于调节间隔的大小。文本处理设备获取到目标损失函数后,基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值,具体实现中:获取目标参数,并基于所述目标参数、所述第一预测概率以及所述第二预测概率确定所述间隔损失项的值;对所述第一预测概率进行第一运算,并将第一运算的运算结果与所述间隔损失项的值进行第二运算,得到的运算结果确定为目标损失函数的值。
其中,目标参数包括参数1和参数2,假设获取到的目标参数中参数1表示为α,参数2表示为β,假设第一预测概率表示为logP(C1|S),第二预测概率表示为logP(C2|S),其中S表示目标训练文本,C1表示正样本,C2表示负样本。基于目标参数、第一预测概率以及第二预测概率确定间隔损失项的值是指:将目标参数、第一预测概率以及第二预测概率带入到间隔损失项中,也即将:α、β、logP(C1|S)以及logP(C2|S)带入到参数1*max(0,对负样本的预测概率-对正样本的预测概率+参数2)中运算,运算结果为间隔损失项的值。
在得到间隔损失项的值后,文本处理设备对第一预测概率进行第一运算,所述第一运算可以指取负运算,并将第一运算的运算结果与间隔损失项的值进行第二运算,第二运算可以指求和运算,第二运算的运算结果确定为目标损失函数的值。基于上述描述,目标损失函数的值可以表示为公式(1)所示,公式(1)中L表示目标损失函数的值:
L=-logP(C1|S)+α*max(0,logP(C2|S)-logP(C1|S)+β) (1)
在一个实施例中,得到目标损失函数的值之后,文本处理设备可以按照减小目标损失函数的值的方向调整所述文本处理模型的模型参数。
步骤S405、获取待处理文本,并调用训练后的文本处理模型识别待处理文本中包括的代名词和至少一个名词实体。
由前述可知,通过步骤S401-步骤S404对文本处理模型进行优化处理后,文本处理设备可以调用优化处理后的文本处理模型对待处理文本进行指代消解处理。具体地,获取一个待处理文本,文本处理设备调用优化后的文本处理模型识别出待处理文本中包括的代名词以及至少一个名词实体。
步骤S406、确定代名词和至少一个名词实体中每个名词实体的语义相似度。
在一个实施例中,文本处理模型得到待处理文本中的代名词和至少一个名词实体后,可以通过文本处理模型中的文本预训练子模型得到代名词对应的特征向量,以及每一个名词实体对应的特征向量;进一步的,将代名词对应的特征向量分别与每一个名词对应的特征向量进行拼接处理,并将拼接处理的结果输入到全连接层,由全连接层根据输入的拼接处理的结果确定代名词与每一个名词实体之间的语义相似度。
步骤S407、根据代名词与每个名词实体的语义相似度,从至少一个名词实体中确定与代名词具有正确指代关系的目标名词实体。
在确定出代名词与每个名词实体的语义相似度后,文本处理设备从至少一个名词实体中确定与代名词具有正确的指代关系的目标名词实体。在一个实施例中,所述根据代名词与每个名词实体的语义相似度,从至少一个名词实体中确定与代名词具有正确指代关系的目标名词实体,包括:将所述至少一个名词实体中,与所述代名词之间的语义相似度最大的实体确定为与所述代名词具有正确的指代关系的目标实体。
在其他实施例中,由于在训练文本处理模型时,文本处理设备还指导文本处理模型学习了具有正确的指代关系的词对之间的语义相似度,与具有错误的指代关系的词对之间的语义相似度的差异,文本处理设备在根据代名词与每个名词实体之间的语义相似度从至少一个名词实体中确定目标名词实体时,还可以考虑各个语义相似度之间的差异。具体地,所述根据代名词与每个名词实体的语义相似度,从至少一个名词实体中确定与代名词具有正确指代关系的目标名词实体,包括:从代名词与每个名词实体之间的语义相似度中确定出一个目标语义相似度,该目标语义相似度与其他语义相似度之间的差异满足一个阈值;进一步的,将与目标语义相似度对应的名词实体确定为目标名词实体。
可选的,本发明实施例提出的文本处理方法的主要作用是对文本进行指代消解,从而促进后续文本语言理解和信息抽取任务的顺利进行。可以应用在大规模知识图谱构建工作中,在信息抽取之前采用本发明实施例所述的文本处理方法对文本进行指代消解任务,有利于缓解信息抽取中遇到的主语不明,指代不明的现象,提高信息抽取的准确率。另外,本发明实施例提供的文本处理方法还可以应用于阅读理解任务之前的文本处理,在一定程度上简化后续阅读理解任务的复杂性,从而提升阅读理解的准确率。
在一个实施例中,以应用在医学知识图谱构建中为例,假设步骤S405中所述的待处理文本为医疗类文本,在确定出待处理文本中具有正确的指代关系的代名词和目标名词实体之后,可以标记待处理文本中目标名词实体与代名词之前的指代关系;基于标记的目标名词实体与代名词之间的指代关系对待处理文本进行信息抽取,并根据信息抽取的结果构建医学知识图谱。
本发明实施例中,在对文本处理模型的训练过程中,获取文本数据对,该文本数据对包括正样本和负样本,正样本是对目标训练文本进行正例构建得到的,负样本是对目标训练文本进行负例构建得到的。其中,目标训练文本中包括目标代名词、第一名词实体以及第二名词实体,正样本用于标识目标代名词与第一名词实体具有正确的指代关系,负样本用于标识目标代名词与第二名词实体具有错误的指代关系;进一步的,调用文本处理模型确定正样本中目标代名词与第一名词实体之间的第一语义相似度,进而基于第一语义相似度进行正确指代关系预测,得到第一预测概率,并且调用文本处理模型确定负样本中目标代名词与第一名词实体之间的第二语义相似度,进而基于第二语义相似度进行正确指代关系预测,得到第二预测概率;然后基于第一预测概率和第二预测概率训练文本处理模型。
对文本处理模型的训练需要依赖于第一预测概率和第二预测概率,而第一预测概率是基于第一语义相似度确定的,第二预测概率时基于第二语义相似度确定的,并且第一语义相似度用于表示目标代名词与第一名词实体之间的语义距离,第二语义相似度用于表示目标代名词与第二名词实体之间的语义距离。基于此,可以理解为对文本处理模型的优化时综合考虑了具有正确的指代关系的代名词和名词实体的语义距离,以及具有错误的指代关系的代名词和名词实体的语义距离,如此一来,有助于使得文本处理模型能够学习到对正正样本的预测结果和对负样本的预测结果之间的差异,从而在文本处理模型的使用时,能够较为准确的执行指代消解,提高了模型的准确性。
对文本处理模型训练完成后,在文本处理模型的使用过程中,获取待处理处理并调用文本处理模型识别待处理文本包括的代名词以及至少一个名词实体,进一步的文本处理模型确定代名词与每个名词实体之间的语义相似度,并根据确定出的语义相似度从至少一个名词实体中确定出与代名词具有正确的指代关系的名词实体。应当理解的,在待处理文本对应的多对代名词与名词实体的指代关系中,只有一对是正确的,那么这一对正确的指代关系所涉及得到的代名词与名词实体之间的语义相似度,与其他指代关系所涉及的代名词与名词实体之间的语义相似度存在显著差别的。基于此,采用上述文本处理方法确定与代名词具有正确的指代关系的目标名词实体过程中既参考代名词与某个名词实体之间的语义相似度,又考虑代名词与每个实体名词之间的语义相似度,可以提高确定目标名词实体的准确性。
基于上述的方法实施例,本发明实施例还提供了一种文本处理装置。参见图5,为本发明实施例提供的一种文本处理装置的结构示意图,图5所示的文本处理装置可运行如下单元:
获取单元501,用于获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
处理单元502,用于调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确指代关系预测,得到第一预测概率;
所述处理单元502,还用于调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确指代关系预测,得到第二预测概率;
训练单元503,用于基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
在一个实施例中,所述优化单元503在基于所述第一预测概率和所述第二预测概率训练所述文本处理模型时,执行如下操作:获取所述文本处理模型对应的目标损失函数;基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值;按减小所述目标损失函数的值的方向调整所述文本处理模型的模型参数。
在一个实施例中,所述目标损失函数包括间隔损失项,所述基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值,执行如下操作:获取目标参数,并基于所述目标参数、所述第一预测概率以及所述第二预测概率确定所述间隔损失项的值;对所述第一预测概率进行第一运算,并将第一运算的运算结果与所述间隔损失项的值进行第二运算,得到的运算结果确定为目标损失函数的值。
在一个实施例中,所述文本处理模型包括文本预训练子模型和全连接层,所述处理单元502在调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度时,执行如下操作:通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第一名词实体的特征向量;将所述目标代名词的特征向量和所述第一名词实体的特征向量进行拼接处理,并通过所述全连接层对拼接处理的结果进行语义相似度确定,得到第一语义相似度。
在一个实施例中,所述处理单元502在通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第一名词实体的特征向量时,执行如下操作:通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述正样本包括的多个字中每个字对应的特征向量;确定所述正样本包括的多个字中用于组成所述目标代名词的第一字组,并对所述第一字组中每个字的特征向量进行预设运算,运算结果作为所述目标代名词的特征向量;确定所述正样本包括的多个字中用于组成所述第一名词实体的第二字组,并对所述第二字组中每个字的特征向量进行预设运算,运算结果作为所述第一名词实体的特征向量。
在一个实施例中,所述获取单元501,还用于获取目标训练文本,并对所述目标训练文本进行实体识别处理,得到所述目标训练文本包括的目标代名词和至少一个名词实体;所述获取单元501,还用于从所述至少一个名词实体中获取与所述目标代名词具有正确的指代关系的第一名词实体;以及从所述至少一个名词实体中获取与所述目标代名词具有错误的指代关系的第二名词实体;所述处理单元502,还用于基于所述第一名词实体和所述目标代名词对所述目标训练文本进行正例构建得到正样本;以及基于所述第二名词实体和所述目标代名词对所述目标训练文本进行负例构建得到负样本。
在一个实施例中,所述获取单元501,还用于获取待处理文本;所述处理单元502,还用于并调用训练后的文本处理模型识别所述待处理文本包括的代名词以及至少一个名词实体;确定所述代名词与所述至少一个名词实体中每个名词实体的语义相似度;根据所述代名词与所述每个名词实体的语义相似度,从所述至少一个名词实体中确定与所述代名词具有正确指代关系的目标名词实体。
在一个实施例中,所述处理单元502在所述根据所述代名词与所述每个名词实体之间的语义相似度,从所述至少一个名词实体中确定与所述代名词具有指代关系的目标名词实体时,执行如下操作:将所述至少一个名词实体中,与所述代名词之间的语义相似度最大的实体确定为与所述代名词具有正确的指代关系的目标实体。
在一个实施例中,所述待处理文本为医疗类文本,所述处理单元502,还用于标记所述待处理文本中所述目标名词实体与所述代名词之间的指代关系;基于标记的所述目标名词实体与所述代名词之间的指代关系对所述待处理文本进行信息抽取,并根据信息抽取的结果构建医学知识图谱。
根据本发明的一个实施例,图2和图4所示的文本处理方法所涉及各个步骤可以是由图5所示的文本处理装置中的各个单元来执行的。例如,图2所述的步骤S201可由图5所示的文本处理装置中的获取单元501来执行,步骤S202-步骤S203可由图5所示的文本处理装置中的处理单元502来执行,步骤S204可由图5所示的文本处理装置中的训练单元503来执行;再如,图4所示的文本处理方法中步骤S401和步骤S405可由图5所示的文本处理装置中的获取单元501来执行,步骤S402-步骤S403以及步骤S406-步骤S407可由图5所示的文本处理装置中的处理单元502来执行,步骤S404可由图5所示的文本处理装置中的训练单元503来执行。
根据本发明的另一个实施例,图5所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于文本处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的文本处理装置,以及来实现本发明实施例文本处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本发明实施例中,获取文本数据对,该文本数据对中包括正样本和负样本,正样本是对目标训练文本进行正例构建得到的,负样本是对目标训练文本进行负例构建得到的。其中,目标训练文本中包括目标代名词、第一名词实体以及第二名词实体,正样本用于标识目标代名词与第一名词实体具有正确的指代关系,负样本用于标识目标代名词与第二名词实体具有错误的指代关系;进一步的,调用文本处理模型确定正样本中目标代名词与第一名词实体之间的第一语义相似度,进而基于第一语义相似度进行正确指代关系预测,得到第一预测概率,并且调用文本处理模型确定负样本中目标代名词与第一名词实体之间的第二语义相似度,进而基于第二语义相似度进行正确指代关系预测,得到第二预测概率;然后基于第一预测概率和第二预测概率训练文本处理模型。
在上述文本处理过程中,对文本处理模型的优化需要依赖于第一预测概率和第二预测概率,而第一预测概率是基于第一语义相似度确定的,第二预测概率是基于第二语义相似度确定的,并且第一语义相似度用于表示目标代名词与第一名词实体之间的语义距离,第二语义相似度用于表示目标代名词与第二名词实体之间的语义距离。基于此,可以理解为对文本处理模型的优化时综合考虑了具有正确的指代关系的代名词和名词实体的语义距离,以及具有错误的指代关系的代名词和名词实体的语义距离,如此一来,有助于使得文本处理模型能够学习到对正正样本的预测结果和对负样本的预测结果之间的差异,从而在文本处理模型的使用时,能够较为准确的执行指代消解,提高了模型的准确性。
基于上述方法以及装置实施例,本发明实施例还提供了一种文本处理设备。参见图6,为本发明实施例提供的一种文本处理设备的结构示意图。图6所示的文本处理设备可至少包括处理器601、输入接口602、输出接口603以及计算机存储介质604。其中,处理器601、输入接口602、输出接口603以及计算机存储介质604可通过总线或其他方式连接。
计算机存储介质604可以存储在文本处理设备的存储器中,所述计算机存储介质601用于存储计算机程序,所述计算机程序包括程序指令,所述处理器601用于执行所述计算机存储介质604存储的程序指令。处理器601(或称CPU(Central Processing Unit,中央处理器))是文本处理设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行:
获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,所述负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确的指代关系预测,得到第一预测概率;调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率;基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是文本处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括文本处理设备中的内置存储介质,当然也可以包括文本处理设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了文本处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,所述计算机存储介质可由处理器601加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2和图4所示的文本处理方法的相应步骤。具体实现中,计算机存储介质中的一条或多条指令由处理器601加载并执行如下步骤:
获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,所述负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确的指代关系预测,得到第一预测概率;调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率;基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
在一个实施例中,所述处理器601在基于所述第一预测概率和所述第二预测概率训练所述文本处理模型时,执行如下操作:获取所述文本处理模型对应的目标损失函数;基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值;按减小所述目标损失函数的值的方向调整所述文本处理模型的模型参数。
在一个实施例中,所述目标损失函数包括间隔损失项,所述处理器601在基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值时,执行如下操作:获取目标参数,并基于所述目标参数、所述第一预测概率以及所述第二预测概率确定所述间隔损失项的值;对所述第一预测概率进行第一运算,并将第一运算的运算结果与所述间隔损失项的值进行第二运算,得到的运算结果确定为目标损失函数的值。
在一个实施例中,所述文本处理模型包括文本预训练子模型和全连接层,所述处理器601在调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度时,执行如下操作:通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第一名词实体的特征向量;将所述目标代名词的特征向量和所述第一名词实体的特征向量进行拼接处理,并通过所述全连接层对拼接处理的结果进行语义相似度确定,得到第一语义相似度。
在一个实施例中,所述处理器601在所述通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第一名词实体的特征向量时,执行如下操作:通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述正样本包括的多个字中每个字对应的特征向量;
确定所述正样本包括的多个字中用于组成所述目标代名词的第一字组,并对所述第一字组中每个字的特征向量进行预设运算,运算结果作为所述目标代名词的特征向量;确定所述正样本包括的多个字中用于组成所述第一名词实体的第二字组,并对所述第二字组中每个字的特征向量进行预设运算,运算结果作为所述第一名词实体的特征向量。
在一个实施例中,所述处理器601,还用于执行:获取目标训练文本,并对所述目标训练文本进行实体识别处理,得到所述目标训练文本包括的目标代名词和至少一个名词实体;从所述至少一个名词实体中获取与所述目标代名词具有正确的指代关系的第一名词实体,并基于所述第一名词实体和所述目标代名词对所述目标训练文本进行正例构建得到正样本;从所述至少一个名词实体中获取与所述目标代名词具有错误的指代关系的第二名词实体,并基于所述第二名词实体和所述目标代名词对所述目标训练文本进行负例构建得到负样本。
在一个实施例中,所述处理器601,还用于执行:获取待处理文本,并调用训练后的文本处理模型识别所述待处理文本包括的代名词以及至少一个名词实体;确定所述代名词与所述至少一个名词实体中每个名词实体的语义相似度;根据所述代名词与所述每个名词实体的语义相似度,从所述至少一个名词实体中确定与所述代名词具有正确指代关系的目标名词实体。
在一个实施例中,所述处理器601在所述根据所述代名词与所述每个名词实体之间的语义相似度,从所述至少一个名词实体中确定与所述代名词具有指代关系的目标名词实体时,执行如下操作:将所述至少一个名词实体中,与所述代名词之间的语义相似度最大的实体确定为与所述代名词具有正确的指代关系的目标实体。
在一个实施例中,所述待处理文本为医疗类文本,所述从所述至少一个名词实体中确定与所述代名词具有正确的指代关系的目标名词实体后,所述处理器601还用于执行:标记所述待处理文本中所述目标名词实体与所述代名词之间的指代关系;基于标记的所述目标名词实体与所述代名词之间的指代关系对所述待处理文本进行信息抽取,并根据信息抽取的结果构建医学知识图谱。
本发明实施例中,获取文本数据对,该文本数据对中包括正样本和负样本,正样本是对目标训练文本进行正例构建得到的,负样本是对目标训练文本进行负例构建得到的。其中,目标训练文本中包括目标代名词、第一名词实体以及第二名词实体,正样本用于标识目标代名词与第一名词实体具有正确的指代关系,负样本用于标识目标代名词与第二名词实体具有错误的指代关系;进一步的,调用文本处理模型确定正样本中目标代名词与第一名词实体之间的第一语义相似度,进而基于第一语义相似度进行正确指代关系预测,得到第一预测概率,并且调用文本处理模型确定负样本中目标代名词与第一名词实体之间的第二语义相似度,进而基于第二语义相似度进行正确指代关系预测,得到第二预测概率;然后基于第一预测概率和第二预测概率训练文本处理模型。
在上述文本处理过程中,对文本处理模型的优化需要依赖于第一预测概率和第二预测概率,而第一预测概率是基于第一语义相似度确定的,第二预测概率是基于第二语义相似度确定的,并且第一语义相似度用于表示目标代名词与第一名词实体之间的语义距离,第二语义相似度用于表示目标代名词与第二名词实体之间的语义距离。基于此,可以理解为对文本处理模型的优化时综合考虑了具有正确的指代关系的代名词和名词实体的语义距离,以及具有错误的指代关系的代名词和名词实体的语义距离,如此一来,有助于使得文本处理模型能够学习到对正正样本的预测结果和对负样本的预测结果之间的差异,从而在文本处理模型的使用时,能够较为准确的执行指代消解,提高了模型的准确性。
根据本申请的一个方面,本发明实施例还提供了一种计算机产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。处理器601从计算机可读存储介质中读取该计算机指令,处理器601执行该计算机指令,使得图像处理设备执行图2和图4所示的文本处理方法,具体地:获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,所述负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确的指代关系预测,得到第一预测概率;调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率;基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
本发明实施例中,获取文本数据对,该文本数据对中包括正样本和负样本,正样本是对目标训练文本进行正例构建得到的,负样本是对目标训练文本进行负例构建得到的。其中,目标训练文本中包括目标代名词、第一名词实体以及第二名词实体,正样本用于标识目标代名词与第一名词实体具有正确的指代关系,负样本用于标识目标代名词与第二名词实体具有错误的指代关系;进一步的,调用文本处理模型确定正样本中目标代名词与第一名词实体之间的第一语义相似度,进而基于第一语义相似度进行正确指代关系预测,得到第一预测概率,并且调用文本处理模型确定负样本中目标代名词与第一名词实体之间的第二语义相似度,进而基于第二语义相似度进行正确指代关系预测,得到第二预测概率;然后基于第一预测概率和第二预测概率训练文本处理模型。
在上述文本处理过程中,对文本处理模型的优化需要依赖于第一预测概率和第二预测概率,而第一预测概率是基于第一语义相似度确定的,第二预测概率是基于第二语义相似度确定的,并且第一语义相似度用于表示目标代名词与第一名词实体之间的语义距离,第二语义相似度用于表示目标代名词与第二名词实体之间的语义距离。基于此,可以理解为对文本处理模型的优化时综合考虑了具有正确的指代关系的代名词和名词实体的语义距离,以及具有错误的指代关系的代名词和名词实体的语义距离,如此一来,有助于使得文本处理模型能够学习到对正正样本的预测结果和对负样本的预测结果之间的差异,从而在文本处理模型的使用时,能够较为准确的执行指代消解,提高了模型的准确性。
以上所揭露的仅为本发明部分实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (12)

1.一种文本处理方法,其特征在于,包括:
获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,所述负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确的指代关系预测,得到第一预测概率;
调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确的指代关系预测,得到第二预测概率;
基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
2.如权利要求1所述的方法,其特征在于,所述基于所述第一预测概率和所述第二预测概率训练所述文本处理模型,包括:
获取所述文本处理模型对应的目标损失函数;
基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值;
按减小所述目标损失函数的值的方向调整所述文本处理模型的模型参数。
3.如权利要求2所述的方法,其特征在于,所述目标损失函数包括间隔损失项,所述基于所述第一预测概率和所述第二预测概率确定所述目标损失函数的值,包括:
获取目标参数,并基于所述目标参数、所述第一预测概率以及所述第二预测概率确定所述间隔损失项的值;
对所述第一预测概率进行第一运算,并将第一运算的运算结果与所述间隔损失项的值进行第二运算,得到的运算结果确定为目标损失函数的值。
4.如权利要求1所述的方法,其特征在于,所述文本处理模型包括文本预训练子模型和全连接层,所述调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,包括:
通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第一名词实体的特征向量;
将所述目标代名词的特征向量和所述第一名词实体的特征向量进行拼接处理,并通过所述全连接层对拼接处理的结果进行语义相似度确定,得到第一语义相似度。
5.如权利要求4所述的方法,其特征在于,所述通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述目标代名词的特征向量以及所述第一名词实体的特征向量,包括:
通过所述文本预训练子模型对所述正样本进行特征提取处理,得到所述正样本包括的多个字中每个字对应的特征向量;
确定所述正样本包括的多个字中用于组成所述目标代名词的第一字组,并对所述第一字组中每个字的特征向量进行预设运算,运算结果作为所述目标代名词的特征向量;
确定所述正样本包括的多个字中用于组成所述第一名词实体的第二字组,并对所述第二字组中每个字的特征向量进行预设运算,运算结果作为所述第一名词实体的特征向量。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标训练文本,并对所述目标训练文本进行实体识别处理,得到所述目标训练文本包括的目标代名词和至少一个名词实体;
从所述至少一个名词实体中获取与所述目标代名词具有正确的指代关系的第一名词实体,并基于所述第一名词实体和所述目标代名词对所述目标训练文本进行正例构建得到正样本;
从所述至少一个名词实体中获取与所述目标代名词具有错误的指代关系的第二名词实体,并基于所述第二名词实体和所述目标代名词对所述目标训练文本进行负例构建得到负样本。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取待处理文本,并调用训练后的文本处理模型识别所述待处理文本包括的代名词以及至少一个名词实体;
确定所述代名词与所述至少一个名词实体中每个名词实体的语义相似度;
根据所述代名词与所述每个名词实体的语义相似度,从所述至少一个名词实体中确定与所述代名词具有正确指代关系的目标名词实体。
8.如权利要求7所述的方法,其特征在于,所述根据所述代名词与所述每个名词实体之间的语义相似度,从所述至少一个名词实体中确定与所述代名词具有指代关系的目标名词实体,包括:
将所述至少一个名词实体中,与所述代名词之间的语义相似度最大的实体确定为与所述代名词具有正确的指代关系的目标名词实体。
9.如权利要求7所述的方法,其特征在于,所述待处理文本为医疗类文本,所述从所述至少一个名词实体中确定与所述代名词具有正确的指代关系的目标名词实体后,所述方法还包括:
标记所述待处理文本中所述目标名词实体与所述代名词之间的指代关系;
基于标记的所述目标名词实体与所述代名词之间的指代关系对所述待处理文本进行信息抽取,并根据信息抽取的结果构建医学知识图谱。
10.一种文本处理装置,其特征在于,包括:
获取单元,用于获取文本数据对,所述文本数据对包括正样本和负样本,所述正样本是对目标训练文本进行正例构建得到的,负样本是对所述目标训练文本进行负例构建得到的;所述目标训练文本包括目标代名词、第一名词实体及第二名词实体,所述正样本用于标识所述目标代名词与所述第一名词实体具有正确的指代关系,所述负样本用于标识所述目标代名词与所述第二名词实体具有错误的指代关系;
处理单元,用于调用文本处理模型确定所述正样本中所述目标代名词与所述第一名词实体之间的第一语义相似度,并基于所述第一语义相似度进行正确指代关系预测,得到第一预测概率;
所述处理单元,还用于调用所述文本处理模型确定所述负样本中所述目标代名词与所述第二名词实体之间的第二语义相似度,并基于第二语义相似度进行正确指代关系预测,得到第二预测概率;
训练单元,用于基于所述第一预测概率和所述第二预测概率训练所述文本处理模型。
11.一种文本处理设备,其特征在于,包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-9任一项所述的文本处理方法。
12.一种计算机存储介质,其特征资源,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-9任一项所述的文本处理方法。
CN202010964816.1A 2020-09-14 2020-09-14 文本处理方法、装置、设备及存储介质 Active CN112084789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010964816.1A CN112084789B (zh) 2020-09-14 2020-09-14 文本处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010964816.1A CN112084789B (zh) 2020-09-14 2020-09-14 文本处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112084789A true CN112084789A (zh) 2020-12-15
CN112084789B CN112084789B (zh) 2022-07-12

Family

ID=73736295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010964816.1A Active CN112084789B (zh) 2020-09-14 2020-09-14 文本处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112084789B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560467A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定文本中要素关系的方法、装置、设备和介质
CN112685539A (zh) * 2020-12-31 2021-04-20 成都网安科技发展有限公司 基于多任务融合的文本分类模型训练方法和装置
CN113420121A (zh) * 2021-06-24 2021-09-21 中国科学院声学研究所 文本处理模型训练方法、语音文本处理方法及装置
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113761868A (zh) * 2021-04-20 2021-12-07 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及可读存储介质
CN113792818A (zh) * 2021-10-18 2021-12-14 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN113821623A (zh) * 2021-09-29 2021-12-21 平安普惠企业管理有限公司 模型训练方法、装置、设备与存储介质
CN117009532A (zh) * 2023-09-21 2023-11-07 腾讯科技(深圳)有限公司 语义类型识别方法、装置、计算机可读介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
US20190042559A1 (en) * 2017-08-02 2019-02-07 International Business Machines Corporation Anaphora resolution for medical text with machine learning and relevance feedback
CN110705206A (zh) * 2019-09-23 2020-01-17 腾讯科技(深圳)有限公司 一种文本信息的处理方法及相关装置
CN110795527A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法
CN111339737A (zh) * 2020-02-27 2020-06-26 北京声智科技有限公司 实体链接方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
US20190042559A1 (en) * 2017-08-02 2019-02-07 International Business Machines Corporation Anaphora resolution for medical text with machine learning and relevance feedback
CN110795527A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
CN110705206A (zh) * 2019-09-23 2020-01-17 腾讯科技(深圳)有限公司 一种文本信息的处理方法及相关装置
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法
CN111339737A (zh) * 2020-02-27 2020-06-26 北京声智科技有限公司 实体链接方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LAVERGNE, T等: "The contribution of co-reference resolution to supervised relation detection between bacteria and biotopes entities", 《BMC BIOINFORMATICS》 *
杨勇等: "指代消解中距离特征的研究", 《中文信息学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560467A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定文本中要素关系的方法、装置、设备和介质
CN112685539A (zh) * 2020-12-31 2021-04-20 成都网安科技发展有限公司 基于多任务融合的文本分类模型训练方法和装置
CN112685539B (zh) * 2020-12-31 2022-12-23 成都网安科技发展有限公司 基于多任务融合的文本分类模型训练方法和装置
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113704481B (zh) * 2021-03-11 2024-05-17 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113761868B (zh) * 2021-04-20 2023-06-09 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及可读存储介质
CN113761868A (zh) * 2021-04-20 2021-12-07 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及可读存储介质
CN113420121A (zh) * 2021-06-24 2021-09-21 中国科学院声学研究所 文本处理模型训练方法、语音文本处理方法及装置
CN113420121B (zh) * 2021-06-24 2023-07-28 中国科学院声学研究所 文本处理模型训练方法、语音文本处理方法及装置
CN113821623A (zh) * 2021-09-29 2021-12-21 平安普惠企业管理有限公司 模型训练方法、装置、设备与存储介质
WO2023065544A1 (zh) * 2021-10-18 2023-04-27 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN113792818B (zh) * 2021-10-18 2023-03-10 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN113792818A (zh) * 2021-10-18 2021-12-14 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN117009532A (zh) * 2023-09-21 2023-11-07 腾讯科技(深圳)有限公司 语义类型识别方法、装置、计算机可读介质及电子设备
CN117009532B (zh) * 2023-09-21 2023-12-19 腾讯科技(深圳)有限公司 语义类型识别方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
CN112084789B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN109918680B (zh) 实体识别方法、装置及计算机设备
US20200012953A1 (en) Method and apparatus for generating model
US20210342549A1 (en) Method for training semantic analysis model, electronic device and storage medium
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN112287089B (zh) 用于自动问答系统的分类模型训练、自动问答方法及装置
US11636936B2 (en) Method and apparatus for verifying medical fact
CN111832312B (zh) 文本处理方法、装置、设备和存储介质
WO2022001724A1 (zh) 一种数据处理方法及装置
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
WO2024098533A1 (zh) 图文双向搜索方法、装置、设备及非易失性可读存储介质
CN110598210B (zh) 实体识别模型训练、实体识别方法、装置、设备及介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN114840734B (zh) 多模态表示模型的训练方法、跨模态检索方法及装置
US20230215136A1 (en) Method for training multi-modal data matching degree calculation model, method for calculating multi-modal data matching degree, and related apparatuses
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN118133971A (zh) 基于大语言模型的医疗问答方法和装置
CN118070072A (zh) 基于人工智能的问题处理方法、装置、设备及存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN116226478B (zh) 信息处理方法、模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40034937

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant