CN115129869A - 文本数据处理方法、装置、计算机设备和存储介质 - Google Patents

文本数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115129869A
CN115129869A CN202210578761.XA CN202210578761A CN115129869A CN 115129869 A CN115129869 A CN 115129869A CN 202210578761 A CN202210578761 A CN 202210578761A CN 115129869 A CN115129869 A CN 115129869A
Authority
CN
China
Prior art keywords
text data
feature
text
features
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210578761.XA
Other languages
English (en)
Inventor
毛铁峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Wuhan Co Ltd
Original Assignee
Tencent Technology Wuhan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Wuhan Co Ltd filed Critical Tencent Technology Wuhan Co Ltd
Priority to CN202210578761.XA priority Critical patent/CN115129869A/zh
Publication of CN115129869A publication Critical patent/CN115129869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征;对文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征;重组纯净特征与公共特征,获得目标文本数据对的重组特征;基于重组特征,对目标文本数据对中的至少两个文本数据进行相关性计算,确定至少两个文本数据的相关性。采用本申请实施例方法,能够提高文本数据的处理效率。

Description

文本数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了与文本数据相关、且已被广泛应用的自然语言处理技术,其能够实现用户与计算机之间通过使用文本等自然语言进行沟通。传统技术中,可以使用能够实现自然语言推理的语言模型,确定出文本数据的相关性。
传统技术中的语言模型一般是先获得文本数据的向量表示,再根据向量表示确定出文本数据的相关性。然而,这种方式存在两个明显的缺陷,一是语言模型获得特征向量表示的能力不足,二是直接使用提取的文本特征进行相关性的确定,准确度不高,从而导致文本数据的处理效率比较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本数据的处理效率的文本数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种文本数据处理方法。所述方法包括:
从包括至少两个文本数据的目标文本数据对中,提取所述目标文本数据对的文本特征;
对所述文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征;
重组所述纯净特征与所述公共特征,获得所述目标文本数据对的重组特征;
基于所述重组特征,对所述目标文本数据对中的至少两个文本数据进行相关性计算,确定所述至少两个文本数据的相关性。
在一个实施例中,所述从包括至少两个文本数据的目标文本数据对中,提取所述目标文本数据对的文本特征,包括:
从包括至少两个文本数据的目标文本数据对中,提取出语义角色对齐的第一文本特征、以及嵌入有目标语义角色的第二文本特征;
所述对所述文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征,包括:
对所述第二文本特征进行梯度反转处理,得到表征所述至少两个文本数据间模糊关系的公共特征;
根据所述公共特征,对所述第一文本特征进行特征映射处理,得到表征所述至少两个文本数据间语义关系的纯净特征。
在一个实施例中,所述对所述第二文本特征进行梯度反转处理,得到表征所述至少两个文本数据间模糊关系的公共特征,包括:
在所述第二文本特征的前向传播过程中进行特征恒等变换,并在反向传播过程中进行梯度方向取反,得到所述第二文本特征的梯度反转结果;
将所述第二文本特征的梯度反转结果,确定为所述目标文本数据对的公共特征。
在一个实施例中,所述根据所述公共特征,对所述第一文本特征进行特征映射处理,得到表征所述至少两个文本数据间语义关系的纯净特征,包括:
将所述第一文本特征映射至所述公共特征的目标特征方向上,获得所述第一文本特征所对应的映射特征;
对所述第一文本特征与所述第一文本特征所对应的映射特征进行特征差值计算,得到所述目标文本数据对的纯净特征。
在一个实施例中,所述提取出语义角色对齐的第一文本特征,包括:
对所述目标文本数据对进行分词处理,得到所述目标文本数据对的各分词;
向量化处理各所述分词,分别获得所述目标文本数据对的各分词特征;
将各所述分词特征进行合并,并对齐各所述分词所对应的语义角色,获得所述目标文本数据对的第一文本特征。
在一个实施例中,所述提取出嵌入有目标语义角色的第二文本特征,包括:
对所述目标文本数据对进行分词处理,得到所述目标文本数据对的各分词;
基于各所述分词对应的语义角色,确定目标语义角色所对应的目标分词;
向量化处理各所述分词,分别获得所述目标文本数据对的各分词特征;
将各所述分词特征进行合并,并嵌入所述目标分词所对应的目标分词特征,获得所述目标文本数据对的第二文本特征。
在一个实施例中,所述重组所述纯净特征与所述公共特征,获得所述目标文本数据对的重组特征,包括:
基于所述纯净特征与所述公共特征,通过自注意力模型,确定所述纯净特征的纯净特征权重、以及所述公共特征的公共特征权重;
根据所述纯净特征和所述纯净特征权重、以及所述公共特征与所述公共特征权重,对所述纯净特征与所述公共特征进行加权求和,获得所述目标文本数据对的重组特征。
在一个实施例中,所述基于所述重组特征,对所述目标文本数据对中的至少两个文本数据进行相关性计算,确定所述至少两个文本数据的相关性,包括:
基于所述重组特征,计算所述重组特征所对应的所述目标文本数据对中的至少两个文本数据的相关性概率参数;
根据所述目标文本数据对中的至少两个文本数据的相关性概率参数,确定所述至少两个文本数据的相关性。
第二方面,本申请还提供了一种文本数据处理装置。所述装置包括:
特征获取模块,用于从包括至少两个文本数据的目标文本数据对中,提取所述目标文本数据对的文本特征;
特征分类模块,用于对所述文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征;
特征重组模块,用于重组所述纯净特征与所述公共特征,获得所述目标文本数据对的重组特征;
结果确定模块,用于基于所述重组特征,对所述目标文本数据对中的至少两个文本数据进行相关性计算,确定所述至少两个文本数据的相关性。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述文本数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征;并对文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征,从而,可以对文本特征中的语义信息进行有效区分。然后,通过重组纯净特征与公共特征,获得目标文本数据对的重组特征,据此,可以充分利用和挖掘纯净特征与公共特征中的有用信息,提高所获取的目标文本数据对的特征的准确度,还可以从整体上提高获得目标文本数据对的特征表示的能力。最后,基于重组特征,对目标文本数据对中的至少两个文本数据进行相关性计算,确定至少两个文本数据的相关性,从而,可以提高确定出的文本数据的相关性的准确度,最终可以提高文本数据的处理效率。
附图说明
图1为一个实施例中文本数据处理方法的应用环境图;
图2为一个实施例中文本数据处理方法的流程示意图;
图3为一个实施例中文本数据处理方法的框架示意图;
图4为一个实施例中文本数据处理方法的整体架构示意图;
图5为一个实施例中文本数据处理方法的特征提取部分的示意图;
图6为一个实施例中文本数据处理方法的特征重组部分的示意图;
图7为一个具体实施例中文本数据处理方法的整体架构示意图;
图8为一个具体实施例中文本数据处理方法的流程示意图;
图9为一个实施例中文本数据处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的文本数据,为经用户授权或者经过各方充分授权的数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一个实施例中,本申请提供的文本数据处理方法,可以应用于如图1所示的应用环境中,该应用环境可以同时涉及终端102和服务器104。在一些实施例中,还可以同时涉及终端106。其中,终端102、终端106通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
具体地,用户可以与终端102和/或终端106进行语音交互,以使得终端102和/或终端106将语音数据转化为文本数据。或者,用户可以通过终端102和/或终端106直接输入文本数据。或者,终端102和/或终端106可以从任何的公开文本数据集中获得文本数据。如此,服务器104可以从终端102和/或终端106中获取文本数据,从而,服务器104可以基于获取的文本数据,将任意的至少两个文本数据进行组合,得到文本数据对。相组合的至少两个文本数据可以是来源于相同的终端,也可以是来源于不同的终端。
然后,服务器104可以从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征,对文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征;进而,重组纯净特征与公共特征,获得目标文本数据对的重组特征;基于重组特征,对目标文本数据对中的至少两个文本数据进行相关性计算,确定至少两个文本数据的相关性。服务器104可以将确定出的至少两个文本数据的相关性进行存储。或者,将至少两个文本数据的相关性发送至终端102和/或终端106。以便于终端102、终端106与服务器104执行后续操作。例如,实现语音交互、数据搜索推荐等。
其中,终端102与终端106可以但不限于是各种台式计算机、笔记本电脑、智能手机、物联网设备和便携式可穿戴设备等,物联网设备可为智能音箱、智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请的实施例为主要针对文本数据进行处理的文本数据处理方法。
在一个实施例中,如图2所示,提供了一种文本数据处理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S202,从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征。
文本数据是指使用书面语言的进行语义表现的数据,文本数据可以是句子、段落或者篇章等。文本数据为半结构化数据,具体可包含结构数据与非结构数据,结构数据可以是标题、作者、日期、长度、分类等,非结构数据可以是摘要、内容等。文本数据的语义表现可以体现在一词多义、多词一义,在时间和空间上的上下文相关等情况。
文本数据对是指由至少两个文本数据组合而成的数据对,目标文本数据对是指需要进行文本数据处理、确定出文本数据之间的相关性的文本数据对。文本特征是指针对目标文本数据对进行特征提取处理后得到的特征,文本特征也可称为传统特征。在本实施例中,获取目标文本数据对,目标文本数据对中包括至少两个文本数据。然后,从包括至少两个文本数据的目标数据对中,提取目标文本数据对的文本特征。
具体地,可以根据实际技术需要,采用任意可能的方式提取目标文本数据对的文本特征。例如,可以通过预先训练的神经网络模型进行文本特征的提取。神经网络模型可以是词袋(Bags of words)模型,该模型可以将训练数据中所有出现过的词做成字典,通过统计出目标文本数据对中每个词出现的次数,确定出目标文本数据对的文本特征。神经网络模型还可以是自编码语言(BERT)模型或者其衍生模型,该模型由多层双向编码器(Transformer)堆叠组成,双向编码器由于其自注意力(Self-Attention)机制可以综合目标文本数据对中的所有分词的信息,获得目标文本数据对的文本特征。还可以是通过词频-逆文本频率指数(TF-IDF)算法统计出目标文本数据对的文本特征。
在一个实施例中,从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征,可以通过预先训练的文本处理模型中的特征提取部分完成,该特征提取部分可以是由上述实施例中的一个或多个神经网络模型构成。当特征提取部分由多个神经网络模型构成时,特征提取部分可以是具有多个分支的多分支结构,相应的,每个分支可以分别提取得到文本特征,然后进行后续处理。具体地,请参阅图3,文本处理模型中的特征提取部分获取目标文本数据对,并对目标文本数据对进行特征提取,从而得到文本特征。文本特征可以采用向量进行表示,在一个具体示例中,文本特征可以是嵌入式(embedding)向量。
步骤S204,对文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征。
文本特征包含纯净特征与公共特征,文本特征可以理解为纯净特征与公共特征融合而成。纯净特征与公共特征的定义是相对的。纯净特征(discriminative features)是指从文本特征中提取出的用于表征文本数据的数据间语义关系的特征,对于确定文本数据的语义或相关性可以起到比较明确的指示作用。公共特征(common features)是指从文本特征中提取出的用于表征文本数据的数据间模糊关系的特征,对于确定文本数据的语义或相关性无法起到明确的指示作用。
以文本数据的情感分类为例,情感分类旨在提取文本数据中的倾向、评价等主观信息。例如,在文本数据的情感分类中,完美、开心等词可以比较明确的表达出积极的语义,糟糕、难过等词可以比较明确的表达出消极的语义,这类词在经过特征提取与分类后可以形成文本数据的纯净特征。电脑、手机、音响等词,在文本数据的情感分类中无法起到明确的指示作用,这类词在经过特征提取与分类后可以形成文本数据的公共特征。
在从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征后,可以将文本特征进行进一步的特征分类,从而,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征。语义角色是指基于目标文本数据对中的文本数据中谓语(动词)和变元(名词)之间不同的语义关系,将变元分为多个类型,这些类型可称为是语义角色。通过语义角色所体现的文本数据的语义,可以对纯净特征和公共特征进行区分。
具体地,可以标注出目标文本数据对中的语义角色,形成目标文本数据对所对应的语义角色的标注序列,在提取目标文本数据对的文本特征时,可以将语义角色的序列标注相关信息嵌入至文本特征中,从而,可以根据语义角色的序列标注相关信息,对文本特征进行特征分类,确定出纯净特征与公共特征。
需要说明的是,上述实施例中所涉及的文本特征、纯净特征和公共特征的特征类型、特征维度一致,以便于进行后续的计算处理。当任意的一种特征的特征类型或特征维度不一致时,需进行特征类型转换或特征维度变换,以保持特征类型、特征维度一致,便于后续运算。
步骤S206,重组纯净特征与公共特征,获得目标文本数据对的重组特征。
重组特征是指将纯净特征与公共特征进行重组之后得到的特征,重组特征仍为目标文本数据对的特征。特征重组的方式可以根据实际技术需要进行设置。
具体地,例如,可以是简单的将纯净特征与公共特征进行特征拼接处理,将拼接后的纯净特征与公共特征称为是重组特征,得到目标文本数据对的重组特征。还可以是分配出纯净特征与公共特征所对应的特征权重,从而基于特征权重对纯净特征与公共特征进行特征重组,得到目标文本数据对的重组特征。
步骤S208,基于重组特征,对目标文本数据对中的至少两个文本数据进行相关性计算,确定至少两个文本数据的相关性。
相关性是指文本数据之间的关联程度,确定文本数据的相关性也可以理解确定出文本数据是否为同一种语义。相关性计算是指通过计算的方式确定出目标文本数据对中的至少两个文本数据之间的相关性概率参数,即确定出文本数据为同一个意思的概率。相关性概率参数的取值范围可以是在0-1之间。文本数据之间的相关性越大,计算出的相关性概率参数的数值越大。具体地,基于重组特征,对目标文本数据对中的至少两个文本数据进行相关性计算,确定至少两个文本数据的相关性。
可以理解的是,在对目标文本数据对中的至少两个文本数据进行相关性计算时,可以是确定任意两两组合的两个文本数据之间的相关性,还可以是同时确定多个文本数据之间的相关性。例如,目标文本数据对中包含三个文本数据,分别是文本数据1、文本数据2和文本数据3,在进行相关性计算后,可以是确定出文本数据1与文本数据2之间的相关性、文本数据1与文本数据3之间的相关性、文本数据2与文本数据3之间的相关性、以及文本数据1和文本数据2和文本数据3之间的相关性。
在一个实施例中,请参阅图3,上述实施例中对文本特征进行特征分类、特征重组以及相关性确定可以通过预先训练的文本处理模型中的特征重组部分完成。特征重组部分所输入的即为特征提取部分提取得到的文本特征。可以理解的是,当特征提取部分是多分支结构时,相应的,特征重组部分也可以是多分支结构,从而,通过特征重组部分最终确定目标文本数据对中的至少两个文本数据的相关性。
上述文本数据处理方法中,通过从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征;并对文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征,从而,可以对文本特征中的语义信息进行有效区分。然后,通过重组纯净特征与公共特征,获得目标文本数据对的重组特征,据此,可以充分利用和挖掘纯净特征与公共特征中的有用信息,提高所获取的目标文本数据对的特征的准确度,还可以从整体上提高获得目标文本数据对的特征表示的能力。最后,基于重组特征,对目标文本数据对中的至少两个文本数据进行相关性计算,确定至少两个文本数据的相关性,从而,可以提高确定出的文本数据的相关性的准确度,最终可以提高文本数据的处理效率。
请参阅图4所示的文本处理方法的整体架构示意图,本申请所涉及的预先训练的文本处理模型包括特征提取部分与特征重组部分。其中,特征提取部分可用于提取输入至文本处理模型中的包含至少两个文本数据的目标文本数据对所对应的文本特征,特征重组部分可用于将文本特征进行一系列处理,最终输出至少两个文本数据的相关性。以下实施例为针对特征提取部分与特征重组部分所具体包含的内容与处理方式进行的相关说明。
在一个实施例中,通过预先训练的文本处理模型中的特征提取部分,进行目标文本数据对的文本特征的提取。特征提取部分为多分支结构,以特征提取部分为具有两个分支的多分支结构为例。请参阅图4与图5,特征提取部分的两个分支上分别设置有P网络模型(Projection network,P-net)和C网络模型(Common feature learning network,C-net)。P-net和C-net的模型结构完全一致,具体可以根据实际技术需要进行设置,例如,可以采用自然语言处理模型中的BERT模型及其衍生模型。C-net所提取的文本特征最终是用于确定出公共特征,P-net所提取的文本特征最终是用于得到纯净特征。
具体地,从包括至少两个文本数据的目标文本数据对中,提取目标文本数据对的文本特征,包括:从包括至少两个文本数据的目标文本数据对中,提取出语义角色对齐的第一文本特征、以及嵌入有目标语义角色的第二文本特征。
将P-net所提取得到的文本特征称为第一文本特征,可以表示为H1。第一文本特征为将目标文本数据对中的文本数据的各语义角色进行对应对齐后的特征。即P-net所提取的文本特征为语义角色对齐的第一文本特征。将C-net所提取得到的文本特征称为第二文本特征,可以表示为H2。第二文本特征为将目标文本数据对中的文本数据的目标语义角色进行嵌入后的特征。即C-net所提取的文本特征为嵌入有目标语义角色的第二文本特征。目标语义角色可以是文本数据中的各语义角色中的一种,具体可以根据实际技术需要进行设置。在一个具体示例中,目标语义角色是指谓语动词。
可以理解的是,本实施例中是以特征提取部分为具有两个分支的多分支结构为例,根据实际技术需要,还可以设置更多或者更少的分支结构。举例来说,在还需要确定文本数据与图像数据之间的相关性时,还可以另外设置有针对图像数据的数据处理分支。
本实施例中,通过特征提取部分完成文本特征的提取,可以有效提高文本数据的提取效率。通过设置多分支结构,每一分支分别对同一目标文本数据对进行特征提取,并分别得到文本特征,能够确保提取出目标文本数据对的完整的语义信息,实现语义信息的充分利用,提高文本特征的准确度。
在一个实施例中,对于P-net提取目标文本数据对的文本特征,包括:对目标文本数据对进行分词处理,得到目标文本数据对的各分词;向量化处理各分词,分别获得目标文本数据对的各分词特征;将各分词特征进行合并,并对齐各分词所对应的语义角色,获得目标文本数据对的第一文本特征。
分词处理是指将文本数据拆分为词的组合,拆分出的词称为分词(token)。具体地,可以采用任何一种可实现的方式,对目标文本数据对进行分词处理,得到目标文本数据对的各分词。例如,可以采用正向最大匹配法、逆向最大匹配法和双向最大匹配中的至少一种方式将目标文本数据对进行分词处理。
在得到目标文本数据对的分词之后,在向量化处理各分词之前,还包括:标注目标文本数据对的各分词所对应的语义角色,从而,形成目标文本数据对的序列标注。具体地,标注的方式可以是采用每种语义角色所对应的角色标识,对分词所对应的语义角色进行标注。此外,还可以对目标文本数据对中的文本数据的句首、句尾进行属性标注,标注的方式可以是采用句首标识、句尾标识进行属性标注,用以区分出不同的文本数据语句。
分词所对应的特征称为分词特征。将本实施例的目标文本数据对的特征称为第一文本特征。具体地,可以采用P-net向量化处理各分词,分别获得目标文本数据对中的每个分词所对应的分词特征。P-net可以是自然语言处理模型中的BERT模型及其衍生模型。然后,可以通过卷积和池化,将各分词特征进行合并,并对齐各分词所对应的语义角色,获得目标文本数据对的第一文本特征。
本实施例中,通过P-net对目标文本数据对进行特征提取,可以快速有效的获得目标文本数据对的第一文本特征,提高文本特征获取的效率。
在一个实施例中,C-net与P-net的内部结构完全一致,数据处理方式也基本相同,两者可以同时运行。对于C-net提取目标文本数据对的文本特征,包括:对目标文本数据对进行分词处理,得到目标文本数据对的各分词;基于各分词对应的语义角色,确定目标语义角色所对应的目标分词;向量化处理各分词,分别获得目标文本数据对的各分词特征;将各分词特征进行合并,并嵌入目标分词所对应的目标分词特征,获得目标文本数据对的第二文本特征。
具体地,可以采用任何一种可实现的方式,对目标文本数据对进行分词处理,得到目标文本数据对的各分词。例如,可以采用正向最大匹配法、逆向最大匹配法和双向最大匹配中的至少一种方式将目标文本数据对进行分词处理。C-net与P-net的分词处理方式可以相同或不同。
在得到目标文本数据对的分词之后,在向量化处理各分词之前,还包括:标注目标文本数据对的各分词所对应的语义角色,从而,形成目标文本数据对的序列标注。从而,可以从各语义角色中确定出目标语义角色,目标语义角色可以是谓语动词。进而,确定出目标语义角色所对应的分词,即确定目标分词,
将本实施例的目标文本数据对的特征称为第二文本特征。具体地,可以采用C-net向量化处理各分词,分别获得目标文本数据对的各分词特征,然后,将各分词特征进行合并,并嵌入目标分词所对应的目标分词特征,获得目标文本数据对的第二文本特征。
本实施例中,通过C-net对目标文本数据对进行特征提取,可以快速有效的获得目标文本数据对的第二文本特征,提高文本特征获取的效率。而且,P-net和C-net分别属于不同的分支,这两个模型可以同时运行,即可以同时对目标文本数据对进行特征提取,得到第一文本特征和第二文本特征,从而可以提高文本数据的处理效率。
在一个实施例中,通过预先训练的文本处理模型中的特征重组部分,进行目标文本数据对的文本特征的分类。当特征提取部分为多分支结构,相应的,特征重组部分也是多分支结构,以特征提取部分为具有两个分支的多分支结构,相应的,特征重组部分为具有两个分支的多分支结构为例。请参阅图4与图6,特征重组部分包括梯度反转层与特征映射层。具体地,在C-net的分支上设置有梯度反转层(Gradient Reverse Layer,GRL),用以进行梯度反转处理,最终得到公共特征。在P-net的分支上设置有特征映射层(OrthogonalProjection Layer,OPL),用以进行特征映射处理,最终得到纯净特征。
具体地,对文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征,包括:对第二文本特征进行梯度反转处理,得到表征至少两个文本数据间模糊关系的公共特征;根据公共特征,对第一文本特征进行特征映射处理,得到表征至少两个文本数据间语义关系的纯净特征。
梯度反转处理可以通过梯度反转层进行。梯度反转层可以在特征反向传播的过程中使得特征的梯度反转,通过求导添加负号,使得梯度反转前后的模型训练目标相反,使得模型不向最优解靠拢,以得到公共特征。在得到公共特征后,可以将公共特征输入特征映射层,使得特征映射层根据公共特征,对第一文本特征进行特征映射处理,得到纯净特征。
本实施例中,通过设置梯度反转层,能够用于提取出公共特征,通过设置特征映射层,能够用于提取出纯净特征,从而对文本特征进行进一步有效区分,提高后续的文本数据处理效率。
在一个实施例中,对于梯度反转层,其对第二文本特征进行梯度反转处理,得到表征至少两个文本数据间模糊关系的公共特征,可以包括:在第二文本特征的前向传播过程中进行特征恒等变换,并在反向传播过程中进行梯度方向取反,得到第二文本特征的梯度反转结果;将第二文本特征的梯度反转结果,确定为目标文本数据对的公共特征。
将第二文本特征经过梯度反转层进行了梯度反转处理后得到的结果,称为第二文本特征的梯度反转结果,将梯度反转结果表示为
Figure BDA0003663023740000131
从而,可以将第二文本特征的梯度反转结果,确定为目标文本数据对的公共特征,即公共特征可以表示为
Figure BDA0003663023740000132
具体地,梯度反转层在第二文本特征的前向传播过程中进行特征恒等变换,并在反向传播过程中进行梯度方向取反,分别表示为:
GRL(x)=x
Figure BDA0003663023740000133
其中,x表示第二文本特征,I表示梯度,λ为超参数。
本实施例中,通过梯度反转层处理第二文本特征,可以简洁高效的获得文本数据的不同分类之间共有的公共特征,通过梯度反转层的这种前向传播和后向传播的处理方式,可以确保特征分布是相似的,提高所获得的公共特征的准确性。
在一个实施例中,请参阅图4与图6,文本处理模型的C-net的分支上还可以设置有分类器,分类器可以用于对文本数据进行分类,通过分类器,可以确定出文本数据之间的相关性概率参数。分类器的类型可以根据实际技术需要进行设置,例如,可以是强分类器、弱分类器、支持向量机(SVM)分类器等。该分类器的输入即为梯度反转层的输出。具体地,将梯度反转层进行梯度反转处理后得到的公共特征
Figure BDA0003663023740000141
送入分类器中,计算公式表示为:
Figure BDA0003663023740000142
其中,公共特征的权重系数W3、公共特征的修正参数b3可在训练过程确定。
损失函数表示为:
Lossc=CrossEntropy(Ytruth,YGRL)
其中,YGRL表示分类器所确定的文本数据对属于某个分类所对应的预测概率,Ytruth表示文本数据对属于某个分类所对应的真实概率。
本实施例中,通过设置该分类器确定出文本数据所对应的预测分类,再通过反向传播和优化函数得到公共特征的向量表示,可以在文本处理模型的训练过程中对整个文本处理模型的参数调整提供依据,最终可以提高所获得的纯净特征、公共特征的准确性。
在一个实施例中,对于特征映射层,其根据公共特征,对第一文本特征进行特征映射处理,得到表征至少两个文本数据间语义关系的纯净特征,可以包括:将第一文本特征映射至公共特征的目标特征方向上,获得第一文本特征所对应的映射特征;对第一文本特征与第一文本特征所对应的映射特征进行特征差值计算,得到目标文本数据对的纯净特征。
特征映射也可以理解为向量的投影。目标特征方向是指将第一文本特征映射至公共特征上时的方向,具体可以根据实际技术需要进行设置。例如,目标特征方向可以设置为正交方向,将第一文本特征映射至公共特征的目标特征方向上,即将第一文本特征映射至公共特征的正交方向上。映射特征是指映射处理后的第一文本特征。特征差值计算是指计算两个特征之间的差值,即作差。
具体地,目标特征方向为正交方向,将第一文本特征H1映射至公共特征
Figure BDA0003663023740000151
的正交方向上,获得第一文本特征所对应的映射特征,将映射特征表示为H′1,计算公式表示为:
Figure BDA0003663023740000152
Figure BDA0003663023740000153
然后,对第一文本特征与第一文本特征所对应的映射特征进行特征差值计算,得到目标文本数据对的纯净特征,将纯净特征表示为
Figure BDA0003663023740000154
计算公式表示为:
Figure BDA0003663023740000155
本实施例中,通过特征映射层处理公共特征与第一文本特征,最终得到纯净特征,可以剔除第一文本特征中的公共特征,保证得到文本数据之间的有明确指向性的纯净特征,避免公共特征对后续分类器的分类处理时产生混淆。同时,通过区分出纯净特征与公共特征,可以便于后续自注意力模型对不同的特征分配不同的特征权重,提高所确定的特征权重的准确性,从而提高特征重组的准确性。
在一个实施例中,通过预先训练的文本处理模型中的特征重组部分,纯净特征与公共特征的重组。请参阅图4与图6,特征重组部分还包括自注意力模型。具体地,在特征映射层的分支上还设置有自注意力模型(Attention unit),该模型可以采用注意力(Attention)方式,充分利用和挖掘纯净特征和公共特征中的有用信息,分配纯净特征和公共特征分别对应的特征权重,从而便于将纯净特征和公共特征进行特征处理与特征重组。
具体地,重组纯净特征与公共特征,获得目标文本数据对的重组特征,可以包括:基于纯净特征与公共特征,通过自注意力模型,确定纯净特征的纯净特征权重、以及公共特征的公共特征权重;根据纯净特征和纯净特征权重、以及公共特征与公共特征权重,对纯净特征与公共特征进行加权求和,获得目标文本数据对的重组特征。
将纯净特征所对应的特征权重称为纯净特征权重,表示为wp。将公共特征所对应的特征权重称为公共特征权重,表示为wc。在自注意力模型中,先将纯净特征与公共特征送入至线性层,得到初始的纯净特征权重Wp和初始的公共特征权重Wc。再经过归一化处理,即可分别得到纯净特征权重和公共特征权重,线性层的计算公式表示为:
Figure BDA0003663023740000161
Figure BDA0003663023740000162
其中,纯净特征的权重系数W4、公共特征的权重系数W5、纯净特征的修正参数b4、公共特征的修正参数b5可以通过训练过程确定,Wp、Wc分别表示初始的纯净特征权重与初始的公共特征权重。
可以先将初始的纯净特征权重与初始的公共特征权重进行拼接,再进行归一化处理。归一化处理的计算公式表示为:
w=softmax([Wp,Wc])
其中,w表示特征权重序列。
根据纯净特征
Figure BDA0003663023740000163
和纯净特征权重wp、以及公共特征
Figure BDA0003663023740000164
与公共特征权重wc,可以获得处理后的纯净特征attp以及处理后的公共特征attc,分别表示为:
Figure BDA0003663023740000165
Figure BDA0003663023740000166
其中,wp可以是特征权重序列w中的第一个权重值,表示为w[0],wc可以是特征权重序列w中的第二个权重值,表示为w[1]。
对纯净特征与公共特征进行加权求和,也即对处理后的纯净特征和处理后的公共特征进行求和,可以获得目标文本数据对的重组特征,将重组特征表示为final,计算公式表示为:
Figure BDA0003663023740000167
本实施例中,基于注意力机制,通过自注意力模型分配出纯净特征所对应的纯净特征权重,以及公共特征所对应的公共特征权重,并基于特征以及相应的特征权重进行特征重组,能够充分利用和挖掘纯净特征和公共特征中的有用信息,得到对于文本数据的处理更加有效的重组特征,从而在基于重组特征进行文本数据处理时,有效提高文本数据的处理效率。
在一个实施例中,通过预先训练的文本处理模型中的特征重组部分,基于纯净特征与公共特征进行了特征重组后的重组特征,进行相关性确定。请参阅图4与图6,特征重组部分还包括分类器,该分类器的输入即为自注意力模型的输出。分类器可以用于对文本数据进行分类,通过分类器,可以确定出至少两个文本数据之间的相关性概率参数。分类器的类型可以根据实际技术需要进行设置,例如,可以是强分类器、弱分类器、支持向量机(SVM)分类器等。
具体地,基于重组特征,对目标文本数据对中的至少两个文本数据进行相关性计算,确定至少两个文本数据的相关性,可以包括:基于重组特征,计算重组特征所对应的目标文本数据对中的至少两个文本数据的相关性概率参数;根据目标文本数据对中的至少两个文本数据的相关性概率参数,确定至少两个文本数据的相关性。
文本数据对的相关性概率参数是指文本数据对中的文本数据属于同一分类、为同一种意思的概率。具体地,对于该分类器,基于重组特征,计算重组特征所对应的目标文本数据对中的至少两个文本数据的相关性概率参数,计算公式表示为:
YOPL=softmax(final·W6+b6)
其中,重组特征的权重系数W6、重组特征的修正参数b6可在训练过程确定。
损失函数表示为:
Lossp=CrossEntropy(Ytruth,YOPL)
其中,YOPL表示分类器所确定的文本数据对属于某个分类所对应的预测概率,Ytruth表示文本数据对属于某个分类所对应的真实概率。
本实施例中,通过设置分类器,可以快速有效的基于重组特征确定出文本数据的相关性,提高文本数据的处理效率。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细说明。
在一个具体实施例中,请参阅图7,文本数据处理方法可基于文本处理模型进行处理,文本处理模型可设置在计算机设备中,文本处理模型包括两个分支,主要包括特征提取部分与特征重组部分。特征提取部分包括P网络模型(P-net)和C网络模型(C-net),这两个模型的内部结构完全一致,还可以同时运行。特征重组部分包括特征映射层(OPL)、梯度反转层(GRL)、自注意力模型(Attention unit)和两个分类器。其中,在P-net的分支上依次设置的是特征映射层、自注意力模型和分类器,在C-net的分支上依次设置的是特征反转层和分类器。具体地,请参阅图8,文本数据处理方法的步骤如下:
步骤S701,获取包括至少两个文本数据的目标文本数据对。具体地,在该目标文本数据对中的文本数据可以是语句。
对于P-net,提取目标文本数据对的第一文本特征,包括:
步骤S702,对目标文本数据对进行分词处理,得到目标文本数据对的各分词。具体地,可以采用正向最大匹配法、逆向最大匹配法和双向最大匹配中的至少一种方式将目标文本数据对进行分词处理。
步骤S703,向量化处理各分词,分别获得目标文本数据对的各分词特征。具体地,所获得的该分词特征可以是预定维度的embedding特征。
步骤S704,将各分词特征进行合并,并对齐各分词所对应的语义角色,获得目标文本数据对的第一文本特征,将第一文本特征表示为H1
对于C-net,提取目标文本数据对的第二文本特征,包括:
步骤S705,对目标文本数据对进行分词处理,得到目标文本数据对的各分词。具体地,分词处理方式可以与上述步骤S702的处理方式相同。
步骤S706,基于各分词对应的语义角色,确定目标语义角色所对应的目标分词。具体地,目标语义角色设置为谓语动词,即确定出谓语动词所对应的分词。
步骤S707,向量化处理各分词,分别获得目标文本数据对的各分词特征。具体地,所获得的该分词特征可以是预定维度的embedding特征。
步骤S708,将各分词特征进行合并,并嵌入目标分词所对应的目标分词特征,获得目标文本数据对的第二文本特征,将第二文本特征表示为H2
其中,第一文本特征H1与第二文本特征H2均为特征维度相同的embedding特征。且上述步骤S702至步骤S704,与步骤S705至步骤S708可以同时执行。
对于梯度反转层,其可以学习得到公共特征,包括:
步骤S709,在第二文本特征的前向传播过程中进行特征恒等变换,并在反向传播过程中进行梯度方向取反,得到第二文本特征的梯度反转结果;并将第二文本特征的梯度反转结果,确定为目标文本数据对的公共特征。
具体地,前向传播过程、反向传播过程的计算公式可以分别表示为:
GRL(x)=x
Figure BDA0003663023740000191
其中,x表示第二文本特征,I表示梯度,λ为超参数。
第二文本特征在经过梯度反转层处理后,即可得到
Figure BDA0003663023740000192
将梯度反转层进行梯度反转处理后得到的公共特征
Figure BDA0003663023740000193
送入分类器中,计算公式表示为:
Figure BDA0003663023740000194
其中,公共特征的权重系数W3、公共特征的修正参数b3可在训练过程确定。
损失函数表示为:
Lossc=CrossEntropy(Ytruth,YGRL)
其中,YGRL表示分类器所确定的文本数据对属于某个分类所对应的预测概率,Ytruth表示文本数据对属于某个分类所对应的真实概率。
至此,C-net分支完成了目标文本数据对的公共特征
Figure BDA0003663023740000195
的提取。然后,将公共特征
Figure BDA0003663023740000196
送入特征映射层,以完成纯净特征的提取。
对于特征映射层,其可以处理得到纯净特征,包括:
步骤S710,将第一文本特征映射至公共特征的目标特征方向上,获得第一文本特征所对应的映射特征;对第一文本特征与第一文本特征所对应的映射特征进行特征差值计算,得到目标文本数据对的纯净特征。
具体地,目标特征方向为正交方向。将第一文本特征H1映射至公共特征
Figure BDA0003663023740000197
的正交方向上,获得第一文本特征所对应的映射特征,将映射特征表示为H′1,计算公式表示为:
Figure BDA0003663023740000198
Figure BDA0003663023740000199
然后,对第一文本特征与第一文本特征所对应的映射特征进行特征差值计算,得到目标文本数据对的纯净特征,将纯净特征表示为
Figure BDA00036630237400001910
计算公式表示为:
Figure BDA0003663023740000201
步骤S711,基于纯净特征与公共特征,通过自注意力模型,确定纯净特征的纯净特征权重、以及公共特征的公共特征权重;根据纯净特征和纯净特征权重、以及公共特征与公共特征权重,对纯净特征与公共特征进行加权求和,获得目标文本数据对的重组特征。
通过自注意力模型,将纯净特征
Figure BDA0003663023740000202
与公共特征
Figure BDA0003663023740000203
进行重组。具体地,通过自注意力模型,得到初始的纯净特征权重Wp和初始的公共特征权重Wc,表示为:
Figure BDA0003663023740000204
Figure BDA0003663023740000205
其中,纯净特征的权重系数W4、公共特征的权重系数W5、纯净特征的修正参数b4、公共特征的修正参数b5可以通过训练过程确定。
然后,先将初始的纯净特征权重与初始的公共特征权重进行拼接,再进行归一化处理,得到特征权重序列w。归一化处理的计算公式表示为:
w=softmax([Wp,Wc])
根据纯净特征
Figure BDA0003663023740000206
和纯净特征权重wp、以及公共特征
Figure BDA0003663023740000207
与公共特征权重wc,可以获得处理后的纯净特征attp以及处理后的公共特征attc,分别表示为:
Figure BDA0003663023740000208
Figure BDA0003663023740000209
其中,wp可以是特征权重序列w中的第一个权重值,表示为w[0],wc可以是特征权重序列w中的第二个权重值,表示为w[1]。
对纯净特征与公共特征进行加权求和,可以获得目标文本数据对的重组特征,将重组特征表示为final,计算公式表示为:
Figure BDA00036630237400002010
步骤S712,基于重组特征,计算重组特征所对应的目标文本数据对中的至少两个文本数据的相关性概率参数;根据目标文本数据对中的至少两个文本数据的相关性概率参数,确定至少两个文本数据的相关性。
具体地,将重组特征final送入分类器中,计算重组特征所对应的目标文本数据对中的至少两个文本数据的相关性概率参数,即确定至少两个文本数据的相关性。分类器的计算公式表示为:
YOPL=softmax(final·W6+b6)
其中,重组特征的权重系数W6、重组特征的修正参数b6可在训练过程确定。
损失函数表示为:
Lossp=CrossEntropy(Ytruth,YOPL)
其中,YOPL表示分类器所确定的文本数据对属于某个分类所对应的预测概率,Ytruth表示文本数据对属于某个分类所对应的真实概率。
为了验证本实施例中的文本处理方法所产生的有益效果,采用现有的文本处理模型对公开数据集中的文本数据对的相关性进行了基准测试,以及采用本实施例文本处理模型对公开数据集中的文本数据对的相关性进行了测试,并将测试结果进行了数据对比,数据对比结果如表1所示。该公开数据集为释义语料库(MRPC)数据集。该测试结果中显示的是F1值,当F1值较高时则能说明试验方法比较有效,可以证明本实施例的文本处理模型比SemBERT模型提高了1个百分点,证明了本实施例的文本处理模型的有效性。
表1公开数据集的基准测试结果和本文模型的数据结果
模型 MRPC(F1)
BiLSTM+ELMo+自注意力模型 84.9
GPT 82.3
BERTbase 88.9
SemBERTbase 88.2
本实施例的文本处理模型 89.2
其中,BiLSTM(Bi-directional Long Short-Term Memory)是指由前向LSTM与后向LSTM组合而成的模型。ELMo是指自回归模型。GPT(Generative Pre-Training)是一种生成式的预训练语言模型。BERTbase是指BERT模型,SemBERTbase是指SemBERT(Semantics-aware BERT)模型。
此外,还进行了消融实验,消融实验结果如表2所示。通过消融实验结果,表明自注意力机制的使用,使得SemBERT模型的F1值由88.2提升了0.5个百分点至88.7,可以证明自注意力机制起到了较好的效果,特征重组部分的使用,使得SemBERT模型的F1值由88.2提升了0.4个百分点至88.6,也证明了特征重组部分进行特征重组的正确性和合理性。
表2消融实验结果
模型 MRPC(F1)
SemBERTbase+自注意力模型 88.7
SemBERTbase+特征重组部分 88.6
本实施例的文本处理模型 89.2
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请还提供了一种用于实现上述所涉及的文本数据处理方法的文本数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本数据处理装置实施例中的具体限定可以参见上文中对于文本数据处理方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种文本数据处理装置,包括:特征获取模块10、特征分类模块20、特征重组模块30和结果确定模块40,其中:
特征获取模块10,用于从包括至少两个文本数据的目标文本数据对中,提取所述目标文本数据对的文本特征。
特征分类模块20,用于对所述文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征。
特征重组模块30,用于重组所述纯净特征与所述公共特征,获得所述目标文本数据对的重组特征。
结果确定模块40,用于基于所述重组特征,对所述目标文本数据对中的至少两个文本数据进行相关性计算,确定所述至少两个文本数据的相关性。
在一个实施例中,所述特征获取模块10,包括:
第一文本特征获取单元,用于从包括至少两个文本数据的目标文本数据对中,提取出语义角色对齐的第一文本特征。
第二文本特征获取单元,用于从包括至少两个文本数据的目标文本数据对中,提取出嵌入有目标语义角色的第二文本特征。
在一个实施例中,所述特征分类模块20,包括:
公共特征分类单元,用于对所述第二文本特征进行梯度反转处理,得到表征所述至少两个文本数据间模糊关系的公共特征。
纯净特征分类单元,用于根据所述公共特征,对所述第一文本特征进行特征映射处理,得到表征所述至少两个文本数据间语义关系的纯净特征。
在一个实施例中,所述公共特征分类单元,包括:
梯度反转处理单元,用于在所述第二文本特征的前向传播过程中进行特征恒等变换,并在反向传播过程中进行梯度方向取反,得到所述第二文本特征的梯度反转结果。
公共特征确定单元,用于将所述第二文本特征的梯度反转结果,确定为所述目标文本数据对的公共特征。
在一个实施例中,所述纯净特征分类单元,包括:
特征映射处理单元,用于将所述第一文本特征映射至所述公共特征的目标特征方向上,获得所述第一文本特征所对应的映射特征。
纯净特征确定单元,用于对所述第一文本特征与所述第一文本特征所对应的映射特征进行特征差值计算,得到所述目标文本数据对的纯净特征。
在一个实施例中,所述第一文本特征获取单元,包括:
第一分词处理单元,用于对所述目标文本数据对进行分词处理,得到所述目标文本数据对的各分词。
第一向量化处理单元,用于向量化处理各所述分词,分别获得所述目标文本数据对的各分词特征。
第一合并处理单元,用于将各所述分词特征进行合并,并对齐各所述分词所对应的语义角色,获得所述目标文本数据对的第一文本特征。
在一个实施例中,所述第二文本特征获取单元,包括:
第二分词处理单元,用于对所述目标文本数据对进行分词处理,得到所述目标文本数据对的各分词。
目标分词确定单元,用于基于各所述分词对应的语义角色,确定目标语义角色所对应的目标分词。
第二向量化处理单元,用于向量化处理各所述分词,分别获得所述目标文本数据对的各分词特征。
第二合并处理单元,用于将各所述分词特征进行合并,并嵌入所述目标分词所对应的目标分词特征,获得所述目标文本数据对的第二文本特征。
在一个实施例中,所述特征重组模块30,包括:
特征权重确定单元,用于基于所述纯净特征与所述公共特征,通过自注意力模型,确定所述纯净特征的纯净特征权重、以及所述公共特征的公共特征权重。
特征重组处理单元,用于根据所述纯净特征和所述纯净特征权重、以及所述公共特征与所述公共特征权重,对所述纯净特征与所述公共特征进行加权求和,获得所述目标文本数据对的重组特征。
在一个实施例中,所述结果确定模块40,包括:
概率参数计算单元,用于基于所述重组特征,计算所述重组特征所对应的所述目标文本数据对中的至少两个文本数据的相关性概率参数。
相关性确定单元,用于根据所述目标文本数据对中的至少两个文本数据的相关性概率参数,确定所述至少两个文本数据的相关性。
上述文本数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本数据处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10和图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种文本数据处理方法,其特征在于,所述方法包括:
从包括至少两个文本数据的目标文本数据对中,提取所述目标文本数据对的文本特征;
对所述文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征;
重组所述纯净特征与所述公共特征,获得所述目标文本数据对的重组特征;
基于所述重组特征,对所述目标文本数据对中的至少两个文本数据进行相关性计算,确定所述至少两个文本数据的相关性。
2.根据权利要求1所述的方法,其特征在于,所述从包括至少两个文本数据的目标文本数据对中,提取所述目标文本数据对的文本特征,包括:
从包括至少两个文本数据的目标文本数据对中,提取出语义角色对齐的第一文本特征、以及嵌入有目标语义角色的第二文本特征;
所述对所述文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征,包括:
对所述第二文本特征进行梯度反转处理,得到表征所述至少两个文本数据间模糊关系的公共特征;
根据所述公共特征,对所述第一文本特征进行特征映射处理,得到表征所述至少两个文本数据间语义关系的纯净特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述第二文本特征进行梯度反转处理,得到表征所述至少两个文本数据间模糊关系的公共特征,包括:
在所述第二文本特征的前向传播过程中进行特征恒等变换,并在反向传播过程中进行梯度方向取反,得到所述第二文本特征的梯度反转结果;
将所述第二文本特征的梯度反转结果,确定为所述目标文本数据对的公共特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述公共特征,对所述第一文本特征进行特征映射处理,得到表征所述至少两个文本数据间语义关系的纯净特征,包括:
将所述第一文本特征映射至所述公共特征的目标特征方向上,获得所述第一文本特征所对应的映射特征;
对所述第一文本特征与所述第一文本特征所对应的映射特征进行特征差值计算,得到所述目标文本数据对的纯净特征。
5.根据权利要求2或4所述的方法,其特征在于,提取出语义角色对齐的第一文本特征,包括:
对所述目标文本数据对进行分词处理,得到所述目标文本数据对的各分词;
向量化处理各所述分词,分别获得所述目标文本数据对的各分词特征;
将各所述分词特征进行合并,并对齐各所述分词所对应的语义角色,获得所述目标文本数据对的第一文本特征。
6.根据权利要求2或3所述的方法,其特征在于,提取出嵌入有目标语义角色的第二文本特征,包括:
对所述目标文本数据对进行分词处理,得到所述目标文本数据对的各分词;
基于各所述分词对应的语义角色,确定目标语义角色所对应的目标分词;
向量化处理各所述分词,分别获得所述目标文本数据对的各分词特征;
将各所述分词特征进行合并,并嵌入所述目标分词所对应的目标分词特征,获得所述目标文本数据对的第二文本特征。
7.根据权利要求1所述的方法,其特征在于,所述重组所述纯净特征与所述公共特征,获得所述目标文本数据对的重组特征,包括:
基于所述纯净特征与所述公共特征,通过自注意力模型,确定所述纯净特征的纯净特征权重、以及所述公共特征的公共特征权重;
根据所述纯净特征和所述纯净特征权重、以及所述公共特征与所述公共特征权重,对所述纯净特征与所述公共特征进行加权求和,获得所述目标文本数据对的重组特征。
8.根据权利要求1或7所述的方法,其特征在于,所述基于所述重组特征,对所述目标文本数据对中的至少两个文本数据进行相关性计算,确定所述至少两个文本数据的相关性,包括:
基于所述重组特征,计算所述重组特征所对应的所述目标文本数据对中的至少两个文本数据的相关性概率参数;
根据所述目标文本数据对中的至少两个文本数据的相关性概率参数,确定所述至少两个文本数据的相关性。
9.一种文本数据处理装置,其特征在于,所述装置包括:
特征获取模块,用于从包括至少两个文本数据的目标文本数据对中,提取所述目标文本数据对的文本特征;
特征分类模块,用于对所述文本特征进行特征分类,分别得到表征数据间语义关系的纯净特征和表征数据间模糊关系的公共特征;
特征重组模块,用于重组所述纯净特征与所述公共特征,获得所述目标文本数据对的重组特征;
结果确定模块,用于基于所述重组特征,对所述目标文本数据对中的至少两个文本数据进行相关性计算,确定所述至少两个文本数据的相关性。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202210578761.XA 2022-05-26 2022-05-26 文本数据处理方法、装置、计算机设备和存储介质 Pending CN115129869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210578761.XA CN115129869A (zh) 2022-05-26 2022-05-26 文本数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210578761.XA CN115129869A (zh) 2022-05-26 2022-05-26 文本数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115129869A true CN115129869A (zh) 2022-09-30

Family

ID=83376003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210578761.XA Pending CN115129869A (zh) 2022-05-26 2022-05-26 文本数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115129869A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304114A (zh) * 2023-05-11 2023-06-23 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304114A (zh) * 2023-05-11 2023-06-23 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN116304114B (zh) * 2023-05-11 2023-08-04 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Similar Documents

Publication Publication Date Title
KR102564144B1 (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
Dey Sarkar et al. A novel feature selection technique for text classification using Naive Bayes
CN115129869A (zh) 文本数据处理方法、装置、计算机设备和存储介质
US20230130006A1 (en) Method of processing video, method of quering video, and method of training model
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
JP7417679B2 (ja) 情報抽出方法、装置、電子機器及び記憶媒体
WO2021082086A1 (zh) 机器阅读方法、系统、装置及存储介质
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
CN113240046B (zh) 一种基于知识的视觉问答任务下的多模态信息融合方法
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
Meng et al. Concept-concept association information integration and multi-model collaboration for multimedia semantic concept detection
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
Minervini et al. Adaptive knowledge propagation in web ontologies
Chen et al. LightMobileBert: A secondary lightweight model based on MobileBert
CN114637846A (zh) 视频数据处理方法、装置、计算机设备和存储介质
CN112749251B (zh) 文本处理方法、装置、计算机设备和存储介质
Nguyen et al. A study of predicting the sincerity of a question asked using machine learning
Wan et al. Rescue implicit and long-tail cases: Nearest neighbor relation extraction
CN105808522A (zh) 一种语义联想的方法及装置
CN112685574B (zh) 领域术语层次关系的确定方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination