CN110162785A - 数据处理方法和代词消解神经网络训练方法 - Google Patents
数据处理方法和代词消解神经网络训练方法 Download PDFInfo
- Publication number
- CN110162785A CN110162785A CN201910319013.8A CN201910319013A CN110162785A CN 110162785 A CN110162785 A CN 110162785A CN 201910319013 A CN201910319013 A CN 201910319013A CN 110162785 A CN110162785 A CN 110162785A
- Authority
- CN
- China
- Prior art keywords
- training
- word
- counter
- feature
- substitution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请涉及一种数据方法、装置、可读存储介质和计算机设备,该方法包括:获取待检测文本;将待检测文本对应的上下文词语集合和候选替代词语集合输入至代词消解神经网络中,分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征,根据第一特征和第二特征进行正例迭代处理和反例迭代处理得到正反例特征向量模长,根据正反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度;根据各个候选替代词语对应的替代可能度确定目标替代词语;根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。此外还提供了一种代词消解神经网络训练方法、装置、可读存储介质和计算机设备。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据处理方法、装置、计算机可读存储介质和计算机设备,以及代词消解神经网络训练方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着计算机技术的发展,出现了代词消解技术,代词消解技术是指给定待检测文本内容,通过算法定位找到该代词所指代的候选替代词语。目前的代词消解问题的解决方式是通过神经网络来对代词消解问题进行建模,通过神经网络预测得到该代词所指代的目标候选替代词语。然而,目前的神经网络直接对该代词和对应的候选替代词语进行分类得到目标候选替代词语,导致代词消解的准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高代词消解的准确率的数据处理方法、装置、计算机可读存储介质和计算机设备,以及代词消解神经网络训练方法、装置、计算机可读存储介质和计算机设备。
一种数据处理方法,包括:
获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合;
将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征;
代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度;
根据各个候选替代词语对应的替代可能度确定目标替代词语;
根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
一种数据处理装置,该装置包括:
待检测文本获取模块,用于获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合;
特征提取模块,用于将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征;
迭代处理模块,用于代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度;
目标替代词语确定模块,用于根据各个候选替代词语对应的替代可能度确定目标替代词语;
目标替代词语插入模块,用于根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行程序时实现以下步骤:
获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合;
将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征;
代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度;
根据各个候选替代词语对应的替代可能度确定目标替代词语;
根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合;
将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征;
代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度;
根据各个候选替代词语对应的替代可能度确定目标替代词语;
根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
一种代词消解神经网络训练方法,该方法包括:
获取训练文本,训练文本存在对应的标准训练文本标签;
确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合;
将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征;
初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度;
根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值;
根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
一种代词消解神经网络训练装置,该装置包括:
训练文本获取模块,用于获取训练文本,训练文本存在对应的标准训练文本标签;
训练文本处理模块,用于确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合;
训练特征表示模块,用于将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征;
训练特征迭代处理模块,用于初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度;
训练损失值计算模块,用于根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值;
神经网络训练模块,用于根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行程序时实现以下步骤:
获取训练文本,训练文本存在对应的标准训练文本标签;
确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合;
将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征;
初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度;
根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值;
根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取训练文本,训练文本存在对应的标准训练文本标签;
确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合;
将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征;
初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度;
根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值;
根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
上述数据处理方法、装置、计算机可读存储介质和计算机设备以及代词消解神经网络训练方法、装置、计算机可读存储介质和计算机设备,代词消解神经网络能够很好地利用待检测文本中的上下文词序列和候选替代词语对应的特征,通过对上下文词序列和候选替代词语对应的特征进行正例迭代处理和反例迭代处理得到对应的正例特征向量模长和反例特征向量模长,最后根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度。由于代词消解神经网络能够很好地融合了上下文词序列和候选替代词语对应的特征,根据上下文词序列和候选替代词语对应的特征计算候选替代词语对应的替代可能度,该特征除了词序列对应的特征还包括词序列对应的字序列的特征,能够很好地解决数据层面上稀疏问题,从而提高候选替代词语集合中各个候选替代词语对应的替代可能度的准确性,进而提高代词消解的准确率。
附图说明
图1为一个实施例中数据处理方法或代词消解神经网络训练方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合步骤的流程示意图;
图4为一个实施例中代词消解神经网络特征提取步骤的流程示意图;
图5为一个实施例中正例迭代处理步骤的流程示意图;
图5A为一个实施例中正例迭代处理或反例迭代处理的代码实施示意图;
图6为一个实施例中反例迭代处理步骤的流程示意图;
图7为一个实施例中代词消解神经网络训练方法的流程示意图;
图7A为一个实施例中代词消解神经网络的网络结构示意图;
图7B为一个实施例中代词消解神经网络的验证结果对比示意图;
图8为一个实施例中数据处理装置的结构框图;
图9为一个实施例中待检测文本获取模块的结构框图;
图10为一个实施例中代词消解神经网络训练装置的结构框图;
图11为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中数据处理方法的应用环境图。参照图1,该数据处理方法应用于数据处理系统。该数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端110可将待检测文本发送至服务器120,服务器120获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合,将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征,代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度,根据各个候选替代词语对应的替代可能度确定目标替代词语,根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。进一步地,服务器120可将目标文本发送至终端110进行显示。
在另一个实施例中,图1还可为代词消解神经网络训练方法的应用环境图。参照图1,该代词消解神经网络训练方法应用于代词消解神经网络训练系统。该代词消解神经网络训练系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端110可将训练文本发送至服务器120,服务器120获取训练文本,训练文本存在对应的标准训练文本标签,确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合,将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征,初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度,根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值,根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。进一步地,服务器120可将代词消解神经网络存储本地或者发送至终端110,供终端110应用。
如图2所示,在一个实施例中,提供了一种数据处理方法。本实施例主要以该方法应用于上述图1中的终端110或服务器120来举例说明。参照图2,该数据处理方法具体包括如下步骤:
步骤202,获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合。
其中,待检测文本是需要进行检测代词消解的文本,待检测文本可以为一个或多个。待检测文本可以是实时获取的,也可以是预先存储的。比如,可以在收到进行代词消解的指令时实时通过网络爬虫爬取新闻资讯信息、论坛帖子等信息作为待检测文本,也可以是预先将待检测文本存储至数据库。其中,所谓代词消解是将待检测文本中待检测词语所指代的替代词检测出来,待检测词语是待检测文本中被省略或者缺失的部分。例如,待检测文本为:“小明吃了一个苹果,&很甜”,&代表待检测词语。
在一个实施例中,可以存储预设对象名称,获取包括预设对象名称的文本作为待检测文本。例如,可以预先存储“A公司”、“B产品”以及“C公司”等对象名称,然后通过网络爬虫技术爬取网络中包括“A公司”、“B产品”以及“C公司”中的一个或多个词语的文本作为待检测文本。
在一个实施例中,待检测文本对应的数据源是预先设置的,例如可以预先设置待检测文本对应的数据来源可以是D网址、E网址等。
在一个实施例中,待检测文本可以是对文本信息进一步筛选得到的。例如,对于一篇文章,可以将文章的标题、摘要、第一段、最后一段中的一种或多种作为待检测文本。
其中,待检测文本中的待检测词语是待检测文本中被省略或者缺失的部分,而上下文词语集合是待检测词语的上文词序列和下文词序列组成的词语集合,待检测词语的上文词序列是以待检测词语所在的位置为中心,由待检测词语所在的位置的前向词语组成的词序列,而下文词序列是以待检测词语所在的位置为中心,由待检测词语所在的位置的后向词语组成的词序列。具体可先对待检测文本进行分割,得到多个词语,对多个词语进行句法分析,确定待检测词语所在的位置,根据待检测词语所在的位置获取前向词语和后向词语,由获取到的前向词语组成上文词序列,后向词语组成下文词序列,再根据上文词序列和下文词序列组成上下文词语集合。
其中,侯选替代词语集合是待检测词语的候选替代词语组成的词语集合,候选替代词语是用来替代待检测词语的候选词语,可以是名词性短语等。候选替代词语可以根据预设筛选规则从待检测文本对应的词语中筛选得到的,预设筛选规则可自定义,自定义可以是从待检测文本对应的词语中筛选名词性短语作为候选替代词语,还可以是从待检测文本对应的词语中筛选形容词语作为候选替代词语等等。具体可以是,先对待检测文本进行分割,得到多个词语,对多个词语进行句法分析,根据句法分析结果获取候选替代词语,由获取到的候选替代词语组成候选替代词语集合。其中,句法分析是对待检测文本中的词语语法功能进行分析,得到句法分析结果。比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。
在一个实施例中,获取到的待检测文本为:“小明吃了个小苹果,很甜,他心情超级美妙”,先对待检测文本进行分割,得到多个词语为:“小明”,“吃了”,“个”,“小苹果”,“很甜”,“他”,“心情”,“超级”和“美妙”。对各个词语进行句法分析,确定待检测文本中的待检测词语所在的位置为“很甜”前面省略的一部分内容,再根据待检测词语所在的位置获取上文词序列为:“小明”,“吃了”,“个”,“小苹果”,下文词序列为:“很甜”,“他”,“心情”,“超级”和“美妙”,由上文词序列和下文词序列组成上下文词语集合。而候选替代词的预设筛选规则为从待检测文本对应的词语中筛选名词性短语作为候选替代词语,因此筛选得到的候选替代词为:“小明”和“小苹果”,由候选替代词语组成候选替代词语集合。
步骤204,将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征。
其中,代词消解是将待检测文本中待检测词语所指代的替代词检测出来,待检测词语是待检测文本中被省略或者缺失的部分。代词消解神经网络用于确定待检测词语对应的候选替代词语的,代词消解神经网络是预先训练得到的,代词消解神经网络可以是胶囊网络(Capsule Network)、向量机(Support Vector Machine,SVM)分类器模型、神经网络(Artificial Neural Network,ANN)分类器模型、逻辑回归算法(logistic Regression,LR)分类器模型等各种进行分类的模型。而代词消解神经网络通过对词序列和词序列对应的字序列对应的特征进行融合,能够得到待检测词语与各个候选替代词语对应的替代可能度,提高代词消解的准确率。将上下文词语集合和候选替代词语集合输入至代词消解神经网络之前,需要通过训练样本对代词消解神经网络进行模型训练,确定模型的参数,使模型能够从输入的待检测文本中确定待检测文本中待检测词语与各个候选替代词语对应的替代可能度。在进行模型训练时,可以采用有监督的学习方式。
其中,特征提取是指将输入的一个或多个特征映射为另外的特征。例如,将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络可通过特征表示子网络对上下文词语集合进行特征提取,得到上下文词语集合对应的第一特征,通过特征表示子网络对候选替代词语集合进行特征提取得到候选替代词语集合对应的第二特征。其中,第一特征包括但不限于基于上下文词语集合中的词序列的词向量特征和基于上下文词语集合中的词序列对应的字序列的字向量特征,第二特征包括但不限于基于候选替代词语集合中的词序列的词向量特征和基于候选替代词语集合中的词序列对应的字序列的字向量特征。所谓基于上下文词语集合或者候选替代词语集合中的词序列是指对上下文词语或者候选替代词语的词序列进行特征提取得到对应的词向量特征,可以理解的是,以词序列进行特征提取是指以词向量为一个整体进行提取的。
而基于上下文词语集合或者候选替代词语集合中的词序列对应的字序列是指对上下文词语或者候选替代词语的词序列对应的字序列进行特征提取得到对应的词向量特征,可以理解的是,以词序列对应的字序列进行特征提取是指以字向量为一个整体进行提取的。
在一个实施例中,将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络包括前向特征表示子网络、后向特征表示子网络、字向量特征表示子网络,代词消解神经网络通过前向特征表示子网络对上下文词语集合中的词序列进行特征提取,得到对应的第一前向子特征,通过后向特征表示子网络对上下文词语集合中的词序列进行特征提取,得到对应的第一后向子特征,通过字向量特征表示子网络对上下文词语集合中的词序列对应的字序列进行特征提取,得到对应的第一字向量子特征,将第一前向子特征、第一后向子特征和第一字向量子特征组成上下文词语集合对应的第一特征。
同样地,代词消解神经网络通过前向特征表示子网络对候选替代词语集合中的词序列进行特征提取,得到对应的第二前向子特征,通过后向特征表示子网络对候选替代词语集合中的词序列进行特征提取,得到对应的第二后向子特征,通过字向量特征表示子网络对候选替代词语集合中的词序列对应的字序列进行特征提取,得到对应的第二字向量子特征,将第二前向子特征、第二后向子特征和第二字向量子特征组成候选替代词语集合对应的第二特征。
步骤206,代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度。
其中,正例迭代处理是指对特征进行重复迭代计算得到正例特征向量模长的过程,而正例特征向量模长是指正例特征向量的长度,正例特征向量是正例替代可能度对应的特征向量,正例替代可能度是指待检测文本中待检测词语与各个候选替代词语相互匹配的可能度。正例迭代处理可以是通过自定义动态路由算法迭代计算得到正例特征向量模长,自定义动态路由算法可以用于正例迭代处理和反例迭代处理,由于正例迭代处理和反例迭代处理对应的预设权重系数不同,因此将第一特征和第二特征通过自定义动态路由算法计算可分别得到正例特征向量模长和反例特征向量模长。
而反例迭代处理是指对特征进行重复迭代计算得到反例特征向量模长的过程,而反例特征向量模长是指反例特征向量的长度,反例特征向量是反例替代可能度对应的特征向量,反例替代可能度是指待检测文本中待检测词语与各个候选替代词语相互不匹配的可能度。
具体地,通过自定义动态路由算法计算正例特征向量模长和反例特征向量模长可以是根据第一特征和第二特征计算得到初始迭代中心,将初始迭代中心分别作为正例迭代处理和反例迭代处理的初始迭代中心,并将初始迭代中心作为当前迭代中心,再根据正例迭代处理和反例迭代处理对应的预设权重系数对第一特征和第二特征进行线性变换,得到正例迭代处理和反例迭代处理对应的第一中间特征和第二中间特征。再将正例迭代处理和反例迭代处理对应的第一中间特征和第二中间特征分别与当前迭代中心进行相似度计算,得到正例迭代处理和反例迭代处理对应的第一相似度和第二相似度,紧接着对正例迭代处理和反例迭代处理对应的第一相似度和第二相似度进行归一化,得到正例迭代处理和反例迭代处理对应的第一中间相似度和第二中间相似度,根据正例迭代处理和反例迭代处理对应的第一中间相似度和第二中间相似度和对应的第一中间特征和第二中间特征计算得到正例迭代处理和反例迭代处理对应的初始特征向量模长。
然后,再根据正例迭代处理和反例迭代处理对应的第一中间相似度和第二中间相似度和初始迭代中心更新迭代中心,将更新后的迭代中心作为当前迭代中心,返回将正例迭代处理和反例迭代处理对应的第一中间特征和第二中间特征分别与当前迭代中心进行相似度计算的步骤,直至满足收敛条件,得到正例迭代处理对应的正例特征向量模长和反例迭代处理对应的反例特征向量模长。其中,收敛条件可自定义,自定义可以是迭代次数达到预设迭代次数时,则认为满足收敛条件,还可以是初始特征向量模长不再发生变化时,则可认为满足收敛条件等等。
其中,替代可能度是指候选替代词语集合中各个候选替代词语替代待检测词语的可能度,替代可能度可以是百分制概率,或者分数值等等。在将第一特征和第二特征进行正例迭代处理和反例迭代处理得到正例特征向量模长和反例特征向量模长后,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度。替代可能度包括但不限于正例替代可能度和反例替代可能度,所谓正例替代可能度是指候选替代词语集合中各个候选替代词语能够替代待检测词语的替代可能度,反例替代可能度是指候选替代词语集合中各个候选替代词语无法替代待检测词语的替代可能度。
其中,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度可以以下公式计算得到:
其中,Ppos是指正例替代可能度,Pneg是指反例替代可能度,Vpos是指正例特征向量模长,Vneg是指反例特征向量模长。
步骤208,根据各个候选替代词语对应的替代可能度确定目标替代词语。
其中,目标替代词语是指候选词语集合中能够替代待检测文本中待检测词语的替代词语。具体地,在根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度后,根据预设规则从各个候选替代词语对应的替代可能度确定目标替代词语,其中预设规则可自定义,自定义可以是将替代可能度最高的候选替代词语确定为目标替代词语,或者若各个候选替代词语对应的替代可能度包括正例替代可能度和反例替代可能度,正例替代可能度是指候选替代词语集合中各个候选替代词语能够替代待检测词语的替代可能度,反例替代可能度是指候选替代词语集合中各个候选替代词语无法替代待检测词语的替代可能度,因此可根据正例替代可能度从候选替代词语集合中确定目标替代词语,例如将正例替代可能度最高的候选替代词语确定为目标替代词语等等。
在一个实施例中,各个候选替代词语对应的替代可能度包括正例替代可能度和反例替代可能度,候选替代词语集合包括词语a、词语b和词语c,词语a对应的正例替代可能度为0.7,反例替代可能度为0.3,词语b对应的正例替代可能度为0.8,反例替代可能度为0.2,词语c对应的正例替代可能度为0.4,反例替代可能度为0.6,从各个候选替代词语对应的替代可能度确定目标替代词语的规则为将各个候选替代词语对应的正例替代可能度最高的候选替代词语确定为目标替代词语,则目标替代词语为词语b。
步骤210,根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
其中,插入是指将目标替代词语写入或者放入到待检测文本中待检测词语对应的位置中。具体地,在根据各个候选替代词语对应的替代可能度确定目标替代词语后,确定待检测词语在待检测文本中的位置,将目标替代词语插入到待检测词语所在的位置上,从而得到目标文本。其中,确定待检测词语在待检测文本中的位置可以是先对待检测文本进行分割,得到多个词语,对多个词语进行句法分析,得到句法分析结果,再根据句法分析结果确定待检测词语在待检测文本中的位置。
在一个实施例中,待检测文本为:“小明吃了个小苹果,很甜”,从候选替代词语集合中确定的目标替代词语为:“小苹果”,首先,确定该待检测文本中待检测词语所在的位置为“很甜”前面,再将目标替代词语插入到待检测词语对应的位置上,最后得到目标文本,目标文本为:“小明吃了个小苹果,小苹果很甜”。
上述数据处理方法,代词消解神经网络能够很好地利用待检测文本中的上下文词序列和候选替代词语对应的特征,通过对上下文词序列和候选替代词语对应的特征进行正例迭代处理和反例迭代处理得到对应的正例特征向量模长和反例特征向量模长,最后根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度。由于代词消解神经网络能够很好地融合了上下文词序列和候选替代词语对应的特征,根据上下文词序列和候选替代词语对应的特征计算候选替代词语对应的替代可能度,该特征除了词序列对应的特征还包括词序列对应的字序列的特征,能够很好地解决数据层面上稀疏问题,从而提高候选替代词语集合中各个候选替代词语对应的替代可能度的准确性,进而提高代词消解的准确率。
在一个实施例中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征之后,还包括:代词消解神经网络对第一特征和第二特征进行维度变换和长度缩放处理,得到对应的第一目标特征和第二目标特征。
其中,由于第一特征和第二特征存在着维度多样性和长度范围多样性的问题,而第一特征和第二特征的维度和长度不是统一的,为了后续正例特征向量模长和反例特征向量模长计算的准确性,因此需要在代词消解神经网络对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征之后,对第一特征和第二特征进行维度变化和长度缩放,使得第一特征和第二特征克服维度多样性和长度多样性的问题,保证后续正例特征向量模长和反例特征向量模长计算的准确性。
其中,第一目标特征是指第一特征进行维度变换和长度缩放处理后得到的第一特征,第二目标特征是指第二特征进行维度变换和长度缩放处理后得到的第二特征。具体地,代词消解神经网络在得到第一特征和第二特征后,可通过代词消解神经网络中的特征转换结合子网络对第一特征和第二特征进行维度变换和长度缩放处理,得到第一目标特征和第二目标特征。具体可以是,首先通过线性变换函数分别对第一特征和第二特征进行维度缩放,得到对应中间特征,再通过长度缩放函数对对应的中间特征进行长度缩放,得到第一特征对应的第一目标特征,和第二特征对应的第二目标特征。其中,通过线性变换函数分别对第一特征和第二特征进行维度缩放,得到对应中间特征可以通过以下公式进行维度缩放:
ui=squash(wi*fi+bi)
其中,wi为第一特征或者第二特征对应的预设权重系数,fi为第一特征或者第二特征,bi为训练得到的偏置参数,squash函数为挤压函数,挤压函数是将一个较大的输入值映射到较小的区间0~1的函数,ui为第一特征或者第二特征对应的中间特征。
通过长度缩放函数对对应的中间特征进行长度缩放,得到第一特征对应的第一目标特征,和第二特征对应的第二目标特征可以通过以下公式进行长度缩放:
其中,squash函数为挤压函数,ui为第一特征或者第二特征对应的中间特征。
本实施例中,代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,包括:代词消解神经网络根据第一目标特征和第二目标特征进行正例迭代处理得到对应的正例特征向量模长,根据第一目标特征和第二目标特征进行反例迭代处理得到对应的反例特征向量模长。
其中,在对第一特征和第二特征进行维度变换和长度缩放得到对应的第一目标特征和第二目标特征后,代词消解神经网络根据第一目标特征和第二目标特征进行正例迭代处理得到对应的正例特征向量模长,根据第一目标特征和第二目标特征进行反例迭代处理得到对应的反例特征向量模长。具体过程可参考根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长的步骤,在此不作赘述。
在一个实施例中,如图3所示,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合,包括:
步骤302,对待检测文本进行分割,得到多个词语。
其中,由于待检测文本一般是以句子形式的评论或者文章,因此需要对待检测文本进行分割,得到分割后的多个词语。分割是指将一段文本数据切分为多个词语,分割的方法可以根据实际需要进行设置。例如可以采用基于字符串匹配的分割方法、基于理解的分割方法或者基于统计的分割方法中的一种或多种方法进行分割。还可以采用结巴分割应用工具或者Hanlp分割应用工具等分割工具对待检测文本进行分割。分割后,得到根据待检测文本的词语排列顺序依次排列的词序列。
步骤304,对各个词语进行句法分析,根据句法分析结果确定待检测词语所在的位置。
其中,句法分析是对从分割得到的词语在待检测文本中的语法功能进行分析得到句法分析结果。句法分析结构可以是句法结构,句法结构是指词语与词语之间按照一定的规则组合构成的,比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语,对应的句法结构可以为:主语+谓语+宾语,或者“小明吃了个小苹果,很甜”对应的句法结构可以为:名词短语+动词短语+量词+名词短语+待检测词语+形容词短语。
进一步地,在对各个词语进行句法分析后,可根据句法分析结果确定待检测词语所在的位置,由于待检测词语是指待检测文本中省略部分或者是缺失部分,因此在对各个词语进行句法分析得到句法分析结果时,可根据句法分析结果检测得到待检测词语所在的位置。例如,待检测文本为:“小明吃了个小苹果,很甜”,对其分割得到的多个词语为:“小明”、“吃了”、“个”、“小苹果”、“很甜”,对分割后的词语进行句法分析,得到句法分析结果为:名词短语+动词短语+量词+名词短语+待检测词语+形容词短语,因此可见待检测文本中待检测词语所在的位置为:“很甜”前面的位置,即“很甜”前面省略或者缺失了部分内容。
步骤306,根据待检测词语所在的位置获取上文词序列和下文词序列,根据上文词序列和下文词序列组成上下文词语集合。
其中,待检测词语的上文词序列是以待检测词语所在的位置为中心,由待检测词语所在的位置的前向词语组成的词序列,而下文词序列是以待检测词语所在的位置为中心,由待检测词语所在的位置的后向词语组成的词序列。具体地,在根据句法分析结果确定待检测词语所在的位置后,以待检测词语所在的位置为中心,获取待检测词语所在的位置的前向词语组成的上文词序列,和获取待检测词语所在的位置的后向词语组成的下文词序列,再根据上文词序列和下文词序列组成上下文词语集合。
例如,待检测文本为:“小明吃了个小苹果,很甜,他心情超级美妙”,先对待检测文本进行分割,得到多个词语为:“小明”,“吃了”,“个”,“小苹果”,“很甜”,“他”,“心情”,“超级”和“美妙”。对各个词语进行句法分析,确定待检测文本中的待检测词语所在的位置为“很甜”前面省略的一部分内容,再根据待检测词语所在的位置获取上文词序列为:“小明”,“吃了”,“个”,“小苹果”,下文词序列为:“很甜”,“他”,“心情”,“超级”和“美妙”,由上文词序列和下文词序列组成上下文词语集合。
步骤308,根据句法分析结果获取候选替代词语,根据候选替代词语组成候选替代词语集合。
其中,候选替代词语是用来替代待检测词语的候选词语,可以是名词性短语等。具体地,在对分割后的词语进行句法分析得到句法分析结果后,根据预设筛选规则从句法分析结果中获取候选替代词语,预设筛选规则可自定义,自定义可以是根据句法结构将名词性短语作为候选替代词语,或者是根据句法结构将形容词语作为候选替代词语等等。进一步地,根据预设筛选规则从分割后的多个词语中筛选得到候选替代词语后,根据候选替代词语组成候选替代词语集合。
例如,待检测文本为:“小明吃了个小苹果,很甜,他心情超级美妙”,先对待检测文本进行分割,得到多个词语为:“小明”,“吃了”,“个”,“小苹果”,“很甜”,“他”,“心情”,“超级”和“美妙”。而候选替代词的预设筛选规则为从待检测文本对应的词语中筛选名词性短语作为候选替代词语,因此筛选得到的候选替代词为:“小明”和“小苹果”,由候选替代词语组成候选替代词语集合。
在一个实施例中,如图4所示,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征,包括:
步骤402,代词消解神经网络通过前向特征表示子网络和后向特征表示子网络对上下文词语集合中的词序列进行压缩表示,得到对应的第一前向子特征和第一后向子特征。
其中,前向特征表示子网络和后向特征表示子网络都是用于对词序列进行特征运算,得到对应的前向子特征和后向子特征的。其中,压缩表示是对词序列进行特征运算得到对应的子特征的过程。其中,前向特征表示子网络和后向特征表示子网络可以是2个LSTM神经子网络。
具体地,代词消解神经网络通过前向特征表示子网络对上文词语集合中的上文词序列进行特征提取,得到上文词序列对应的第一前向子特征,同时,通过后向特征表示子网络对上下文词语集合中的下文词序列进行特征提取,得到上文词语序列对应的第一后向子特征。
步骤404,代词消解神经网络对上下文词语集合中的词序列对应的字序列进行压缩表示,得到第一字向量子特征,将第一前向子特征、第一后向子特征和第一字向量子特征组成上下文词语集合对应的第一特征。
其中,代词消解神经网络中还包括用于对词序列对应的字序列进行特征提取的字向量特征表示子网络,代词消解神经网络通过字向量特征表示子网络对上下文词语集合中得到词序列对应的字序列进行特征提取,得到对应的第一字向量子特征。
具体地,代词消解神经网络通过字向量特征表示子网络对上下文词语集合中的上文词序列进行特征提取,得到上文词序列对应的字向量子特征,同时字向量特征表示子网络对上下文词语集合中的下文词序列进行特征提取,得到下文词序列对应的字向量子特征,由上文词序列对应的字向量子特征和下文词序列对应的字向量子特征组成第一字向量子特征。
进一步地,将第一前向子特征、第一后向子特征和第一字向量子特征组成上下文词语集合对应的第一特征。其中,可通过以下表达方式表示:
f0=LSTMforward(zp_pre_words[0:N])
f1=LSTMreverse(zp_pre_words[0:N])
f2=BERT(zp_pre_chars[0:M])
其中,f0为第一前向子特征,f1为第一后向子特征,f2为第一字向量子特征,LSTMforward为前向特征表示子网络,LSTMreverse为后向特征表示子网络,BERT为字向量特征表示子网络,zp_pre_word为上下文词语集合中的词序列,zp_pre_chars为上下文词语集合中的词序列对应的字序列,N代表上下文词语集合中的词序列对应的词数量,M代表上下文词语集合中的词序列对应的字序列的数量。
步骤406,代词消解神经网络通过前向特征表示子网络和后向特征表示子网络对候选替代词语集合中的词序列进行压缩表示,得到对应的第二前向子特征和第二后向子特征。
具体地,代词消解神经网络通过前向特征表示子网络对候选替代词语集合中的候选替代词语进行特征提取,得到候选替代词语对应的第二前向子特征,同时,通过后向特征表示子网络对候选替代词语集合中的候选替代词语进行特征提取,得到候选替代词语对应的第二后向子特征。
步骤408,代词消解神经网络对候选替代词语集合中的词序列对应的字序列进行压缩表示,得到第二字向量子特征,将第二前向子特征、第二后向子特征和第二字向量子特征组成候选替代词语集合对应的第二特征。
具体地,代词消解神经网络包括字向量特征表示子网络,字向量特征表示子网络是用于对词序列对应的字序列进行特征提取的子网络,因此代词消解神经网络通过字向量特征表示子网络对候选替代词语集合中的候选替代词语对应的字序列进行特征提取,得到候选替代词语对应的第二字向量子特征。进一步地,将第二前向子特征、第二后向子特征和第二字向量子特征组成候选替代词语集合对应的第二特征。
在一个实施例中,如图5所示,代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,包括:
步骤502,根据第一特征和第二特征计算得到正例迭代处理的初始正例迭代中心,将初始正例迭代中心作为当前正例迭代中心。
其中,代词消解神经网络在得到第一特征和第二特征后,需要对第一特征和第二特征进行正例迭代处理,首先,需要获取正例迭代处理的初始正例迭代中心,将初始正例迭代中心作为当前正例迭代中心。这里的当前正例迭代中心是正在进行正例迭代处理的参考中心。其中,初始正例迭代中心具体可以根据第一特征和第二特征计算得到的,计算的方式可自定义,自定义可以是对第一特征和第二特征进行加权求和,将加权求和得到的结果作为初始正例迭代中心,或者还可以是对第一特征和第二特征进行均值计算,将均值计算得到的结果作为初始正例迭代中心等等。
在一个实施例中,如图5A所示,图5A示出一个实施例中正例迭代处理或者反例迭代处理的代码实施示意图。在正例迭代处理过程中,图5A示出一个实施例中正例迭代处理的代码实施示意图,如图5A所示,图5中的ui表示第一特征或者第二特征,kj表示当前正例迭代中心。图5A示出的初始正例迭代中心是将第一特征和第二特征进行加权求和,再做tanh函数变换计算得到初始正例迭代中心。具体可以如以下公式计算初始正例迭代中心:
其中,l表示第一特征和第二特征的总数量,ui表示第一特征或者第二特征,kj表示初始正例迭代中心。
步骤504,根据预设正例权重系数对第一特征和第二特征分别进行线性变换,得到对应的第一正例中间特征和第二正例中间特征。
其中,这里的预设正例权重系数是正例迭代处理过程用于对第一特征和第二特征进行线性变换的权重系数,预设正例权重系数是代词消解神经网络训练得到的,即在进行正例迭代处理时,第一特征和第二特征进行线性变化的权重系数都为预设正例权重系数。
具体地,根据预设正例权重系数分别对第一特征和第二特征进行线性变换,得到对应的第一正例中间特征和第二正例中间特征。线性变换具体可以是将预设正例权重系数和第一特征进行乘积计算得到第一正例中间特征,和将预设正例权重系数和第二特征进行乘积计算得到第二正例中间特征。
在一个实施例中,如图5A所示,图5A中的ui表示第一特征或者第二特征,表示ui对应的正例中间特征,若ui为第一特征,则为第一正例中间特征;若ui为第二特征,则为第二正例中间特征,为正例迭代处理时的预设正例权重系数。具体可以如以下公式对第一特征和第二特征分别进行线性变换:
步骤506,将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算,得到对应的第一正例相似度和第二正例相似度。
其中,相似度是综合评定两个事物之间相近程度的一种度量,这里的相似度是评定正例中间特征和当前正例迭代中心之间相近程度的,相似度越高,说明正例中间特征和当前正例迭代中心越相近,反之,则说明正例中间特征和当前正例迭代中心不相近。具体地,在得到第一正例中间特征和第二正例中间特征后,将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算,得到对应的第一正例相似度和第二正例相似度。其中,相似度计算方式可自定义,自定义可以是但不限于欧式距离、余弦相似度等等。
在一个实施例中,如图5A所示,图5A中的,表示ui对应的正例中间特征,kj表示当前正例迭代中心,代表正例相似度,若表示第一正例中间特征,则表示第一正例相似度,若表示第二正例中间特征,则表示第二正例相似度。具体可以如以下公式计算正例相似度:
步骤508,对第一正例相似度和第二正例相似度进行归一化操作,得到对应的第一正例中间相似度和第二正例中间相似度。
其中,归一化操作是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。例如,将正例相似度变为(0,1)之间的小数,或者将正例相似度变为0或1等等,将有量纲的表达式转换为无量纲的表达式。具体可以使用但不限于softmax函数(归一化指数函数)对第一正例相似度和第二正例相似度进行归一化操作。
在一个实施例中,如图5A所示,图5A中的cj为归一化操作后得到的正例中间相似度,为第一正例相似度和第二正例相似度,若为第一正例相似度,则cj为第一正例中间相似度,若为第二正例相似度,则cj为第二正例中间相似度。具体可以如以下公式计算正例中间相似度:
步骤510,根据第一正例中间相似度和对应的第一正例中间特征、第二正例相似度和对应的第二正例中间特征计算得到初始正例特征向量模长。
其中,初始正例特征向量模长是指第一次进行正例迭代得到的正例特征向量模长,具体可以根据第一正例中间相似度和对应的第一正例中间特征、第二正例相似度和对应的第二正例中间特征计算得到初始正例特征向量模长。计算方式可自定义,可以是对第一正例中间相似度和对应的第一正例中间特征、第二正例相似度和对应的第二正例中间特征进行求和,将求和结果作为初始正例特征向量模长,或者是对第一正例中间相似度和对应的第一正例中间特征、第二正例相似度和对应的第二正例中间特征进行均值计算,将均值计算结果作为初始正例特征向量模长等等。
在一个实施例中,如图5A所示,图5A中的vj表示正例特征向量模长,cij表示正例中间相似度,表示正例中间特征,若cij表示第一正例中间相似度,则为对应的第一正例中间特征,若cij表示第二正例中间相似度,则为对应的第二正例中间特征。具体可以如以下公式计算正例特征向量模长:
其中,squash函数为挤压函数,挤压函数是将一个较大的输入值映射到较小的区间0~1的函数,l为第一特征和第二特征的总数量。
步骤512,根据初始正例特征向量模长和初始正例迭代中心计算得到正例更新迭代中心,将正例更新迭代中心作为当前正例迭代中心,返回将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到正例特征向量模长。
其中,由于预先设置了正例迭代处理的收敛条件,因此在计算得到初始正例特征向量模长无法为最终的正例特征向量模长,需不断进行正例迭代处理,直至满足收敛条件,方可输出得到正例特征向量模长。其中,收敛条件可自定义,自定义可以是迭代次数或者是正例特征向量模长满足预设模长值,则可认为满足收敛条件。
具体地,可根据初始正例特征向量模长和初始正例迭代中心计算得到正例更新迭代中心,将正例更新迭代中心作为当前正例迭代中心,返回将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算的步骤不断进行正例迭代处理,直至满足收敛条件,得到正例特征向量模长。其中,根据初始正例特征向量模长和初始正例迭代中心计算得到正例更新迭代中心的计算方式可自定义,自定义可以是对初始正例特征向量模长和初始正例迭代中心进行均值计算,将均值计算结果作为正例更新迭代中心,或者还可以是对初始正例特征向量模长和初始正例迭代中心进行加权求和,将加权求和结果作为正例更新迭代中心等等。
在一个实施例中,如图5A所示,图5A中的第14步为计算正例更新迭代中心,正例更新迭代中心可以是初始正例特征向量模长和初始正例迭代中心的均值计算结果,可以如以下公式计算得到正例更新迭代中心:
进一步地,当正例迭代处理满足收敛条件时,则可输出得到正例特征向量模长。如图5A中的第16步,第16步根据最后一次满足收敛条件得到的正例特征向量模长得到最终的正例特征向量模长,具体可以如以下公式计算得到:
||vj||=||wj*vj||
其中,wj为正例迭代处理对应的预设权中系数,等式左边的vj为最终的正例特征向量模长,等式右边的vj为最后一次满足收敛条件得到的正例特征向量模长。
在一个实施例中,如图6所示,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,包括:
步骤602,根据第一特征和第二特征计算得到反例迭代处理的初始反例迭代中心,将初始反例迭代中心作为当前反例迭代中心。
其中,代词消解神经网络在得到第一特征和第二特征后,需要对第一特征和第二特征进行反例迭代处理,首先,需要获取反例迭代处理的初始反例迭代中心,将初始反例迭代中心作为当前反例迭代中心。这里的当前反例迭代中心是正在进行反例迭代处理的参考中心。其中,初始反例迭代中心具体可以根据第一特征和第二特征计算得到的,计算的方式可自定义,自定义可以是对第一特征和第二特征进行加权求和,将加权求和得到的结果作为初始反例迭代中心,或者还可以是对第一特征和第二特征进行均值计算,将均值计算得到的结果作为初始反例迭代中心等等。
在一个实施例中,如图5A所示,这里的图5A示出一个实施例中反例迭代处理的代码实施示意图。在反例迭代处理过程中,图5A示出一个实施例中反例迭代处理的代码实施示意图,如图5A所示,图5中的ui表示第一特征或者第二特征,kj表示当前反例迭代中心。图5A示出的初始反例迭代中心是将第一特征和第二特征进行加权求和,再做tanh函数变换计算得到初始反例迭代中心。具体可以如以下公式计算初始反例迭代中心:
其中,l表示第一特征和第二特征的总数量,ui表示第一特征或者第二特征,kj表示初始反例迭代中心。
步骤604,根据预设反例权重系数对第一特征和第二特征分别进行线性变换,得到对应的第一反例中间特征和第二反例中间特征。
其中,这里的预设反例权重系数是反例迭代处理过程用于对第一特征和第二特征进行线性变换的权重系数,预设反例权重系数是代词消解神经网络训练得到的,即在进行反例迭代处理时,第一特征和第二特征进行线性变化的权重系数都为预设反例权重系数。
具体地,根据预设反例权重系数分别对第一特征和第二特征进行线性变换,得到对应的第一反例中间特征和第二反例中间特征。线性变换具体可以是将预设反例权重系数和第一特征进行乘积计算得到第一反例中间特征,和将预设反例权重系数和第二特征进行乘积计算得到第二反例中间特征。
在一个实施例中,如图5A所示,图5A中的ui表示第一特征或者第二特征,表示ui对应的反例中间特征,若ui为第一特征,则为第一反例中间特征;若ui为第二特征,则为第二反例中间特征,为反例迭代处理时的预设反例权重系数。具体可以如以下公式对第一特征和第二特征分别进行线性变换:
步骤606,将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算,得到对应的第一反例相似度和第二反例相似度。
其中,相似度是综合评定两个事物之间相近程度的一种度量,这里的相似度是评定反例中间特征和当前反例迭代中心之间相近程度的,相似度越高,说明反例中间特征和当前反例迭代中心越相近,反之,则说明反例中间特征和当前反例迭代中心不相近。具体地,在得到第一反例中间特征和第二反例中间特征后,将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算,得到对应的第一反例相似度和第二反例相似度。其中,相似度计算方式可自定义,自定义可以是但不限于欧式距离、余弦相似度等等。
在一个实施例中,如图5A所示,图5A中的,表示ui对应的反例中间特征,kj表示当前反例迭代中心,代表反例相似度,若表示第一反例中间特征,则表示第一反例相似度,若表示第二反例中间特征,则表示第二反例相似度。具体可以如以下公式计算反例相似度:
步骤608,对第一反例相似度和第二反例相似度进行归一化操作,得到对应的第一反例中间相似度和第二反例中间相似度。
其中,归一化操作是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。例如,将反例相似度变为(0,1)之间的小数,或者将反例相似度变为0或1等等,将有量纲的表达式转换为无量纲的表达式。具体可以使用但不限于softmax函数(归一化指数函数)对第一反例相似度和第二反例相似度进行归一化操作。
在一个实施例中,如图5A所示,图5A中的cj为归一化操作后得到的反例中间相似度,为第一反例相似度和第二反例相似度,若为第一反例相似度,则cj为第一反例中间相似度,若为第二反例相似度,则cj为第二反例中间相似度。具体可以如以下公式计算反例中间相似度:
步骤610,根据第一反例中间相似度和对应的第一反例中间特征、第二反例相似度和对应的第二反例中间特征计算得到初始反例特征向量模长。
其中,初始反例特征向量模长是指第一次进行反例迭代得到的反例特征向量模长,具体可以根据第一反例中间相似度和对应的第一反例中间特征、第二反例相似度和对应的第二反例中间特征计算得到初始反例特征向量模长。计算方式可自定义,可以是对第一反例中间相似度和对应的第一反例中间特征、第二反例相似度和对应的第二反例中间特征进行求和,将求和结果作为初始反例特征向量模长,或者是对第一反例中间相似度和对应的第一反例中间特征、第二反例相似度和对应的第二反例中间特征进行均值计算,将均值计算结果作为初始反例特征向量模长等等。
在一个实施例中,如图5A所示,图5A中的vj表示反例特征向量模长,cij表示反例中间相似度,表示反例中间特征,若cij表示第一反例中间相似度,则为对应的第一反例中间特征,若cij表示第二反例中间相似度,则为对应的第二反例中间特征。具体可以如以下公式计算反例特征向量模长:
其中,squash函数为挤压函数,挤压函数是将一个较大的输入值映射到较小的区间0~1的函数,l为第一特征和第二特征的总数量。
步骤612,根据初始反例特征向量模长和初始反例迭代中心计算得到反例更新迭代中心,将反例更新迭代中心作为当前反例迭代中心,返回将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到反例特征向量模长。
其中,由于预先设置了反例迭代处理的收敛条件,因此在计算得到初始反例特征向量模长无法为最终的反例特征向量模长,需不断进行反例迭代处理,直至满足收敛条件,方可输出得到反例特征向量模长。其中,收敛条件可自定义,自定义可以是迭代次数或者是反例特征向量模长满足预设模长值,则可认为满足收敛条件。
具体地,可根据初始反例特征向量模长和初始反例迭代中心计算得到反例更新迭代中心,将反例更新迭代中心作为当前反例迭代中心,返回将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算的步骤不断进行反例迭代处理,直至满足收敛条件,得到反例特征向量模长。其中,根据初始反例特征向量模长和初始反例迭代中心计算得到反例更新迭代中心的计算方式可自定义,自定义可以是对初始反例特征向量模长和初始反例迭代中心进行均值计算,将均值计算结果作为反例更新迭代中心,或者还可以是对初始反例特征向量模长和初始反例迭代中心进行加权求和,将加权求和结果作为反例更新迭代中心等等。
在一个实施例中,如图5A所示,图5A中的第14步为计算反例更新迭代中心,反例更新迭代中心可以是初始反例特征向量模长和初始反例迭代中心的均值计算结果,可以如以下公式计算得到反例更新迭代中心:
进一步地,当反例迭代处理满足收敛条件时,则可输出得到反例特征向量模长。如图5A中的第16步,第16步根据最后一次满足收敛条件得到的反例特征向量模长得到最终的反例特征向量模长,具体可以如以下公式计算得到:
||vj||=||wj*vj||
其中,wj为反例迭代处理对应的预设权中系数,等式左边的vj为最终的反例特征向量模长,等式右边的vj为最后一次满足收敛条件得到的反例特征向量模长。
在一个实施例中,如图7所示,提供了一种代词消解神经网络训练方法。本实施例主要以该方法应用于上述图1中的终端110或服务器120来举例说明。参照图7,该代词消解神经网络训练方法具体包括如下步骤:
步骤702,获取训练文本,训练文本存在对应的标准训练文本标签。
其中,训练文本是需要对代词消解神经网络进行训练的输入数据,训练文本可以是为一个或多个。训练文本可以是实时获取的,也可以是预先存储的。训练文本存在对应的标准训练文本标签,由于训练文本中包括待检测词语,因此训练文本存在对应的标准训练文本标签为训练文本中的待检测词语的实际指代词语。
步骤704,确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合。
其中,在将训练文本输入至代词消解神经网络进行训练之前,需要对训练文本进行预处理,具体可以是确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合。具体地,先对训练文本进行分割,得到多个词语,对多个词语进行句法分析,确定待检测词语所在的位置,根据待检测词语所在的位置获取训练前向词语和训练后向词语,由获取到的训练前向词语组成训练上文词序列,后向词语组成训练下文词序列,再根据训练上文词序列和训练下文词序列组成训练上下文词语集合。
进一步地,根据句法分析结果获取训练候选替代词语,由获取到的训练候选替代词语组成训练候选替代词语集合。
步骤706,将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征。
其中,初始代词消极神经网络是未进行训练的代词消解神经网络,初始代词消解神经网络可以是胶囊网络(Capsule Network)、向量机(Support Vector Machine,SVM)分类器模型、神经网络(Artificial Neural Network,ANN)分类器模型、逻辑回归算法(logistic Regression,LR)分类器模型等各种进行分类的模型。
具体地,将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络可通过特征表示子网络对训练上下文词语集合进行特征提取,得到训练上下文词语集合对应的第一训练特征,通过特征表示子网络对训练候选替代词语集合进行特征提取得到训练候选替代词语集合对应的第二训练特征。
步骤708,初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度。
其中,正例迭代处理是指对特征进行重复迭代计算得到正例训练特征向量模长的过程,而正例训练特征向量模长是指正例训练特征向量的长度,正例训练特征向量是正例替代可能度对应的特征向量,正例替代可能度是指训练文本中待检测词语与各个候选替代词语相互匹配的可能度。正例迭代处理可以是通过自定义动态路由算法迭代计算得到正例训练特征向量模长,自定义动态路由算法可以用于正例迭代处理和反例迭代处理,由于正例迭代处理和反例迭代处理对应的预设训练权重系数不同,因此将第一训练特征和第二训练特征通过自定义动态路由算法计算可分别得到正例训练特征向量模长和反例训练特征向量模长。
而反例迭代处理是指对特征进行重复迭代计算得到反例训练特征向量模长的过程,反例训练特征向量模长是指反例训练特征向量的长度,反例训练特征向量是反例替代可能度对应的特征向量,反例替代可能度是指训练文本中待检测词语与各个候选替代词语相互不匹配的可能度。
具体地,通过自定义动态路由算法计算正例训练特征向量模长和反例训练特征向量模长可以是根据第一训练特征和第二训练特征计算得到初始迭代中心,将初始迭代中心分别作为正例迭代处理和反例迭代处理的初始迭代中心,并将初始迭代中心作为当前迭代中心,再根据正例迭代处理和反例迭代处理对应的预设训练权重系数对第一训练特征和第二训练特征进行线性变换,得到正例迭代处理和反例迭代处理对应的第一中间训练特征和第二中间训练特征。再将正例迭代处理和反例迭代处理对应的第一中间训练特征和第二中间训练特征分别与当前迭代中心进行相似度计算,得到正例迭代处理和反例迭代处理对应的第一训练相似度和第二训练相似度,紧接着对正例迭代处理和反例迭代处理对应的第一训练相似度和第二训练相似度进行归一化,得到正例迭代处理和反例迭代处理对应的第一中间训练相似度和第二中间训练相似度,根据正例迭代处理和反例迭代处理对应的第一中间训练相似度和第二中间训练相似度和对应的第一中间训练特征和第二中间训练特征计算得到正例迭代处理和反例迭代处理对应的初始训练特征向量模长。
然后,再根据正例迭代处理和反例迭代处理对应的第一中间训练相似度和第二中间训练相似度和初始迭代中心更新迭代中心,将更新后的迭代中心作为当前迭代中心,返回将正例迭代处理和反例迭代处理对应的第一中间训练特征和第二中间训练特征分别与当前迭代中心进行相似度计算的步骤,直至满足收敛条件,得到正例迭代处理对应的正例训练特征向量模长和反例迭代处理对应的反例训练特征向量模长。
其中,在将第一训练特征和第二训练特征进行正例迭代处理和反例迭代处理得到正例训练特征向量模长和反例训练特征向量模长后,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度。训练替代可能度包括但不限于正例训练替代可能度和反例训练替代可能度,所谓正例训练替代可能度是指训练候选替代词语集合中各个训练候选替代词语能够替代待检测词语的替代可能度,反例替代可能度是指训练候选替代词语集合中各个训练候选替代词语无法替代待检测词语的替代可能度。
其中,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个候选替代词语对应的训练替代可能度可以以下公式计算得到:
其中,Ppos是指正例训练替代可能度,Pneg是指反例训练替代可能度,Vpos是指正例训练特征向量模长,Vneg是指反例训练特征向量模长。
步骤710,根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值。
其中,训练损失值是用来调整初始代词消解神经网络模型参数的,具体可以根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值。其中,计算训练损失值的计算方式自定义,自定义可以是根据训练替代可能度中的正例训练替代可能度和对应的标准训练文本标签、反例训练替代可能度和对应的标准训练文本标签计算得到的。例如,计算训练损失值可以以下公式计算得到:
其中,Ppos是指正例训练替代可能度,Pneg是指反例训练替代可能度,Vpos是指正例训练特征向量模长,Vneg是指反例训练特征向量模长,J(θ)为训练损失值,yi为训练样本的标准训练文本标签。
步骤712,根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
其中,在计算得到训练损失值后,根据训练损失值对初始代词消解神经网络的模型参数不断进行调整,直至满足收敛条件,得到代词消解神经网络。其中,收敛条件可自定义,自定义可以是训练损失值不再发生变化,或者调整次数达到预设次数等等,则可认为初始代词消解神经网络满足收敛条件,从而得到代词消解神经网络。
上述代词消解神经网络训练方法,代词消解神经网络在训练过程时,很好地利用训练文本中的上下文词语集合和候选替代词语集合对应的特征,很好地将上下文词语集合和候选替代词语集合对应的特征进行融合,进而提高代词消解神经网络的输出准确度。
在一个实施例中,代词消解神经网络训练方法还包括:获取抗干扰特征集合;将抗干扰特征集合中的抗干扰特征输入至初始代词消解神经网络中,初始代词消解神经网络根据第一训练特征、第二训练特征和抗干扰特征生成额外训练特征。
其中,抗干扰特征集合是由初始代词消解神经网络训练时用于防止其他特征干扰的特征组成的,抗干扰特征集合输入至初始代词消解神经网络训练,可提高代词消解神经网络的输出准确性。其中,抗干扰特征集合可以是由一组人工设计的综合性特征组成的。具体地,获取到抗干扰特征集合后,将抗干扰特征集合输入至初始代词消解神经网络中,初始代词消解神经网络根据第一训练特征、第二训练特征和抗干扰特征生成额外训练特征。其中,初始代词消解神经网络对第一训练特征、第二训练特征和抗干扰特征生成额外训练特征具体过程可以参考图2中步骤204的描述,在此不做赘述。
本实施例中,初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,包括:初始代词消解神经网络根据第一训练特征、第二训练特征、抗干扰特征和额外训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征、第二训练特征、抗干扰特征和额外训练特征进行反例迭代处理得到对应的反例训练特征向量模长。
具体地,初始代词消解神经网络对第一训练特征、第二训练特征和抗干扰特征生成额外训练特征后,初始代词消解神经网络根据第一训练特征、第二训练特征、抗干扰特征和额外训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征、第二训练特征、抗干扰特征和额外训练特征进行反例迭代处理得到对应的反例训练特征向量模长。具体可参考图2中步骤206的描述,在此不做赘述。
在一个实施例中,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度,包括:根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的正例训练替代可能度和反例训练替代可能度。
其中,正例训练替代可能度是指训练文本中待检测词语与各个训练候选替代词语相互匹配的可能度,而反例训练可能度是指训练文本中待检测词语与各个训练候选替代词语不相互匹配的可能度。具体地,可根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的正例训练替代可能度和反例训练替代可能度。计算方式可以自定义,自定义可以是自定义动态路由算法,自定义动态路由算法可参考图2中的步骤206的描述,再次不作赘述。
在一个实施例中,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的正例训练替代可能度和反例训练替代可能度具体可以如以下公式计算得到:
其中,Ppos是指正例训练替代可能度,Pneg是指反例训练替代可能度,Vpos是指正例训练特征向量模长,Vneg是指反例训练特征向量模长。
本实施例中,根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值,包括:根据各个训练候选替代词语对应的正例训练替代可能度和对应的标准训练文本标签,反例训练替代可能度和对应的标准训练文本标签计算得到训练损失值。
具体地,可根据各个训练候选替代词语对应的正例训练替代可能度和对应的标准训练文本标签,反例训练替代可能度和对应的标准训练文本标签计算得到训练损失值。其中,计算训练损失值可以以以下公式计算得到:
其中,Ppos是指正例训练替代可能度,Pneg是指反例训练替代可能度,Vpos是指正例训练特征向量模长,Vneg是指反例训练特征向量模长,J(θ)为训练损失值,yi为训练样本的标准训练文本标签。
在一个具体的实施例中,提供了一种数据处理方法以及代词消解神经网络训练方法,具体包括以下步骤:
1、获取训练文本,训练文本存在对应的标准训练文本标签。
2、确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合。
3、将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征。
4、初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度。
5、根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值。
6、根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
7、获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合。
7-1、对待检测文本进行分割,得到多个词语。
7-2、对各个词语进行句法分析,根据句法分析结果确定待检测词语所在的位置。
7-3、根据待检测词语所在的位置获取上文词序列和下文词序列,根据上文词序列和下文词序列组成上下文词语集合。
7-4、根据句法分析结果获取候选替代词语,根据候选替代词语组成候选替代词语集合。
8、将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征。
8-1、代词消解神经网络通过前向特征表示子网络和后向特征表示子网络对上下文词语集合中的词序列进行压缩表示,得到对应的第一前向子特征和第一后向子特征。
8-2、代词消解神经网络对上下文词语集合中的词序列对应的字序列进行压缩表示,得到第一字向量子特征,将第一前向子特征、第一后向子特征和第一字向量子特征组成上下文词语集合对应的第一特征。
8-3、代词消解神经网络通过前向特征表示子网络和后向特征表示子网络对候选替代词语集合中的词序列进行压缩表示,得到对应的第二前向子特征和第二后向子特征。
8-4、代词消解神经网络对候选替代词语集合中的词序列对应的字序列进行压缩表示,得到第二字向量子特征,将第二前向子特征、第二后向子特征和第二字向量子特征组成候选替代词语集合对应的第二特征。
9、代词消解神经网络对第一特征和第二特征进行维度变换和长度缩放处理,得到对应的第一目标特征和第二目标特征。
10、代词消解神经网络根据第一目标特征和第二目标特征进行正例迭代处理得到对应的正例特征向量模长,根据第一目标特征和第二目标特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度。
10-1、根据第一特征和第二特征计算得到正例迭代处理的初始正例迭代中心,将初始正例迭代中心作为当前正例迭代中心。
10-2、根据预设正例权重系数对第一特征和第二特征分别进行线性变换,得到对应的第一正例中间特征和第二正例中间特征。
10-3、将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算,得到对应的第一正例相似度和第二正例相似度。
10-4、对第一正例相似度和第二正例相似度进行归一化操作,得到对应的第一正例中间相似度和第二正例中间相似度。
10-5、根据第一正例中间相似度和对应的第一正例中间特征、第二正例相似度和对应的第二正例中间特征计算得到初始正例特征向量模长。
10-6、根据初始正例特征向量模长和初始正例迭代中心计算得到正例更新迭代中心,将正例更新迭代中心作为当前正例迭代中心,返回将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到正例特征向量模长。
10-7、根据第一特征和第二特征计算得到反例迭代处理的初始反例迭代中心,将初始反例迭代中心作为当前反例迭代中心。
10-8、根据预设反例权重系数对第一特征和第二特征分别进行线性变换,得到对应的第一反例中间特征和第二反例中间特征。
10-9、将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算,得到对应的第一反例相似度和第二反例相似度。
10-10、对第一反例相似度和第二反例相似度进行归一化操作,得到对应的第一反例中间相似度和第二反例中间相似度。
10-11、根据第一反例中间相似度和对应的第一反例中间特征、第二反例相似度和对应的第二反例中间特征计算得到初始反例特征向量模长。
10-12、根据初始反例特征向量模长和初始反例迭代中心计算得到反例更新迭代中心,将反例更新迭代中心作为当前反例迭代中心,返回将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到反例特征向量模长。
11、根据各个候选替代词语对应的替代可能度确定目标替代词语。
12、根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
在一个中文零指代消解的应用场景中,如图7A所示,图7A示出一个实施例中代词消解神经网络的网络结构示意图,代词消解神经网络包括:特征表示层(FeatureRepresentation),特征转换和结合层(Feature Transformation&Combination),特征聚合层(Feature Clustering),分类层(Classification)。
具体地,获取待检测文本,对待检测文本进行预处理,得到待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合,将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络的特征表示层是对上下文词语集合和候选替代词语集合进行抽取特征,得到对应的第一特征和第二特征。具体特征表示层使用双向的长短时神经子网络对上下文词语集合和候选替代词语集合中的词序列进行表示,使用字向量特征表示子网络BERT对上下文词语集合和候选替代词语集合中的词序列对应的字序列进行表示,表示完毕后,上下文词语集合和候选替代词语集合可以分别得到3组特征,即第一特征包括2组上下文词语集合中词序列对应的特征f0、f1,和1组词序列对应的字序列对应的特征f2,第二特征包括2组候选替代词语集合中词序列对应的特征f0、f1,和1组词序列对应的字序列对应的特征f2。
紧接着,特征转换和结合层是对特征表示层提取到的特征进行维度统一和长度缩放。由于特征表示层输出的向量存在着维度多样性和长度范围多样性的问题,需对各个特征进行维度变换和长度缩放。具体可使用线性变换函数来对特征进行维度缩放,使用长度缩放函数(squash)来对特征进行长度缩放,最后得到对应的第一目标特征和第二目标特征。
然后,特征聚合层对各种特征进行迭代式的权重聚合。具体地,代词消解神经网络通过特征聚合层对根据第一目标特征和第二目标特征进行正例迭代处理得到对应的正例特征向量模长,根据第一目标特征和第二目标特征进行反例迭代处理得到对应的反例特征向量模长。即,将特征转换和结合层输出的多个特征输入至特征聚合层,特征聚合层通过计算得到两个向量模长为正例特征向量模长和反例特征向量模长。
然后,代词消解神经网络将特征聚合层输出的正例特征向量模长和反例特征向量模长输入至分类层,分类层根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代概率。紧接着,根据候选替代词语集合中各个候选替代词语对应的替代概率确定目标替代词语,例如将替代概率最大的候选替代词语作为目标替代词语,最后将目标替代词语插入到待检测文本中待检测词语对应的位置,得到目标文本。
例如,待检测文本为:“小明今天吃了个苹果,很甜”,该待检测文本的待检测词语的位置在“很甜”的前面,即“很甜”前面省略了部分内容,候选替代词语为:“小明”和“苹果”,通过代词消解神经网络计算得到“小明”与待检测词语的替代概率为0.4,而“苹果”与待检测词语的替代概率为0.9,因此确定目标替代词语为:“苹果”。将“苹果”插入到待检测文本中的待检测词语对应的位置,得到目标文本为:“小明今天吃了个苹果,苹果很甜”。
其中,代词消解神经网络的训练方法与应用方法类似,输入数据为带有标准训练文本标签的训练文本。但是在训练过程中,为了提高代词消解神经网络的应用时的准确性,需要加入抗干扰特征集合,将抗干扰特征集合中的抗干扰特征输入至代词消解神经网络中进行训练。代词消解神经网络的训练损失值是通过训练过程得到的各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算得到的。最后,根据训练损失值对代词消解神经网络进行训练,不断调整模型参数,直至满足收敛条件得到最终的代词消解神经网络。
在一个实施例中,如图7B所示,图7B示出一个实施例中代词消解神经网络的验证结果对比示意图,如图7B所示,图7B中ZP-CapsNet所在的最后一行是本申请的代词消解神经网络在六个测试数据集上对应的验证结果,其他行(从第一行zhao and Ng至倒数第二行Yin et al)为比对代词消解神经网络在六个测试数据集上对应的验证结果。其中,六个测试数据集包括广播新闻BN(Broadcast News)、通讯社NW(Newswires)、广播对话BC(Broadcast Conversations)、电话对话TC(Telephone Conversation)、网络博客NW(WebBlogs)和杂志MZ(Magazines),验证结果为根据准确率和召回率计算得到的中间值。而图7B中各个代词消解神经网络的Overall是根据六个测试数据集的验证结果计算得到的综合值。可以从图7B中的Overall得知,本申请的代词消解神经网络在实际代词消解应用中的综合效果比其他的比对代词消解神经网络的综合效果更好。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,一种数据处理装置800,该装置包括:
待检测文本获取模块802,用于获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合。
特征提取模块804,用于将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征。
迭代处理模块806,用于代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度。
目标替代词语确定模块808,用于根据各个候选替代词语对应的替代可能度确定目标替代词语。
目标替代词语插入模块810,用于根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
在一个实施例中,如图9所示,待检测文本获取模块802包括:
待检测文本分割单元802a,用于对待检测文本进行分割,得到多个词语。
句法分析单元802b,用于对各个词语进行句法分析,根据句法分析结果确定待检测词语所在的位置。
词序列获取单元802c,用于根据待检测词语所在的位置获取上文词序列和下文词序列,根据上文词序列和下文词序列组成上下文词语集合。
候选替代词语获取单元802d,用于根据句法分析结果获取候选替代词语,根据候选替代词语组成候选替代词语集合。
在一个实施例中,数据处理装置800还用于代词消解神经网络对第一特征和第二特征进行维度变换和长度缩放处理,得到对应的第一目标特征和第二目标特征,代词消解神经网络根据第一目标特征和第二目标特征进行正例迭代处理得到对应的正例特征向量模长,根据第一目标特征和第二目标特征进行反例迭代处理得到对应的反例特征向量模长。
在一个实施例中,特征提取模块804还用于代词消解神经网络通过前向特征表示子网络和后向特征表示子网络对上下文词语集合中的词序列进行压缩表示,得到对应的第一前向子特征和第一后向子特征;代词消解神经网络对上下文词语集合中的词序列对应的字序列进行压缩表示,得到第一字向量子特征,将第一前向子特征、第一后向子特征和第一字向量子特征组成上下文词语集合对应的第一特征;代词消解神经网络通过前向特征表示子网络和后向特征表示子网络对候选替代词语集合中的词序列进行压缩表示,得到对应的第二前向子特征和第二后向子特征;代词消解神经网络对候选替代词语集合中的词序列对应的字序列进行压缩表示,得到第二字向量子特征,将第二前向子特征、第二后向子特征和第二字向量子特征组成候选替代词语集合对应的第二特征。
在一个实施例中,迭代处理模块806还用于根据第一特征和第二特征计算得到正例迭代处理的初始正例迭代中心,将初始正例迭代中心作为当前正例迭代中心;根据预设正例权重系数对第一特征和第二特征分别进行线性变换,得到对应的第一正例中间特征和第二正例中间特征;将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算,得到对应的第一正例相似度和第二正例相似度;对第一正例相似度和第二正例相似度进行归一化操作,得到对应的第一正例中间相似度和第二正例中间相似度;根据第一正例中间相似度和对应的第一正例中间特征、第二正例相似度和对应的第二正例中间特征计算得到初始正例特征向量模长;根据初始正例特征向量模长和初始正例迭代中心计算得到正例更新迭代中心,将正例更新迭代中心作为当前正例迭代中心,返回将第一正例中间特征和第二正例中间特征分别与当前正例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到正例特征向量模长。
在另一个实施例中,迭代处理模块806还用于根据第一特征和第二特征计算得到反例迭代处理的初始反例迭代中心,将初始反例迭代中心作为当前反例迭代中心;根据预设反例权重系数对第一特征和第二特征分别进行线性变换,得到对应的第一反例中间特征和第二反例中间特征;将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算,得到对应的第一反例相似度和第二反例相似度;对第一反例相似度和第二反例相似度进行归一化操作,得到对应的第一反例中间相似度和第二反例中间相似度;根据第一反例中间相似度和对应的第一反例中间特征、第二反例相似度和对应的第二反例中间特征计算得到初始反例特征向量模长;根据初始反例特征向量模长和初始反例迭代中心计算得到反例更新迭代中心,将反例更新迭代中心作为当前反例迭代中心,返回将第一反例中间特征和第二反例中间特征分别与当前反例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到反例特征向量模长。
在一个实施例中,如图10所示,提供一种代词消解神经网络训练装置1000,该装置包括:
训练文本获取模块1002,用于获取训练文本,训练文本存在对应的标准训练文本标签。
训练文本处理模块1004,用于确定训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合。
训练特征表示模块1006,用于将训练上下文词语集合和训练候选替代词语集合输入至初始代词消解神经网络中,初始代词消解神经网络分别对训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征。
训练特征迭代处理模块1008,用于初始代词消解神经网络根据第一训练特征和第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度。
训练损失值计算模块1010,用于根据各个训练候选替代词语对应的训练替代可能度和对应的标准训练文本标签计算训练损失值。
神经网络训练模块1012,用于根据训练损失值对初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
在一个实施例中,训练文本获取模块还用于获取抗干扰特征集合;训练特征迭代处理模块还用于将抗干扰特征集合中的抗干扰特征输入至初始代词消解神经网络中,初始代词消解神经网络根据第一训练特征、第二训练特征和抗干扰特征生成额外训练特征,初始代词消解神经网络根据第一训练特征、第二训练特征、抗干扰特征和额外训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据第一训练特征、第二训练特征、抗干扰特征和额外训练特征进行反例迭代处理得到对应的反例训练特征向量模长。
在一个实施例中,训练特征迭代处理模块1008还用于根据正例训练特征向量模长和反例训练特征向量模长计算得到训练候选替代词语集合中各个训练候选替代词语对应的正例训练替代可能度和反例训练替代可能度;训练损失值计算模块1010还用于根据各个训练候选替代词语对应的正例训练替代可能度和对应的标准训练文本标签,反例训练替代可能度和对应的标准训练文本标签计算得到训练损失值。
图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图11所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现数据处理方法或者代词消解神经网络训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行数据处理方法或者代词消解神经网络训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。应当说明的是,若计算机设备为图1中的服务器120,则计算机设备不包括显示屏。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的数据处理装置或者代词消解神经网络训练装置可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据处理装置或者代词消解神经网络训练装置的各个程序模块,比如,图8所示的待检测文本获取模块、特征提取模块、迭代处理模块、目标替代词语确定模块和目标替代词语插入模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。又如图10所示的训练文本获取模块、训练文本处理模块、训练特征表示模块、训练特征迭代处理模块、训练损失值计算模块以及神经网络训练模块。
例如,图11所示的计算机设备可以通过如图8所示的数据处理装置中的待检测文本获取模块执行获取待检测文本,确定待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合;特征提取模块执行将上下文词语集合和候选替代词语集合输入至代词消解神经网络中,代词消解神经网络分别对上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征;迭代处理模块执行代词消解神经网络根据第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据正例特征向量模长和反例特征向量模长计算得到候选替代词语集合中各个候选替代词语对应的替代可能度;目标替代词语确定模块执行根据各个候选替代词语对应的替代可能度确定目标替代词语;目标替代词语插入模块执行根据待检测词语对应的位置将目标替代词语插入待检测文本得到目标文本。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法或者代词消解神经网络训练方法的步骤。此处数据处理方法或者代词消解神经网络训练训练方法的步骤可以是上述各个实施例的数据处理方法或者代词消解神经网络训练训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法或者代词消解神经网络训练训练方法的步骤。此处数据处理方法或者代词消解神经网络训练训练方法的步骤可以是上述各个实施例的数据处理方法或者代词消解神经网络训练训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种数据处理方法,包括:
获取待检测文本,确定所述待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合;
将所述上下文词语集合和候选替代词语集合输入至代词消解神经网络中,所述代词消解神经网络分别对所述上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征;
所述代词消解神经网络根据所述第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据所述第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据所述正例特征向量模长和所述反例特征向量模长计算得到所述候选替代词语集合中各个候选替代词语对应的替代可能度;
根据所述各个候选替代词语对应的替代可能度确定目标替代词语;
根据所述待检测词语对应的位置将所述目标替代词语插入所述待检测文本得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述代词消解神经网络分别对所述上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征之后,还包括:
所述代词消解神经网络对所述第一特征和所述第二特征进行维度变换和长度缩放处理,得到对应的第一目标特征和第二目标特征;
所述代词消解神经网络根据所述第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据所述第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,包括:
所述代词消解神经网络根据所述第一目标特征和所述第二目标特征进行正例迭代处理得到对应的正例特征向量模长,根据所述第一目标特征和第二目标特征进行反例迭代处理得到对应的反例特征向量模长。
3.根据权利要求1所述的方法,其特征在于,所述确定所述待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合,包括:
对所述待检测文本进行分割,得到多个词语;
对各个所述词语进行句法分析,根据句法分析结果确定所述待检测词语所在的位置;
根据所述待检测词语所在的位置获取上文词序列和下文词序列,根据所述上文词序列和下文词序列组成上下文词语集合;
根据所述句法分析结果获取候选替代词语,根据所述候选替代词语组成候选替代词语集合。
4.根据权利要求3所述的方法,其特征在于,所述代词消解神经网络分别对所述上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征,包括:
所述代词消解神经网络通过前向特征表示子网络和后向特征表示子网络对所述上下文词语集合中的词序列进行压缩表示,得到对应的第一前向子特征和第一后向子特征;
所述代词消解神经网络对所述上下文词语集合中的所述词序列对应的字序列进行压缩表示,得到第一字向量子特征,将所述第一前向子特征、所述第一后向子特征和所述第一字向量子特征组成所述上下文词语集合对应的第一特征;
所述代词消解神经网络通过所述前向特征表示子网络和所述后向特征表示子网络对所述候选替代词语集合中的词序列进行压缩表示,得到对应的第二前向子特征和第二后向子特征;
所述代词消解神经网络对所述候选替代词语集合中的所述词序列对应的字序列进行压缩表示,得到第二字向量子特征,将所述第二前向子特征、所述第二后向子特征和所述第二字向量子特征组成所述候选替代词语集合对应的第二特征。
5.根据权利要求1所述的方法,其特征在于,所述代词消解神经网络根据所述第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,包括:
根据所述第一特征和所述第二特征计算得到正例迭代处理的初始正例迭代中心,将所述初始正例迭代中心作为当前正例迭代中心;
根据预设正例权重系数对所述第一特征和所述第二特征分别进行线性变换,得到对应的第一正例中间特征和第二正例中间特征;
将所述第一正例中间特征和所述第二正例中间特征分别与所述当前正例迭代中心进行相似度计算,得到对应的第一正例相似度和第二正例相似度;
对所述第一正例相似度和所述第二正例相似度进行归一化操作,得到对应的第一正例中间相似度和第二正例中间相似度;
根据所述第一正例中间相似度和对应的第一正例中间特征、所述第二正例相似度和对应的第二正例中间特征计算得到初始正例特征向量模长;
根据所述初始正例特征向量模长和所述初始正例迭代中心计算得到正例更新迭代中心,将所述正例更新迭代中心作为所述当前正例迭代中心,返回所述将所述第一正例中间特征和所述第二正例中间特征分别与所述当前正例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到所述正例特征向量模长。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,包括:
根据所述第一特征和所述第二特征计算得到反例迭代处理的初始反例迭代中心,将所述初始反例迭代中心作为当前反例迭代中心;
根据预设反例权重系数对所述第一特征和所述第二特征分别进行线性变换,得到对应的第一反例中间特征和第二反例中间特征;
将所述第一反例中间特征和所述第二反例中间特征分别与所述当前反例迭代中心进行相似度计算,得到对应的第一反例相似度和第二反例相似度;
对所述第一反例相似度和所述第二反例相似度进行归一化操作,得到对应的第一反例中间相似度和第二反例中间相似度;
根据所述第一反例中间相似度和对应的第一反例中间特征、所述第二反例相似度和对应的第二反例中间特征计算得到初始反例特征向量模长;
根据所述初始反例特征向量模长和所述初始反例迭代中心计算得到反例更新迭代中心,将所述反例更新迭代中心作为所述当前反例迭代中心,返回所述将所述第一反例中间特征和所述第二反例中间特征分别与所述当前反例迭代中心进行相似度计算的步骤,直至满足收敛条件,得到所述反例特征向量模长。
7.一种代词消解神经网络训练方法,其特征在于,所述方法包括:
获取训练文本,所述训练文本存在对应的标准训练文本标签;
确定所述训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合;
将所述训练上下文词语集合和所述训练候选替代词语集合输入至初始代词消解神经网络中,所述初始代词消解神经网络分别对所述训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征;
所述初始代词消解神经网络根据所述第一训练特征和所述第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据所述第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据所述正例训练特征向量模长和所述反例训练特征向量模长计算得到所述训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度;
根据所述各个训练候选替代词语对应的训练替代可能度和对应的所述标准训练文本标签计算训练损失值;
根据所述训练损失值对所述初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取抗干扰特征集合;
将所述抗干扰特征集合中的抗干扰特征输入至所述初始代词消解神经网络中,所述初始代词消解神经网络根据所述第一训练特征、所述第二训练特征和所述抗干扰特征生成额外训练特征;
所述初始代词消解神经网络根据所述第一训练特征和所述第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据所述第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,包括:
所述初始代词消解神经网络根据所述第一训练特征、所述第二训练特征、所述抗干扰特征和所述额外训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据所述第一训练特征、所述第二训练特征、所述抗干扰特征和所述额外训练特征进行反例迭代处理得到对应的反例训练特征向量模长。
9.根据权利要求7所述的方法,其特征在于,所述根据所述正例训练特征向量模长和所述反例训练特征向量模长计算得到所述训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度,包括:
根据所述正例训练特征向量模长和所述反例训练特征向量模长计算得到所述训练候选替代词语集合中各个训练候选替代词语对应的正例训练替代可能度和反例训练替代可能度;
所述根据所述各个训练候选替代词语对应的训练替代可能度和对应的所述标准训练文本标签计算训练损失值,包括:
根据各个训练候选替代词语对应的正例训练替代可能度和对应的标准训练文本标签,所述反例训练替代可能度和对应的标准训练文本标签计算得到训练损失值。
10.一种数据处理装置,其特征在于,所述装置包括:
待检测文本获取模块,用于获取待检测文本,确定所述待检测文本中待检测词语对应的上下文词语集合和候选替代词语集合;
特征提取模块,用于将所述上下文词语集合和候选替代词语集合输入至代词消解神经网络中,所述代词消解神经网络分别对所述上下文词语集合和候选替代词语集合进行特征提取得到对应的第一特征和第二特征;
迭代处理模块,用于所述代词消解神经网络根据所述第一特征和第二特征进行正例迭代处理得到对应的正例特征向量模长,根据所述第一特征和第二特征进行反例迭代处理得到对应的反例特征向量模长,根据所述正例特征向量模长和所述反例特征向量模长计算得到所述候选替代词语集合中各个候选替代词语对应的替代可能度;
目标替代词语确定模块,用于根据所述各个候选替代词语对应的替代可能度确定目标替代词语;
目标替代词语插入模块,用于根据所述待检测词语对应的位置将所述目标替代词语插入所述待检测文本得到目标文本。
11.根据权利要求10所述的装置,其特征在于,所述待检测文本获取模块包括:
待检测文本分割单元,用于对所述待检测文本进行分割,得到多个词语;
句法分析单元,用于对各个所述词语进行句法分析,根据句法分析结果确定所述待检测词语所在的位置;
词序列获取单元,用于根据所述待检测词语所在的位置获取上文词序列和下文词序列,根据所述上文词序列和下文词序列组成上下文词语集合;
候选替代词语获取单元,用于根据所述句法分析结果获取候选替代词语,根据所述候选替代词语组成候选替代词语集合。
12.一种代词消解神经网络训练装置,其特征在于,所述装置包括:
训练文本获取模块,用于获取训练文本,所述训练文本存在对应的标准训练文本标签;
训练文本处理模块,用于确定所述训练文本中待检测词语对应的训练上下文词语集合和训练候选替代词语集合;
训练特征表示模块,用于将所述训练上下文词语集合和所述训练候选替代词语集合输入至初始代词消解神经网络中,所述初始代词消解神经网络分别对所述训练上下文词语集合和训练候选替代词语集合进行特征提取得到对应的第一训练特征和第二训练特征;
训练特征迭代处理模块,用于所述初始代词消解神经网络根据所述第一训练特征和所述第二训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据所述第一训练特征和第二训练特征进行反例迭代处理得到对应的反例训练特征向量模长,根据所述正例训练特征向量模长和所述反例训练特征向量模长计算得到所述训练候选替代词语集合中各个训练候选替代词语对应的训练替代可能度;
训练损失值计算模块,用于根据所述各个训练候选替代词语对应的训练替代可能度和对应的所述标准训练文本标签计算训练损失值;
神经网络训练模块,用于根据所述训练损失值对所述初始代词消解神经网络的模型参数进行调整,直至满足收敛条件,得到代词消解神经网络。
13.根据权利要求12所述的装置,其特征在于,所述训练文本获取模块还用于获取抗干扰特征集合;所述训练特征迭代处理模块还用于将所述抗干扰特征集合中的抗干扰特征输入至所述初始代词消解神经网络中,所述初始代词消解神经网络根据所述第一训练特征、所述第二训练特征和所述抗干扰特征生成额外训练特征,所述初始代词消解神经网络根据所述第一训练特征、所述第二训练特征、所述抗干扰特征和所述额外训练特征进行正例迭代处理得到对应的正例训练特征向量模长,根据所述第一训练特征、所述第二训练特征、所述抗干扰特征和所述额外训练特征进行反例迭代处理得到对应的反例训练特征向量模长。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910319013.8A CN110162785A (zh) | 2019-04-19 | 2019-04-19 | 数据处理方法和代词消解神经网络训练方法 |
PCT/CN2020/084432 WO2020211720A1 (zh) | 2019-04-19 | 2020-04-13 | 数据处理方法和代词消解神经网络训练方法 |
US17/339,933 US11983493B2 (en) | 2019-04-19 | 2021-06-04 | Data processing method and pronoun resolution neural network training method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910319013.8A CN110162785A (zh) | 2019-04-19 | 2019-04-19 | 数据处理方法和代词消解神经网络训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110162785A true CN110162785A (zh) | 2019-08-23 |
Family
ID=67639657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910319013.8A Pending CN110162785A (zh) | 2019-04-19 | 2019-04-19 | 数据处理方法和代词消解神经网络训练方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110162785A (zh) |
WO (1) | WO2020211720A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705206A (zh) * | 2019-09-23 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 一种文本信息的处理方法及相关装置 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111666409A (zh) * | 2020-05-28 | 2020-09-15 | 武汉大学 | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 |
WO2020211720A1 (zh) * | 2019-04-19 | 2020-10-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112989043A (zh) * | 2021-03-17 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 指代消解方法、装置、电子设备及可读存储介质 |
WO2021164293A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于大数据的零指代消解方法、装置、设备及介质 |
CN113392629A (zh) * | 2021-06-29 | 2021-09-14 | 哈尔滨工业大学 | 基于预训练模型的人称代词消解方法 |
US11983493B2 (en) | 2019-04-19 | 2024-05-14 | Tencent Technology (Shenzhen) Company Limited | Data processing method and pronoun resolution neural network training method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861518B (zh) * | 2020-12-29 | 2023-12-01 | 科大讯飞股份有限公司 | 文本纠错方法、装置和存储介质及电子装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018174815A1 (en) * | 2017-03-24 | 2018-09-27 | Agency For Science, Technology And Research | Method and apparatus for semantic coherence analysis of texts |
CN109165386A (zh) * | 2017-08-30 | 2019-01-08 | 哈尔滨工业大学 | 一种中文零代词消解方法及系统 |
CN108595408A (zh) * | 2018-03-15 | 2018-09-28 | 中山大学 | 一种基于端到端神经网络的指代消解方法 |
CN110162785A (zh) * | 2019-04-19 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
-
2019
- 2019-04-19 CN CN201910319013.8A patent/CN110162785A/zh active Pending
-
2020
- 2020-04-13 WO PCT/CN2020/084432 patent/WO2020211720A1/zh active Application Filing
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211720A1 (zh) * | 2019-04-19 | 2020-10-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
US11983493B2 (en) | 2019-04-19 | 2024-05-14 | Tencent Technology (Shenzhen) Company Limited | Data processing method and pronoun resolution neural network training method |
CN110705206A (zh) * | 2019-09-23 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 一种文本信息的处理方法及相关装置 |
WO2021164293A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于大数据的零指代消解方法、装置、设备及介质 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111666409A (zh) * | 2020-05-28 | 2020-09-15 | 武汉大学 | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 |
CN111666409B (zh) * | 2020-05-28 | 2022-02-08 | 武汉大学 | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112989043A (zh) * | 2021-03-17 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 指代消解方法、装置、电子设备及可读存储介质 |
CN112989043B (zh) * | 2021-03-17 | 2024-03-12 | 中国平安人寿保险股份有限公司 | 指代消解方法、装置、电子设备及可读存储介质 |
CN113392629A (zh) * | 2021-06-29 | 2021-09-14 | 哈尔滨工业大学 | 基于预训练模型的人称代词消解方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210294972A1 (en) | 2021-09-23 |
WO2020211720A1 (zh) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162785A (zh) | 数据处理方法和代词消解神经网络训练方法 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
Ranganath et al. | Deep exponential families | |
CN106844368A (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
CN106547739A (zh) | 一种文本语义相似度分析方法 | |
Zhang et al. | Graph lstm with context-gated mechanism for spoken language understanding | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN109815333A (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN106598950A (zh) | 一种基于混合层叠模型的命名实体识别方法 | |
CN109087205A (zh) | 舆情指数的预测方法及装置、计算机设备和可读存储介质 | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN106815244A (zh) | 文本向量表示方法及装置 | |
CN108960574A (zh) | 问答的质量确定方法、装置、服务器和存储介质 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN110162771A (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN109739844A (zh) | 基于衰减权重的数据分类方法 | |
CN108879732A (zh) | 电力系统暂态稳定评估方法及装置 | |
CN108170678A (zh) | 一种文本实体抽取方法与系统 | |
CN110287292A (zh) | 一种裁判量刑偏离度预测方法及装置 | |
CN110633467A (zh) | 一种基于改进特征融合的语义关系抽取方法 | |
CN110502742A (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN110287341A (zh) | 一种数据处理方法、装置以及可读存储介质 | |
CN105912602A (zh) | 一种基于实体属性的真值发现方法 | |
Cruz et al. | On document representations for detection of biased news articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |