CN113283240B - 共指消解方法及电子设备 - Google Patents
共指消解方法及电子设备 Download PDFInfo
- Publication number
- CN113283240B CN113283240B CN202110682894.7A CN202110682894A CN113283240B CN 113283240 B CN113283240 B CN 113283240B CN 202110682894 A CN202110682894 A CN 202110682894A CN 113283240 B CN113283240 B CN 113283240B
- Authority
- CN
- China
- Prior art keywords
- word
- vocabulary
- appointed
- specified
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种共指消解方法及电子设备,该方法包括:将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。本申请方案充分利用了已训练的字向量模型的语义理解能力,实现了对语句中指示同一实体的不同词汇的准确识别。
Description
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种共指消解方法及电子设备。
背景技术
共指消解任务(Coreference Resolution)是指对文本中同一实体的不同表述形式进行识别。比如:“有些这样的‘洋人’就站在大众之间,如同鹤立鸡群,毫不掩饰自己的优越感。”这句话中“洋人”与“自己”表述的是同一个实体。再如:“我的护理员根本不可能是我的敌人。我已经喜欢上他了。这位门后窥视者一跨进我的房间,我就向他讲述我一生中的事件。”这里,“护理员”与“窥视者”表述的是同一个实体。
共指消解任务存在一种特殊情况,即在判断文本中两个词是否指示同一实体时,其中一个词为指代词,如“他”、“它们”,另一个普通名称可称为先行词,此时,共指消解任务可称为指代消解任务。在指代消解任务中,需要识别文本中的指代词是否指代先行词。
发明内容
本申请实施例的目的在于提供一种共指消解方法及电子设备,用于识别语句中指代同一实体的不同词汇。
一方面,本申请提供了一种共指消解方法,包括:
将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;
针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;
基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;
针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。
在一实施例中,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定与所述起始位置对应汉字和所述汉字对应的字向量、以及与所述结束位置对应的汉字和所述汉字对应的字向量;
确定所述起始位置对应的字向量和所述结束位置对应的字向量的均值,获得所述指定词汇对应的词向量。
在一实施例中,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定所述起始位置和所述结束位置之间的所有汉字和每个汉字对应的字向量;
确定每个汉字对应的字向量的均值,获得所述指定词汇对应的词向量。
在一实施例中,所述基于指定词汇构建若干词对,包括:
将所述目标语句中不同的指定词汇两两组合,获得若干词对。
在一实施例中,所述指定词汇包括指代词和先行词;
所述基于指定词汇构建若干词对,包括:
将每个指代词分别与每个先行词进行组合,获得若干词对。
在一实施例中,所述依据每个词对的两个词向量确定所述词对的相关度分值,包括:
确定所述词对的两个词向量之间的余弦相似度;
确定所述余弦相似度对应的差异参数;其中,所述差异参数与所述余弦相似度之和为一;
根据所述余弦相似度和所述差异参数确定所述词对的相关度分值。
在一实施例中,所述相关度分值包括正向分值;
所述根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体,包括:
判断所述词对的正向分值是否达到预设正向分值阈值;
若是,确定所述词对中两个指定词汇指代同一实体;
若否,确定所述词对中两个指定词汇不指代同一实体。
在一实施例中,所述字向量模型通过如下方式训练得到:
将训练集中的样本语句输入预训练的字向量模型,获得所述字向量模型输出的所述样本语句中每一汉字对应的字向量;
针对所述样本语句中每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;
基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;
根据所述相关度分值与对应于每一词对的相关度标签之间的差异,调整所述字向量模型的模型权重,获得已训练的字向量模型。
在一实施例中,在所述将训练集中的样本语句输入预训练的字向量模型之前,所述方法还包括:
检查所述训练集内是否存在相同的多个样本语句;
如果存在,在保留多个样本语句的标注信息的情况下,将相同的多个样本语句合并为唯一的样本语句;其中,所述标注信息包括指定词汇的起始位置和结束位置,以及构成词对的两个指定词汇的相关度标签。
进一步的,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述共指消解方法。
本申请方案,通过已训练的字向量模型输出目标语句中每个汉字对应的字向量之后,依据目标语句中指定词汇所包含的汉字以及汉字对应的字向量,可以确定每个指定词汇对应的词向量;基于指定词汇构建词对,并依据词对的两个词向量计算相关度分值后,可以以相关度分值确定词对中两个指定词汇是否指示同一实体。本申请充分利用了已训练的字向量模型的语义理解能力,实现了对语句中指示同一实体的不同词汇的准确识别,此外,可以高效地对同一相同语句中多个词对执行共指消解任务。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的共指消解方法的应用场景示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的共指消解方法的流程示意图;
图4为本申请一实施例提供的相关度分值的计算方法的流程示意图;
图5为本申请一实施例提供的字向量模型的训练方法的流程示意图;
图6为本申请一实施例提供的字向量模型的训练示意图;
图7为本申请一实施例提供的共指消解装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术将预训练的字向量模型连接孪生神经网络,利用字向量模型计算出语句中汉字对应的字向量之后,将字向量输入孪生神经网络,通过孪生神经网络的输出结果执行指代消解任务。然而,该方案在训练过程中仅仅调整孪生神经网络的模型权重,而未调整字向量模型的模型权重,因此在执行指代消解任务时并不能充分利用字向量模型的语义理解能力,识别能力有限。
另一处理指定消解任务的相关方案,将语句中的指代词和先行词分别进行标注,进而将已标注唯一先行词和唯一指代词的语句输入预训练模型,并通过预训练模型的输出层做二分类任务。其中,指代词可以包括你、我、他、它们等人称代词、以及这、那、此、其、这些、那些等指示代词。先行词可以是除了指代词以外的其它名词。二分类结果指示语句中的指代词是否与先行词指示同一实体。
在训练阶段通过二分类的交叉熵损失对预训练模型反向传播,对预训练模型的模型权重进行调整。
然而,在实际应用中,一条语句中可能包含一个指代词和多个先行词,这就需要将指代词与每个先行词分别进行组合,从而构建多条针对不同组合进行判断语句。对多条语句中得到组合分别进行二分类判断后,选择置信度最高的二分类结果,确定其对应的组合中指代词与先行词指示同一实体。示例性的,例句“这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。”包含指代词“它”、先行词“床”、“枕头”、“手机”,则需要将例句作为三个语句,三个语句分别标注“它”和“床”、“它”和“枕头”、“它”和“手机”,并分别对三个语句执行二分类任务。该方案对相同的语句重复处理,工作效率较差。
图1为本申请实施例提供的共指消解方法的应用场景示意图。如图1所示,该应用场景包括客户端20和服务端30;客户端20可以是主机、手机、平板电脑等用户终端,用于向服务端30发送接受共指消解任务的汉语文本;服务端30可以是服务器、服务器集群或云计算中心,可以对客户端20发送的汉语文本执行共指消解任务。
如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是上述服务端30,用于执行共指消解方法。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的共指消解方法。
参见图3,为本申请一实施例提供的共指消解方法的流程示意图,如图3所示,该方法可以包括以下步骤310-步骤340。
步骤310:将目标语句输入已训练的字向量模型,获得字向量模型输出的目标语句中每一汉字对应的字向量。
其中,目标语句是需要接受共指消解的汉语语句。目标语句可由与服务端对接的客户端发送至服务端,也可预先写入至服务端的内存。
字向量模型用于将汉字转换为向量,字向量模型可以是支持中文的BERT(Bidirectional Encoder Representations from Transformers)模型。示例性的,字向量模型可以由RoBERTa-wwm-ext、bert-base-chinese和chinese-bert-wwm-ext等模型中的任意一种训练得到。
服务端将目标语句输入字向量模型,可以通过字向量模型将目标语句切分为多个令牌(token),并输出每一令牌对应的向量。这里,令牌为单个汉字或标点符号。服务端可以获得字向量模型输出的每个汉字对应的字向量。
步骤320:针对目标语句中的每个指定词汇,根据指定词汇包含的汉字以及汉字对应的字向量,得到指定词汇对应的词向量。
其中,指定词汇是共指消解任务的处理对象;在共指消解任务中,需判断是否存在至少两个指定词汇指示同一实体。
针对每个指定词汇,服务端可以依据该指定词汇所包含的汉字,以及各汉字对应的字向量,确定指定词汇对应的词向量。服务端可以确定每个指定词汇对应的词向量。
步骤330:基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定词对的相关度分值。
其中,相关度分值用于指示词对中两个指定词汇之间的相关度。
服务端可以基于目标语句中多个指定词汇,构建若干包含两个指定词汇的词对,并依据词对中两个指定词汇的词向量计算相关度分值。
步骤340:针对每个词对,根据词对的相关度分值确定词对中两个指定词汇是否指代同一实体。
在确定相关度分值之后,服务端可以依据词对的相关度分值,确定词对中两个指定词汇是否指代同一实体,从而识别出目标语句中指示同一实体的不同指定词汇。
在一实施例中,目标语句已标注每个指定词汇的起始位置和结束位置。指定词汇可以由单个汉字组成,也可以由多个汉字组成。针对任一一条目标语句,以spani表示第i个指定词汇,按照从左至右的方向,该指定词汇的起始位置为posbegin-i、结束位置为posend-i。对于单条目标语句,以汉字和标点符号为单位拆分,可以获得k个令牌,起始位置表示spani从第posbegin-i个令牌开始,结束位置表示spani到第posend-i个令牌结束。
服务端在根据指定词汇包含的汉字以及汉字对应的字向量,得到指定词汇对应的词向量时,可以根据指定词汇的起始位置和结束位置,确定与起始位置对应汉字和汉字对应的字向量、以及与结束位置对应的汉字和汉字对应的字向量。
服务端可以确定起始位置对应的字向量和结束位置对应的字向量的均值,从而获得指定词汇对应的词向量。
示例性的,目标语句“南天门古称天门关,因古时泰山代表着上天,故而泰山之顶即是天庭的位置所在。”可被拆分为36个令牌,对于指定词汇“南天门”,起始位置是1,结束位置是3。服务端可以根据起始位置和结束位置确定对应的汉字“南”和“门”,以及两个汉字对应的字向量,并计算两个字向量的均值,获得“南天门”对应的词向量。
当指定词汇由单个汉字组成,则起始位置与结束位置相同,指定词汇的词向量就是该汉字的字向量。
在一实施例中,目标语句已标注每个指定词汇的起始位置和结束位置。指定词汇可以由单个汉字组成,也可以由多个汉字组成。针对任一一条目标语句,以spani表示第i个指定词汇,按照从左至右的方向,该指定词汇的起始位置为posbegin-i、结束位置为posend-i。
服务端在根据指定词汇包含的汉字以及汉字对应的字向量,得到指定词汇对应的词向量时,可以根据指定词汇的起始位置和结束位置,确定起始位置和结束位置之间的所有汉字和每个汉字对应的字向量。
服务端可以确定每个汉字对应的字向量的均值,获得指定词汇对应的词向量。
示例性的,目标语句“南天门古称天门关,因古时泰山代表着上天,故而泰山之顶即是天庭的位置所在。”可被拆分为36个令牌,对于指定词汇“南天门”,起始位置是1,结束位置是3。服务端可以依据起始位置和结束位置确定构成该指定词汇的所有汉字“南”、“天”、“门”,以及每个汉字对应的字向量,并计算所有字向量的均值,获得“南天门”对应的词向量。
当指定词汇由单个汉字组成,则起始位置与结束位置相同,指定词汇的词向量就是该汉字的字向量。
在一实施例中,服务端执行步骤330,在基于指定词汇构建若干词对时,如果在执行常规的共指消解任务,服务端可以将目标语句中不同的指定词汇两两组合,获得若干词对。
在这种情况下,如果目标语句中存在n个指定词汇,通过两两组合可以获得n*(n-1)/2个词对。
在一实施例中,服务端执行步骤330,在基于指定词汇构建若干词对时,如果在执行指代消解任务,则目标语句中的指定词汇被预先标注为指代词或先行词。
服务端可以将每个指代词分别与每个先行词进行组合,获得若干词对。在这种情况下,如果目标语句中存在n1个指代词、n2个先行词,通过组合可以获得n1*n2个词对。
在一实施例中,参见图4,为本申请一实施例提供的相关度分值的计算方法的流程示意图,如图4所示,服务端执行步骤330,在依据词对中两个词向量计算词对的相关度分值时,可以执行如下步骤331-步骤333。
步骤331:计算词对的两个词向量之间的余弦相似度。
步骤332:确定余弦相似度对应的差异参数。
服务端可以词对中两个指定词汇对应的词向量之间的余弦相似度。余弦相似度可表示为cosij,表示目标语句中第i个指定词汇的词向量与第j个指定词汇的词向量之间的余弦相似度。两个词向量之间的余弦相似度在-1到1之间,余弦相似度越大,说明词向量越接近,词向量对应的指定词汇越接近。
在获得词性对应的余弦相似度之后,服务端可以将1减去该余弦相似度,获得差异参数。
步骤333:根据余弦相似度和差异参数确定词对的相关度分值。
针对每个词对,服务端可以根据softmax函数对该词对对应的余弦相似度和差异参数进行计算,从而获得相关度分值。计算方式可参照如下公式(1):
其中,xi表示第i个用于计算的参数,xi可以是余弦相似度和差异参数;N为1,对于任一词对而言,存在两个用于计算的参数;e为自然常数。
相关度分值可以包括正向分值和负向分值,正向分值越大,说明词对中的两个指定词汇越近似;负向分值越大,说明词对中的两个指定词汇的差异越大。
若以x0表示余弦相似度,以x1表示差异参数,则softmax(x0)表示正向分值,softmax(x1)表示负向分值。目标语句中第i个指定词汇与第j个指定词汇之间的正向分值可表示为scoreij+;目标语句中第i个指定词汇与第j个指定词汇之间的负向分值可表示为scoreij-;同一词对的正向分值与负向分值之和为1。
在一实施例中,服务端执行步骤340,依据词对的相关度分值确定词对中两个指定词汇是否指代同一实体时,可以判断词对的正向分值是否达到预设正向分值阈值。这里,正向分值阈值可以基于经验配置,用于筛选指示同一实体的两个指定词汇。
一方面,若词对的正向分值达到正向分值阈值,可以确定词对中两个指定词汇指代同一实体。另一方面,若词对的正向分值未达到正向分值阈值,可以确定词对中两个指定词汇不指代同一实体。
在一实施例中,服务端执行步骤340,依据词对的相关度分值确定词对中两个指定词汇是否指代同一实体时,可以判断词对的负向分值是否达到预设负向分值阈值。这里,负向分值阈值可以基于经验配置,用于筛选指示同一实体的两个指定词汇。
一方面,若词对的负向分值达到负向分值阈值,可以确定词对中两个指定词汇不指代同一实体。另一方面,若词对的负向分值未达到负向分值阈值,可以确定词对中两个指定词汇指代同一实体。
在一实施例中,参见图5,为本申请一实施例提供的字向量模型的训练方法的流程示意图,如图5所示,在执行上述共指消解方法之前,可以通过如下步骤510-步骤540训练出字向量模型。
步骤510:将训练集中的样本语句输入预训练的字向量模型,获得字向量模型输出的样本语句中每一汉字对应的字向量。
其中,训练集包括多个样本语句;每个样本语句被预先标注语句中指定词汇的起始位置和结束位置;若字向量模型后续用于执行指代消解任务,样本语句还可以标注各指定词汇的词性,词性可以包括指代词和先行词。
支持中文的BERT模型(字向量模型)通常在发布之前均经过预训练。
服务端可以将样本语句输入预训练的字向量模型,通过字向量模型将样本语句切分为多个令牌,并输出每一令牌对应的向量,从而获得样本语句中每个汉字对应的字向量。
步骤520:针对样本语句中每个指定词汇,根据指定词汇包含的汉字以及汉字对应的字向量,得到指定词汇对应的词向量。
针对每个指定词汇,服务端可以依据样本语句已标注的起始位置和结束位置,选择指定词汇中的汉字,并确定汉字对应的字向量,对选中的字向量计算均值可以确定指定词汇对应的词向量。
这里,如果在训练阶段以起始位置对应的汉字、结束位置对应的汉字确定字向量,并计算两个字向量的均值以获得词向量。在后续执行共指消解方法时,服务端同样依据指定词汇的起始位置和结束位置选择两个字向量计算均值以获得词向量。
如果在训练阶段以起始位置和结束位置确定指定词汇内所有汉字,并以所有汉字对应的字向量计算均值以获得词向量。在后续执行共指消解方法时,服务端同样依据指定词汇的起始位置和结束位置,选择指定词汇内所有汉字的字向量计算均值以获得词向量。
步骤530:基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定词对的相关度分值。
如果后续要执行常规的共指消解任务,服务端可以将样本语句中不同的指定词汇两两组合,获得若干词对。如果后续要执行指代消解任务,服务端可以将样本语句中以标注的每个指代词分别与每个先行词进行组合,获得若干词对。
在构建词对之后,针对每个词对,服务端可以计算词对内两个指定词汇的词向量之间的余弦相似度,并确定余弦相似度对应的差异参数。服务端通过softmax函数对余弦相似度和差异参数进行计算,可以获得词对的相关度分值。相关度分值可以包括正向分值和负向分值。
步骤540:根据相关度分值与对应于每一词对的相关度标签之间的差异,调整字向量模型的模型权重,获得已训练的字向量模型。
相关度标签用于指示词对中两个指定词汇是否指示同一实体,相关度标签可以是“true”或“false”,在计算时,“true”为1,“false”为0。
在训练过程中,服务端每次将一批(batch)样本语句输入至预训练的字向量模型进行训练。服务端可以针对该批样本语句中每条样本语句中词对的相关度分值和相关度标签,计算交叉熵损失,并累加获得该批样本语句的交叉熵损失之和。交叉熵损失的计算方式可通过如下公式(2)来表示:
服务端可以依据计算出的交叉熵损失之和反向传播对字向量模型的模型权重进行调整。当训练集中所有样本语句都经过一次训练后,可认为训练了一轮(epoch),当训练轮次达到指定轮次阈值时,训练结束,获得已训练的字向量模型。
通过上述措施,训练阶段经过一次前向传播和一次反向传播,即可完成对一条样本语句中多个指定词汇的训练过程。相比相关技术中针对样本语句中单一词对作二分类判断以进行训练,极大地提高了训练效率。此外,本申请方案在训练过程中有监督微调字向量模型的模型权重,可在后续预测阶段充分利用字向量模型的语义理解能力,从而获得更好的共指消解效果。
在一实施例中,服务端在将训练集中样本语句输入预训练的字向量模型之前,可以检查训练集内是否存在相同的多个样本语句。
一方面,如果不存在,可以将样本语句输入字向量模型,执行训练流程。
另一方面,如果存在,服务端可以在保留多个样本语句的标注信息的情况下,将相同的样本语句合并为唯一的样本语句。其中,标注信息可以包括指定词汇的起始位置和结束位置,以及构成词对的两个指定词汇的相关度标签。如果字向量模型用于执行指代消解任务,标注信息还可以包括指定词汇的词性。
示例性的,训练集中包括三条样本语句,语句内容均为“这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。”第一个样本语句标注了指定词汇“床”、“它”,以及这两个指定词汇所构成词对的相关度标签,该相关度标签指示两者不是一个实体。第二个样本语句标注了指定词汇“枕头”、“它”,以及这两个指定词汇所构成词对的相关度标签,该相关度标签指示两者不是一个实体。第三个样本语句标注了指定词汇“手机”、“它”,以及这两个指定词汇所构成词对的相关度标签,该相关度标签指示两者是一个实体。
服务端可以将三条样本语句合并为一条,该样本语句标注“床”、“枕头”、“手机”、“它”,以及“床”与“它”的相关度标签、“枕头”与“它”的相关度标签、“手机”与“它”的相关度标签。
通过上述措施,在遍历训练集并进行合并之后,可以降低训练集中样本语句的数量,进而提升后续的训练效率。
下面以具体语句说明训练和预测过程:
参见图6,为本申请一实施例提供的字向量模型的训练示意图,样本语句为“这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。”该样本语句可被拆分为43个令牌,需要做指代消解任务的先行词包括span0“床”、span1“枕头”、span2“手机”,指代词包括span3“它”。如下表1所示,为各指定词汇的起始位置posbegin-i和结束位置为posend-i。
表1
服务端将样本语句输入预训练的字向量模型,可以获得样本语句中每个汉字和标点符号对应的向量,从而获得多个字向量。
针对span0“床”,服务端可以确定起始位置5和结束位置5的汉字所对应的字向量,计算均值获得词向量。针对span1“枕头”,服务端可以确定起始位置7和结束位置8的汉字所对应的字向量,计算均值获得词向量。针对span3“手机”,服务端可以确定起始位置12和结束位置13的汉字所对应的字向量,计算均值获得词向量。针对span4“它”,服务端可以确定起始位置37和结束位置37的汉字所对应的字向量,计算均值获得词向量。
服务端依据每个先行词与每个指代词构建词对“床-它”、“枕头-它”、“手机-它”,并计算出“床-它”的余弦相似度cos03为0.33、“枕头-它”的余弦相似度cos13为0.47、“手机-它”的余弦相似度cos23为0.51。
服务端可以确定各余弦相似度对应的差异参数,并依据softmax函数计算出相关度分值。“床-它”的正向分值score03+为0.416、负向分值score03-为0.584。“枕头-它”的正向分值score13+为0.485、负向分值score13-为0.515。“手机-它”的正向分值score23+为0.505、负向分值score23-为0.495。
“床-它”的相关度标签指示两个指定词汇不是同一实体;“枕头-它”的相关度标签指示两个指定词汇不是同一实体;“手机-它”的相关度标签指示两个指定词汇是同一实体。通过上述公式(2)计算计算,获得交叉熵损失为-3.03。
设置batch-size为25,计算一批25条样本语句中每个样本的交叉熵损失,然后累加获得整批样本语句的交叉熵损失之和,并依据交叉熵损失梯度方向,反向传播调整字向量模型的模型权重。设置epoch-num为4,经过4轮训练,获得经过训练的字向量模型。
在训练完成之后,服务端可以将字向量模型用于执行指代消解任务。在处理目标语句“这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。”时,词对“床-它”、“枕头-它”、“手机-它”对应的余弦相似度分别为0.21、0.37和0.89,相应的,三者的正向分值分别为0.359、0.435、0.686。正向分值阈值为0.6,因此,“手机”和“它”指示同一实体。
图7是本发明一实施例的一种共指消解装置,如图7所示,该装置可以包括:
输入模块710,用于将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;
转换模块720,用于针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;
第一确定模块730,用于基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;
第二确定模块740,用于针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。
上述装置中各个模块的功能和作用的实现过程具体详见上述共指消解方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (9)
1.一种共指消解方法,其特征在于,包括:
将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;其中,所述字向量模型通过如下方式训练得到:将训练集中的样本语句输入预训练的字向量模型,获得所述字向量模型输出的所述样本语句中每一汉字对应的字向量;针对所述样本语句中每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;根据所述相关度分值与对应于每一词对的相关度标签之间的差异,调整所述字向量模型的模型权重,获得已训练的字向量模型;
针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;
基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;
针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。
2.根据权利要求1所述的方法,其特征在于,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定与所述起始位置对应汉字和所述汉字对应的字向量、以及与所述结束位置对应的汉字和所述汉字对应的字向量;
确定所述起始位置对应的字向量和所述结束位置对应的字向量的均值,获得所述指定词汇对应的词向量。
3.根据权利要求1所述的方法,其特征在于,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定所述起始位置和所述结束位置之间的所有汉字和每个汉字对应的字向量;
确定每个汉字对应的字向量的均值,获得所述指定词汇对应的词向量。
4.根据权利要求1所述的方法,其特征在于,所述基于指定词汇构建若干词对,包括:
将所述目标语句中不同的指定词汇两两组合,获得若干词对。
5.根据权利要求1所述的方法,其特征在于,所述指定词汇包括指代词和先行词;
所述基于指定词汇构建若干词对,包括:
将每个指代词分别与每个先行词进行组合,获得若干词对。
6.根据权利要求1所述的方法,其特征在于,所述依据每个词对的两个词向量确定所述词对的相关度分值,包括:
确定所述词对的两个词向量之间的余弦相似度;
确定所述余弦相似度对应的差异参数;其中,所述差异参数与所述余弦相似度之和为一;
根据所述余弦相似度和所述差异参数确定所述词对的相关度分值。
7.根据权利要求1所述的方法,其特征在于,所述相关度分值包括正向分值;
所述根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体,包括:
判断所述词对的正向分值是否达到预设正向分值阈值;
若是,确定所述词对中两个指定词汇指代同一实体;
若否,确定所述词对中两个指定词汇不指代同一实体。
8.根据权利要求1所述的方法,其特征在于,在所述将训练集中的样本语句输入预训练的字向量模型之前,所述方法还包括:
检查所述训练集内是否存在相同的多个样本语句;
如果存在,在保留多个样本语句的标注信息的情况下,将相同的多个样本语句合并为唯一的样本语句;其中,所述标注信息包括指定词汇的起始位置和结束位置,以及构成词对的两个指定词汇的相关度标签。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8任意一项所述的共指消解方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682894.7A CN113283240B (zh) | 2021-06-18 | 2021-06-18 | 共指消解方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682894.7A CN113283240B (zh) | 2021-06-18 | 2021-06-18 | 共指消解方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283240A CN113283240A (zh) | 2021-08-20 |
CN113283240B true CN113283240B (zh) | 2023-07-07 |
Family
ID=77284991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110682894.7A Active CN113283240B (zh) | 2021-06-18 | 2021-06-18 | 共指消解方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283240B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257441A (zh) * | 2016-06-30 | 2016-12-28 | 电子科技大学 | 一种基于词频的skip语言模型的训练方法 |
CN109858010A (zh) * | 2018-11-26 | 2019-06-07 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
WO2020073664A1 (zh) * | 2018-10-08 | 2020-04-16 | 平安科技(深圳)有限公司 | 指代消解方法、电子装置及计算机可读存储介质 |
CN111859964A (zh) * | 2019-04-29 | 2020-10-30 | 普天信息技术有限公司 | 一种语句中命名实体的识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280061B (zh) * | 2018-01-17 | 2021-10-26 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN110134944A (zh) * | 2019-04-08 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于强化学习的指代消解方法 |
CN110298019B (zh) * | 2019-05-20 | 2023-04-18 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
CN111343203B (zh) * | 2020-05-18 | 2020-08-28 | 国网电子商务有限公司 | 一种样本识别模型训练方法、恶意样本提取方法及装置 |
-
2021
- 2021-06-18 CN CN202110682894.7A patent/CN113283240B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257441A (zh) * | 2016-06-30 | 2016-12-28 | 电子科技大学 | 一种基于词频的skip语言模型的训练方法 |
WO2020073664A1 (zh) * | 2018-10-08 | 2020-04-16 | 平安科技(深圳)有限公司 | 指代消解方法、电子装置及计算机可读存储介质 |
CN109858010A (zh) * | 2018-11-26 | 2019-06-07 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
CN111859964A (zh) * | 2019-04-29 | 2020-10-30 | 普天信息技术有限公司 | 一种语句中命名实体的识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
Sergiy Pogorilyy ; Artem Kramov;.Coreference Resolution Method Using a Convolutional Neural Network.IEEE.2020,第397-401页. * |
基于最大熵模型的共指消解研究;庞宁;杨尔弘;;中文信息学报(第02期);第24-27、54页 * |
面向信息抽取的指代消解探究;许永良;周晓辉;李晓戈;;西安文理学院学报(自然科学版)(第02期);第65-69页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113283240A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190197109A1 (en) | System and methods for performing nlp related tasks using contextualized word representations | |
EP4024274A1 (en) | Image description method and apparatus, computing device, and storage medium | |
US20190005951A1 (en) | Method of processing dialogue based on dialog act information | |
CN112818691A (zh) | 命名实体识别模型训练方法及装置 | |
KR101715118B1 (ko) | 문서 감정 분류용 딥러닝 인코딩 장치 및 방법. | |
CN111833845B (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN114830148A (zh) | 可控制有基准的文本生成 | |
CN110569354B (zh) | 弹幕情感分析方法及装置 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN110555440B (zh) | 一种事件抽取方法及装置 | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN112668336B (zh) | 一种基于任务模型的词语处理方法 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN111695591A (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
RU2730449C2 (ru) | Способ создания модели анализа диалогов на базе искусственного интеллекта для обработки запросов пользователей и система, использующая такую модель | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN113283240B (zh) | 共指消解方法及电子设备 | |
Jain et al. | Detecting Twitter posts with Adverse Drug Reactions using Convolutional Neural Networks. | |
Zhang et al. | Character-Aware Sub-Word Level Language Modeling for Uyghur and Turkish ASR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |