一种文本信息的处理方法及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本信息的处理方法及相关装置。
背景技术
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确处理的需求促进了自然语言处理技术的发展。对于大部分的文本信息来说,文本信息中通常会存在有采用大量代词来指代文本信息主体的现象。其中,指代是自然语言普遍存在的一种表达方式,人们为了避免重复,习惯用代词、称谓和缩略语等来指代前面提到的主体,以使得语言简洁连贯。然而,大量的指代增加了自然语言处理的难度,因此,需要对文本信息中的代词进行识别并且消解掉。
代词指代消解就是识别文本中同一实体不同的表达式,并且将这些不同的表达式替换为统一的主体名称。目前的代词指代消解方法主要是在对文章进行分词处理以及词性标注,获得文章中的先行词以及代词,基于先行词和代词之间的特征来判断这两个词是否具有指代关系。
然而,仅仅从两个独立的词中抽取特征信息来进行指代消解的效果较差,尤其是当先行词实体表达缺乏有效信息描述时指代消解效果更差,因此目前的代词指代消解方法往往难以获得较好的消解效果。
发明内容
本申请实施例提供了一种文本信息的处理方法及相关装置,通过获取包含有代词的待处理文本的向量表示值,以及代词和先行词所对应的语义特征向量,并且结合向量表示值和语义特征向量来对代词和先行词的指代关系进行预测,不仅考虑到了代词和先行词之间的语义特征,还融入了代词的上下文语义信息,能够有效地提高指代代词的识别率,从而提高指代消解效果。
本申请实施例第一方面提供一种文本信息的处理方法,包括:
确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
确定第一代词和第一先行词对应的第一语义特征向量;
通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。
本申请实施例第二方面提供一种文本信息的处理装置,包括:
确定单元,用于确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
确定单元,还用于确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
确定单元,还用于确定第一代词和第一先行词对应的第一语义特征向量;
获取单元,用于通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
替换单元,用于若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,还包括生成单元和训练单元;
获取单元,用于获取待训练文本,待训练文本包括至少一个第二代词和至少一个第二先行词;
确定单元,还用于确定待训练文本的第二向量表示值,以及第二代词和第二先行词对应的第二语义特征向量;
生成单元,用于根据待训练文本生成训练样本,训练样本包括第二向量表示值、第二语义特征向量以及第二代词与第二先行词对应的指代标签,指代标签为第二代词与第二先行词具有指代关系或第二代词与第二先行词不具有指代关系;
训练单元,用于通过训练样本对分类模型进行训练,得到指代预测模型。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,
确定单元,还用于确定待处理文本中的待处理语句,待处理语句包括有第一代词;
确定单元,还用于将待处理语句输入至句向量模型,得到待处理语句对应的第一向量表示值。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,
确定单元,还用于确定第一代词对应的第一子语义特征向量、第一先行词对应的第二子语义特征向量以及第一代词和第一先行词之间的第三子语义特征向量;
确定单元,还用于根据第一子语义特征向量、第二子语义特征向量以及第三子语义特征向量,确定第一代词和第一先行词对应的第一语义特征向量。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,
确定单元,还用于根据第一代词的类型、词频以及第一代词在待处理文本中的位置确定第一子语义特征向量;
确定单元,还用于根据第一先行词的类型、词频以及第一先行词在待处理文本中的位置确定第二子语义特征向量;
确定单元,还用于第一代词和第一先行词对应的类型以及第一代词和第一先行词对应的单复数属性确定第三子语义特征向量。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,还包括处理单元;
处理单元,用于对待处理文本进行分词处理,得到多个待处理词语;
处理单元,还用于通过代词词库对多个待处理词语进行代词匹配,得到第一代词;
处理单元,还用于通过对多个待处理词语进行命名实体识别,获得第一先行词。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,
处理单元,还用于对处理后的文本进行关键字提取,得到新闻标签,其中,处理后的文本为新闻文本。
本申请实施例第三方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,包括如下步骤:
确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
确定第一代词和第一先行词对应的第一语义特征向量;
通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请实施例第四方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一方面的方法。
本申请实施例第五方面提供了一种包含指令的计算机程序产品,当其在计算机或者处理器上运行时,使得计算机或者处理器执行上述任一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种文本信息的处理方法及相关装置,通过获取包含有代词的待处理文本的向量表示值,以及代词和先行词所对应的语义特征向量,并且结合向量表示值和语义特征向量来对代词和先行词的指代关系进行预测,不仅考虑到了代词和先行词之间的语义特征,还融入了代词的上下文语义信息,能够有效地提高指代代词的识别率,从而提高指代消解效果。
附图说明
图1为本申请实施例中文本信息的处理系统的一个架构示意图;
图2为本申请实施例提供的一种文本信息的处理方法的流程示意图;
图3为本申请实施例提供的文本信息处理的流程示意图;
图4为本申请实施例提供的文本信息处理的另一流程示意图;
图5为本申请实施例提供的文本信息处理的又一流程示意图;
图6为本申请实施例提供的一种文本信息的处理装置一个实施例示意图;
图7为本申请实施例提供的一种文本信息的处理装置的另一个实施例示意图;
图8为本申请实施例提供的一种文本信息的处理装置的另一个实施例示意图;
图9为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种文本信息的处理方法及相关装置,通过获取包含有代词的待处理文本的向量表示值,以及代词和先行词所对应的语义特征向量,并且结合向量表示值和语义特征向量来对代词和先行词的指代关系进行预测,不仅考虑到了代词和先行词之间的语义特征,还融入了代词的上下文语义信息,能够有效地提高指代代词的识别率,从而提高指代消解效果。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习(deep learning,DL)等几大方向。
其中,深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
应理解,本申请实施例应用于文本信息的处理场景,具体地,可以应用于文本信息中进行代词指代消解,通过获取包含有代词的待处理文本的向量表示值,以及代词和先行词所对应的语义特征向量,并且结合向量表示值和语义特征向量,通过预先建立的用于指代预测的深度学习模型来对代词和先行词的指代关系进行预测,以使得在代词和先行词具有指代关系的时候能够进行代词指代消解。在本申请实施例中,通过用于指代预测的深度学习模型来进行指代关系的预测,既考虑了代词和先行词之间的语义特征,还融入了代词的上下文语义信息,能够有效地提高指代代词的识别率,从而提高指代消解效果。
为了便于理解,本申请提出了一种文本信息的处理方法,该方法应用于图1所示的文本信息的处理系统,请参阅图1,图1为本申请实施例中文本信息的处理系统的一个架构示意图,如图所示,服务器与客户端建立通信连接,客户端部署于终端设备上,用户可以通过终端设备上的客户端将编辑好的文本信息上传至网络上(例如用户编辑好的新闻、文章或者评论等文本信息),服务器可以在网络上获取到用户所上传的文本信息,并且通过本申请实施例提供的文本信息的处理方法对文本信息进行代词指代消解,得到指代消解后的文本信息之后,再进行进一步的加工处理。例如,在对用户所上传的新闻文稿进行指代消解并得到处理后的新闻文稿之后,对新闻文稿进行关键字提取,以生成新闻文稿的新闻标签,又或者对新闻文稿进行文本分类等操作。需要说明的是,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、个人电脑以及智能手机等。
请参阅图2,图2为本申请实施例提供的一种文本信息的处理方法的流程示意图。如图2所示,本申请实施例提供的一种文本信息的处理方法,包括:
201、确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
在本实施例中,服务器可以先获取需要进行第一代词指代消解的待处理文本,然后确定待处理文本中的第一代词和第一先行词。其中,第一代词是代替名词主体的一种词类,能够以特定的词语代替文本中出现在第一代词之前的一些名词,通常包括有人称代词(例如她、他、我、他们等等)以及物主代词(它、他们)。第一先行词则是出现在第一代词之前的一些名词,通常用于表示特定的人物或者是事物。例如,对于中文语句“周小伦是娱乐圈的模范丈夫,他陪昆小凌密游香港”来说,“周小伦”、“娱乐圈”、“模范丈夫”、“昆小凌”、“香港”都可以认为是候选的第一先行词,而“他”则为第一代词。又例如,对于中文语句“我找到了这只皮夹子,哇,它好漂亮啊”来说,“皮夹子”可以认为是候选的第一先行词,而“我”、“它”则是第一代词。
值得注意的是,当待处理文本中存在有一个第一代词以及多个第一先行词时,可以将第一代词与每个第一先行词搭配成对,例如,以中文语句“周小伦是娱乐圈的模范丈夫,他陪昆小凌密游香港”为例,可以得到第一代词和第一先行词对为:“周小伦--他”、“娱乐圈--他”、“模范丈夫--他”、“昆小凌--他”、“香港--他”,然后对于每组第一代词和第一先行词对都可以执行后续相同的步骤,以判断每组第一代词和第一先行词对中的第一代词和第一先行词是否具有指代关系。同理,当待处理文本中存在有多个第一代词以及多个第一先行词时,同样可以每个第一代词与每个第一先行词搭配成对,得到多组第一代词和第一先行词对。
202、确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
在本实施例中,可以确定包含有第一代词的待处理文本的第一向量表示值,该第一向量表示值主要用于表示待处理文本的语义信息,即第一代词前后的上下文信息。在一些可选的实施例中,确定待处理文本的第一向量表示值可以通过模型生成的方式得到,在实际应用中,将待处理文本输入至特定的模型中,然后由该特定的模型输出待处理文本对应的第一向量表示值。其中,该特定的模型可以为卷积神经网络(convolutional neuralnetworks,CNN)、长短期记忆网络(long short-term memory,LSTM)、双向变换器编码器(bidirectional encoder representations from transformers,BERT)模型,在这些特定的模型中,每一个句子都可以被映射成一个独立的句向量,各个句子所对应的句向量即为待处理文本所对应的第一向量表示值。通常来说,句向量是在获得句子中各个词语对应的词向量之后,通过对词向量进行编码得到的。而词向量往往是基于词语的语义来进行定义的,因此,由词向量融合组成的句向量能够捕捉到句子中的语义信息。其中,句向量继承了词向量的一个重要特性—词和词之间的语义。可以理解的是,在语义里,“强有力”比起“巴黎”来说,和“强壮”更接近,这个语义上的信息可以在词向量的表示上体现出来,即“强有力”对应的词向量比起“巴黎”对应的词向量来说,更接近“强壮”所对应的词向量。其次,句向量还考虑到了词序这一重要的因素,基于词向量本身所具有的语义信息以及词向量之间的顺序关系,句向量可以轻易地捕捉到句子当中的语义信息。
203、确定第一代词和第一先行词对应的第一语义特征向量;
在本实施例中,在确定了待处理文本中的第一代词和第一先行词之后,可以基于第一代词本身以及第一先行词本身的特征构建第一代词和第一先行词所对应的第一语义特征向量。例如,基于第一代词本身所属的类型、在待处理文本中所处的位置以及词频等特征构建第一代词所对应的语义特征向量,同样,可以基于第一先行词本身所属的类型、在待处理文本中所处的位置以及词频等特征构建第一先行词所对应的语义特征向量,结合第一代词本身对应的语义特征向量以及第一先行词本身对应的语义特征向量即可得到第一代词和第一先行词所对应的第一语义特征向量,该第一语义特征向量表征了第一代词和第一先行词在待处理文本中的语义特征信息。
204、通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
在本实施例中,在获得待处理文本对应的第一向量表示值以及第一先行词和第一代词对应的第一语义特征向量之后,可以将第一向量表示值以及第一语义特征向量输入至指代预测模型中,通过指代预测模型来获取相应的指代预测结果,该指代预测结果为第一代词和第一先行词具有指代关系或者第一代词和第一先行词不具有指代关系。其中,指代预测模型可以为一个分类模型,其输入为用于表示文本的向量表示值以及语义特征向量,输出为是否具有指代关系。该指代预测模型可以为常用的一些文本分类模型,例如CNN模型以及LSTM模型等,通过大量由人工标注好的样本训练得到,具体地,可以通过对文本中的代词和先行词之间的指代关系进行人工标注之后,通过文本的向量表示值以及代词和先行词的语义特征向量及人工标注的结果对分类模型进行训练,即可得到指代预测模型,训练好的指代预测模型则可以根据输入的第一向量表示值和第一语义特征向量输出相应的指代预测结果,即第一先行词和第一代词之间是否具有指代关系。
205、若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。
在本实施例中,在确定第一代词和第一先行词具有指代关系之后,即明确了第一代词是用于指代第一先行词的,因此为了便于后续的文本处理,则可以将待处理文本中的第一代词替换为第一先行词,从而得到代词指代消解后的文本。
本申请实施例提供了一种文本信息的处理方法,通过获取包含有代词的待处理文本的向量表示值,以及代词和先行词所对应的语义特征向量,并且结合向量表示值和语义特征向量来对代词和先行词的指代关系进行预测,不仅考虑到了代词和先行词之间的语义特征,还融入了代词的上下文语义信息,能够更为准确地得到文本中代词的含义,有效地提高了代词的识别率,从而提高指代消解效果。
可选地,在上述图2对应的一个实施例的基础上,本申请实施例提供的文本信息的处理方法一个可选实施例中,将第一向量表示值以及第一语义特征向量输入指代预测模型中之前,方法还包括:
获取待训练文本,待训练文本包括至少一个第二代词和至少一个第二先行词;
确定待训练文本的第二向量表示值,以及第二代词和第二先行词对应的第二语义特征向量;
根据待训练文本生成训练样本,训练样本包括第二向量表示值、第二语义特征向量以及第二代词与第二先行词对应的指代标签,指代标签为第二代词与第二先行词具有指代关系或第二代词与第二先行词不具有指代关系;
通过训练样本对分类模型进行训练,得到指代预测模型。
在本实施例中,在对待处理文本进行指代代词消解之前,可以先训练得到用于获取指代预测结果的指代预测模型。具体地,首先获取相关的待训练文本,例如在需要针对新闻文本进行指代消解的情况下,可以预先获取大量的新闻文本作为待训练文本,这些作为待训练文本的新闻文本中均包括有至少一个第二代词和至少一个第二先行词;然后,将待训练文本输入至上述的特定的模型中,获取待训练文本对应的第二向量表示值,该第二向量表示值用于表示待训练文本的语义信息;此外,还需要确定待训练文本中的第二代词和第二先行词,并且基于第二代词的语义特征以及第二先行词的语义特征,确定第二代词和第二先行词对应的第二语义特征向量;最后,通过人工标注的方式来获取第二代词和第二先行词所对应的指代标签,即人工判断第二代词和第二先行词之间是否具有指代关系,然后基于第二代词和第二先行词之间的指代关系进行相应的标注,从而获得包括有第二向量表示值、第二语义特征向量以及第二代词与第二先行词对应的指代标签的训练样本;通过大量的训练样本对分类模型进行模型,即可得到指代预测模型。
可选地,在上述图2对应的一个实施例的基础上,本申请实施例提供的文本信息的处理方法一个可选实施例中,确定待处理文本的第一向量表示值,包括:
确定待处理文本中的待处理语句,待处理语句包括有第一代词;
将待处理语句输入至句向量模型,得到待处理语句对应的第一向量表示值。
可以理解的是,针对于一些待处理文本来说,待处理文本中可能包括有多个句子,且并非是所有的句子中均包括有代词,在一些句子中可能并不包括有代词,而一些句子中则可能包括有代词。此外,由于语言上的表达习惯,对于句子中的代词来说,该代词往往指代的是出现在同一个句子中的名词主体,并且不同的句子间的语义信息也是相差较大的。因此,为了能够更加准确地捕捉第一代词对应的上下文语义信息,可以确定第一代词所在的待处理语句,并且将待处理语句输入至句向量模型中,获得该待处理语句所对应的第一向量表示值。其中,句向量模型主要用于将待处理语句映射为一个独立的句向量,具体可以为CNN模型、LSTM模型或者是BERT模型。其中,BERT模型是深度学习领域常用的预训练模型,通过masked LM和next sentence prediction两种方法可以分别捕捉到词语和句子级别的表示,在实际使用中,通过将包含第一代词的待处理语句输入至BERT模型,即可获得输出为该待处理语句的固定维度的向量表示值。
可选地,在上述图2对应的一个实施例的基础上,本申请实施例提供的文本信息的处理方法一个可选实施例中,确定第一代词和第一先行词对应的第一语义特征向量,包括:
确定第一代词对应的第一子语义特征向量、第一先行词对应的第二子语义特征向量以及第一代词和第一先行词之间的第三子语义特征向量;
根据第一子语义特征向量、第二子语义特征向量以及第三子语义特征向量,确定第一代词和第一先行词对应的第一语义特征向量。
在本实施例中,可以先根据第一代词本身的语义特征确定第一代词对应的第一子语义特征向量,根据第一先行词本身的语义特征确定第一先行词对应的第二子语义特征向量,以及根据第一代词和第一先行词之间的语义关联特征确定两者之间的第三子语义特征向量;然后,再结合第一子语义特征向量、第二子语义特征向量以及第三子语义特征向量获取第一代词和第一先行词对应的第一语义特征向量,也就是将三个子语义特征向量融合成为一个语义特征向量来作为模型的输入。
可选地,在上述图2对应的一个实施例的基础上,本申请实施例提供的文本信息的处理方法一个可选实施例中,确定第一代词对应的第一子语义特征向量、第一先行词对应的第二子语义特征向量以及第一代词和第一先行词之间的第三子语义特征向量,包括:
根据第一代词的类型、词频以及第一代词在待处理文本中的位置确定第一子语义特征向量;
根据第一先行词的类型、词频以及第一先行词在待处理文本中的位置确定第二子语义特征向量;
第一代词和第一先行词对应的类型以及第一代词和第一先行词对应的单复数属性确定第三子语义特征向量。
在本实施例中,可以基于已有知识图谱来对第一代词、第一先行词以及两者之间的特征进行提取,从而形成相应的子语义特征向量。其中,知识图谱可以是人工建立的,通过既有的知识图谱来进行特征的提取,能够引入更多文本内没有包含的信息。具体地,可以预先建立一个特征模板,基于特征模板中所提及的特征通过知识图谱来进行特征的提取,从而得到第一代词、第一先行词以及两者之间的特征。以中文语句“周小伦是娱乐圈的模范丈夫,他陪昆小凌密游香港”中的“周小伦--他”为例,基于知识图谱对该语句进行特征提取后,所得到的特征如表1所示:
表1
由表1可以看出,对第一代词“他”通过知识图谱进行特征提取后,可以得到第一代词的类型(即属于指代人物的类型),第一代词的位置为不是位于句首,第一代词的词频为1,对应地,可以得到第一代词相应的第一子语义特征向量,即“不是句首”对应于0,词频“1”对应于1;对第一先行词进行特征提取后,可以得到第一先行词的候选类型为人名,第一先行词的位置为位于句首,第一先行词的词频为1,对应地,可以得到第一先行词相应的第二子语义特征向量,即“位于句首”对应于1,词频“1”对应于1;然后,结合上述第一代词和第一先行词的特征,可以得到两者之间相关联的特征,即两者的位置为“先行词在代词左侧”,两者的类型为“一致”,两者对应的性别为“一致”,两者对应的单复数属性为“一致”,同样,基于上述的特征,可以得到第一代词和第一先行词之间的第三子语义特征向量。显然,通过上述的特征提取,可以得到第一代词和第一先行词更多的特征细节,通过这些特征能够更好地判断第一代词和第一先行词之间是否具有指代关系。例如,对于“周小伦是娱乐圈的模范丈夫,他陪昆小凌密游香港”中的“娱乐圈--他”来说,代词“他”和先行词“娱乐圈”类型不一致(即代词为指代人物的类型,先行语属于事物类型),可以判断为不具有指代关系;对于“昆小凌--他”来说,代词“他”和先行词“昆小凌”对应的性别不一致(即代词对应男性,而先行词对应女性),因此可以判断为不具有指代关系。
可选地,在上述图2对应的一个实施例的基础上,本申请实施例提供的文本信息的处理方法一个可选实施例中,确定待处理文本中的第一代词和第一先行词,包括:
对待处理文本进行分词处理,得到多个待处理词语;
通过代词词库对多个待处理词语进行代词匹配,得到第一代词;
通过对多个待处理词语进行命名实体识别,获得第一先行词。
在本实施例中,在获得待处理文本之后,可以先对待处理文本进行分词处理,从而得到多个待处理词语,其中,进行分词处理的方法可以采用常用的分词方法,在此不做具体限定。然后通过预先建立的代词词库对多个待处理词语进行匹配,得到第一代词。具体地,代词词库中可以包括有诸如“她、他、它、我、他们、她们、它们”等代词,通过代词匹配的方式能够将分词后得到的待处理词语中的代词识别出来。
此外,通过观察大量的文本可以知道,代词的先行词通常为人名、地名、机构名或者是名词短语,因此,可以通过命名实体识别来确定多个待处理词语中的先行词。其中,命名实体识别是指在文本集合或者是词语集合中识别出特定类型的事物名称或符号的过程,即在多个待处理词语中识别出特定的人名、地名、机构名或者名词短语。在一些实施例中,在进行命名实体识别之前,还可以预先对分词后的多个待处理词语进行词性标注,然后基于各个词语所标注的词性快速进行命名实体识别,即只针对被标注为名词的词语进行命名实体识别。例如,对于中文语句“周小伦是娱乐圈的模范丈夫,他陪昆小凌密游香港”来说,进行分词处理以及词性标注之后,得到的结果为“周小伦-人名、是-动词、娱乐圈-名词、的-助词、模范丈夫-名词、,-标点符号、他-代词、陪-动词、昆小凌-人名、密游-动词、香港-地名”,命名实体识别的结果为“周小伦”和“昆小凌”为人名,“娱乐圈”为事物名称,“香港”为地名。
可选地,在上述图2对应的一个实施例的基础上,本申请实施例提供的文本信息的处理方法一个可选实施例中,将待处理文本中的第一代词替换为第一先行词,得到处理后的文本之后,方法还包括:
对处理后的文本进行关键字提取,得到新闻标签,其中,处理后的文本为新闻文本。
在本实施例中,在对待处理文本进行处理,并且得到处理后的文本之后,可以对处理后的文本做进一步的文本处理操作。例如,在处理后的文本属于新闻文本的情况下,可以对处理后的文本进行关键字提取,得到相应的新闻标签,以便于对该处理后的文本进行分类;同理,在处理后的文本属于文章、评论文本的情况下,同样可以通过关键字提取的方式来获取其对应的文本标签,以对处理后的文本进行分类操作。此外,还可以对处理后的文本通过特定的处理方式来实现低质新闻识别、低俗新闻识别等加工处理步骤,在此不再做具体限定。
为了便于理解,以下将结合图3和图4对本申请实施例提供的文本信息的处理方法进行详细的描述。其中,图3为本申请实施例提供的文本信息处理的流程示意图;图4为本申请实施例提供的文本信息处理的另一流程示意图。如图3所示,
S1、获取待处理文本,即获取需要进行代词指代消解的原始新闻文本或文章等文本;
S2、对待处理文本进行分词、词性标注以及命名实体识别,得到分词完毕且标注有词性的多个待处理词语,且多个待处理词语中具有特定含义的词语(例如人名、地名等)也被识别了出来;
S3、基于步骤S2中经过分词、词性标注以及命名实体识别所得到的结果,对待处理文本中的代词和候选先行词进行挖掘,识别得到待处理文本中的所有代词和候选先行词,并且将各个代词和各个候选先行词逐一进行搭配成对,得到多对代词和候选先行词的组合;
S4、对于每一对代词和候选先行词的组合,先获取代词所在句子对应的向量表示值,然后求取代词和候选先行词对应的语义特征向量,再基于句子的向量表示值以及代词和候选先行词的语义特征向量,通过分类模型获取代词和候选先行词之间的指代关系;
S5、在确定代词和候选先行词具有指代关系之后,通过将代词替换为对应的候选先行词来实现待处理文本的代词指代消解。
具体地,对于步骤S4中获取代词和候选先行词之间的指代关系,可以参阅图4,图4中:
S41表示的是代词所在的句子,即待处理文本中代词所在的一个具体的句子,例如一篇新闻稿中的一个中文语句“周小伦是娱乐圈的模范丈夫,他陪昆小凌密游香港”;
S42表示的是通过对待处理文本进行代词和候选先行词的挖掘所得到的代词以及候选先行词;
S43表示的是能够对代词所在的句子进行句向量表示值求取的句向量模型,具体可以包括但不限于CNN模型、LSTM模型以及BERT模型等等;
S44表示的是基于知识图谱所构建的特征模板,基于该特征模板能够提取代词和候选先行词所对应的语义特征;
S45表示的是句向量表示值,通过将代词所在句子输入至句向量模型中,可以获得对应的句向量表示值;
S46表示的是语义特征向量,通过特征模板对代词和候选先行词进行语义特征提取之后,可以基于所得到的语义特征获取代词和候选先行词所对应的语义特征向量;
S47表示的是已经训练好的分类模型,能够预测得到代词和候选先行词之间的指代关系;
S48表示的是分类模型所输出的指代关系预测结果,通过将句向量表示值以及代词和候选先行词对应的语义特征向量输入至分类模型中,即可以得到对应的指代关系预测结果,即代词和候选先行词之间是否具有指代关系。
进一步地,以下将结合图5,通过具体的例子对本实施例中获取代词和候选先行词的过程进行详细的描述。请参阅图5,图5为本申请实施例提供的文本信息处理的又一流程示意图。图5中,对于中文语句“周小伦是娱乐圈的模范丈夫,他陪昆小凌密游香港”,对其进行分词后,得到“周小伦/是/娱乐圈/的/模范丈夫/,/他/陪/昆小凌/密游/香港”,对分词后的待处理词语进行代词匹配之后,得到代词为“他”;此外,对分词后的待处理词语进行命名实体识别后,得到候选先行词为“周小伦”、“娱乐圈”、“模范丈夫”、“昆小凌”、“香港”。其次,将代词和候选先行词进行逐一配对,得到配对结果为:<他,周小伦>、<他,娱乐圈>、<他,模范丈夫>、<他,昆小凌>、<他,香港>。最后,依次判断每一对代词和候选先行词是否具有指代关系即可。
下面对本申请实施例中的文本信息的处理装置进行详细描述,请参阅图6,图6为本申请实施例中提供的一种文本信息的处理装置一个实施例示意图,文本信息的处理装置600包括:
确定单元601,用于确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
确定单元601,还用于确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
确定单元601,还用于确定第一代词和第一先行词对应的第一语义特征向量;
获取单元602,用于通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
替换单元603,用于若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。
可选地,在上述图6所对应的实施例的基础上,可以参阅图7,图7为本申请实施例提供的一种文本信息的处理装置的另一个实施例示意图,本申请实施例提供的文本信息的处理装置600的另一实施例中,还包括生成单元604和训练单元605;
获取单元602,用于获取待训练文本,待训练文本包括至少一个第二代词和至少一个第二先行词;
确定单元601,还用于确定待训练文本的第二向量表示值,以及第二代词和第二先行词对应的第二语义特征向量;
生成单元604,用于根据待训练文本生成训练样本,训练样本包括第二向量表示值、第二语义特征向量以及第二代词与第二先行词对应的指代标签,指代标签为第二代词与第二先行词具有指代关系或第二代词与第二先行词不具有指代关系;
训练单元605,用于通过训练样本对分类模型进行训练,得到指代预测模型。
可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的文本信息的处理装置600的另一实施例中,
确定单元601,还用于确定待处理文本中的待处理语句,待处理语句包括有第一代词;
确定单元601,还用于将待处理语句输入至句向量模型,得到待处理语句对应的第一向量表示值。
可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的文本信息的处理装置600的另一实施例中,
确定单元601,还用于确定第一代词对应的第一子语义特征向量、第一先行词对应的第二子语义特征向量以及第一代词和第一先行词之间的第三子语义特征向量;
确定单元601,还用于根据第一子语义特征向量、第二子语义特征向量以及第三子语义特征向量,确定第一代词和第一先行词对应的第一语义特征向量。
可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的文本信息的处理装置600的另一实施例中,
确定单元601,还用于根据第一代词的类型、词频以及第一代词在待处理文本中的位置确定第一子语义特征向量;
确定单元601,还用于根据第一先行词的类型、词频以及第一先行词在待处理文本中的位置确定第二子语义特征向量;
确定单元601,还用于第一代词和第一先行词对应的类型以及第一代词和第一先行词对应的单复数属性确定第三子语义特征向量。
可选地,在上述图6所对应的实施例的基础上,可以参阅图8,图8为本申请实施例提供的一种文本信息的处理装置的另一个实施例示意图,本申请实施例提供的文本信息的处理装置600的另一实施例中,还包括处理单元606;
处理单元606,用于对待处理文本进行分词处理,得到多个待处理词语;
处理单元606,还用于通过代词词库对多个待处理词语进行代词匹配,得到第一代词;
处理单元606,还用于通过对多个待处理词语进行命名实体识别,获得第一先行词。
可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的文本信息的处理装置600的另一实施例中,
处理单元606,还用于对处理后的文本进行关键字提取,得到新闻标签,其中,处理后的文本为新闻文本。
图9为本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本申请实施例中,该服务器900所包括的CPU 922还具有以下功能:
确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
确定第一代词和第一先行词对应的第一语义特征向量;
通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。