CN114707513A - 一种文本语义识别方法、装置、电子设备和存储介质 - Google Patents

一种文本语义识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114707513A
CN114707513A CN202210284743.0A CN202210284743A CN114707513A CN 114707513 A CN114707513 A CN 114707513A CN 202210284743 A CN202210284743 A CN 202210284743A CN 114707513 A CN114707513 A CN 114707513A
Authority
CN
China
Prior art keywords
text
recognized
word
features
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210284743.0A
Other languages
English (en)
Inventor
黄剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210284743.0A priority Critical patent/CN114707513A/zh
Publication of CN114707513A publication Critical patent/CN114707513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种文本语义识别方法、装置、电子设备和存储介质,用以提高文本语义识别准确率。其中,方法包括:对待识别文本进行编码,获得待识别文本的文本语义特征和待识别文本中各个分词的词语义特征;分别基于各词语义特征,对文本语义特征进行特征融合处理,获得相应的词融合特征;基于文本语义特征对待识别文本进行文本分类,获得待识别文本对应的文本类别;基于各词融合特征对待识别文本进行命名实体提取,获得待识别文本包含的命名实体。由于本申请通过基于文本语义特征获得待识别文本的文本类别,以及基于各词语义特征和文本语义特征融合后的特征获得待识别文本包含的命名实体,能够提高文本语义识别准确率。

Description

一种文本语义识别方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本语义识别方法、装置、电子设备和存储介质。
背景技术
随着互联网技术的发展,各种各样的文本出现在视野中,提取文本核心内容对于文本语义识别具有重要作用。以视频标题文本为例,视频标题是视频内容的主要成分之一,基于自然语言处理等基础算法进行对视频标题文本的核心内容提取,能够强化对视频标题文本的理解,进而强化对视频内容的理解,这是整个视频搜索系统的核心工作之一。
相关技术中,主要是通过深度学习模型识别文本所属类别,进而基于文本类别确定文本语义的。但是,基于上述方式进行文本语义识别时,无法获得文本的细节特征,对文本语义识别的准确度不高。
例如,将文本“这张三没救了,经济被压制,完全起不来,手机给你来玩!”的类别归属于“游戏”,仅能反映此文本的出现场景,但对于不了解游戏的人来说仍然无法理解此文本的语义。
因此,如何提高对文本语义识别的准确率成为目前亟待解决的问题。
发明内容
本申请实施例提供一种文本语义识别方法、装置、电子设备和存储介质,用以提高文本语义识别准确率。
本申请实施例提供的一种文本语义识别方法,包括:
对待识别文本进行编码,获得所述待识别文本的文本语义特征和所述待识别文本中各个分词的词语义特征;
分别基于各个词语义特征,对所述文本语义特征进行特征融合处理,获得相应的词融合特征;
基于所述文本语义特征对所述待识别文本进行文本分类,获得所述待识别文本对应的文本类别;
基于各词融合特征对所述待识别文本进行命名实体提取,获得所述待识别文本包含的命名实体。
本申请实施例提供的一种文本语义识别装置,包括:
编码单元,用于对待识别文本进行编码,获得所述待识别文本的文本语义特征和所述待识别文本中各个分词的词语义特征;
融合单元,用于分别基于各词语义特征,对所述文本语义特征进行特征融合处理,获得相应的词融合特征;
分类单元,用于基于所述文本语义特征对所述待识别文本进行文本分类,获得所述待识别文本对应的文本类别;
提取单元,用于基于各词融合特征对所述待识别文本进行命名实体提取,获得所述待识别文本包含的命名实体。
可选的,所述融合单元具体用于:
将所述文本语义特征映射为预设维度的文本类别特征,所述文本类别特征包含对应的待识别文本的分类信息;
分别基于所述各词语义特征,对所述文本类别特征进行特征融合处理,获得所述各个分词相应的词融合特征。
可选的,所述融合单元具体用于:
将所述文本语义特征输入已训练的目标文本识别模型的分类网络层;
基于所述分类网络层,对所述文本语义特征进行线性映射,获得包含所述分类信息的文本类别特征;
所述分类单元具体用于:
将所述文本语义特征输入所述分类网络层,获得所述文本类别特征;
基于所述文本类别特征对所述待识别文本进行文本分类,获得所述待识别文本对于各个文本类别的概率,将概率符合预设条件的文本类别,作为所述待识别文本对应的文本类别。
可选的,所述提取单元具体用于:
将各词融合特征输入已训练的目标文本识别模型的实体识别网络层;
基于所述实体识别网络层,分别对各词融合特征进行标注,获得各词融合特征各自对应的词性信息,每个词融合特征的词性信息用于表示相应的词融合特征对应的分词在所述待识别文本中的属性和位置;
基于各词融合特征各自对应的词性信息,对所述待识别文本进行命名实体提取,获得所述待识别文本包含的至少一个命名实体。
可选的,所述装置还包括训练单元,用于通过以下方式训练得到所述目标文本识别模型:
获取样本数据集,所述样本数据集中的每个样本数据包括一个样本文本;
根据所述样本数据集对待训练的文本识别模型进行循环迭代训练,输出所述已训练的目标文本识别模型;其中,在一次循环迭代过程中,执行以下操作:
将选取的样本数据输入所述待训练的文本识别模型,获得所述样本数据对应的预测文本类别,以及所述样本数据包含的各个分词的预测词性信息,其中,所述样本数据包含的每个分词的词性信息,用于表示对应的分词在所述样本文本中的属性和位置;
采用基于所述预测文本类别和所述样本数据包含的各个分词的预测词性信息构建的目标损失函数,对所述待训练的文本识别模型进行参数调整。
可选的,所述样本数据集中的每个样本数据还包括:所述样本文本对应的真实文本类别,所述样本文本中的各个分词的真实词性信息,每个分词的真实词性信息用于表示相应的分词在所述样本文本中的属性和位置,所述词性信息是基于所述样本文本所包含的命名实体确定的。
可选的,训练单元具体用于:
基于所述样本数据的预测文本类别与真实文本类别之间的差异,构建第一损失函数;以及
基于所述样本数据中的各个分词各自的预测词性信息与真实词性信息之间的差异,构建第二损失函数;
基于所述第一损失函数和所述第二损失函数,以及各自对应的权重构建所述目标损失函数。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种文本语义识别方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种文本语义识别方法的步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种文本语义识别方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种文本语义识别方法、装置、电子设备和存储介质,由于本申请通过对待识别文本进行编码,获得待识别文本整体对应的文本语义特征,以及待识别文本中各个分词各自对应的词语义特征,高效编码的同时增强了文本特征的多样性;此外,基于文本语义特征对待识别文本进行文本分类,可获得待识别文本对应的文本类别;通过分别基于各词语义特征,对文本语义特征进行特征融合处理,获得的各词融合特征,能够在结合文本的整体语义信息,从而更加准确的对待识别文本进行命名实体提取,获得待识别文本包含的命名实体,进而基于待识别文本的文本类别和包含的命名实体能够准确的反映文本的核心内容,提高对文本语义识别的准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为相关技术中的分类任务和实体识别任务的建模示意图;
图2为本申请实施例中的一种应用场景的一个可选的示意图;
图3为本申请实施例中的一种文本语义识别方法的实施流程图;
图4为本申请实施例中的一种样本数据的格式示意图;
图5为本申请实施例中的一种目标文本识别模型的结构示意图;
图6为本申请实施例中的一种视频标题识别方法的示意图;
图7为本申请实施例中的一种文本语义识别方法的逻辑示意图;
图8为本申请实施例中的一种文本语义识别装置的结构示意图;
图9为应用本申请实施例的一种电子设备的一个硬件组成结构示意图;
图10为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
命名实体识别:又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,主要包括识别自然文本中的实体的边界和类别。命名实体识别是自然语言处理中的一项基础性关键任务,准确的识别文本中的命名实体,是理解文本语义重要基础。命名实体识别只是识别出文本中的命名实体,但是一般而言命名实体都是文本中的核心重要成分,所以命名识别实体某种意义上也在提取重要词语。
文本语义特征:指对待识别文本进行编码后获得的整个文本的语义特征,文本语义特征融合了文本中各个分词的语义信息,因此能够作为整个文本的语义表示。
词语义特征:指对待识别文本进行编码后获得的待识别文本中包含的各个分词的语义特征,每个词语义特征是结合相应分词自身的嵌入特征和上下文语义信息后获得的。
文本类别特征:指对文本语义特征进行线性映射后获得的文本特征,文本类别特征具有待识别文本的分类信息,能够反映待识别文本所属的文本类别,在本申请实施例中,文本类别特征的维度与文本类别的数目相同。
词融合特征:是指各个词语义特征分别与文本类别特征进行特征融合后,获得的词语义特征对应的词融合特征,同样的词语在不同文本类别下的重要程度通常不同,将词语义特征与文本类别特征融合后,能够提高对此文本类别下的命名实体提取的准确率。
基于转换器的双向编码表征(Bidirectional Encoder Representation fromTransformers,BERT):是一种预训练语言模型,BERT的模型架构基于多层双向转换解码,使模型具备理解长序列上下文的联系的能力,本申请实施例中的BERT模型用来对待识别文本中进行编码。
本申请实施例涉及人工智能(Artificial Intelligence,AI)、自然语言处理(Nature Language processing,NLP)和机器学习技术(Machine Learning,ML),基于人工智能中的计算机视觉技术和机器学习而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言,机器学习更加注重算法的设计,让计算机能够自动地从数据中“学习”规律,并利用规律对未知数据进行预测。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例中的文本识别模型就是采用机器学习或深度学习技术训练得到的。基于本申请实施例中的文本语义识别方法,可以提高文本识别模型的文本语义识别准确率。
下面对本申请实施例的设计思想进行简要介绍:
随着互联网技术的发展,各种各样的文本出现在视野中,提取文本核心内容对于文本语义识别具有重要作用。以视频标题文本为例,视频标题是视频内容的主要成分之一,基于自然语言处理等基础算法进行对视频标题文本的核心内容提取,能够强化对视频标题文本的理解,进而强化对视频内容的理解,这是整个视频搜索系统的核心工作之一。
相关技术中,主要是基于以下两种方式进行文本语义识别的:方式一:通过深度学习模型进行分类任务,获得文本所属类别;方式二:基于深度学习模型进行实体识别任务,提取文本中的命名实体。如图1所示,在相关技术中,实体识别任务和分类任务大都是分开进行的,其中,实体识别任务是提取文本中的实体信息,表征文本中主体核心信息的主要成分,同样的词语,往往在不同文本类别下重要程度不一样,即词语的重要程度应该是和文本类别相辅相成的。分类任务一般采用判别模型完成二分类或者多分类的建模过程。实体识别则是通过构建序列模型来完成实体识别过程,两个任务的数据都是分别进行标注,各自建模,信息无法共享。并且分类任务和实体识别任务为监督训练方式,往往需要大量的标注数据,相比于其他NLP任务,需要标注句子的主要成分,标注成本更为高昂以及标注难度更大。因此,如何高效准确的进行文本语义理解成为目前亟待解决的问题。
多任务联合训练渐渐成为NLP等领域主流的建模方式之一,其不仅可以结合多任务的各自优势强化综合模型的泛化能力,而且可以有助于解决在某些单任务样本不足的问题。在分类任务和实体识别任务中,大多面临着样本标注难度大、成本高的问题,因此可以借助联合训练的方式强化模型训练。
有鉴于此,本申请实施例提供了一种文本语义识别方法、装置、电子设备和存储介质,由于本申请通过对待识别文本进行编码,获得待识别文本的文本语义特征和待识别文本中各个分词的词语义特征,高效编码的同时增强了文本特征的多样性,基于文本语义特征对待识别文本进行文本分类,获得待识别文本对应的文本类别;通过分别基于各词语义特征,对文本语义特征进行特征融合处理,获得的各词融合特征能够在结合文本的整体语义信息,从而更加准确的对待识别文本进行命名实体提取,获得待识别文本包含的命名实体,进而基于待识别文本的文本类别和包含的命名实体能够准确的反映文本的核心内容,提高对文本语义识别的准确率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图2所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器220。
在本申请实施例中,终端设备210包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有文本语义识别相关的客户端,该客户端可以是软件(例如浏览器、阅读软件等),也可以是网页、小程序等,服务器220则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行文本语义识别的服务器,本申请不做具体限定。服务器220可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例中的文本语义识别方法可以由电子设备执行,该电子设备可以为服务器220或者终端设备210,即,该方法可以由服务器220或者终端设备210单独执行,也可以由服务器220和终端设备210共同执行。比如由终端设备210和服务器220共同执行时,终端设备210获取待识别文本,并将待识别文本发送给服务器220,服务器220对待识别文本进行编码,获得待识别文本的文本语义特征和待识别文本中各个分词的词语义特征后,分别基于各个词语义特征,对文本语义特征进行特征融合处理,获得相应的词融合特征,并基于文本语义特征对待识别文本进行文本分类,获得待识别文本对应的文本类别,基于各词融合特征对待识别文本进行命名实体提取,获得待识别文本包含的命名实体,最后服务器220将待识别文本的文本类别和包含的命名实体发送给终端设备210,由终端设备210展示识别结果。
另外,上述所列举的服务器220和终端设备210共同执行的方式也只是举例说明,任何一种服务器220和终端设备210共同执行,或者,由服务器220或者终端设备210单独执行的方式,都适用于本申请实施例。
在一种可选的实施方式中,终端设备210与服务器220之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例中,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器为区块链上的节点;如本申请实施例所公开的文本语义识别方法,其中所涉及的训练样本数据集可保存于区块链上等。
此外,本申请实施例可应用于各种场景,不仅包括文本语义识别场景,还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。例如,应用于
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的文本语义识别方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参阅图3所示,为本申请实施例提供的一种文本语义识别方法的实施流程图,以执行主体为服务器为例,该方法的具体实施流程包括如下步骤S31-S34:
S31:服务器对待识别文本进行编码,获得待识别文本的文本语义特征和待识别文本中各个分词的词语义特征;
具体地,将待识别文本输入到BERT模型中进行编码,获得CLS语义向量(即文本语义特征)以及文本中各个分词的编码语义向量(词语义特征)T0-Tn。
需要说明的是,在本申请实施例中采用BERT模型作为待识别文本的编码方式,实际上也可以替换其他的编码方式,例如长短期记忆网络(Long Short-Term Memory,LSTM)、文本卷积神经网络(Text Convolutional Neural Networks,TextCNN),在此不做具体限定。
在本申请实施例中,采用BERT来编码待识别文本,并分别将CLS语义向量和词编码语义向量输入到不同任务中,能够实现高效编码。
S32:服务器分别基于各个词语义特征,对文本语义特征进行特征融合处理,获得相应的词融合特征;
在一种可选的实施方式中,基于以下方式实施步骤S32:
S321:将文本语义特征映射为预设维度的文本类别特征,文本类别特征包含对应的待识别文本的分类信息;
S322:分别基于各词语义特征,对文本类别特征进行特征融合处理,获得各个分词相应的词融合特征。
具体地,首先将文本语义特征线性映射为预设维度的文本类别特征,其中预设维度与文本类别的数量一致,例如,文本类别包括新闻、游戏、文学、音乐和科技共5个类别,则预设维度为5,将文本语义特征线性映射为预设维度后,获得的文本类别特征能够反映待识别文本所属的文本类别,然后基于文本类别特征,对各词语义特征进行特征融合处理,获得各个分词相应的词融合特征。
可选的,基于以下公式获得词融合特征:
Fi=x*W[1:m]*Ti
其中,Fi表示词融合特征,维度为1*m,x表示文本类别特征,维度为1*d,Ti表示词语义特征,维度为1*q,W为参数矩阵,维度为d*q*m,另外,d、q、m为本申请中的自定义参数,可以根据实际需要进行调整。
在本申请实施例中,同样的词语在不同文本类别下的重要程度不同,即词语的重要程度是与文本类别相关的,将词语义特征融合文本类别特征,能够更准确的提取出文本类别对应的实体词语,例如,在“游戏”类别下,“手机”、“张三”更应该被提取出来。
S33:服务器基于文本语义特征对待识别文本进行文本分类,获得待识别文本对应的文本类别;
在本申请实施例中,基于文本语义特征获得待识别文本对应的文本类别,能够反映待识别文本的语义。
S34:服务器基于各词融合特征对待识别文本进行命名实体提取,获得待识别文本包含的命名实体。
具体地,对词融合特征进行类型判别,根据词融合特征是否属于命名实体确定待识别文本中包含的命名实体。
在一种可选的实施方式中,通过以下方式实施步骤S34:
首先,将各词融合特征输入已训练的目标文本识别模型的实体识别网络层;然后,基于实体识别网络层,分别对各词融合特征进行标注,获得各词融合特征各自对应的词性信息;最后,基于各词融合特征各自对应的词性信息,对待识别文本进行命名实体提取,获得待识别文本包含的至少一个命名实体。
其中,每个词融合特征的词性信息用于表示相应的词融合特征对应的分词在待识别文本中的属性和位置,分词的属性包括是否属于命名实体,分词的位置表示此分词在命名实体中的位置,具体包括:命名实体起始字、命名实体中间字、命名实体结束字三种位置,若一个分词的属性为不属于命名实体,因此也没有在命名实体中的位置,则该分词的词性信息可以不包括位置。可以设置四个实体标签O、B、M、E,用于表示词融合特征各自对应的词性信息,其中,O表示无意义字,即O的属性为不属于命名实体,B表示命名实体起始字,M表示命名实体中间字,E表示命名实体结束字。
待识别文本为“那有一个红苹果”,其中“那”“有”“一”“个”“红”“苹”“果”分别对应词融合特征1-7,则将词融合特征1-7,输入实体识别网络层,对词融合特征进行类型判别,将概率最高的类别作为词融合特征的实体标签,例如,词融合特征1对应O、B、M、E的概率分别为0.7、0.2、0.1、0,则词融合特征1对应的实体标签为O,进行标注后输出的词性信息为:词融合特征1(O),词融合特征2(O),词融合特征3(O),词融合特征4(O),词融合特征5(O),词融合特征6(B),词融合特征,7(E),因此可以通过输出的词性信息确定“苹果”为待识别文本中的命名实体。
在本申请实施例中,由于词融合特征是词语义特征融合文本类别特征后获得的,通过文本分类强化语义理解,从而强化同一词语在不同文本类别下的标签差异化,基于词融合特征提取待识别文本中的命名实体,能够提高命名实体识别的准确性。
在本申请实施例中,通过对待识别文本进行编码,获得待识别文本整体对应的文本语义特征,以及待识别文本中各个分词各自对应的词语义特征,高效编码的同时增强了文本特征的多样性;此外,基于文本语义特征对待识别文本进行文本分类,可获得待识别文本对应的文本类别;通过分别基于各词语义特征,对文本语义特征进行特征融合处理,获得的各词融合特征,能够在结合文本的整体语义信息,从而更加准确的对待识别文本进行命名实体提取,获得待识别文本包含的命名实体,进而基于待识别文本的文本类别和包含的命名实体能够准确的反映文本的核心内容,提高对文本语义识别的准确率。
在一种可选的实施方式中,步骤S321可以实施为:
首先,将文本语义特征输入已训练的目标文本识别模型的分类网络层;然后,基于分类网络层,对文本语义特征进行线性映射,获得包含分类信息的文本类别特征;
具体地,已训练的目标文本识别模型的分类网络层可以包括深度神经网络(DeepNeural Networks,DNN),通过DNN对文本语义特征进行线性映射,获得文本类别特征。
在本申请实施例中,通过分类网络层,对文本语义特征进行线性映射获得文本类别特征,能够基于文本类别特征获取文本所属类别。
在一种可选的实施方式中,步骤S33可以实施为:
将文本语义特征输入分类网络层,获得文本类别特征;基于文本类别特征对待识别文本进行文本分类,获得待识别文本对于各个文本类别的概率,将概率符合预设条件的文本类别,作为待识别文本对应的文本类别。
具体地,目标文本识别模型的分类网络层可以包括归一化指数函数(softmax函数)层,在通过DNN对文本语义特征进行线性映射,获得文本类别特征之后,可以将文本类别特征输入softmax函数层进行归一化处理,获得待识别函数对于各个文本类别的概率,预设条件可以是概率最高,或概率高于预设阈值等,本申请以预设条件为概率值最高为例进行说明。
例如,待识别文本1对于音乐、新闻和游戏的概率分别是0.6、0.3和0.1,则将音乐作为待识别文本1的文本类别。
在一种可选的实施方式中,目标文本识别模型是通过以下方式训练得到的:
步骤1:获取样本数据集,样本数据集中的每个样本数据包括一个样本文本;
步骤2:根据样本数据集对待训练的文本识别模型进行循环迭代训练,输出已训练的目标文本识别模型;其中,在一次循环迭代过程中,执行以下操作:
首先,将选取的样本数据输入待训练的文本识别模型,获得样本数据对应的预测文本类别,以及样本数据包含的各个分词的预测词性信息,其中,样本数据包含的每个分词的词性信息,用于表示对应的分词在样本文本中的属性和位置;然后,采用基于预测文本类别和样本数据包含的各个分词的预测词性信息构建的目标损失函数,对待训练的文本识别模型进行参数调整。
具体地,基于样本数据集对待训练的文本识别模型进行循环迭代训练,将样本数据输入待训练的文本识别模型,输出为样本数据的文本类别和样本数据包含的各个分词的预测词性信息。
需要说明的是,在进行一次循环迭代训练的过程中,可以批量选取样本数据输入待训练的文本识别模型中进行并行处理,而不是每次循环迭代训练仅使用一个样本数据。
在本申请实施例中,通过对待训练的文本识别模型进行循环迭代训练,获得的目标文本识别模型能够预设文本类别,同时输出待识别文本包含的每个分词的词性信息,进而可以基于各分词的词性信息提取待识别文本中的命名实体。
在一种可选的实施方式中,样本数据集中的每个样本数据还包括:样本文本对应的真实文本类别,样本文本中的各个分词的真实词性信息,每个分词的真实词性信息用于表示相应的分词在样本文本中的属性和位置,词性信息是基于样本文本所包含的命名实体确定的。
在本申请实施例中,分词的真实词性信息为4类,分别是O、B、M、E,其中,O表示无意义字,即O的属性为不属于命名实体,B表示命名实体起始字,M表示命名实体中间字,E表示命名实体结束字,根据样本文本所包含的命名实体对样本文本中的每个分词按照上述方式进行标注,获得各个分词的真实词性信息。
参阅图4,其为本申请实施例中的一种样本数据的格式示意图,其中,样本文本为“这张三没救了,经济被压制,完全起不来,手机给你来玩!”,样本文本对应的真实文本类别为游戏,分词“这”的真实词性信息为O,分词“鲁”的真实词性信息为B,分词“班”的真实词性信息为E,其他分词的真实词性信息以此类推,在此不做赘述。
在一种可选的实施方式中,通过以下方式构建目标损失函数:
首先,基于样本数据的预测文本类别与真实文本类别之间的差异,构建第一损失函数;然后,基于样本数据中的各个分词各自的预测词性信息与真实词性信息之间的差异,构建第二损失函数,最后,基于第一损失函数和第二损失函数,以及各自对应的权重构建目标损失函数。
具体地,整个模型采用多任务损失权重加和的方式来调和,具体构建目标损失函数的方式如下:
分类损失函数(即第一损失函数),基于负对数似然函数构建,具体公式如下:
Figure BDA0003557710130000151
其中,losscls表示分类损失函数,n为文本类别的数量,在本申请实施例中样本文本的真实文本类别为44个,上述公式给出了一条样本数据的损失值,yi代表该样本数据是否属于第i类文本,属于则yi为1,否则为0。ai为目标文本识别模型预测该样本数据为第i类文本的概率。
实体识别损失函数(即第二损失函数),基于负对数似然函数,具体公司如下:
Figure BDA0003557710130000152
其中,losscrf表示实体识别损失函数,k为实体标签的数量,在本申请实施例中实体标签包括OBME四种标签,因此k=4,n为文本中的字数,一条样本数据的损失值为每个字损失值之和。yij代表该样本数据中第i个字是否属于第j类实体标签,属于则yij为1,否则为0,aij为目标识别模型预测该样本数据中的第i个字为第j类实体标签概率。
最终的损失函数由上述两个任务的损失值加权求得,具体公式如下:
lossall=λ1losscls2losscrf
其中,lossall为目标损失函数,λ1和λ1分别为两个任务损失函数的调和超参数(即权重)。
在本申请实施例中,分别构建文本分类和实体识别的损失函数,并通过权重和的方式进行损失函数调和,获得目标损失函数,基于目标损失函数进行模型参数调整,提高目标文本识别模型的准确率。
需要说明的是,在本申请实施例中,采用权重和的方式作为多任务模型的最终的损失函数,实际上也可以替换其他损失函数调和方式,在此不做具体限定。
参阅图5,其为本申请实施例中的一种目标文本识别模型的系统结构示意图,目标文本识别模型是一种基于双线性模块联合分类任务和实体识别任务的模型,也称多任务模型。采用标注了文本类别或者实体标签的数据作为多任务联合训练的基本训练数据。整个模型采用BERT作为语义向量的编码器,分类模块采用CLS语义向量作为输入,损失函数losscls采用对数似然损失函数,实体识别模块,将文本中每个分词的词融合特征输入到实体识别模块,损失函数losscrf也采用对数似然损失函数完成。下面以待识别文本为标题为例,介绍基于目标文本识别模型进行文本语义识别的过程:
步骤1:将标题输入到BERT编码模型中,最终编码得到CLS_token(即文本语义特征)以及标题中各个词的编码语义向量T0…Tn(即词语义特征);
CLS_token,T0,T1…Tn=BERT(标题)
步骤2:将CLS_token输入到分类模块,对标题进行文本类别识别,其中分类模块由DNN和softmax两层组成,通过DNN线性映射得到分类导向的特征表达向量x(即文本类别向量),公式表达如下:
x=DNN(CLS_token)
其中,CLS_token表示BERT编码而成的语义向量,再将x输入到softmax层,得到文本类别的预测概率分布;
步骤3:基于双线性变化构建特征交互模块,该模块两端的输入分别是分类导向的表达向量x,和BERT编码得出的每个分词的语义向量Ti,输出为各分词的融合特征向量(即词融合特征)Fi
步骤4:将F1,F2…Fn输入到实体识别模块,对每个分词进行类型判别,最终得到每个分词的词性信息。
在本申请实施例中,提出联合实体识别任务和分类任务来构建多任务训练模型,可以有效的共享两个任务的语义编码器,从而达到任务间相辅相成的作用引入特征交互模块,基于双线性交互方式来强化联合任务的特征交互,从而强化两个任务的联合性。采用BERT来编码两个任务语义,分别将CLS和字向量输入到不同任务中,达到高效编码的同时,又能使得任务语义向量来源有所区别。
参阅图6,其为应用本申请实施例中的文本语义识别方法的视频标题识别方法的逻辑示意图,对视频标题进行标题分类任务获得视频标题的类别为游戏,对视频标题进行实体识别任务,获得视频标题中包含的实体为“张三”和“手机”。
表1训练样本
Figure BDA0003557710130000171
参阅表1,为本申请实施例所列举的一种标题数据的实例,可以根据上述标题数据构建样本数据。联合训练任务中标题数据分别带有类别和核心词(即命名实体)标注数据,当然并非每条样本都需要带上两类标注数据,只带一种即可。一般而言,分类数据更易获取,因此量级一般大于核心词标注数据。
本申请中文本语义识别方法的多任务建模方式,是提取句子核心成分,理解句子的核心内容的关键技术,该方法适用于所有需要理解文本核心词、词权重场景,例如标题理解、篇章句式理解等通用场景。
参阅图7,其为本申请实施例中的一种文本语义识别方法的逻辑示意图,下面以待识别文本为“操场上正进行着一场精彩的足球比赛。”,介绍本申请中的文本语义识别方法:
首先,对“操场上正进行着一场精彩的足球比赛”进行编码,获得能够表示整个文本语义的文本语义特征a,以及各个分词的词语义特征1-16,然后对文本语义特征进行线性映射,获得包含分类信息的文本类别特征。一方面根据文本类别特征a对待识别文本进行分类,获得“操场上正进行着一场精彩的足球比赛”对应的文本类别为“体育”;另一方面,将文本类别特征和词语义特征1-16进行特征融合,获得词融合特征1-16,然后对词融合特征1-16进行类型判别,标注词性信息,获得“操场上正进行着一场精彩的足球比赛”包含的实体为“操场”和“足球”。
在本申请实施例中,提出联合实体识别任务和分类任务来构建多任务训练模型,可以有效的共享两个任务的语义编码器,从而达到任务间相辅相成的作用引入特征交互模块,基于双线性交互方式来强化联合任务的特征交互,从而强化两个任务的联合性。采用BERT来编码两个任务语义,分别将CLS和字向量输入到不同任务中,达到高效编码的同时,又能使得任务语义向量来源有所区别。
基于相同的发明构思,本申请实施例还提供一种文本语义识别装置。如图8所示,其为文本语义识别装置800的结构示意图,可以包括:
编码单元801,用于对待识别文本进行编码,获得待识别文本的文本语义特征和待识别文本中各个分词的词语义特征;
融合单元802,用于分别基于各词语义特征,对文本语义特征进行特征融合处理,获得相应的词融合特征;
分类单元803,用于基于文本语义特征对待识别文本进行文本分类,获得待识别文本对应的文本类别;
提取单元804,用于基于各词融合特征对待识别文本进行命名实体提取,获得待识别文本包含的命名实体。
可选的,融合单元802具体用于:
将文本语义特征映射为预设维度的文本类别特征,文本类别特征包含对应的待识别文本的分类信息;
分别基于各词语义特征,对文本类别特征进行特征融合处理,获得各个分词相应的词融合特征。
可选的,融合单元802具体用于:
将文本语义特征输入已训练的目标文本识别模型的分类网络层;
基于分类网络层,对文本语义特征进行线性映射,获得包含分类信息的文本类别特征;
分类单元803具体用于:
将文本语义特征输入分类网络层,获得文本类别特征;
基于文本类别特征对待识别文本进行文本分类,获得待识别文本对于各个文本类别的概率,将概率符合预设条件的文本类别,作为待识别文本对应的文本类别。
可选的,提取单元804具体用于:
将各词融合特征输入已训练的目标文本识别模型的实体识别网络层;
基于实体识别网络层,分别对各词融合特征进行标注,获得各词融合特征各自对应的词性信息,每个词融合特征的词性信息用于表示相应的词融合特征对应的分词在待识别文本中的属性和位置;
基于各词融合特征各自对应的词性信息,对待识别文本进行命名实体提取,获得待识别文本包含的至少一个命名实体。
可选的,装置还包括训练单元805,用于通过以下方式训练得到目标文本识别模型:
获取样本数据集,样本数据集中的每个样本数据包括一个样本文本;
根据样本数据集对待训练的文本识别模型进行循环迭代训练,输出已训练的目标文本识别模型;其中,在一次循环迭代过程中,执行以下操作:
将选取的样本数据输入待训练的文本识别模型,获得样本数据对应的预测文本类别,以及样本数据包含的各个分词的预测词性信息,其中,样本数据包含的每个分词的词性信息,用于表示对应的分词在样本文本中的属性和位置;
采用基于预测文本类别和样本数据包含的各个分词的预测词性信息构建的目标损失函数,对待训练的文本识别模型进行参数调整。
可选的,样本数据集中的每个样本数据还包括:样本文本对应的真实文本类别,样本文本中的各个分词的真实词性信息,每个分词的真实词性信息用于表示相应的分词在样本文本中的属性和位置,词性信息是基于样本文本所包含的命名实体确定的。
可选的,训练单元805具体用于:
基于样本数据的预测文本类别与真实文本类别之间的差异,构建第一损失函数;以及
基于样本数据中的各个分词各自的预测词性信息与真实词性信息之间的差异,构建第二损失函数,
基于第一损失函数和第二损失函数,以及各自对应的权重构建目标损失函数。
在本申请实施例中,通过对待识别文本进行编码,获得待识别文本整体对应的文本语义特征,以及待识别文本中各个分词各自对应的词语义特征,高效编码的同时增强了文本特征的多样性;此外,基于文本语义特征对待识别文本进行文本分类,可获得待识别文本对应的文本类别;通过分别基于各词语义特征,对文本语义特征进行特征融合处理,获得的各词融合特征,能够在结合文本的整体语义信息,从而更加准确的对待识别文本进行命名实体提取,获得待识别文本包含的命名实体,进而基于待识别文本的文本类别和包含的命名实体能够准确的反映文本的核心内容,提高对文本语义识别的准确率。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图2所示的服务器220。在该实施例中,电子设备的结构可以如图9所示,包括存储器901,通讯模块903以及一个或多个处理器902。
存储器901,用于存储处理器902执行的计算机程序。存储器901可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器901可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器901也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器901是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器901可以是上述存储器的组合。
处理器902,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器902,用于调用存储器901中存储的计算机程序时实现上述文本语义识别方法。
通讯模块903用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器901、通讯模块903和处理器902之间的具体连接介质。本申请实施例在图9中以存储器901和处理器902之间通过总线904连接,总线904在图9中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线904可以分为地址总线、数据总线、控制总线等。为便于描述,图9中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器901中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的文本语义识别方法。处理器902用于执行上述的文本语义识别方法,如图3所示。
在另一种实施例中,电子设备也可以是其他电子设备,如图2所示的终端设备210。在该实施例中,电子设备的结构可以如图10所示,包括:通信组件1010、存储器1020、显示单元1030、摄像头1040、传感器1050、音频电路1060、蓝牙模块1070、处理器1080等部件。
通信组件1010用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器1020可用于存储软件程序及数据。处理器1080通过运行存储在存储器1020的软件程序或数据,从而执行终端设备210的各种功能以及数据处理。存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1020存储有使得终端设备210能运行的操作系统。本申请中存储器1020可以存储操作系统及各种应用程序,还可以存储执行本申请实施例文本语义识别方法的计算机程序。
显示单元1030还可用于显示由用户输入的信息或提供给用户的信息以及终端设备210的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1030可以包括设置在终端设备210正面的显示屏1032。其中,显示屏1032可以采用液晶显示器、发光二极管等形式来配置。显示单元1030可以用于显示本申请实施例中的文本语义识别用户界面等。
显示单元1030还可用于接收输入的数字或字符信息,产生与终端设备210的用户设置以及功能控制有关的信号输入,具体地,显示单元1030可以包括设置在终端设备210正面的触摸屏1031,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触摸屏1031可以覆盖在显示屏1032之上,也可以将触摸屏1031与显示屏1032集成而实现终端设备210的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1030可以显示应用程序以及对应的操作步骤。
摄像头1040可用于捕获静态图像,用户可以将摄像头1040拍摄的图像通过应用发布评论。摄像头1040可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1080转换成数字图像信号。
终端设备还可以包括至少一种传感器1050,比如加速度传感器1051、距离传感器1052、指纹传感器1053、温度传感器1054。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1060、扬声器1061、传声器1062可提供用户与终端设备210之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出。终端设备210还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出至通信组件1010以发送给比如另一终端设备210,或者将音频数据输出至存储器1020以便进一步处理。
蓝牙模块1070用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1070与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1080是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1020内的软件程序,以及调用存储在存储器1020内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1080可包括一个或多个处理单元;处理器1080还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1080中。本申请中处理器1080可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的文本语义识别方法。另外,处理器1080与显示单元1030耦接。
在一些可能的实施方式中,本申请提供的文本语义识别方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本语义识别方法中的步骤,例如,电子设备可以执行如图3中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种文本语义识别方法,其特征在于,该方法包括:
对待识别文本进行编码,获得所述待识别文本的文本语义特征和所述待识别文本中各个分词的词语义特征;
分别基于各个词语义特征,对所述文本语义特征进行特征融合处理,获得相应的词融合特征;
基于所述文本语义特征对所述待识别文本进行文本分类,获得所述待识别文本对应的文本类别;
基于各词融合特征对所述待识别文本进行命名实体提取,获得所述待识别文本包含的命名实体。
2.如权利要求1所述的方法,其特征在于,分别基于各个词语义特征,对所述文本语义特征进行特征融合处理,获得相应的词融合特征,包括:
将所述文本语义特征映射为预设维度的文本类别特征,所述文本类别特征包含对应的待识别文本的分类信息;
分别基于所述各词语义特征,对所述文本类别特征进行特征融合处理,获得所述各个分词相应的词融合特征。
3.如权利要求2所述的方法,其特征在于,所述将所述文本语义特征映射为预设维度的文本类别特征,包括:
将所述文本语义特征输入已训练的目标文本识别模型的分类网络层;
基于所述分类网络层,对所述文本语义特征进行线性映射,获得包含所述分类信息的文本类别特征;
所述基于所述文本语义特征对所述待识别文本进行文本分类,获得所述待识别文本对应的文本类别,包括:
将所述文本语义特征输入所述分类网络层,获得所述文本类别特征;
基于所述文本类别特征对所述待识别文本进行文本分类,获得所述待识别文本对于各个文本类别的概率,将概率符合预设条件的文本类别,作为所述待识别文本对应的文本类别。
4.如权利要求1所述的方法,其特征在于,所述基于各词融合特征对所述待识别文本进行命名实体提取,获得所述待识别文本包含的命名实体,包括:
将各词融合特征输入已训练的目标文本识别模型的实体识别网络层;
基于所述实体识别网络层,分别对各词融合特征进行标注,获得各词融合特征各自对应的词性信息,每个词融合特征的词性信息用于表示相应的词融合特征对应的分词在所述待识别文本中的属性和位置;
基于各词融合特征各自对应的词性信息,对所述待识别文本进行命名实体提取,获得所述待识别文本包含的至少一个命名实体。
5.如权利要求3或4所述的方法,其特征在于,所述目标文本识别模型是通过以下方式训练得到的:
获取样本数据集,所述样本数据集中的每个样本数据包括一个样本文本;
根据所述样本数据集对待训练的文本识别模型进行循环迭代训练,输出所述已训练的目标文本识别模型;其中,在一次循环迭代过程中,执行以下操作:
将选取的样本数据输入所述待训练的文本识别模型,获得所述样本数据对应的预测文本类别,以及所述样本数据包含的各个分词的预测词性信息,其中,所述样本数据包含的每个分词的词性信息,用于表示对应的分词在所述样本文本中的属性和位置;
采用基于所述预测文本类别和所述样本数据包含的各个分词的预测词性信息构建的目标损失函数,对所述待训练的文本识别模型进行参数调整。
6.如权利要求5所述的方法,其特征在于,所述样本数据集中的每个样本数据还包括:所述样本文本对应的真实文本类别,所述样本文本中的各个分词的真实词性信息,每个分词的真实词性信息用于表示相应的分词在所述样本文本中的属性和位置,所述词性信息是基于所述样本文本所包含的命名实体确定的。
7.如权利要求6所述的方法,其特征在于,所述采用基于所述预测文本类别和所述样本数据包含的各个分词的预测词性信息构建的目标损失函数,包括:
基于所述样本数据的预测文本类别与真实文本类别之间的差异,构建第一损失函数;以及
基于所述样本数据中的各个分词各自的预测词性信息与真实词性信息之间的差异,构建第二损失函数,
基于所述第一损失函数和所述第二损失函数,以及各自对应的权重构建所述目标损失函数。
8.一种文本语义识别装置,其特征在于,包括:
编码单元,用于对待识别文本进行编码,获得所述待识别文本的文本语义特征和所述待识别文本中各个分词的词语义特征;
融合单元,用于分别基于各词语义特征,对所述文本语义特征进行特征融合处理,获得相应的词融合特征;
分类单元,用于基于所述文本语义特征对所述待识别文本进行文本分类,获得所述待识别文本对应的文本类别;
提取单元,用于基于各词融合特征对所述待识别文本进行命名实体提取,获得所述待识别文本包含的命名实体。
9.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~7中任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~7中任一所述方法的步骤。
11.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行权利要求1~7中任一所述方法的步骤。
CN202210284743.0A 2022-03-22 2022-03-22 一种文本语义识别方法、装置、电子设备和存储介质 Pending CN114707513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210284743.0A CN114707513A (zh) 2022-03-22 2022-03-22 一种文本语义识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210284743.0A CN114707513A (zh) 2022-03-22 2022-03-22 一种文本语义识别方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114707513A true CN114707513A (zh) 2022-07-05

Family

ID=82169434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210284743.0A Pending CN114707513A (zh) 2022-03-22 2022-03-22 一种文本语义识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114707513A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238708A (zh) * 2022-08-17 2022-10-25 腾讯科技(深圳)有限公司 文本语义识别方法、装置、设备、存储介质及程序产品
CN115983271A (zh) * 2022-12-12 2023-04-18 北京百度网讯科技有限公司 命名实体的识别方法和命名实体识别模型的训练方法
CN116150697A (zh) * 2023-04-19 2023-05-23 上海钐昆网络科技有限公司 一种异常应用识别方法、装置、设备、存储介质及产品
WO2024027552A1 (zh) * 2022-08-03 2024-02-08 马上消费金融股份有限公司 文本分类方法及装置、文本识别方法及装置、电子设备、存储介质
CN117591674A (zh) * 2024-01-18 2024-02-23 交通运输部公路科学研究所 基于文本分类模型对桥梁检评文本的自动分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN111309915A (zh) * 2020-03-03 2020-06-19 爱驰汽车有限公司 联合学习的自然语言训练方法、系统、设备及存储介质
CN112613324A (zh) * 2020-12-29 2021-04-06 北京中科闻歌科技股份有限公司 语义情绪识别方法、装置、设备及存储介质
CN113076752A (zh) * 2021-03-26 2021-07-06 中国联合网络通信集团有限公司 识别地址的方法和装置
CN113672731A (zh) * 2021-08-02 2021-11-19 北京中科闻歌科技股份有限公司 基于领域信息的情感分析方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN111309915A (zh) * 2020-03-03 2020-06-19 爱驰汽车有限公司 联合学习的自然语言训练方法、系统、设备及存储介质
CN112613324A (zh) * 2020-12-29 2021-04-06 北京中科闻歌科技股份有限公司 语义情绪识别方法、装置、设备及存储介质
CN113076752A (zh) * 2021-03-26 2021-07-06 中国联合网络通信集团有限公司 识别地址的方法和装置
CN113672731A (zh) * 2021-08-02 2021-11-19 北京中科闻歌科技股份有限公司 基于领域信息的情感分析方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024027552A1 (zh) * 2022-08-03 2024-02-08 马上消费金融股份有限公司 文本分类方法及装置、文本识别方法及装置、电子设备、存储介质
CN115238708A (zh) * 2022-08-17 2022-10-25 腾讯科技(深圳)有限公司 文本语义识别方法、装置、设备、存储介质及程序产品
CN115238708B (zh) * 2022-08-17 2024-02-27 腾讯科技(深圳)有限公司 文本语义识别方法、装置、设备、存储介质及程序产品
CN115983271A (zh) * 2022-12-12 2023-04-18 北京百度网讯科技有限公司 命名实体的识别方法和命名实体识别模型的训练方法
CN115983271B (zh) * 2022-12-12 2024-04-02 北京百度网讯科技有限公司 命名实体的识别方法和命名实体识别模型的训练方法
CN116150697A (zh) * 2023-04-19 2023-05-23 上海钐昆网络科技有限公司 一种异常应用识别方法、装置、设备、存储介质及产品
CN117591674A (zh) * 2024-01-18 2024-02-23 交通运输部公路科学研究所 基于文本分类模型对桥梁检评文本的自动分类方法
CN117591674B (zh) * 2024-01-18 2024-04-26 交通运输部公路科学研究所 基于文本分类模型对桥梁检评文本的自动分类方法

Similar Documents

Publication Publication Date Title
CN114707513A (zh) 一种文本语义识别方法、装置、电子设备和存储介质
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN116415654A (zh) 一种数据处理方法及相关设备
CN113704388A (zh) 多任务预训练模型的训练方法、装置、电子设备和介质
CN114238690A (zh) 视频分类的方法、装置及存储介质
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN116975199A (zh) 一种文本预测方法、装置、设备和存储介质
CN116432019A (zh) 一种数据处理方法及相关设备
CN115688937A (zh) 一种模型训练方法及其装置
CN116957932A (zh) 一种图像生成方法、装置、电子设备和存储介质
CN117034019B (zh) 一种业务处理方法、装置、电子设备和存储介质
CN116628345B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN116958852A (zh) 视频与文本的匹配方法、装置、电子设备和存储介质
CN114638297A (zh) 一种命名实体提取方法、装置、电子设备和存储介质
CN114282094A (zh) 一种资源排序方法、装置、电子设备和存储介质
CN114970494A (zh) 一种评论生成方法、装置、电子设备和存储介质
CN117540024B (zh) 一种分类模型的训练方法、装置、电子设备和存储介质
CN116911374B (zh) 文本对抗样本的生成方法、装置、电子设备和存储介质
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN117875266B (zh) 文本编码模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination