CN118093983A - 一种文本识别方法、装置、计算机设备及介质 - Google Patents
一种文本识别方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN118093983A CN118093983A CN202211496126.3A CN202211496126A CN118093983A CN 118093983 A CN118093983 A CN 118093983A CN 202211496126 A CN202211496126 A CN 202211496126A CN 118093983 A CN118093983 A CN 118093983A
- Authority
- CN
- China
- Prior art keywords
- text
- features
- category
- feature extraction
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000000605 extraction Methods 0.000 claims abstract description 333
- 230000004927 fusion Effects 0.000 claims abstract description 74
- 238000007499 fusion processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 19
- 238000003062 neural network model Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 138
- 239000013598 vector Substances 0.000 description 57
- 230000008569 process Effects 0.000 description 46
- 238000012545 processing Methods 0.000 description 27
- 230000006399 behavior Effects 0.000 description 26
- 230000000694 effects Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 13
- 238000012512 characterization method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本申请实施例公开了一种文本识别方法、装置、计算机设备及介质,该方法包括:对待识别文本进行特征提取,得到针对待识别文本的多个文本特征;获取各个文本特征的特征深度,并基于特征深度确定目标抽取规则;按照目标抽取规则从多个文本特征中确定待识别文本的文本语义特征和文本结构特征;将文本语义特征和文本结构特征进行融合处理,得到目标融合特征;根据目标融合特征计算待识别文本属于多个预设类别下每个预设类别的类别概率,并基于每个预设类别的类别概率确定待识别文本的类别识别结果。可以提高文本类别识别的准确率。本申请可应用于云技术、人工智能等场景,如上述待识别文本的类别识别可利用神经网络模型实现,以用于文本识别等场景。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本识别方法、装置、计算机设备及介质。
背景技术
随着互联网技术的快速发展,搜索引擎在人们的工作、学习以及生活中的应用越来越广泛。目前,搜索引擎在接收到对象输入的搜索句子后,通常会对搜索句子进行类别识别,以确定该搜索句子的类别,从而利用该类别从大量的多媒体数据中召回该搜索句子对应的搜索结果。基于此,如何较为准确地确定搜索句子的类别成为了当前研究热点。
发明内容
本申请实施例提供了一种文本识别方法、装置、计算机设备及介质,可以提高文本类别识别的准确率。
第一方面,本申请实施例提供了一种文本识别方法,包括:
获取待识别文本,并对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征;
获取所述多个文本特征中各个文本特征的特征深度,并基于所述特征深度确定所述多个文本特征的目标抽取规则;
按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征;其中,所述文本语义特征用于表征所述待识别文本的语义信息,所述文本结构特征用于表征所述待识别文本的结构信息;
将所述文本语义特征和所述文本结构特征进行融合处理,得到目标融合特征;
根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率,并基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果。
第二方面,本申请实施例提供了一种文本识别装置,包括:
提取单元,用于获取待识别文本,并对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征;
第一确定单元,用于获取所述多个文本特征中各个文本特征的特征深度,并基于所述特征深度确定所述多个文本特征的目标抽取规则;
第二确定单元,用于按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征;其中,所述文本语义特征用于表征所述待识别文本的语义信息,所述文本结构特征用于表征所述待识别文本的结构信息;
融合单元,用于将所述文本语义特征和所述文本结构特征进行融合处理,得到目标融合特征;
识别单元,用于根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率,并基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果。
第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,其中,存储器用于存储计算机程序,该计算机程序包括程序指令,处理器被配置用于调用该程序指令,执行上述方法中的部分或全部步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时,用于执行上述方法中的部分或全部步骤。
第五方面,本申请实施例还提供了一种计算机程序产品或者计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。
本申请实施例可以对待识别文本进行特征提取,以得到针对待识别文本的多个文本特征;还可以获取多个文本特征中各个文本特征的特征深度,并基于特征深度确定多个文本特征的目标抽取规则;从而可以按照目标抽取规则从多个文本特征中确定待识别文本的文本语义特征和文本结构特征;进一步的,可以将文本语义特征和文本结构特征进行融合处理,得到目标融合特征;并可以根据该目标融合特征确定待识别文本的类别识别结果。通过这种方式,可以融合文本中的结构信息以及语义信息对文本进行表征,以提高文本的表征效果,从而可以提高文本类别识别的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本识别系统的架构示意图;
图2是本申请实施例提供的一种文本识别方法的流程示意图;
图3a是本申请实施例提供的一种确定存在识别需求的流程示意图;
图3b是本申请实施例提供的一种文本识别模型的结构示意图;
图3c是本申请实施例提供的另一种文本识别模型的结构示意图;
图3d是本申请实施例提供的一种搜索引擎的界面示意图;
图4是本申请实施例提供的另一种文本识别方法的流程示意图;
图5是本申请实施例提供的又一种文本识别模型的结构示意图;
图6是本申请实施例提供的一种文本识别装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算(Cloud Computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
本申请可以将与文本识别相关的数据存储到“云”中,根据需求对云中的数据随时获取,随时扩展,例如,可以将待识别文本与对应的类别识别结果关联存储到“云”中,若需要利用待识别文本与对应的类别识别结果时,可以从“云”中获取待识别文本与对应的类别识别结果。示例性的,如果为训练一个类别识别模型时需要对应的样本时,可以从“云”中获取大量的样本,其中,待识别文本与对应的类别识别结果即可以作为一个样本。
人工智能(Artificial Intelligence,AI)技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术;其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。相应的,AI技术是一门综合学科,其主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机设备具有智能的根据途径;所谓的机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;其专门研究计算机设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术;机器学习/深度学习通常可包括人工神经网络、强化学习(Reinforcement Learning,RL)、有监督学习、无监督学习等多种技术;所谓的有监督学习是指采用类别已知(具有标注类别)的训练样本进行模型优化训练的处理方式,无监督学习是指采用类别未知(没有被标记)的训练样本进行模型优化训练的处理方式。
基于上述人工智能技术中所提及的机器学习技术等技术,本申请实施例提出了一种文本识别模型,以用于对待识别文本进行类别识别,确定该待识别文本对应的类别识别结果。为了实现对文本的类别识别处理,进一步地,本申请实施例基于该文本识别模型还提出了一种文本识别方案;具体的,该方案原理如下:
首先,可以获取待识别文本对应的文本语义特征以及文本结构特征,该文本语义特征可以用于表征待识别文本的语义信息,文本结构特征可以用于表征待识别文本的结构信息,文本结构特征主要包括待识别文本中的词性构造、语法结构、表达结构等基本特征。可选的,可以对该待识别文本进行特征提取,以得到文本语义特征以及文本结构特征;例如,可以对待识别文本进行特征提取,以得到针对待识别文本的多个文本特征,从而可以从这多个文本特征中确定文本语义特征以及文本结构特征。示例性的,可以按照该目标抽取规则从多个文本特征中确定文本语义特征和文本结构特征,该目标抽取规则可以是基于多个文本特征中各个文本特征的特征深度来确定的。
进一步的,在获取到这两种特征之后,即可以基于这两种特征进行类别识别处理,以得到对应的类别识别结果。可选的,可以将文本语义特征和文本结构特征进行融合处理,以得到目标融合特征,然后再基于该目标融合特征进行类别识别处理,以得到对应的类别识别结果;例如,可以根据目标融合特征计算待识别文本属于多个预设类别下每个预设类别的类别概率,从而可以基于每个预设类别的类别概率确定类别识别结果。
通过实施上述方案,可以获取文本中的结构信息以及语义信息,并融合这两种信息来对文本进行表征,可以提高文本的表征效果,进而可以提高文本识别(分类)的准确率。并且,文本识别可以直接通过一个模型实现,从而可以提高识别自动化以及智能化,也可以提高识别(分类)效率。
在具体实现中,上述所提及的文本识别方案可由一个计算机设备执行,该计算机设备可以是终端或者服务器;其中,此处所提及的终端可包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器等;终端内可运行各式各样的客户端(application,APP),如游戏类客户端、多媒体播放类客户端、社交类客户端、浏览器类客户端、信息流类客户端、教育类客户端,等等。此处所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
在一种可能的实现方式中,当计算机设备为服务器时,本申请实施例提供了一种文本识别系统,如图1所示,该文本识别系统包括至少一个终端和至少一个服务器;终端可以获取待识别文本,并将获取到的待识别文本上传至服务器(即计算机设备),以使计算机设备可以获取到该待识别文本,并对待识别文本进行类别识别,从而得到该待识别文本的类别识别结果。
可以理解的是,在本申请的具体实施方式中,涉及到例如用户数据、执行数据、结果数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得对象(例如目标对象)的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
基于上述文本识别方案的相关描述,本申请实施例提出一种文本识别方法,本申请实施例主要以计算机设备为执行主体进行阐述;请参见图2,该文本识别方法可包括以下步骤S201-S206:
S201,获取待识别文本。
其中,该待识别文本可以是在搜索引擎输入的搜索句子,或是浏览网页中的句子,或是社交软件中聊天会话中的句子,或是智能语音中用户语音对应的文本。
在一种实现方式中,可以是在存在针对文本的类别识别处理的识别需求时,获取对应的待识别文本。
可选的,可以在计算机设备获取到针对待识别文本的识别请求时,确定获取到针对待识别文本的识别需求,该识别请求可以由目标对象(可以是指任一用户)在用户操作界面上执行相关操作,而触发生成识别请求。如当目标对象需要获取到待识别文本对应的类别识别结果时,可以在所使用的终端所输出的用户操作界面上执行相关操作,以向计算机设备发送针对待识别文本的识别请求。
例如,参见图3a所示,目标对象所使用的终端的终端屏幕上可以显示一个用户操作界面,该用户操作界面可以至少包括数据输入区域301以及确认控件302。若目标对象想要得到待识别文本对应的类别识别结果,则可以先在数据输入区域301中输入待识别文本的相关信息(如可以直接是该待识别文本,或者是该待识别文本对应的存储区域地址);然后,可以对确认控件302执行触发操作(如点击、按压等操作);在终端检测到确认控件302被触发之后,可以基于输入区域301中的信息获取到待识别文本,而在终端获取到待识别文本之后,即可以向计算机设备发送携带有待识别文本的识别请求。
可选的,可以在触发一个文本识别定时任务时,确定获取到针对待识别文本的识别需求时。如可以设置一个文本识别定时任务,当触发了针对该文本识别定时任务中的触发条件时,则可以确定获取到识别需求。在一个实施例中,在某一指定区域可以存储有大量的文本,则触发条件可以是当前时间到达预设识别时间,指定区域存储了一个新文本,指定存储区域的剩余存储空间超过预设剩余存储空间等等。
可选的,在具体应用场景中,该识别需求是实时触发的。例如,可以是在搜索引擎的搜索界面上检测到一个搜索句子时,确定存在识别需求,而该搜索句子则为待识别文本。又如,可以是在智能语音中获取到用户语音后,确定存在识别需求,而该用户语音对应的文本则为待识别文本。
S202,对待识别文本进行特征提取,得到针对待识别文本的多个文本特征。
在一种实现方式中,在获取到待识别文本后,即可以进一步获取该待识别文本的文本特征,以便于后续可以基于文本特征确定待识别文本的类别识别结果。在一个实施例中,可以对该待识别文本进行特征提取,得到针对待识别文本的多个文本特征。其中,可理解的是,特征可以以向量形式表示,且该文本特征是用于表征待识别文本的语义信息,则可以将待识别文本的文本特征理解为待识别文本的语义向量。
可选的,特征提取处理的具体实现可以是通过调用文本识别模型得到的,例如,该文本识别模型可以参见图3b所示。其中,该文本识别模型可以包括特征提取模块、融合模块以及识别模块;该特征提取模块可以用于进行特征提取处理,以获取文本特征;融合模块可以用于进行融合处理,以获取目标融合特征;识别模块可以用于进行类别识别处理,以获取类别识别结果。此处主要对特征提取模块进行相关描述。
其中,该特征提取模块可以是预训练语言网络,该预训练语言网络是可以用于提取文本中语义信息的网络,如可以是BERT网络、Port BERT网络等。即在本申请实施例中,可以由大规模的语义向量模型(即预训练语言网络)作为整体编码器来实现对待识别文本的特征提取(编码处理)。
基于此可知,通过调用文本识别模型对待识别文本进行特征提取,得到多个文本特征的具体实施方式可为如下描述:
可以将该待识别文本输入文本识别模型中的特征提取模块,得到多个文本特征。可选的,如图3c所示,该特征提取模块可以包括N个特征提取层,N为大于或等于2的正整数;在这种情况下,则可以调用文本识别模型中N个特征提取层对待识别文本进行特征提取,从而得到每个特征提取层针对待识别文本的文本特征;其中,每个特征提取层针对待识别文本的文本特征即为上述的多个文本特征。
下述对利用特征提取模块得到多个文本特征的具体实现可为如下步骤s1-s4:
s1,可以将预设字符与按照语序排列的待识别文本中的各个字符(Token)进行拼接处理,以得到文本识别模型中第一个特征提取层的第一输入序列。
在一种实现方式中,为利用特征提取层进行特征提取,则可以先确定特征提取层的输入数据。可选的,针对第一个特征提取层的输入数据,该输入数据可以是基于预设字符与待识别文本中的各个字符确定的。例如,可以将预设字符与按照语序排列的待识别文本中的各个字符进行拼接处理,以得到文本识别模型中第一个特征提取层的第一输入序列,该第一输入序列即为第一个特征提取层的输入数据。
其中,该预设字符可以是特定的分类(识别)字符[CLS],在后续文本识别模型中进行序列的处理过程中,该分类字符[CLS]对应的特征向量可以被用来起到聚集整个序列表征信息的作用。该预设字符可以拼接在待识别文本的开头;例如,假设待识别文本中按照语序排列的各个字符包括Token1、Token2、Token3、Token4,则第一输入序列可以是[CLSToken1 Token2 Token3 Token4]。
可选的,该第一输入序列还可以拼接一个用于表征文本结束的结束字符,如该结束字符可以是[SEP]。例如对应的第一输入序列可以是[CLS Token1Token2 Token3 Token4SEP]。
s2,可以将该第一输入序列输入第一个特征提取层,以得到第一输入序列中各个字符对应的字符特征。考虑到[CLS]对应的字符特征可以被用来起到聚集整个序列表征信息的作用,或者说这个字符是整个待识别文本的语义信息的融合体,则可以将第一输入序列中预设字符(即字符[CLS])对应的字符特征,作为第一个特征提取层针对待识别文本的文本特征。
其中,可理解的是,一个字符的字符特征可以以向量形式表示,且该字符的字符特征是用于表征该字符处于该待识别文本的语义信息,不同待识别文本中同一字符对应的语义信息是不同的,则可以将一个字符的字符特征理解为字符的语义向量。
可理解的是,为使待识别文本符合计算机设备对数据处理的要求,可以先将该待识别文本中的每个字符进行向量转换,以得到待识别文本中每个字符对应的向量表征,从而使得计算机设备可以利用各个字符的向量表征对待识别文本进行特征提取。
在一个实施例中,每个字符对应的向量表征可以包括三种嵌入(Embedding):字符的Embedding(如可称之为Token Embedding),位置的Embedding(如可称之为PositionEmbedding),句子的Embedding(如可称之为Segment Embedding)。针对待识别文本中的任一字符而言,可以先获取该字符对应的Token Embedding、Position Embedding以及Segment Embedding,然后在将该字符对应的Token Embedding、Position Embedding以及Segment Embedding叠加,叠加后所得到的Embedding即是该字符对应的向量表征。
综上可知,在通过步骤s1得到第一输入序列之后,可以先对该第一输入序列进行向量转换,以得到该第一输入序列对应的向量表征序列,该向量表征序列包括第一输入序列中各个字符对应的向量表征;然后,可以将该向量表征序列输入第一个特征提取层,即第一个特征提取层的输入数据为第一输入序列中各个字符对应的向量表征,那么通过该第一个特征提取层的特征提取,则可以得到第一输入序列中各个字符对应的字符特征。
s3,将通过第n-1个特征提取层得到的预设字符对应的字符特征与待识别文本中的各个字符对应的字符特征进行拼接处理,得到文本识别模型中第n个特征提取层的第n输入序列;n为大于或等于2的正整数。
需要说明是,特征提取模块中的第2个特征提取层到第n个特征提取层中各个特征提取层的输入数据的构成方式类似,且每一个特征提取层对相应的输入数据的处理方式相同,则此处以文本识别模型中特征提取模块的第n个特征提取层的特征提取为例进行说明。
对于特征提取模块的第n个特征提取层的输入数据,该输入数据可以是由第n-1个特征提取层的输出数据确定,该第n-1个特征提取层的输出数据可以是是指预设字符对应的字符特征以及待识别文本中的各个字符对应的字符特征。基于此,可知,可以将第n-1个特征提取层得到的预设字符对应的字符特征与待识别文本中的各个字符对应的字符特征进行拼接处理,以得到文本识别模型中第n个特征提取层的第n输入序列,该第n输入序列也就是第n个特征提取层的输入数据。
与第一个特征提取层的第一输入序列类似,第n输入序列中的预设字符对应的字符特征可以拼接在待识别文本中各个字符对应的字符特征的开头,待识别文本中各个字符对应的字符特征在拼接时,也是按照待识别文本中各个字符对应的语序排列的。例如,假设第n-1个特征提取层得到的预设字符对应的字符特征为特征CLS,且待识别文本中按照语序排列的各个字符对应的字符特征包括特征1、特征2、特征3、特征4,则第n输入序列可以是[特征CLS特征1特征2特征3特征4]。
可选的,如果该第n-1个特征提取层的输出数据中还包括结束字符(如字符[SEP])对应的字符特征,则第n输入序列还可以拼接该结束字符对应的字符特征。例如,假设结束字符对应的字符特征为特征SEP,则第n输入序列可以是[特征CLS特征1特征2特征3特征4特征SEP]。
s4,将第n输入序列输入第n个特征提取层,得到第n输入序列中各个字符对应的字符特征,并将第n输入序列中预设字符对应的字符特征,作为第n个特征提取层针对待识别文本的文本特征。
综上所述,通过特征提取模型中各个特征提取层的特征提取,则可以得到多个文本特征,这多个文本特征也就是各个特征提取层输出的文本特征。
S203,获取多个文本特征中各个文本特征的特征深度,并基于特征深度确定多个文本特征的目标抽取规则。
前述可知,一个文本特征对应一个特征提取层的输出,此处的一个文本特征的特征深度可以是指输出该文本特征的特提取层的层数,即如果某一特征提取层的层数为i,则该特征提取层对应的文本特征的特征深度为i,i∈[1,N]。例如,如果某一文本特征是第5个特征提取层的输出,则该文本特征的特征深度为5,又如,如果某一文本特征是第8个特征提取层的输出,则该文本特征的特征深度为8。基于此可知,获取一个文本特征的特征深度也就是获取为输出该文本特征对应的特提取层的层数。
需要说明的是,通过深度神经网络模型的架构证明,预训练语言模型中浅层的网络会更关注提取文本的基本构造特征(或称之为语法特征、文本结构特征等),例如词性、表达结构等基础特征,预训练语言模型中深层的网络会更关注提取文本的抽象特征(或称之为抽象语义特征、文本语义特征等),例如文本的语义表达。而可以理解的是,文本的基本构造特征也是文本表达较为重要的因素;那么,在对文本进行类别识别时,可以结合这两种特征来实现类别识别,以提高识别准确率。例如,在文本的结构比较复杂的时候,强化文本的词性、表达结构等结构信息,结合结构信息以及语义信息这两方面信息,可以更好的表达文本语义的完整性,有效提升复杂文本结构的语义表达,进而可以有效提高识别准确率。
基于此可知,为获取到有利用提高识别准确性的文本特征,可以基于特征深度确定多个文本特征的目标抽取规则,该目标抽取规则可以是指:从特征深度较深的文本特征中提取出文本语义特征,从特征深度较浅的文本特征中提取出文本结构特征。其中,为保证所提取出的文本特征中可以包含语义表征效果较佳的文本特征,该目标抽取规则具体可以是指:抽取特征深度最深的文本特征作为文本语义特征,从除特征深度最深的文本特征中抽取文本结构特征。例如,以特征深度为1到N之间的数值为例进行说明,该目标抽取规则可以是指将特征深度为N的文本特征作为文本语义特征,从特征深度为1~N-1的文本特征中抽取文本特征作为文本结构特征的抽取规则。
S204,按照目标抽取规则从多个文本特征中确定待识别文本的文本语义特征和文本结构特征。
其中,文本语义特征用于表征待识别文本的语义信息,文本结构特征用于表征待识别文本的结构信息。
在一种实现方式中,基于步骤S203中对目标抽取规则的阐述可知,步骤S204的具体实现可以是:将N个特征提取层中的第N个特征提取层对应的文本特征作为待识别文本的文本语义特征;并可以在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,确定待识别文本的文本结构特征。
可选的,确定待识别文本的文本结构特征的具体实施方式可以是:随机抽取,或按照抽取频次抽取或指定抽取等方式,也就是说上述提及的目标抽取规则可以是随机抽取规则或按照抽取频次的抽取规则或指定抽取规则等。
在一个实施例中,按照随机抽取方式确定待识别文本的文本结构特征的具体实施方式可以是:从第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,随机抽取一个或多个文本特征作为待识别文本的文本结构特征。
在一个实施例中,按照抽取频次抽取方式确定待识别文本的文本结构特征的具体实施方式可以是:首先,可以获取针对特征提取层对应的文本特征的抽取频次,例如,该抽取频次可以是每2层进行一次文本特征抽取,或每4层进行一次文本特征抽取等。然后,可以根据抽取频次在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层中确定目标特征提取层,并可以将目标特征提取层对应的文本特征作为待识别文本的文本结构特征。
例如,假设N为12,抽取频次为每4层进行一次文本特征抽取;则第4层和第8层的文本特征可以作为文本结构特征。又如,假设抽取频次为每3层进行一次文本特征抽取,则第3层、第6层以及第9层的文本特征可以作为文本结构特征。
可选的,可以依照待识别文本的结构复杂度来确定抽取频次,结构复杂度可以与抽取频次呈负相关,即如果待识别文本的结构复杂度越高,则对应的抽取频次越密集(即特征提取层的抽取间隔越小),如果待识别文本的结构复杂度越低,则对应的抽取频率越稀疏(即特征提取层的抽取间隔越大)。
例如,对于结构复杂度较高的待识别文本,对应的抽取频次可以是每2层进行一次文本特征抽取;又如,对于结构复杂度较低的待识别文本,对应的抽取频次可以是每5层进行一次文本特征抽取。其中,待识别文本的结构复杂度可以通过神经网络模型来识别,该神经网络模型可以是一个预先训练的可用于进行结构复杂度识别的模型。
可选的,可以依照文本识别处理中对文本结构特征的依赖程度来确定抽取频次,依赖程度可以与抽取频次呈负相关,即如果对文本结构特征的依赖程度越高,则对应的抽取频次越密集,如果对文本结构特征的依赖程度越低,则对应的抽取频率越稀疏。
例如,对于对文本结构特征的依赖程度较高的待识别文本,对应的抽取频次可以是每3层进行一次文本特征抽取;又如,对于对文本结构特征的依赖程度较低的待识别文本,对应的抽取频次可以是每5层进行一次文本特征抽取。其中,对文本结构特征的依赖程度可以在执行文本识别任务前预先设置。
可以看出,通过上述抽取频次的确定方式,可以为文本结构较为复杂或对文本结构特征的依赖程度较高的文本提供更多的结构信息,从而可以提高文本语义的表达完整性,进而提高文本识别准确率;对于文本结构不是较复杂或对文本结构特征的依赖程度较低的文本,可以在提供结构信息的基础上,尽可能减小特征的数据量,从而可以减少计算开销。
可选的,为获取文本结构特征的抽取频次可以是预先指定的。可以理解的是,在文本识别模型的训练过程中,也可以利用抽取频次来获取用于针对样本文本的文本结构特征,该样本文本可以是指用于训练文本识别模型的文本,为方便描述,可以将此处的抽取频次称之为样本抽取频次,将样本文本的文本结构特征称之为样本结构特征。而为使文本识别模型的模型效果较好,可以不断调整样本抽取频次,以在训练过程中确定模型训练效果处于最佳时的样本抽取频次,模型训练效果处于最佳也就是下述提及的模型损失值最小;而这个最佳时的样本抽取频次可以作为针对待识别文本的抽取频次。
在一个实施例中,指定抽取方式也就是预先设定(指定)了为获取文本结构特征所对应的特征提取层数,例如,可以是将第3个和第5个特征提取层对应的文本特征作为文本结构特征。可选的,所指定的特征提取层数可以在文本识别模型的训练过程中确定的。与上述提及的指定的抽取频次的确定方式类似,为使文本识别模型的模型效果较好,可以不断调整为获取样本结构特征的特征提取层数,以在训练过程中确定模型训练效果处于最佳时的为获取样本结构特征的特征提取层数;而这个最佳时的为获取样本结构特征的特征提取层数可以作为针对待识别文本而言为获取文本结构特征所对应的特征提取层数。
在一个实施例中,文本识别模型可以是基于各种文本类型下的样本文本训练得到的,并且在利用任一种文本类型下的样本文本进行训练时,同样可以不断调整在该文本类型下为获取样本结构特征的特征提取层数或者样本抽取频次,并确定模型训练效果处于最佳时的为获取样本结构特征的特征提取层数或者样本抽取频次。其中,文本类型可以包括体育、影视、教育等类型。
则可以理解的是,一个文本类型可以对应一个使模型训练效果处于最佳时的为获取样本结构特征的特征提取层数或者样本抽取频次,其中,为获取样本结构特征的特征提取层数,可以作为针对待识别文本而言为获取文本结构特征的特征提取层数(如可称为指定抽取层数),样本抽取频次可以作为针对待识别文本而言的抽取频次(如可称为指定抽取频次)。即一个文本类型可以对应一个指定抽取层数或指定抽取频次。基于此可知,可以先获取待识别文本的文本类型,并基于该文本类型确定对应的指定抽取层数或指定抽取频次,以基于获取到的抽取层数或指定抽取频次来确定待识别文本的文本结构特征。
S205,将文本语义特征和文本结构特征进行融合处理,得到目标融合特征。
在一种实现方式中,可以将文本语义特征和文本结构特征进行融合处理,以得到用进行类别识别处理对应的特征,如可以将该特征称之为目标融合特征。
可选的,该融合处理可以是拼接处理,即可以将文本语义特征和文本结构特征进行拼接处理,而拼接后的特征即为目标融合特征。其中,在拼接时可以以文本语义特征、文本结构特征的顺序进行拼接,也可以以文本结构特征、文本语义特征的顺序进行拼接。上述可知,文本结构特征的数量可以是一个或多个,则在文本结构特征的数量为多个的情况下,各个文本结构特征在拼接时对应的拼接顺序可以不做限定。
例如,假设以文本结构特征的数量为1进行举例,且文本语义特征可表示为[a1 a2a3 a4],文本结构特征可表示为[b1 b2 b3 b4],则目标融合特征可以为[a1a2 a3 a4 b1b2 b3 b4]。
又如,假设以文本结构特征的数量为2进行举例,且文本语义特征可表示为[a1 a2a3 a4],2个文本结构特征可分别表示为[b1 b2 b3 b4]、[c1 c2 c3 c4],则目标融合特征可以为[a1 a2 a3 a4 b1 b2 b3 b4 c1 c2 c3 c4],或者可以为[b1 b2 b3b4 c1 c2 c3 c4a1 a2 a3 a4]等。
可选的,该融合处理可以是相加处理,可以理解的是,此处的文本语义特征和文本结构特征均可以以向量形式表示,则相加处理可以理解为对多个向量的对应位的数值进行相加处理。即可以将文本语义特征和文本结构特征进行相加处理,而相加后的特征即为目标融合特征。
例如,假设以文本结构特征的数量为1进行举例,且文本语义特征可表示为[a1 a2a3 a4],文本结构特征可表示为[b1 b2 b3 b4],则目标融合特征可以为[a1+b1 a2+b2 a3+b3 a4+b4]。
又如,假设以文本结构特征的数量为2进行举例,且文本语义特征可表示为[a1 a2a3 a4],2个文本结构特征可分别表示为[b1 b2 b3 b4]、[c1 c2 c3 c4],则目标融合特征可以为[a1+b1+c1 a2+b2+c2 a3+b3+c3 a4+b4+c4]。
可选的,该融合处理可以是点乘处理,该点乘处理可以理解为对多个向量的对应位的数值进行相乘处理。即可以将文本语义特征和文本结构特征进行相乘处理,而相乘后的特征即为目标融合特征。
例如,假设以文本结构特征的数量为1进行举例,且文本语义特征可表示为[b1 b2b3 b4],文本结构特征可表示为[a1 a2 a3 a4],则目标融合特征可以为[a1×b1 a2×b2a3×b3 a4×b4]。
又如,假设以文本结构特征的数量为2进行举例,且文本语义特征可表示为[a1 a2a3 a4],2个文本结构特征可分别表示为[b1 b2 b3 b4]、[c1 c2 c3 c4],则目标融合特征可以为[a1×b1×c1 a2×b2×c2 a3×b3×c3 a4×b4×c4]。
在一种实现方式中,还可以获取文本语义特征和文本结构特征分别对应的加权系数,如可以将文本语义特征和文本结构特征分别对应的加权系数称之为第一权重和第二权重。
在此实施方式中,步骤S204的具体实现可以是:利用第一权重对文本语义特征进行加权处理,得到加权后的文本语义特征,并利用第二权重对文本结构特征进行加权处理,得到加权后的文本结构特征,将加权后的文本语义特征和加权后的文本结构特征进行融合处理,以得到目标融合特征。其中,加权处理也就是将特征中的各个特征值分别与加权系数进行相乘运算;此处的融合处理可以上述提及的各种融合处理,即将加权后的文本语义特征和加权后的文本结构特征进行拼接处理或相加处理或点乘处理。
其中,文本语义特征和文本结构特征分别对应的加权系数可以预先设置的,各个特征的加权次系数之和为1。加权系数可以依照各个特征在类别识别处理中的重要性确定,各个特征可以与加权系数呈正相关,即若某一特征的重要性越高,则该特征的加权系数越大,若某一特征的重要性越低,则该特征的加权系数越小。例如,如果在类别识别处理中更加关注文本的结构信息,则可以将文本结构特征对应的加权系数可以大于文本语义特征的加权系数;如果在类别识别处理中更加关注文本的语义信息,则可以将文本语义特征对应的加权系数可以大于文本结构特征的加权系数。
在一种实现方式中,步骤S206可以通过调用文本识别模型中的融合模块来实现。具体实现中,可以将文本语义特征和文本结构特征输入该融合模块,以使该融合模块对文本语义特征和文本结构特征进行融合处理,从而得到目标融合特征。例如,该融合模块可参见如图3b或图3c。
综上可以看出,通过对文本语义特征和文本结构特征进行融合处理,可以得到包含有语义信息和结构信息的目标融合特征,结合这两方面信息(语义信息和结构信息),可以更好的表达文本语义的完整性,记可以更好的表征文本中的核心信息,进而可以在利用该目标融合特征进行类别识别的前提下,可以有效提高文本识别的准确率。
S206,根据目标融合特征计算待识别文本属于多个预设类别下每个预设类别的类别概率,并基于每个预设类别的类别概率确定待识别文本的类别识别结果。
在一种实现方式中,可以基于目标融合特征对待识别文本进行类别识别,以得到该待识别文本的类别识别结果。可选的,类别识别可以通过调用如图3b所示的文本识别模型的识别模块来实现,该识别模块可以用于对文本进行类别识别,如可以将目标融合特征输入该识别模块,则可以利用该识别模块对待识别文本进行类别识别,得到该待识别文本的类别识别结果。
可选的,上述的类别识别的具体实现可以是:首先,可以根据目标融合特征计算待识别文本属于多个预设类别下每个预设类别的类别概率,进而可以基于每个预设类别的类别概率确定待识别文本的类别识别结果。例如,可以将每个预设类别的类别概率中最大的类别概率所对应的预设类别,作为待识别文本的类别识别结果。
其中,该预设类别可以是预先设置的针对待识别文本的类别(或称之为类目)。例如,该多个预设类别可以是粗粒度的划分,如可以包括体育类别、娱乐类别、科技类别等,或者,该多个预设类别可以是细粒度的划分,如前述的体育类别,还可以划分更多的子类别,如篮球类别、足球类别、棒球类别等。此处对预设类别以及对应的划分方式不做具体限定。
在一种实现方式中,上述根据目标融合特征计算待识别文本属于多个预设类别下每个预设类别的类别概率的具体实现可以是:首先,可以根据目标融合特征对待识别文本进行类别识别,以得到待识别文本在多个预设类别中各个预设类别下的类别值(或者说类别得分);然后,可以根据待识别文本在每个预设类别下的类别值,计算待识别文本属于每个预设类别的类别概率。
可选的,如图3c所示,识别模块可以包括全连接层和激活层,激活层可以是softmax函数构成。其中,全连接层可以用于确定待识别文本在多个预设类别中各个预设类别下的类别值,激活层可以用于确定待识别文本属于每个预设类别的类别概率。基于此,通过识别模块根据目标融合特征计算待识别文本属于每个预设类别的类别概率的具体实现可以是:首先,目标融合特征可以输入全连接层,以使全连接层可以根据目标融合特征对待识别文本进行类别识别,得到待识别文本在多个预设类别中各个预设类别下的类别值;然后,将待识别文本在每个预设类别下的类别值输入激活层,以使激活层可以根据待识别文本在每个预设类别下的类别值,计算待识别文本属于每个预设类别的类别概率。
例如,上述描述如用数学公式进行表述,可以参见如下的公式(1)和公式(2):
Logits=FC(L_emb)(1)
A=softmax(Logits)(2)
其中,Logits为一个向量,如可称之为Logits向量,Logits向量的大小和预设类别的数量(或称之为类目数量)一致,该Logits向量中的各个值表示待识别文本在多个预设类别中各个预设类别下的类别值,FC()表示全连接层作用,L_emb表示目标融合特征。A=[a1a2…ai…an],其中ai表示待识别文本属于第i个预设类别的类别概率,softmax()表示激活层作用。
综上可以看出,本申请实施例在文本识别过程中,可以将文本表达的语法结构、词性构造等基础结构信息也融合到语义信息中,从而通过结合结构信息以及语义信息来实现文本识别;即在文本识别中,不仅可以考虑到语义因素对文本识别的影响,还可以考虑到结构因素对文本识别的影响,而这些结构因素也是文本识别的关键因素。那么,通过本申请实施例,可以综合不同因素对文本识别的影响,以提高文本识别准确率。
本申请实施例所提出的文本识别方法,可以应用到提取文本的主题类目(类别)、理解句子的核心内容、搜索、推荐、兴趣特征更新等应用场景中,如该方法可以适用于文本核心词理解、文本主题理解、标题理解、篇章句式理解等通用场景。其中,主题类目通常是指一篇文章中的核心主旨导向,一般是将文章进行分类的基本依据。可以理解的是,主题类目标签(tag)的抽取或者说类别标签的抽取是自然语言处理传统的基础任务,是文章内容理解的基础工作。例如,在搜索场景中对搜索文章主旨的提取是较为重要的工作,其主要目的就是给文章打上对应的类别标签。从而在搜索场景中,结合query(查询或搜索)侧的意图识别,即识别出用户在搜索引擎中输入的搜索句子的类别,可以为用户提供对应类别下的搜索结果(如文章),使得搜索结果更加贴合用户的搜索意图,从而提高搜索效率以及用户搜索体验。下述对在搜索场景和推荐场景下利用类别识别结果为例进行相关说明。
在一种实现方式中,本申请实施例可以具体应用在搜索场景,类别识别结果可以更好地帮助实现搜索的意图识别,以优化搜索结果。可选的,可以在检测到基于待识别文本发起的搜索事件时,可以基于将该待识别文本的类别识别结果作为搜索事件的搜索关键词进行搜索处理,得到对应的搜索结果,进而可以在搜索结果浏览界面上,显示搜索结果。
举例来说,目标对象可以搜索引擎的搜索界面输入所要搜索的数据,该数据即可以理解为待识别文本,而在目标对象输入该待识别文本之后,终端可以获取将该待识别文本,并可以将该待识别文本发送给服务器,以使得服务器确定该待识别文本对应的类别识别结果,以将类别识别结果作为搜索关键词在数据库进行搜索处理。
举例来说,如图3d中的界面31所示可以为搜索界面,目标对象可以在如图3d中由303标记的搜索区域输入所要搜索的数据,假设目标对象输入的待识别文本是xx城市怎么游玩,则服务器在获取到该待识别文本之后,可以识别出该待识别文本的类别识别结果为旅游类别。而在确定类别识别结果之后,可以将类别识别结果(旅游类别)作为搜索关键词在数据库进行搜索处理。例如,可以在数据库中搜索关于xx城市的著名景点、美食、旅游路线等等。而在服务器获取到搜索结果之后,服务器可以将搜索结果返回给终端,而终端也可以由搜索界面31跳转至搜索结果浏览界面32,以使得在搜索结果浏览界面上可以显示服务器返回的搜索结果。该搜索结果具体可以显示在图3d中由304标记的搜索结果区域,例如,在搜索结果区域所显示的著名景点、美食等即是搜索结果。
可选的,上述提及的在将待识别文本的类别识别结果作为搜索事件的搜索关键词进行搜索处理,得到搜索结果之后,还可以对该搜索结果进行过滤,以提高搜索效果。为方便描述,可以将此处的搜索结果称之为初始搜索结果,且初始搜索结果的数量可以理解为有多个。即在得到多个初始搜索结果之后,可以对该初始搜索结果进行过滤,以得到搜索事件的一个或多个目标搜索结果,这些目标搜索结果即是需要显示在搜索结果浏览界面上的。
在一个实施例中,可以根据目标对象的对象特征来实现过滤,以使目标搜索结果更加贴合目标对象的需求,从而提高用户搜索体验;在此实施方式下,可以先获取发起搜索事件对应的目标对象的对象特征,进而可以基于对象特征对多个初始搜索结果进行过滤,得到搜索事件的一个或多个目标搜索结果。
在一个实施例中,对象特征可以是用于表征目标对象的基础信息,如该对象特征可以包括目标对象的科研方向、年龄、性别等中的一种或多种。例如,以对象特征为科研方向为例,上述的基于对象特征对多个初始搜索结果进行过滤,得到一个或多个目标搜索结果的具体实施方式可以是:将多个初始搜索结果中与目标对象的科研方向相关联的初始搜索结果作为目标搜索结果。又如,以对象特征为年龄为例,上述的过滤操作可以是:将多个初始搜索结果中符合该年龄浏览的初始搜索结果作为目标搜索结果。
在一个实施例中,对象特征可以是用于表征目标对象搜索兴趣的特征,如该对象特征可以是基于目标对象的历史搜索行为日志来确定的。该历史搜索行为日志可以是指在某一历史时间段内的搜索行为日志,该历史时间段是指位于当前时间之前,且与当前时间间隔预设时长(例如7天、10天)的时间段,此处的当前时间可以是指检测到存在针对待识别文本的识别需求的时刻。可以理解的是,搜索行为日志中记录有目标对象在搜索引擎中执行的一系列对象行为,例如目标对象在搜索引擎对应的搜索界面输入某文本的行为,目标对象针对搜索界面中各个搜索结果的操作行为(如观看行为、点击行为、分享行为、点赞行为等)。
在这种情况下,确定目标对象的对象特征的具体实施方式可以是:首先,可以获取目标对象的历史搜索行为日志,可以从该历史搜索行为日志中查找具有目标对象的目标行为的搜索结果,或者具有目标对象的目标行为,且目标行为的次数超过预设次数的搜索结果。为方便描述,可以将此处的搜索结果称之为参考搜索结果,该参考搜索结果的数量可以是一个或多个,目标行为可以是观看行为、点击行为、分享行为、点赞行为等中的一种或多种,预设次数可以预先设置。
在获取到参考搜索结果之后,可以对各个参考搜索结果进行实体词识别,以得到实体词集合,并可以将该实体词集合作为目标对象的对象特征,该实体词集合中可以包括一个或多个实体词。进一步的,可以将每个初始搜索结果与实体词集合中的实体词进行匹配,如果某一初始搜索结果中包括一个或多个实体词,则可以将该初始搜索结果作为目标搜索结果。
可选的,在得到搜索事件的一个或多个目标搜索结果之后,还可以进一步确定在搜索界面上对该一个或多个目标搜索结果进行排序展示的搜索结果排序,进而可以依照该搜索结果排序在搜索界面上对各个目标搜索结果进行显示,以提高搜索显示效果,也可以提高用户搜索体验。例如,可以依照各个目标搜索结果的搜索曝光量、历史点击量等中的一种或多种来确定搜索结果排序。其中,搜索曝光量和历史点击量可以是指在历史时间段内产生的数据。
在一个实施例中,以搜索曝光量来说,可以获取各个目标搜索结果的搜索曝光量,并可以按照搜索曝光量从高到低的顺序对一个或多个目标搜索结果进行排序,得到用于在搜索界面上对一个或多个目标搜索结果进行排序展示的搜索结果排序。
举例来说,假设目标搜索结果包括:搜索结果1、搜索结果2、搜索结果3、搜索结果4、搜索结果5,这5个目标搜索结果的搜索曝光量分别为:p1、p2、p3、p4、p5;则这5个搜索曝光量从高到低的顺序分别为:p3、p2、p4、p1、p5,那么,这5个目标搜索结果的搜索结果排序为:搜索结果3、搜索结果2、搜索结果4、搜索结果1、搜索结果5。
另一个实施例中,以历史点击量来说,可以获取各个目标搜索结果的历史点击量,并可以按照历史点击量从高到低的顺序对一个或多个目标搜索结果进行排序,得到搜索结果排序。
举例来说,假设目标搜索结果包括:搜索结果1、搜索结果2、搜索结果3、搜索结果4、搜索结果5,这5个目标搜索结果的历史点击量分别为:q1、q2、q3、q4、q5;则这5个搜索曝光量从高到低的顺序分别为:q1、q4、q3、q2、q5,那么,这4个目标搜索结果的搜索结果排序为:搜索结果1、搜索结果4、搜索结果3、搜索结果2、搜索结果5。
又一个实施例中,以搜索曝光量和历史点击量来说,可以先获取各个目标搜索结果的搜索曝光量和历史点击量;针对任一目标搜索结果,可以将该目标搜索结果的搜索曝光量和历史点击量确定目标量,然后可以按照目标量从高到低的顺序对一个或多个目标搜索结果进行排序,得到搜索结果排序。
可选的,目标量的确定方式可为如下描述:可以将搜索曝光量与历史点击量之间的和值作为目标量。
或者,可以先获取搜索曝光量和历史点击量分别对应的加权系数,然后利用搜索曝光量的加权系数对搜索曝光量进行加权处理,得到针对搜索曝光量的加权结果,并可以利用历史点击量的加权系数对历史点击量进行加权处理,得到针对历史点击量的加权结果,而在得到这两个加权结果之后,可以将针对搜索曝光量的加权结果与针对历史点击量的加权结果之间的和值作为目标量。其中,搜索曝光量和历史点击量分别对应的加权系数可以是预先设置的,具体数值不做限制,搜索曝光量的加权系数和历史点击量的加权系数之间的和值为1。
通过上述排序规则,可以将搜索曝光量或历史点击量较大的目标搜索结果显示在搜索界面的前部分,可以理解的是,目标搜索结果的搜索曝光量或历史点击量越大,则该目标搜索结果更受用户喜欢,目标对象也更有可能对其产生点击操作、观看操作等,那么,通过将搜索曝光量或历史点击量较大的目标搜索结果显示在搜索界面的前部分,也可以提高用户搜索体验。
在一种实现方式中,本申请实施例可以具体应用在推荐场景,利用类别识别结果可以更好地实现数据推荐,以优化推荐结果。例如,待识别文本可以是指目标对象在阅读类客户端浏览过的文本,则可以基于该待识别文本的类别识别结果对目标对象进行数据推荐。
可选的,可以从数据库中获取与该类别识别结果所匹配的多媒体数据,并可以将匹配到的多媒体数据作为推荐数据。其中,此处的匹配操作可以是指多媒体数据的类别识别结果与待识别文本的类别识别结果一致。通过上述方式,可以基于历史浏览记录对应的类别识别结果来预测用户的兴趣,从而提高推荐效果。
在一种实现方式中,本申请实施例可以具体应用在兴趣特征更新场景,可以根据类别识别结果,对目标对象的兴趣特征进行更新;如可以将类别识别结果作为目标对象的兴趣特征。
示例性的,如果类别识别结果为羽毛球,则可以将羽毛球确定为目标对象的兴趣特征,从而实现对目标对象的兴趣特征的更新。而在对目标对象的兴趣特征进行更新之后,如果将其继续应用到推荐场景下,则还可以根据更新后的兴趣特征对目标对象进行数据推荐。
在本申请实施例中,可以获取文本中的结构信息以及语义信息,并融合这两种信息来对文本进行表征,可以提高文本的表征效果,进而可以提高文本识别(分类)的准确率。并且,文本识别可以直接通过一个模型实现,从而可以提高识别自动化以及智能化,也可以提高识别(分类)效率。
请参见图4,是本申请实施例提供的另一种文本识别方法的流程示意图。本申请实施例主要以计算机设备为执行主体进行阐述;请参见图4,该文本识别方法可包括以下步骤S401-S405:
S401,获取用于训练文本识别模型的样本文本集。
其中,该文本识别模型可以如图3b或图3c所示,样本文本集可以包括一个或多个样本文本,一个样本文本具有对应的标签类别。例如,{“跳一跳,教你上600分的攻略”,“游戏”}为标注样本,标注样本即是指具有对应标签类别的样本文本,其中,“跳一跳,教你上600分的攻略”为样本文本,“游戏”为标签类别。
其中,样本文本可以是浏览网页中的句子,或是搜索引擎中输入的搜索句子等等。例如,以搜索引擎中的搜索句子为例,则可以获取搜索引擎的历史搜索行为日志,该历史搜索行为日志中记录有大量用户在搜索引擎中发起搜索事件对应的搜索句子,则可以从该历史搜索行为日志中获取搜索句子,并将获取到的搜索句子作为样本文本。
其中,样本文本的标签类别可以采用人工标注方式实现,也可以采用非人工标注方式实现,非人工标注方式可以是指利用神经网络模型来实现标注。例如,可以预先训练一个可用于打标的神经网络模型,那么,可以将获取到的各个样本文本输入该神经网络模型,该神经网络模型的输出即为样本文本对应的标签类别。相比人工标注方式,这种标注方式省时省力,打标效率高,且不易出错。
S402,针对样本文本集中的任一样本文本,调用文本识别模型对样本文本进行特征提取,得到样本文本的样本语义特征以及样本结构特征。
在一种实现方式中,可以调用文本识别模型中的特征提取模块对样本文本进行特征提取,以得到多个样本文本特征,如可以调用文本识别模型中N个特征提取层对样本文本进行特征提取,以得到每个特征提取层针对样本文本的样本文本特征,而这每个特征提取层针对样本文本的样本文本特征也就是多个样本文本特征。
在得到多个样本文本特征之后,即可以从该多个样本文本特征中确定样本文本的样本语义特征以及样本结构特征。此处从多个样本文本特征中确定样本语义特征以及样本结构特征的确定方式与上述从多个文本特征中确定文本语义特征以及文本结构特征的确定方式类似,即可以获取多个样本文本特征中各个样本文本特征的特征深度,并基于各个样本文本特征的特征深度确定多个样本文本特征的样本抽取规则。
最后,可以按照该样本抽取规则从多个样本文本特征中确定样本文本的样本语义特征和样本结构特征。其中,此处的样本抽取规则可以与上述的目标抽取规则作同样理解。
在一种实现方式中,上述的调用文本识别模型中N个特征提取层对样本文本进行特征提取,得到每个特征提取层针对样本文本的样本文本特征的具体实现可以是:首先,可以将预设字符与按照语序排列的样本文本中的各个字符进行拼接处理,得到文本识别模型中第一个特征提取层的第一样本输入序列;然后,将第一样本输入序列输入第一个特征提取层,得到第一样本输入序列中各个字符对应的字符特征,并将第一样本输入序列中预设字符对应的字符特征,作为第一个特征提取层针对样本文本的样本文本特征。
而针对第n(n为大于或等于2的正整数)个特征提取层而言,可以将通过第n-1个特征提取层得到的预设字符对应的字符特征与样本文本中的各个字符对应的字符特征进行拼接处理,得到文本识别模型中第n个特征提取层的第n样本输入序列;进一步的,可以将第n样本输入序列输入第n个特征提取层,得到第n样本输入序列中各个字符对应的字符特征,并可以将第n样本输入序列中预设字符对应的字符特征,作为第n个特征提取层针对样本文本的样本文本特征。
在一种实现方式中,上述的按照样本抽取规则从多个样本文本特征中确定样本文本的样本语义特征和样本结构特征的具体实现可以是:可以将N个特征提取层中的第N个特征提取层对应的样本文本特征作为样本文本的样本语义特征;并可以在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的样本文本特征中,确定样本文本的样本结构特征。
可选的,首先,可以获取针对特征提取层对应的样本文本特征的样本抽取频次,其中,此处的样本抽取频次可以与上述的抽取频次作同样理解;然后,可以根据样本文本的样本抽取频次在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层中确定样本特征提取层;最后,可以将样本特征提取层对应的样本文本特征作为样本文本的样本结构特征。
在一种实现方式中,在文本识别模型的训练过程中,可以不断调整为获取样本结构特征的特征提取层数或者样本抽取频次,以在训练过程中确定模型训练效果处于最佳时的为获取样本结构特征的特征提取层数或者样本抽取频次。其中,模型训练效果处于最佳也就是下述提及的模型损失值最小。
可选的,为使文本识别模型在各种文本类型下的类别识别效果较佳,上述步骤S401所获取的样本文本集可以包括多个样本文本集,其中,一个样本文本集对应一个文本类型,即在文本识别模型的训练中,可以依次利用各个样本文本集对该文本识别模型进行训练。并且,在利用任一样本文本集进行训练时,同样可以不断调整在该样本文本集进行训练的情况下为获取样本结构特征的特征提取层数或者样本抽取频次,并确定模型训练效果处于最佳时的为获取样本结构特征的特征提取层数或者样本抽取频次。
可以理解的是,模型训练效果处于最佳时,也就是说文本识别模型的类别识别效果较好,则此处确定的模型训练效果处于最佳时的为获取样本结构特征的特征提取层数或者样本抽取频次,可以作为利用文本识别模型进行对待识别文本进行类别识别时所需要的为获取文本结构特征的特征提取层数或者抽取频次,以提高针对待识别文本的文本结构特征的表征效果。
S403,将样本语义特征以及样本结构特征进行融合处理,得到样本融合特征。
其中,步骤S403可以通过调用文本识别模型中的融合模块来实现;融合处理可以是拼接处理、相加处理以及点乘处理中的任一种。
S404,调用文本识别模型对样本融合特征进行类别识别,得到样本文本的样本识别结果。
在一种实现方式中,可以调用文本识别模型中的识别模块对样本融合特征进行类别识别,得到样本文本的样本识别结果。该识别模块的处理过程可以是:根据样本融合特征对样本文本进行类别识别,得到样本文本在多个预设类别中各个预设类别下的类别值,如可以调用识别模块中的全连接层得到样本文本在多个预设类别中各个预设类别下的类别值;然后,根据样本文本在每个预设类别下的类别值,计算样本文本属于每个预设类别的类别概率,如可以调用识别模块中的激活层计算样本文本属于每个预设类别的类别概率;最后,可以将每个预设类别的类别概率中最大的类别概率所对应的预设类别,作为样本文本的样本识别结果。
可以理解的是,文本识别模型在训练时对样本文本处理,得到样本识别结果的过程,与文本识别模型在实际应用时对待识别文本处理,得到类别识别结果的过程类似,则步骤S402-S404的具体实现可以参考上述步骤S202-S206中的相关描述,此处不再赘述。
S405,基于样本文本的标签类别和样本识别结果对文本识别模型进行训练,得到训练后的文本识别模型。
其中,该文本识别模型可以用于对待识别文本进行类别识别,如该待识别文本可以为上述提及的文本。
在一种实现方式中,可以基于样本文本的标签类别和样本识别结果,计算文本识别模型的模型损失值,以根据模型损失值训练文本识别模型的模型参数,从而得到训练后的文本识别模型。其中,在计算模型损失值所利用到的损失函数可以是交叉熵损失函数,该交叉熵损失函数可以如公式(3)所示:
其中,Loss表示的针对样本文本所计算的模型损失值,M表示为预设类别的数量,y=[y1…ym…yM],ym表示样本文本的标签类别是否为第m个预设类别,ym=0或1,且如果样本文本的标签类别为第m个预设类别时,即表明第m个预设类别为真实标签,则ym=1,如果样本文本的标签类别不为第m个预设类别时,即表明第m个预设类别不为真实标签,则ym=0。am表示样本文本属于第m个预设类别的类别概率。其中,确定样本文本属于第m个预设类别的类别概率的实现过程可以参考上述公式(1)和公式(2)的相关描述。
为更加理解本申请实施例提出的文本识别模型的训练过程,下述结合图5对该训练过程进一步说明;其中,以一个样本文本,且文本识别模型的特征提取模块为BERT网络为例进行说明。需要理解的是,在文本识别模型的处理中,是将样本文本以字粒度形式输入到BERT中得到每个字符的语义向量,此处的每个字符的语义向量也就是上述提及的每个字符对应的字符特征。
BERT网络可由多层网络构成,此处提及的一层网络也就是上述提及的特征提取模型中的一个特征提取层;每一层网络的输入数据均是以预设字符[CLS]作为开头,该预设字符也被认为是整个样本文本的语义的融合体。需要说明的是,针对第一层网络的输入数据,该输入数据可以是由预设字符与按照语序排列的样本文本中的各个字符进行拼接处理所得到,针对不是第一层网络的输入数据,该输入数据可以是由通过前一个层网络得到的预设字符对应的字符特征与样本文本中各个字符对应的字符特征进行拼接处理所得到。
文本识别模型的训练过程可为如下描述:
1、对样本文本进行编码,得到样本文本的语义向量。
样本文本的编码过程(即特征提取)可以采用文本识别模型的BERT网络完成,例如,获取样本文本的语义向量的过程可利用如下公式(4)表示:
L_emb=BERT(Sententce)(4)
其中,L_emb表示样本文本的语义向量,Sententce表示样本文本,BERT(Sententce)表示利用BERT网络对样本文本进行处理。
BERT网络中每一层网络针对样本文本的语义向量可以采用预设字符(即[CLS])对应的字符特征(该字符特征也可称之为预设字符对应的语义向量)。
假设BERT网络有12层,下述以每4层进行一次语义向量抽取的抽取频次来确定样本文本的样本语义特征和样本结构特征为例进行相关说明。可知的是,通过这种抽取,最终可以得到三个语义向量,这三个语义向量分别为第4层网络、第8层网络以及第12层网络分别对应的语义向量。通过层数的理解,这三个语义向量也可以分别表征浅层网络、中层网络以及深度网络表达的语义向量。其中,第4层网络和第8层网络分别对应的语义向量可以理解为针对样本文本的样本结构特征,第12层网络对应的语义向量可以理解为针对样本文本的样本语义特征。在此实施方式下,获取这三个语义向量的过程可利用如下公式(5)-(7)表示:
L1_emb=BERT-L4(Sententce)(5)
L2_emb=BERT-L8(Sententce)(6)
L3_emb=BERT-L12(Sententce)(7)
其中,公式(5)中的L1_emb表示第4层网络的语义向量,BERT-L4(Sententce)表示抽取针对样本文本的第4层网络的语义向量;公式(6)中的L2_emb表示第8层网络的语义向量,BERT-L8(Sententce)表示抽取第8层网络的语义向量;公式(7)中的L3_emb表示第12层网络的语义向量,BERT-L12(Sententce)表示抽取第12层网络的语义向量。
2、将上述抽取的三个语义向量进行融合处理后输入到文本识别模型的识别模块(或者说分类模块)中;其中,融合处理可以通过文本识别模型的融合模块来处理。例如,该融合处理可以是拼接处理,其拼接方式可如下公式(8)所示:
L_emb=[L1_emb L2_emb L3_emb](8)
3、将融合处理后的L_emb输入到分类模块,该分类模块可以由一个全连接层和激活层(softmax函数)构成。其中,通过全链接层的处理,可以将L_emb映射得到Logits向量。例如,通过全链接层的处理得到处理样本文本的Logits向量的过程可如公式(1)所示。
4、将Logits向量输入到激活层(softmax函数)得到最终的多类目概率分布,该多类目概率分布可以是指样本文本属于每个预设类别的类别概率。例如,通过激活层的处理得到多类目概率分布的过程可公式(2)所示。
5、利用损失函数计算模型损失值,并基于模型损失值训练文本识别模型。例如该损失函数可如公式(3)所示。
综上可以看出,本申请实施例可以基于大规模语义向量网络(如BERT网络),构建一种既可以利用大规模语义向量网络中的深度抽象语义向量,同时结合大规模语义向量网络中的浅层语义向量的文本识别模型,或者说通过BERT网络中不同层的语义向量来表征语法信息以及语义信息,从而建模文本识别任务的框架,以利用该文本识别模型提升文本识别(分类)的准确率。
在本申请实施例中,经过实践表明,在文本识别(分类)任务中,若仅利用文本的语义向量建模往往无法更好的捕捉到文本中的核心成分,而本申请实施例提出了一种融合多层语义向量的建模方式,可以借助大规模预训练语言模型(如BERT)来同时获取文本的语义信息和文本中词的语法信息(即结构信息),以融合语法信息和语义信息来训练文本识别模型。则利用这种模型进行文本识别可以更好的表征文本中的核心信息,从而提升文本识别的准确率。
其中,上述方法实施例都是对本申请的方法的举例说明,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。例如,训练得到文本识别模型之后,即可获取待识别文本,以基于文本识别模型实现对待识别文本的类别识别,得到待识别文本的类别识别结果,此处不赘述。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
图6示出了本申请一个示例性实施例提供的一种文本识别装置的结构示意图;该文本识别装置可以用于是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本识别装置可以是计算机设备中的应用程序;该文本识别装置可以用于执行图2和图4所示的方法实施例中的部分或全部步骤。请参见图6,该文本识别装置包括如下单元:
提取单元601,用于获取待识别文本,并对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征;
第一确定单元602,用于获取所述多个文本特征中各个文本特征的特征深度,并基于所述特征深度确定所述多个文本特征的目标抽取规则;
第二确定单元603,用于按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征;其中,所述文本语义特征用于表征所述待识别文本的语义信息,所述文本结构特征用于表征所述待识别文本的结构信息;
融合单元604,用于将所述文本语义特征和所述文本结构特征进行融合处理,得到目标融合特征;
识别单元605,用于根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率,并基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果。
在一种实现方式中,所述提取单元601在用于对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征时,具体用于:
调用文本识别模型中N个特征提取层对所述待识别文本进行特征提取,得到每个特征提取层针对所述待识别文本的文本特征;N为大于或等于2的正整数;
所述第二确定单元603在用于按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征时,具体用于:
将所述N个特征提取层中的第N个特征提取层对应的文本特征作为所述待识别文本的文本语义特征;
在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,确定所述待识别文本的文本结构特征。
在一种实现方式中,所述提取单元601在用于调用文本识别模型中N个特征提取层对所述待识别文本进行特征提取,得到每个特征提取层针对所述待识别文本的文本特征时,具体用于:
将预设字符与按照语序排列的所述待识别文本中的各个字符进行拼接处理,得到所述文本识别模型中第一个特征提取层的第一输入序列;
将所述第一输入序列输入所述第一个特征提取层,得到所述第一输入序列中各个字符对应的字符特征,并将所述第一输入序列中预设字符对应的字符特征,作为所述第一个特征提取层针对所述待识别文本的文本特征;
将通过第n-1个特征提取层得到的所述预设字符对应的字符特征与所述待识别文本中的各个字符对应的字符特征进行拼接处理,得到所述文本识别模型中第n个特征提取层的第n输入序列;n为大于或等于2的正整数;
将所述第n输入序列输入所述第n个特征提取层,得到所述第n输入序列中各个字符对应的字符特征,并将所述第n输入序列中预设字符对应的字符特征,作为所述第n个特征提取层针对所述待识别文本的文本特征。
在一种实现方式中,所述第二确定单元603在用于在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,确定所述待识别文本的文本结构特征时,具体用于:
获取针对特征提取层对应的文本特征的抽取频次;
根据所述抽取频次在所述第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层中确定目标特征提取层;
将所述目标特征提取层对应的文本特征作为所述待识别文本的文本结构特征。
在一种实现方式中,所述识别单元605在用于根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率时,具体用于:
根据所述目标融合特征对所述待识别文本进行类别识别,得到所述待识别文本在多个预设类别中各个预设类别下的类别值;
根据所述待识别文本在所述每个预设类别下的类别值,计算所述待识别文本属于所述每个预设类别的类别概率;
所述识别单元605在用于基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果时,具体用于:
将所述每个预设类别的类别概率中最大的类别概率所对应的预设类别,作为所述待识别文本的类别识别结果。
在一种实现方式中,所述装置还包括训练单元606,具体用于:
获取用于训练文本识别模型的样本文本集,所述样本文本集包括一个或多个样本文本,一个样本文本具有对应的标签类别;
针对所述样本文本集中的任一样本文本,调用所述文本识别模型对所述样本文本进行特征提取,得到所述样本文本的样本语义特征以及样本结构特征;
将所述样本语义特征以及所述样本结构特征进行融合处理,得到样本融合特征;
调用所述文本识别模型对所述样本融合特征进行类别识别,得到所述样本文本的样本识别结果;
基于所述样本文本的标签类别和样本识别结果对所述文本识别模型进行训练,得到训练后的文本识别模型;所述文本识别模型用于对待识别文本进行类别识别。
在一种实现方式中,所述装置还包括搜索单元607,具体用于:
在检测到基于所述待识别文本发起的搜索事件时,将所述待识别文本的类别识别结果作为所述搜索事件的搜索关键词进行搜索处理,得到多个初始搜索结果;
获取发起所述搜索事件对应的目标对象的对象特征,并基于所述对象特征对所述多个初始搜索结果进行过滤,得到所述搜索事件的一个或多个目标搜索结果;
获取各个目标搜索结果的搜索曝光量,并按照搜索曝光量从高到低的顺序对所述一个或多个目标搜索结果进行排序,得到用于在搜索界面上对所述一个或多个目标搜索结果进行排序展示的搜索结果排序。
可以理解,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参见图7,图7为本申请实施例提供的一种计算机设备的结构示意图。如图7所示,该计算机设备包括:至少一个处理器701、存储器702。可选的,该计算机设备还可以包括网络接口。其中,处理器701、存储器702以及网络接口之间可以交互数据,网络接口受处理器701的控制用于收发消息,存储器702用于存储计算机程序,该计算机程序包括程序指令,处理器701用于执行存储器702存储的程序指令。其中,处理器701被配置用于调用该程序指令执行上述方法。
其中,存储器702可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器702也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory)、固态硬盘(solid-state drive,SSD)等;存储器702还可以包括上述两种或两种以上种类的存储器的组合。
其中,处理器701可以是中央处理器(central processing unit,CPU)。在一个实施例中,处理器701还可以是图形处理器(Graphics Processing Unit,GPU)。处理器701也可以是由CPU和GPU的组合。
在一个可能的实施方式中,存储器702用于存储程序指令,处理器701可以调用该程序指令,执行以下步骤:
获取待识别文本,并对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征;
获取所述多个文本特征中各个文本特征的特征深度,并基于所述特征深度确定所述多个文本特征的目标抽取规则;
按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征;其中,所述文本语义特征用于表征所述待识别文本的语义信息,所述文本结构特征用于表征所述待识别文本的结构信息;
将所述文本语义特征和所述文本结构特征进行融合处理,得到目标融合特征;
根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率,并基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果。
在一种实现方式中,所述处理器701在用于对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征时,具体用于:
调用文本识别模型中N个特征提取层对所述待识别文本进行特征提取,得到每个特征提取层针对所述待识别文本的文本特征;N为大于或等于2的正整数;
所述处理器701在用于按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征时,具体用于:
将所述N个特征提取层中的第N个特征提取层对应的文本特征作为所述待识别文本的文本语义特征;
在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,确定所述待识别文本的文本结构特征。
在一种实现方式中,所述处理器701在用于调用文本识别模型中N个特征提取层对所述待识别文本进行特征提取,得到每个特征提取层针对所述待识别文本的文本特征时,具体用于:
将预设字符与按照语序排列的所述待识别文本中的各个字符进行拼接处理,得到所述文本识别模型中第一个特征提取层的第一输入序列;
将所述第一输入序列输入所述第一个特征提取层,得到所述第一输入序列中各个字符对应的字符特征,并将所述第一输入序列中预设字符对应的字符特征,作为所述第一个特征提取层针对所述待识别文本的文本特征;
将通过第n-1个特征提取层得到的所述预设字符对应的字符特征与所述待识别文本中的各个字符对应的字符特征进行拼接处理,得到所述文本识别模型中第n个特征提取层的第n输入序列;n为大于或等于2的正整数;
将所述第n输入序列输入所述第n个特征提取层,得到所述第n输入序列中各个字符对应的字符特征,并将所述第n输入序列中预设字符对应的字符特征,作为所述第n个特征提取层针对所述待识别文本的文本特征。
在一种实现方式中,所述处理器701在用于在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,确定所述待识别文本的文本结构特征时,具体用于:
获取针对特征提取层对应的文本特征的抽取频次;
根据所述抽取频次在所述第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层中确定目标特征提取层;
将所述目标特征提取层对应的文本特征作为所述待识别文本的文本结构特征。
在一种实现方式中,所述处理器701在用于根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率时,具体用于:
根据所述目标融合特征对所述待识别文本进行类别识别,得到所述待识别文本在多个预设类别中各个预设类别下的类别值;
根据所述待识别文本在所述每个预设类别下的类别值,计算所述待识别文本属于所述每个预设类别的类别概率;
所述处理器701在用于基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果时,具体用于:
将所述每个预设类别的类别概率中最大的类别概率所对应的预设类别,作为所述待识别文本的类别识别结果。
在一种实现方式中,所述处理器701,还用于:
获取用于训练文本识别模型的样本文本集,所述样本文本集包括一个或多个样本文本,一个样本文本具有对应的标签类别;
针对所述样本文本集中的任一样本文本,调用所述文本识别模型对所述样本文本进行特征提取,得到所述样本文本的样本语义特征以及样本结构特征;
将所述样本语义特征以及所述样本结构特征进行融合处理,得到样本融合特征;
调用所述文本识别模型对所述样本融合特征进行类别识别,得到所述样本文本的样本识别结果;
基于所述样本文本的标签类别和样本识别结果对所述文本识别模型进行训练,得到训练后的文本识别模型;所述文本识别模型用于对待识别文本进行类别识别。
在一种实现方式中,所述处理器701,还用于:
在检测到基于所述待识别文本发起的搜索事件时,将所述待识别文本的类别识别结果作为所述搜索事件的搜索关键词进行搜索处理,得到多个初始搜索结果;
获取发起所述搜索事件对应的目标对象的对象特征,并基于所述对象特征对所述多个初始搜索结果进行过滤,得到所述搜索事件的一个或多个目标搜索结果;
获取各个目标搜索结果的搜索曝光量,并按照搜索曝光量从高到低的顺序对所述一个或多个目标搜索结果进行排序,得到用于在搜索界面上对所述一个或多个目标搜索结果进行排序展示的搜索结果排序。
具体实现中,上述所描述的装置、处理器、存储器等可执行上述方法实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
本申请实施例中还提供一种计算机(可读)存储介质,该计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时,使处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机指令(程序指令),该计算机指令被处理器执行时可实现上述文本识别方法中的部分或全部步骤。可选地,该计算机指令可以存储在计算机可读存储介质中,计算机设备如计算机设备的处理器从计算机可读存储介质读取该程序指令,处理器执行该程序指令,使得该计算机设备执行上述提供的文本识别方法。
本申请还涉及到区块链的相关技术。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链中包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。本申请中,可以将所确定的待识别文本的类别识别结果添加至区块链中进行存储,以保证数据的不可篡改性。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。
计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种文本识别方法,其特征在于,所述方法包括:
获取待识别文本,并对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征;
获取所述多个文本特征中各个文本特征的特征深度,并基于所述特征深度确定所述多个文本特征的目标抽取规则;
按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征;其中,所述文本语义特征用于表征所述待识别文本的语义信息,所述文本结构特征用于表征所述待识别文本的结构信息;
将所述文本语义特征和所述文本结构特征进行融合处理,得到目标融合特征;
根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率,并基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征,包括:
调用文本识别模型中N个特征提取层对所述待识别文本进行特征提取,得到每个特征提取层针对所述待识别文本的文本特征;N为大于或等于2的正整数;
其中,所述按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征,包括:
将所述N个特征提取层中的第N个特征提取层对应的文本特征作为所述待识别文本的文本语义特征;
在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,确定所述待识别文本的文本结构特征。
3.如权利要求2所述的方法,其特征在于,所述调用文本识别模型中N个特征提取层对所述待识别文本进行特征提取,得到每个特征提取层针对所述待识别文本的文本特征,包括:
将预设字符与按照语序排列的所述待识别文本中的各个字符进行拼接处理,得到所述文本识别模型中第一个特征提取层的第一输入序列;
将所述第一输入序列输入所述第一个特征提取层,得到所述第一输入序列中各个字符对应的字符特征,并将所述第一输入序列中预设字符对应的字符特征,作为所述第一个特征提取层针对所述待识别文本的文本特征;
将通过第n-1个特征提取层得到的所述预设字符对应的字符特征与所述待识别文本中的各个字符对应的字符特征进行拼接处理,得到所述文本识别模型中第n个特征提取层的第n输入序列;n为大于或等于2的正整数;
将所述第n输入序列输入所述第n个特征提取层,得到所述第n输入序列中各个字符对应的字符特征,并将所述第n输入序列中预设字符对应的字符特征,作为所述第n个特征提取层针对所述待识别文本的文本特征。
4.根据权利要求2所述的方法,其特征在于,所述在第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层对应的文本特征中,确定所述待识别文本的文本结构特征,包括:
获取针对特征提取层对应的文本特征的抽取频次;
根据所述抽取频次在所述第一个特征提取层与第N-1个特征提取层之间所包括的各个特征提取层中确定目标特征提取层;
将所述目标特征提取层对应的文本特征作为所述待识别文本的文本结构特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率,包括:
根据所述目标融合特征对所述待识别文本进行类别识别,得到所述待识别文本在多个预设类别中各个预设类别下的类别值;
根据所述待识别文本在所述每个预设类别下的类别值,计算所述待识别文本属于所述每个预设类别的类别概率;
其中,所述基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果,包括:
将所述每个预设类别的类别概率中最大的类别概率所对应的预设类别,作为所述待识别文本的类别识别结果。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
获取用于训练文本识别模型的样本文本集,所述样本文本集包括一个或多个样本文本,一个样本文本具有对应的标签类别;
针对所述样本文本集中的任一样本文本,调用所述文本识别模型对所述样本文本进行特征提取,得到所述样本文本的样本语义特征以及样本结构特征;
将所述样本语义特征以及所述样本结构特征进行融合处理,得到样本融合特征;
调用所述文本识别模型对所述样本融合特征进行类别识别,得到所述样本文本的样本识别结果;
基于所述样本文本的标签类别和样本识别结果对所述文本识别模型进行训练,得到训练后的文本识别模型;所述文本识别模型用于对待识别文本进行类别识别。
7.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
在检测到基于所述待识别文本发起的搜索事件时,将所述待识别文本的类别识别结果作为所述搜索事件的搜索关键词进行搜索处理,得到多个初始搜索结果;
获取发起所述搜索事件对应的目标对象的对象特征,并基于所述对象特征对所述多个初始搜索结果进行过滤,得到所述搜索事件的一个或多个目标搜索结果;
获取各个目标搜索结果的搜索曝光量,并按照搜索曝光量从高到低的顺序对所述一个或多个目标搜索结果进行排序,得到用于在搜索界面上对所述一个或多个目标搜索结果进行排序展示的搜索结果排序。
8.一种文本识别装置,其特征在于,包括:
提取单元,用于获取待识别文本,并对所述待识别文本进行特征提取,得到针对所述待识别文本的多个文本特征;
第一确定单元,用于获取所述多个文本特征中各个文本特征的特征深度,并基于所述特征深度确定所述多个文本特征的目标抽取规则;
第二确定单元,用于按照所述目标抽取规则从所述多个文本特征中确定所述待识别文本的文本语义特征和文本结构特征;其中,所述文本语义特征用于表征所述待识别文本的语义信息,所述文本结构特征用于表征所述待识别文本的结构信息;
融合单元,用于将所述文本语义特征和所述文本结构特征进行融合处理,得到目标融合特征;
识别单元,用于根据所述目标融合特征计算所述待识别文本属于多个预设类别下每个预设类别的类别概率,并基于所述每个预设类别的类别概率确定所述待识别文本的类别识别结果。
9.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211496126.3A CN118093983A (zh) | 2022-11-25 | 2022-11-25 | 一种文本识别方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211496126.3A CN118093983A (zh) | 2022-11-25 | 2022-11-25 | 一种文本识别方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118093983A true CN118093983A (zh) | 2024-05-28 |
Family
ID=91159072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211496126.3A Pending CN118093983A (zh) | 2022-11-25 | 2022-11-25 | 一种文本识别方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118093983A (zh) |
-
2022
- 2022-11-25 CN CN202211496126.3A patent/CN118093983A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
US11514247B2 (en) | Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US20190188285A1 (en) | Image Search with Embedding-based Models on Online Social Networks | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN111539197A (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
US20230386238A1 (en) | Data processing method and apparatus, computer device, and storage medium | |
CN110362663A (zh) | 自适应多感知相似度检测和解析 | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN114329051A (zh) | 数据信息识别方法、装置、设备、存储介质及程序产品 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |