CN117033621A - 名称分类方法、装置、计算机设备和存储介质 - Google Patents
名称分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117033621A CN117033621A CN202211182074.2A CN202211182074A CN117033621A CN 117033621 A CN117033621 A CN 117033621A CN 202211182074 A CN202211182074 A CN 202211182074A CN 117033621 A CN117033621 A CN 117033621A
- Authority
- CN
- China
- Prior art keywords
- name
- classification
- feature vector
- classified
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 437
- 238000013145 classification model Methods 0.000 claims abstract description 88
- 238000004590 computer program Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 156
- 239000011159 matrix material Substances 0.000 claims description 43
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 19
- 230000000873 masking effect Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种名称分类方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量;获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果;基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。采用本方法能够提高对公司名称的分类准确度。
Description
技术领域
本申请涉及人工智能领域,特别是涉及一种名称分类方法、装置和计算机设备。
背景技术
由于公司名称的写法描述多种多样,并没有统一的标准化格式,例如,采用简写的形式,采用全称的形式,还有自创的公司名称的写法。而在需要基于公司名称确定具体的公司,或基于公司名称获取对应的公司信息的场景下,部分公司名称无法准确指示具体公司,例如,公司名称是纯数字组成(如“99”),或公司名称是无规律的字母组成(如“ABW”),因此基于这样的公司名称无法准确确定具体公司,或获取对应的公司信息,为便于对公司信息的筛查等,将此类公司名称定义为“无意义公司名称”,且对“无意义公司名称”进行人工审核效率较低,且基于实际场景需求(例如:基于公司名称风险评估等任务)会因为“无意义公司名称”无法准确定位具体公司,从而引入比较大的噪声干扰,影响任务效果。因此,有必要对公司名称进行识别以及分类。
目前,可以采用条件匹配的方法,即公司名称命中关键词词典里的词,确定该公司名称为“无意义公司名称”,然而,简单的条件匹配方法,依赖于条件集的完善程度,在由于条件集的完善程度较低的情况下,容易对公司名称进行误判分类。因此,如何提高对公司名称的分类准确度是亟需解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对公司名称的分类准确度的名称分类方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种名称分类方法。所述方法包括:
获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量;
获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果;
基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
在其中一个实施例中,基于待分类名称获取名称特征向量,包括:
基于待分类名称获取包括待分类名称的搜索文本;
基于搜索文本获取名称特征向量;
其中,名称特征向量还包括待分类名称在搜索文本中的上下文特征向量。
在其中一个实施例中,基于搜索文本获取名称特征向量,包括:
对搜索文本进行特征处理,以得到搜索文本对应的特征向量;
确定待分类名称在搜索文本中的位置信息;
基于位置信息,在搜索文本对应的特征向量中确定名称特征向量。
在其中一个实施例中,基于位置信息,在搜索文本对应的特征向量中确定名称特征向量,包括:
基于位置信息,在搜索文本对应的特征向量中确定待处理名称特征向量;
对待处理名称特征向量进行维度一致性处理,得到预设特征维度的名称特征向量
在其中一个实施例中,对搜索文本进行特征处理,包括:
对搜索文本进行分词处理,得到多个文本标记;
对各文本标记进行掩码处理,并对多个掩码处理后的文本标记进行特征处理。
在其中一个实施例中,对搜索文本进行特征处理,还包括:
对搜索文本进行分词处理,得到多个文本标记;
提取各文本标记在搜索文本中的上下文信息,且基于各文本标记在搜索文本中的上下文信息对搜索文本进行特征处理。
在其中一个实施例中,名称特征向量还包括待分类名称在搜索文本中的句法结构特征向量;
对搜索文本进行特征处理,还包括:
对搜索文本进行分词处理,得到多个文本标记,并确定各文本标记在搜索文本中的句法依存信息;
基于各文本标记在搜索文本中的句法依存信息生成句法依存矩阵,并对句法依存矩阵进行随机初始化处理。
在其中一个实施例中,基于各分类条件与待分类名称获取分类条件特征向量,包括:
基于各分类条件与待分类名称,获取各分类条件对应的待处理分类条件子向量,待处理分类条件子向量描述待分类名称命中所对应的分类条件的结果;
对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量。
在其中一个实施例中,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量,包括:
对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取各分类条件对应的分类条件特征子向量;
对各分类条件对应的分类条件特征子向量进行维度一致性处理,得到预设特征维度的分类条件特征向量。
在其中一个实施例中,名称分类模型的获得方式包括:
获取包括名称样本的搜索文本样本以及名称样本对应的分类标记,并基于搜索文本样本获取名称样本特征向量;
获取多个分类条件样本,并基于各分类条件样本与名称样本获取分类条件样本特征向量;
基于名称样本特征向量以及分类条件样本特征向量,通过初始名称分类模型确定名称样本的预测分类结果;
基于名称样本的预测分类结果与名称样本对应的分类标记,调整初始名称分类模型的模型参数,以得到名称分类模型。
在其中一个实施例中,基于搜索文本样本获取名称样本特征向量,至少包括:
对搜索文本样本进行分词处理,得到多个样本文本标记,并确定各样本文本标记在搜索文本样本中的句法依存信息;
基于各样本文本标记在搜索文本样本中的句法依存信息生成样本句法依存矩阵,并对样本句法依存矩阵进行随机初始化处理,以获取名称样本特征向量;
基于各分类条件样本与名称样本获取分类条件样本特征向量,包括:
基于各分类条件样本与名称样本,获取各分类条件样本对应的待处理分类条件样本子向量;
对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理,以获取分类条件样本特征向量。
在其中一个实施例中,调整初始名称分类模型的模型参数,至少包括:
调整对样本句法依存矩阵进行随机初始化处理的参数;
调整对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理的参数。
第二方面,本申请还提供了一种名称分类装置。所述装置包括:
获取模块,用于获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量;且获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果;
分类模块,用于基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量;
获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果;
基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量;
获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果;
基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量;
获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果;
基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
上述名称分类方法、装置、计算机设备、存储介质和计算机程序产品,获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量,再获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果,并基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。通过待分类名称对应的文本特征向量来表征待分类名称的文本维度的信息特征,并进一步地引入人工标注整理的分类条件,以提升名称分类模型能够学习到文本维度的特征信息,也能够考虑到分类条件相关的特征信息,从而保证名称分类模型的泛化能力,从而提高对公司名称的分类准确度。
附图说明
图1为一个实施例中名称分类方法的应用环境图;
图2为一个实施例中名称分类方法的流程示意图;
图3为一个实施例中获取名称特征向量的流程示意图;
图4为一个实施例中基于搜索文本获取名称特征向量的流程示意图;
图5为一个实施例中搜索文本对应的特征向量的实施例示意图;
图6为一个实施例中Transforme的框架示意图;
图7为一个实施例中确定名称特征向量的实施例示意图;
图8为一个实施例中基于位置信息,在搜索文本对应的特征向量中确定名称特征向量的流程示意图;
图9为一个实施例中对搜索文本进行特征处理的部分流程示意图;
图10为另一个实施例中对搜索文本进行特征处理的部分流程示意图;
图11为又一个实施例中对搜索文本进行特征处理的部分流程示意图;
图12为一个实施例中获取分类条件特征向量的部分流程示意图;
图13为另一个实施例中获取分类条件特征向量的部分流程示意图;
图14为一个实施例中获取名称分类模型的流程示意图;
图15为一个实施例中名称分类模型的模型结构示意图;
图16为一个实施例中基于搜索文本样本获取名称样本特征向量的流程示意图;
图17为一个实施例中调整初始名称分类模型的模型参数的流程示意图;
图18为一个实施例中名称分类方法的完整流程示意图;
图19为一个实施例中名称分类装置的结构框图;
图20为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
本申请实施例提供的方案涉及云技术中的人工智能云服务(AI as a Service,AIaaS),所谓人工智能云服务,一般也被称作是“AI即服务”。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。具体通过如下实施例进行说明:
本申请实施例提供的名称分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
具体地,以应用于服务器104作为示例进行说明,在对名称进行分类之前,需要通过训练得到名称分类模型,终端102可以向服务器104发送训练模型的指令,以使得服务器104进行模型训练,也可以是服务器104直接开始进行模型训练,此处不做限定。因此,若对名称进行分类,可以由服务器104从数据存储系统中获取待分类名称以及多个分类条件,或者通过与终端102之间的通信获取待分类名称以及多个分类条件,此处不作限定。基于此,服务器104基于待分类名称获取名称特征向量,并基于各分类条件与待分类名称获取分类条件特征向量,进而基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
其次,以应用于具有高算力的终端102作为示例进行说明,在对名称进行分类之前,也需要通过训练得到名称分类模型,终端102可以自身进行模型训练得到名称分类模型,也可以通过与服务器104之间的通信获取名称分类模型,此处不做限定。基于此,终端102获取待分类名称以及多个分类条件,并基于待分类名称获取名称特征向量,以及基于各分类条件与待分类名称获取分类条件特征向量,进而基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
应理解,前述名称分类模型的获得方式可以包括:获取各数据信息训练样本,以及与各数据信息训练样本匹配的事件信息训练样本。基于此,再基于各数据信息训练样本,得到各数据信息训练样本对应的数据信息特征,并基于各事件信息训练样本,得到各事件信息训练样本对应的事件信息特征,最后基于各数据信息特征以及各事件信息特征,获取各数据信息特征与各事件信息特征之间的预测匹配程度,并基于各实际匹配程度与各预测匹配程度对初始名称分类模型进行微调,获得名称分类模型。其中,名称分类模型用于计算数据信息与所述事件信息之间的匹配程度。
其次,名称分类模型的获得方式可以包括:获取包括名称样本的搜索文本样本以及名称样本对应的分类标记,并基于搜索文本样本获取名称样本特征向量。其次,获取多个分类条件样本,并基于各分类条件样本与名称样本获取分类条件样本特征向量,由此基于名称样本特征向量以及分类条件样本特征向量,通过初始名称分类模型确定名称样本的预测分类结果,再基于名称样本的预测分类结果与名称样本对应的分类标记,调整初始名称分类模型的模型参数,以得到名称分类模型。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备、飞行器等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
进一步地,以本申请实施例所提供的名称分类方法应用于基于商户入驻审核为例进行说明,由于线上购物以及线上支付的便利,各购物平台为了能够为顾客提供更为全面的购物体验,需要对入驻购物平台的商户进行入驻审核,以避免影响顾客购物体验或者影响顾客权益的商户入驻,然而部分商户的名称却存在无法准确描述为公司名称的问题,本实施例中将无法用于准确描述为公司名称的名称定义为“无意义名称”。例如,商户的名称为“AD”,“AD”无法准确描述为公司名称。其次,商户的名称为“135”,“135”也无法准确描述为公司名称。
因此,基于本申请实施例所提供的名称分类方法,在商户入驻审核的过程中,将待审核商户名称确定为待分类名称,并基于待分类名称获取名称特征向量,该名称特征向量包括待审核商户名称对应的文本特征向量,并基于各分类条件与待分类名称获取分类条件特征向量,从而基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果,即判断该待审核商户名称属于“无意义名称”还是“有意义名称”。若待审核商户名称属于“有意义名称”,进一步地基于该待审核商户名称查询相关的公司信息,以确定是否让该待审核商户名称对应的商户入驻。反之,待审核商户名称属于“无意义名称”,此时可以直接拒绝让该待审核商户名称对应的商户入驻,或者其他审核处理操作,此处不做限定。
应理解,本申请实施例所提供的名称分类方法不但可以如前述示例所述,应用于商户入驻审核的场景,还可以应用于公司筛选以及公司审核等其他与公司名称相关的应用场景下,此处不对具体应用场景进行限定。
在一个实施例中,如图2所示,提供了一种名称分类方法,以该方法应用于图1中的终端为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量。
其中,待分类名称具体为待分类的公司名称或商户名称。且待分类名称可以为中文名称、英文名称、有数字组成的名称或其他语音对应的名称,此处不做限定。
具体地,终端基于实际应用需求获取待分类名称,例如,以应用于基于商户入驻审核的场景为例,可以将待审核商户名称确定为待分类名称。其次,以应用于公司筛选的场景为例,可以将待筛选公司名称确定为待分类名称。
基于此,终端再对待分类名称进行特征化处理,得到待分类名称对应的文本特征向量,从而获取到包括待分类名称对应的文本特征向量的名称特征向量。应理解,基于实际情况,名称特征向量中还可以包括待分类名称的上下文特征向量,以及句法结构特征向量等,此处不做限定。
步骤204,获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果。
其中,分类条件是人工基于业务经验建立的条件。其次,每个分类条件均具有对应的条件标识,例如,分类条件A1对应条件标识1,分类条件A2对应条件标识2,以及分类条件A3对应条件标识3等。
具体地,终端获取多个基于业务经验建立的条件,即获取多个分类条件,例如:待分类名称包含公司标识类字符,待分类名称并非全为数字,待分类名称的词性为名词等。
基于此,终端进而基于各分类条件与待分类名称获取分类条件特征向量,即确定待分类名称是否命中各分类条件,并基于命中结果获取对应的分类条件特征向量。前述命中结果用于描述待分类名称所命中的分类条件,命中结果可以为:待分类名称所命中各分类条件的结果,例如,命中结果为:待分类名称命中分类条件A1,且未命中分类条件A2以及分类条件A3。
或者,命中结果还可以为:为待分类名称分配所命中的分类条件对应的条件标识,以及相对应的命中标识,为待分类名称分配未命中的分类条件对应的条件标识,以及相对应的未命中标识,前述命中标识为1,未命中标识为0。例如,分类名称包含公司标识类字符对应条件标识1,以及待分类名称全为数字对应条件标识2,若待分类名称为“135AD”,由此可以确定待分类名称“135AD”不包含公司标识类字符,且并非全为数字,因此可以分配条件标识1与条件标识1对应的未命中标识0,以及分配条件标识2与条件标识2对应的命中标识1,即得到待分类名称“135AD”的命中结果:1-0,2-1。
其次,若待分类名称为“135”,由此可以确定待分类名称“135”不包含公司标识类字符,因此可以分配条件标识1与条件标识1对应的未命中标识0,且待分类名称“135”全为数字,因此可以分配条件标识2与条件标识2对应的未命中标识0,即得到待分类名称135”:1-0,2-0。
进一步地,对命中结果进行特征化处理以得到分类条件特征向量,前述分类条件特征向量具体用于描述待分类名称命中各分类条件的结果。且分类条件特征向量具体为一个特征矩阵。例如,命中结果为:待分类名称命中分类条件A1,未命中分类条件A2以及分类条件A3。那么分类条件特征向量可以为:
步骤206,基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
其中,如前述实施例所介绍的,将无法用于准确描述为公司名称的名称定义为“无意义名称”。例如,“AD”无法准确描述为公司名称,因此“AD”为“无意义名称”,“135”也无法准确描述为公司名称,因此“135”为“无意义名称”。因此,分类结果用于描述待分类名称为公司名称,或,待分类名称不为公司名称。
具体地,终端基于名称特征向量与分类条件特征向量,并通过训练得到的名称分类模型预测待分类名称用于描述公司名称的概率,并基于待分类名称用于描述公司名称的概率确定分类结果。终端具体将待分类名称用于描述公司名称的概率小于概率阈值的待分类名称,分类为“无意义名称”,前述概率阈值可以为60%。例如,名称分类模型基于待分类名称B1的名称特征向量,与待分类名称B1的分类条件特征向量输出待分类名称B1用于描述公司名称的概率为50%,那么待分类名称B1的分类结果为:待分类名称B1不为公司名称。应理解,概率阈值需要基于实际情况确定,此处不做限定。
上述名称分类方法中,通过待分类名称对应的文本特征向量来表征待分类名称的文本维度的信息特征,并进一步地引入人工标注整理的分类条件,以提升名称分类模型能够学习到文本维度的特征信息,也能够考虑到分类条件相关的特征信息,从而保证名称分类模型的泛化能力,从而提高对公司名称的分类准确度。
在一个实施例中,如图3所示,基于待分类名称获取名称特征向量,包括:
步骤302,基于待分类名称获取包括待分类名称的搜索文本。
其中,搜索文本为包括待分类名称的文本,且搜索文本可以为一篇文章/论文的标题文本、摘要文本以及正文文本等。例如,待分类名称为“I was busy”,那么搜索文本可以为“I was busy|English examples in context|Ludwig”。或,待分类名称为“ADI”,那么搜索文本可以为“ADI(Analog Devices,Inc)的注册中文名为亚德诺半导体技术有限公司”,且搜索文本也可以为“ADI(Air Development Interface)为民航订座系统开发接口”。
具体地,终端可以基于待分类名称,通过搜索引擎实时获取包括待分类名称的搜索文本。或者,预先获取文本数据库,文本数据库可以通过爬虫或者是采买得到,然后在获取到待分类名称后,从文本数据库中确定包括待分类名称的搜索文本。因此,搜索文本的具体获取方式此处不做限定。
步骤304,基于搜索文本获取名称特征向量。
其中,名称特征向量还包括待分类名称在搜索文本中的上下文特征向量。
具体地,考虑到待分类名称崽子搜索文本中的上下文信息,终端具体在搜索文本中对待分类名称进行语义表征,从而得到名称特征向量。
基于此,下面将详细介绍如何基于搜索文本获取名称特征向量:
在一个实施例中,如图4所示,基于搜索文本获取名称特征向量,包括:
步骤402,对搜索文本进行特征处理,以得到搜索文本对应的特征向量。
具体地,终端具体通过名称分类模型对搜索文本进行词法、句法以及双向语义特征提取,从而得到搜索文本对应的特征向量。以名称分类模型为基于语义理解的深度双向预训练编码器(Bidirectional EncoderRepresentation from Transformers,BERT)模型为例进行说明,对搜索文本进行词法、句法以及双向语义特征提取至少包括:对搜索文本进行嵌入(Embedding)处理,此处Embedding具体包括:Token Embeddings、SegmentEmbeddings以及Position Embeddings,进而通过双向Transformer进行特征学习,从而得到搜索文本对应的特征向量。
进一步地,Token Embeddings具体用于对搜索文本进行分词处理后所得到的多个文本标记转换成固定维度的向量,即Token Embeddings为搜索文本中各文本标记的向量表示。其次,Segment Embeddings具体用于将句子对中的两个句子进行拼接在一起,具体把0赋给第一个句子中的各个文本标记,然后把1赋给第二个句子中的各个文本标记,因此,若搜索文本仅仅只有一个句子,那么搜索文本的Segment Embeddings就是全0,即SegmentEmbeddings用于辅助BERT区别句子对中的两个句子的向量表示。
前述文本标记具体为Token,即按照实际应用需求,对搜索文本进行分词处理后得到一个字符串序列,字符串序列中各字符串即为Token。例如,搜索文本为“I was busy|English examples in context|Ludwig”,那么对该搜索文本进行分词处理后得到的字符串序列为:[I]、[was]、[busy]、[|]、[English]、[examples]、[in]、[context]、[|]、[Ludwig],[I]即为该字符串序列中的一个Token。
基于此,前述Embeddings能够获取文本标记与文本标记之间关系的表达形式,以及句子与句子之间关系的表达形式,此时文本标记在搜索文本中的位置关系还无法体现,由于Transformer是并行地处理搜索文本中的所有文本标记,此时能够通过PositionEmbedding让BERT学习到输入的顺序属性,即Position Embeddings用于表示搜索文本中的各文本标记在搜索文本中的输入顺序信息,或者说,Position Embeddings用于表示各文本标记在搜索文本中的位置关系。
为便于理解,以名称分类模型为BERT模型,且搜索文本具体为“I was busy|English examples in context|Ludwig”为例进行说明,如图5所示,Token Embeddings具体包括:搜索文本中各文本标记:[I]、[was]、[busy]、[|]、[English]、[examples]、[in]、[context]、[|]、[Ludwig]分别对应的向量表示。其次,Segment Embeddings为搜索文本“Iwas busy|English examples in context|Ludwig”的多个句子之间的向量表示,且由于示例的搜索文本“I was busy|English examples in context|Ludwig”为一个句子,此处可以确定搜索文本的Segment Embeddings就是全0。再次,Position Embeddings用于表示前述各文本标记在搜索文本中的位置信息。
为进一步地本方案,Transformer框架如图6所示,Transformer框架具体由编码器(Encoder)602以及解码器(Decoder)604组成。其中,编码器602具体由第一多头注意力机制(Multi-Head Attention)层6021、第一残差与标准化(Add&Norm)层6022、第一全连接层(Feed Forward)6023以及第二残差与标准化层6024组成。
其次,解码器604具体由第二多头注意力机制层6041、第三残差与标准化层6042、第三多头注意力机制层6043、第四残差与标准化层6044、第二全连接层6045、第五残差与标准化层6046。其中,第二多头注意力机制层6041中进行了掩码处理操作,而第三多头注意力机制层6043中K,V矩阵使用解码器604的编码信息矩阵C进行计算,而Q矩阵使用上一个解码器的输出进行计算。应理解,图6仅用于理解本申请所应用的Transformer框架,而不应理解为本申请的限定。
步骤404,确定待分类名称在搜索文本中的位置信息。
具体地,由于Position Embeddings能够描述各文本标记在搜索文本中的位置信息,由此也能够确定待分类名称对应的各文本标记在搜索文本中的位置信息。例如,待分类名称为“I was busy”,且搜索文本为“I was busy|English examples in context|Ludwig”,那么可以确定待分类名称具体处于搜索文本中前三位文本字符。
步骤406,基于位置信息,在搜索文本对应的特征向量中确定名称特征向量。
具体地,基于待分类名称在搜索文本中的位置信息,且由于Position Embeddings能够描述各文本标记在搜索文本中的位置信息,由此也能够在搜索文本对应的特征向量中确定名称特征向量,也就是取待分类名称在搜索文本的对应位置上的特征向量为名称特征向量,本实施例中将名称特征向量记为“Hidden States<company name>”。此时名称特征向量在包括待分类名称对应的文本特征向量(即待分类名称的各文本标记对应的特征向量)的基础上,还包括待分类名称在搜索文本中的上下文特征向量。
为便于理解,再次以名称分类模型为BERT模型,且搜索文本具体为“I was busy|English examples in context|Ludwig”为例进行说明,如图7所示,通过前述实施例所描述的方式对搜索文本702进行特征处理,以得到搜索文本702对应的特征向量704,然后基于特征向量704中的Position Embeddings,确定待分类名称在搜索文本中的位置信息706,由此在特征向量704中基于位置信息706确定名称特征向量708。
应理解,前述图5至图7的示例均用于理解本方案,而不应理解为本方案的限定。
本实施例中,基于包括待分类名称的搜索文本进行特征处理能够在考虑待分类名称的基础上,进一步地考虑到待分类名称在相关搜索文本中的上下文信息,从而保证所得到的名称特征向量的准确度以及完整性,以提升后续模型学习到的特征信息完整性,提高对公司名称的分类准确度。其次,通过待分类名称在搜索文本中的位置信息,能够在搜索文本对应的特征向量中确定名称特征向量,从而保证名称特征向量的可靠性,即进一步地保证公司名称的分类准确度。
考虑到待分类名称在搜索文本中的位置信息,以及搜索文本中在前述位置信息所指示的位置的语义编码可能存在维度不一致的问题,因此需要保证各文本标记之间的特征维度一致,下面将介绍如何进行维度一致性的处理:
在一个实施例中,如图8所示,基于位置信息,在搜索文本对应的特征向量中确定名称特征向量,包括:
步骤802,基于位置信息,在搜索文本对应的特征向量中确定待处理名称特征向量。
具体地,与步骤402类似,基于待分类名称在搜索文本中的位置信息,且由于Position Embeddings能够描述各文本标记在搜索文本中的位置信息,由此也能够在搜索文本对应的特征向量中确定待处理名称特征向量,也就是取待分类名称在搜索文本的对应位置上的特征向量为待处理名称特征向量。
与前述实施例类似,例如,待分类名称为“I was busy”,且搜索文本为“I wasbusy|English examples in context|Ludwig”,那么可以具体确定“I was busy”在I wasbusy|English examples in context|Ludwig”中的位置信息是第1位至第3位,此时去取搜索文本在第1位至第3位的语义编码作为待处理名称特征向量。
步骤804,对待处理名称特征向量进行维度一致性处理,得到预设特征维度的名称特征向量。
其中,名称特征向量中待分类名称中各文本标记对应的特征向量的维度一致,即预设特征维度与所使用的BERT模型保持一致。
具体地,对待处理名称特征向量进行维度一致性处理,得到预设特征维度的名称特征向量。本实施例中具体对待处理名称特征向量进行平均化处理,从而得到维度一致的名称特征向量,应理解,在实际应用中,还具有其他进行维度一致性处理的方法,且基于AI技术的演变与发展,还会出现更多维度一致性处理的方法,因此此处不进行穷举。
基于此,以待分类名称为“I was busy”为例,如公式(1)所示:
H^=Average(EI,Ewas,Ebusy) (1);
其中,H^表示名称特征向量,EI表示待处理名称特征向量中I对应的特征向量,Ewas表示待处理名称特征向量中was对应的特征向量,Ebusy表示待处理名称特征向量中busy对应的特征向量。
本实施例中,通过维度一致性处理能够得到文本标记对应的特征向量的维度一致的名称特征向量,从而保证在模型能够基于维度一致的特征向量,学习到准确且完整的特征信息,进一步地保证公司名称的分类准确度。
在一个实施例中,如图9所示,对搜索文本进行特征处理,包括:
步骤902,对搜索文本进行分词处理,得到多个文本标记。
具体地,终端具体对搜索文本进行分词处理,从而得到多个文本标记。例如,再次以搜索文本为“I was busy|English examples in context|Ludwig”为例进行说明,搜索文本中多个文本标记包括:[I]、[was]、[busy]、[|]、[English]、[examples]、[in]、[context]、[|]、[Ludwig]。
步骤904,对各文本标记进行掩码处理,并对多个掩码处理后的文本标记进行特征处理。
其中,多个掩码处理后的文本标记包括搜索文本中被掩码的文本标记以及未被掩码的文本标记。
具体地,通过图6可知,Transformer框架中解码器中的第一个多头注意力机制层中需要进行掩码处理操作,因为在Transformer的过程中是基于各文本标记在搜索文本中的顺序进行,即Transformer完第i个文本标记,才可以翻译第i+1个文本标记,那么通过对各文本标记进行掩码处理可以防止第i个文本标记知道i+1个文本标记之后的信息。由此,再对多个掩码处理后的文本标记进行特征处理。
应理解,进行掩码处理可以直接将文本标记遮掩掉,例如,搜索文本为“my dog ishairy”,掩码处理后可以得到:my dog is[MASK]。或者,进行掩码处理也可以将选中的文本标记用任意词代替,例如,搜索文本为“my dog is hairy”,掩码处理后可以得到:my dogis apple。
本实施例中,通过掩码处理,基于名称分类模型得到预测的掩码的文本标记与真实掩码的文本标记,对模型的参数进行调整,以提升名称分类模型预测正确率,从而提升公司名称的分类准确度。其次,保证每个文本标记的特征向量能够准确反应该文本标记的特征信息,以保证特征处理的可靠性。
在一个实施例中,如图10所示,对搜索文本进行特征处理,还包括:
步骤1002,对搜索文本进行分词处理,得到多个文本标记。
具体地,对搜索文本进行分词处理,得到多个文本标记与前述实施例类似,此处不再赘述。
步骤1004,提取各文本标记在搜索文本中的上下文信息,且基于各文本标记在搜索文本中的上下文信息对搜索文本进行特征处理。
具体地,基于图6所示出的Transformer框架可知,由于BERT模型就是利用Transformer结构构造了一个多层双向的Encoder网络,因此BERT模型就是所有层都能够联合上下文关系进行预训练,由此通过BERT模型即可以提取各文本标记在搜索文本中的上下文信息,从而基于各文本标记在搜索文本中的上下文信息对搜索文本进行特征处理。
其次,在实际应用中,基于掩码处理能够保证文本标记的特征向量只包括该文本标记的特征信息,然而在对Mask进行预测的过程中需要考虑到该文本标记的上下文关系,因此对各文本标记进行掩码处理后,也可以通过BERT模型提取各文本标记在搜索文本中的上下文信息,并基于各文本标记在搜索文本中的上下文信息,再对多个掩码处理后的文本标记进行特征处理,从而学习到各文本标记的在搜索文本中的上下文关系。
本实施例中,进一步地提取各文本标记在搜索文本中的上下文信息,以保证名称特征向量中保证上下文关系的特征。其次,还能够使得名称分类模型能够通过上下文信息去预测被掩码掉的文本标记,由此得到更为准确地预测到被掩码的文本标记,从而保证模型的参数调整的准确度以及效率,以提升公司名称的分类准确度。
在一个实施例中,如图11所示,名称特征向量还包括待分类名称在搜索文本中的句法结构特征向量。
句法结构分析(syntactic structure parsing)又称短语结构分析(phrasestructure parsing),也可以被称为成分句法分析(constituent syntactic parsing),句法结构分析用于是识别出句子中的短语结构以及短语之间的层次句法关系。其次,依存关系分析,又称依存句法分析(dependency syntactic parsing),简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系。
其中,句法结构特征向量用于描述待分类名称在搜索文本中的句法依存信息。因此,待分类名称在搜索文本中的句法依存信息至少包括:搜索文本中待分类名称的句法结构、待分类名称与其他文本之间的层次句法关系、分类名称与其他文本之间的相互依存关系。
基于此,对搜索文本进行特征处理,还包括:
步骤1102,对搜索文本进行分词处理,得到多个文本标记,并确定各文本标记在搜索文本中的句法依存信息。
具体地,对搜索文本进行分词处理,得到多个文本标记与前述实施例类似,此处不再赘述。基于此,再确定各文本标记在搜索文本中的句法依存信息,即采用句法解析工具对搜索文本进行句法结构分析,确定搜索文本里某些词属于哪类句法角色,从而确定各文本标记在搜索文本中的句法依存信息。
示例性地,若A词、B词是动宾角色,C词是定中角色,即可以确定A词的句法角色是动宾角色,B词的句法角色也是动宾角色,以及C词的句法角色是定中角色,然后每个词包括至少一个文本标记,即属于A词的文本标记的句法角色是动宾角色,例此类推,属于B词的文本标记的句法角色是动宾角色,以及属于C词的文本标记的句法角色是定中角色,由此得到搜索文本中各文本标记在搜索文本中的句法依存信息。
步骤1104,基于各文本标记在搜索文本中的句法依存信息生成句法依存矩阵,并对句法依存矩阵进行随机初始化处理。
具体地,基于各文本标记在搜索文本中的句法依存信息生成句法依存矩阵,该句法依存矩阵为搜索文本对应的句法依存矩阵,该句法依存矩阵是一个可学习的特征变量。基于此,对句法依存矩阵进行随机初始化处理,具体在BERT模型中进行特征处理时,与前述Token Embeddings、Segment Embeddings以及Position Embeddings进行融合,也就是本实施例中在基于Token Embeddings、Segment Embeddings以及Position Embeddings进行特征处理的基础上,进一步地引入各文本标记在搜索文本中的句法依存信息进行特征处理。
本实施例中,通过对搜索文本进行句法结构解析,从而引入句法依存矩阵,即更多的考虑到待分类名称在搜索文本中的多维信息,从而提升名称特征向量的完整性以及可靠性,由此提升基于此进行公司名称的分类准确度。
上面详细介绍了获取名称特征向量的方法,下面将详细介绍获取分类条件特征向量的方法:
在一个实施例中,如图12所示,基于各分类条件与待分类名称获取分类条件特征向量,包括:
步骤1202,基于各分类条件与待分类名称,获取各分类条件对应的待处理分类条件子向量,待处理分类条件子向量描述待分类名称命中所对应的分类条件的结果。
其中,待处理分类条件子向量描述待分类名称命中所对应的分类条件的结果,即各分类条件均有一个待分类名称对应的命中结果。且通过前述实施例可知,每个分类条件均具有对应的条件标识,因此,待分类名称命中所对应的分类条件的结果可以描述为:待分类名称对应各条件标识对应的命中结果标识,命中结果标识又可以分为命中标识以及未命中标识。其次,各分类条件在进行特征处理时被记为一个条件特征(Feature),因为可以确定待分类名称命中的分类条件,即确定为命中一个条件特征。
具体地,终端获取多个基于业务经验建立的条件,进而获取待分类名称命中各分类条件的命中结果,再基于待分类名称命中各分类条件的命中结果,获取各分类条件对应的待处理分类条件子向量。
基于此,若待分类名称命中某个分类条件,则对待分类名称分配该分类条件对应的条件标识,若待分类名称未命中某个分类条件,则该分类条件对应的待处理分类条件子向量为空。例如,若待分类名称命中结果为:待分类名称命中分类条件A1以及命中分类条件A2,且未命中分类条件A3,那么可以为获取分类条件A1对应的待处理分类条件子向量1,分类条件A2对应的待处理分类条件子向量2,以及分类条件A3对应的待处理分类条件子向量“空”。
或者,无论待分类名称是否命中某个分类条件,均会对待分类名称分配该分类条件对应的条件标识,并分配相对应的命中结果标识,本实施例中设置前述命中标识为1,未命中标识为0。例如,若待分类名称命中结果为:待分类名称命中分类条件A1,且未命中分类条件A2,也未命中分类条件A3,那么可以为获取分类条件A1对应的待处理分类条件子向量1,1,分类条件A2对应的待处理分类条件子向量2,0,以及分类条件A3对应的待处理分类条件子向量3,0。
步骤1204,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量。
具体地,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量,分类条件特征向量中各分类条件对应的分类条件子向量之间的维度一致,以及分类条件特征向量的特征维度与所使用的BERT模型保持一致。其次,前述分类条件特征向量具体为一个特征矩阵,且分类条件特征向量是一个可学习的特征变量。
本实施例中,通过确定待分类名称命中所对应的分类条件的结果,得到待分类名称对应各分类条件的命中结果,由此进行特征处理以保证能够准确描述待分类名称与分类条件之间的命中关系,从而使得所得到的分类条件特征向量的准确度以及可靠性。其次,进行随机初始化处理能够在实际应用中,基于每次的结果调整随时初始化处理的参数,进一步地保证所得到的分类条件特征向量的准确度。
在一个实施例中,如图13所示,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量,包括:
步骤1302,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取各分类条件对应的分类条件特征子向量。
具体地,采用前述实施例类似的方式对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取各分类条件对应的分类条件特征子向量。
步骤1304,对各分类条件对应的分类条件特征子向量进行维度一致性处理,得到预设特征维度的分类条件特征向量。
其中,分类条件特征向量中各分类条件特征子向量的维度一致,即预设特征维度与所使用的BERT模型保持一致。
具体地,对各分类条件对应的分类条件特征子向量进行维度一致性处理,得到预设特征维度的分类条件特征向量。本实施例中具体对待处理名称特征向量进行平均化处理,从而得到维度一致的名称特征向量,应理解,在实际应用中,还具有其他进行维度一致性处理的方法,且基于AI技术的演变与发展,还会出现更多维度一致性处理的方法,因此此处不进行穷举。
基于此,以具有N个分类条件为例进行说明,且分类条件具有对应的条件标识,N为大于或等于1的整数,如公式(2)所示:
EFeature=Average(EFeature1,EFeature2,...,EFeatureN) (2);
其中,EFeature表示分类条件特征向量,EFeature1表示条件标识为1的分类条件对应的特征向量,EFeature2表示条件标识为2的分类条件对应的特征向量,以此类推,EFeatureN表示条件标识为N的分类条件对应的特征向量。
本实施例中,通过维度一致性处理能够得到各分类条件特征子向量的维度一致的分类条件特征向量,从而保证在模型能够基于维度一致的特征向量,学习到准确且完整的分类条件特征信息,进一步地保证公司名称的分类准确度。
通过前述实施例可知,在进行名称分类之前需要通过训练得到的名称分类模型,下面将详细介绍如何得到名称分类模型:
在一个实施例中,如图14所示,名称分类模型的获得方式包括:
步骤1402,获取包括名称样本的搜索文本样本以及名称样本对应的分类标记,并基于搜索文本样本获取名称样本特征向量。
其中,名称样本为公司名称或商户名称,分类标记用于描述名称样本为无意义公司名称,或用于描述名称样本为公司名称。例如,分类标记X1用于描述名称样本为无意义公司名称,而分类标记X0用于描述名称样本为公司名称。
具体地,基于名称样本通过搜索引擎实时获取包括名称样本的搜索文本样本。或者,预先获取文本数据库,文本数据库可以通过爬虫或者是采买得到,然后在获取到名称样本后,从文本数据库中确定包括名称样本的搜索文本样本。因此,搜索文本样本的具体获取方式此处不做限定。
进一步地,对搜索文本样本进行分词处理,得到搜索文本样本所包括的多个样本文本标记。然后对各样本文本标记进行以下至少一种特征处理方式:对各样本文本标记进行掩码处理,并对多个掩码处理后的样本文本标记进行特征处理。或,提取各样本文本标记在搜索文本样本中的上下文信息,且基于各样本文本标记在搜索文本样本中的上下文信息对搜索文本样本进行特征处理。或,确定各样本文本标记在搜索文本样本中的句法依存信息,并基于各样本文本标记在搜索文本样本中的句法依存信息生成句法依存矩阵,并对句法依存矩阵进行随机初始化处理。
基于此,通过前述特征处理的方式能够得到搜索文本样本对应的特征向量,然后确定名称样本在搜索文本样本中的位置信息,并基于名称样本在搜索文本样本中的位置信息,在搜索文本样本对应的特征向量中确定名称样本特征向量。应理解,前述步骤与前述实施例的步骤类似,此处不再详细赘述。
步骤1404,获取多个分类条件样本,并基于各分类条件样本与名称样本获取分类条件样本特征向量。
其中,分类条件样本也是人工基于业务经验建立的条件,且与前述实施例类似,每个分类条件样本均具有对应的条件标识。
具体地,获取多个基于业务经验建立的条件,即获取多个分类条件样本,进而获取待分类名称命中各分类条件的命中结果,从而获取各分类条件对应的待处理分类条件子向量,待处理分类条件子向量描述待分类名称命中所对应的分类条件的结果。然后,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量,分类条件特征向量中各分类条件对应的分类条件子向量之间的维度一致,以及分类条件特征向量的特征维度与所使用的BERT模型保持一致。其次,前述分类条件特征向量具体为一个特征矩阵,且分类条件特征向量是一个可学习的特征变量。
步骤1406,基于名称样本特征向量以及分类条件样本特征向量,通过初始名称分类模型确定名称样本的预测分类结果。
具体地,初始名称分类模型在获取到名称样本特征向量以及分类条件样本特征向量后,将名称样本特征向量以及分类条件样本特征向量进行特征拼接融合,具体特征拼接融合如公式(3)所示:
H=Concat(H^,EFeature) (3);
其中,H表示拼接融合后输入名称分类模型的特征向量,H^表示名称样本特征向量,EFeature表示分类条件样本特征向量。
进一步地,通过初始名称分类模型中的SoftMax层输出名称样本对应的描名称类别的预测概率分布,从而基于名称类别的预测概率分布确定名称样本的预测分类结果,前述预测分类结果可以为:名称样本为公司名称,或,名称样本为无意义公司名称。
步骤1408,基于名称样本的预测分类结果与名称样本对应的分类标记,调整初始名称分类模型的模型参数,以得到名称分类模型。
具体地,终端计算名称样本的预测分类结果与名称样本对应的分类标记之间的损失值,并基于损失值调整初始名称分类模型的模型参数,具体地,终端根据损失值判断初始名称分类模型的损失函数是否达到收敛条件,若未达到收敛条件,则利用损失值调整初始名称分类模型的模型参数。基于此,直至初始名称分类模型的损失函数达到收敛条件,则根据最后一次对模型参数进行调整后获得的模型参数获得名称分类模型,从而在实际应用中通过训练得到的名称分类模型对待分类名称进行名称分类。
前述损失函数的收敛条件可以为损失函数的值小于或等于第一预设阈值,作为示例,例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值。也可以为损失函数的相邻两次的值的差值小于或等于第二预设阈值,第二阈值的取值可以与阈值的取值相同或不同,作为示例,例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等。也可以为初始名称分类模型的模型参数更新此处达到更新迭代阈值等,在实际应用中,还可以采用其它收敛条件等,此处不做限定。
由此,结合前述实施例可知,名称分类模型的模型结构如图15所示,对包括名称样本的搜索文本样本1501进行前述实施例所描述的特征处理操作,得到名称样本对应的名称样本特征向量1502,此时还会对多个分类条件样本1503进行前述实施例所描述的特征处理操作,得到名称样本对应的分类条件样本特征向量1504,然后基于公式(3)示进行特征拼接融合,从而通过SoftMax层输出预测分类结果1505。
本实施例中,基于名称样本的文本维度的名称样本特征向量,并进一步地引入人工标注整理的分类条件对应的分类条件样本特征向量,使得初始名称分类模型能够学习到文本维度以及分类条件的特征信息,从而提升初始名称分类模型所学习到的特征信息的完整性以及准确度,并提升初始名称分类模型在训练过程中的泛化能力,由此提升训练所到的名称分类模型的可靠性。
在一个实施例中,如图16所示,基于搜索文本样本获取名称样本特征向量,至少包括:
步骤1602,对搜索文本样本进行分词处理,得到多个样本文本标记,并确定各样本文本标记在搜索文本样本中的句法依存信息。
具体地,对搜索文本样本进行分词处理,得到多个样本文本标记并确定各样本文本标记在搜索文本样本中的句法依存信息。应理解,在实际应用中,还包括如下至少一项:对各样本文本标记进行掩码处理,或,提取各样本文本标记在搜索文本样本中的上下文信息。
步骤1604,基于各样本文本标记在搜索文本样本中的句法依存信息生成样本句法依存矩阵,并对样本句法依存矩阵进行随机初始化处理,以获取名称样本特征向量。
具体地,基于各样本文本标记在搜索文本样本中的句法依存信息生成样本句法依存矩阵,并对样本句法依存矩阵进行随机初始化处理,以获取名称样本特征向量。应理解,在实际应用中,特征处理的过程还包括如下至少一项:对多个掩码处理后的样本文本标记进行特征处理。或,基于各样本文本标记在搜索文本样本中的上下文信息对搜索文本样本进行特征处理。
因此,名称样本特征向量至少可以包括:名称样本对应的文本特征向量、名称样本在搜索文本样本中的上下文特征向量、以及名称样本在搜索文本样本中的句法结构特征向量。
基于此,基于各分类条件样本与名称样本获取分类条件样本特征向量,包括:
步骤1606,基于各分类条件样本与名称样本,获取各分类条件样本对应的待处理分类条件样本子向量。
具体地,基于各分类条件样本与名称样本,获取各分类条件样本对应的待处理分类条件样本子向量。
步骤1608,对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理,以获取分类条件样本特征向量。
具体地,对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理,以获取分类条件样本特征向量。
应理解。步骤1602至步骤1608的具体实施方式在前述实施例中已详细介绍,此处不再赘述。
本实施例中,保证初始名称分类模型能够学习到文本特征向量、上下文特征向量以及句法结构特征向量多个维度的特征,并能够学习到分类条件的特征信息,进一步地提升初始名称分类模型在训练过程中的泛化能力,由此提升训练所到的名称分类模型的可靠性。
在一个实施例中,如图17所示,调整初始名称分类模型的模型参数,至少包括:
步骤1702,调整对样本句法依存矩阵进行随机初始化处理的参数。
具体地,通过前述实施例可知,样本句法依存矩阵是一个可学习的特征变量,因此在初始名称分类模型的模型参数时,至少包括调整对样本句法依存矩阵进行随机初始化处理的参数。
步骤1704,调整对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理的参数。
同理,生成分类条件样本特征向量时,需要对待处理分类条件样本子向量进行随机初始化处理,通过前述实施例可知,分类条件样本特征向量也是一个可学习的特征变量,即待处理分类条件样本子向量也为可学习的特征变量,因此在初始名称分类模型的模型参数时,还可以包括:调整对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理的参数。
本实施例中,在模型训练过程中,通过调整进行随机初始化处理的参数,使得样本句法依存矩阵以及待处理分类条件样本子向量能够学习到预测分类结果与真实分类结果之间的损失,从而使得进行随机初始化处理时更贴合实际特征处理需求,进一步地提升模型训练过程的泛化能力,由此提升训练所到的名称分类模型的可靠性。
基于前述实施例,下面将介绍名称分类方法的完整流程,如图18所示,以该方法应用于图1中的终端为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤1801,获取名称分类模型。
具体地,通过图14至图17所描述的方法获取名称分类模型。其中,名称分类模型用于对名称进行分类。
步骤1802,获取待分类名称。
其中,待分类名称具体为待分类的公司名称或商户名称。且待分类名称可以为中文名称、英文名称、有数字组成的名称或其他语音对应的名称,此处不做限定。
具体地,终端基于实际应用需求获取待分类名称,例如,以应用于基于商户入驻审核的场景为例,可以将待审核商户名称确定为待分类名称。其次,以应用于公司筛选的场景为例,可以将待筛选公司名称确定为待分类名称。
步骤1803,基于待分类名称获取包括待分类名称的搜索文本。
其中,搜索文本为包括待分类名称的文本,且搜索文本可以为一篇文章/论文的标题文本、摘要文本以及正文文本等。
具体地,终端可以基于待分类名称,通过搜索引擎实时获取包括待分类名称的搜索文本。或者,预先获取文本数据库,文本数据库可以通过爬虫或者是采买得到,然后在获取到待分类名称后,从文本数据库中确定包括待分类名称的搜索文本。因此,搜索文本的具体获取方式此处不做限定。
步骤1804,对搜索文本进行分词处理,得到多个文本标记。
具体地,终端具体对搜索文本进行分词处理,从而得到多个文本标记。例如,再次以搜索文本为“I was busy|English examples in context|Ludwig”为例进行说明,搜索文本中多个文本标记包括:[I]、[was]、[busy]、[|]、[English]、[examples]、[in]、[context]、[|]、[Ludwig]。
步骤1805,对各文本标记进行特征处理,以得到搜索文本对应的特征向量。
具体地,对各文本标记进行特征处理,以得到搜索文本对应的特征向量。其中,对各文本标记进行特征处理包括以下至少一项:对各文本标记进行掩码处理,并对多个掩码处理后的文本标记进行特征处理。或,提取各文本标记在搜索文本中的上下文信息,且基于各文本标记在搜索文本中的上下文信息对搜索文本进行特征处理。或,确定各文本标记在搜索文本中的句法依存信息,基于各文本标记在搜索文本中的句法依存信息生成句法依存矩阵,并对句法依存矩阵进行随机初始化处理。
步骤1806,确定待分类名称在搜索文本中的位置信息。
具体地,由于Position Embeddings能够描述各文本标记在搜索文本中的位置信息,由此也能够确定待分类名称对应的各文本标记在搜索文本中的位置信息。例如,待分类名称为“I was busy”,且搜索文本为“I was busy|English examples in context|Ludwig”,那么可以确定待分类名称具体处于搜索文本中前三位文本字符。
步骤1807,基于位置信息,在搜索文本对应的特征向量中确定待处理名称特征向量。
具体地,基于待分类名称在搜索文本中的位置信息,且由于Position Embeddings能够描述各文本标记在搜索文本中的位置信息,由此也能够在搜索文本对应的特征向量中确定待处理名称特征向量,也就是取待分类名称在搜索文本的对应位置上的特征向量为待处理名称特征向量。
步骤1808,对待处理名称特征向量进行维度一致性处理,得到预设特征维度的名称特征向量。
其中,名称特征向量中待分类名称中各文本标记对应的特征向量的维度一致,即预设特征维度与所使用的BERT模型保持一致。
具体地,对待处理名称特征向量进行维度一致性处理,得到预设特征维度的名称特征向量。本实施例中具体对待处理名称特征向量进行平均化处理,从而得到维度一致的名称特征向量,应理解,在实际应用中,还具有其他进行维度一致性处理的方法,且基于AI技术的演变与发展,还会出现更多维度一致性处理的方法,因此此处不进行穷举。
基于此,名称特征向量至少包括:待分类名称对应的文本特征向量,待分类名称在搜索文本中的上下文特征向量,以及待分类名称在搜索文本中的句法结构特征向量。
步骤1809,获取多个分类条件,并基于各分类条件与待分类名称,获取各分类条件对应的待处理分类条件子向量。
其中,分类条件是人工基于业务经验建立的条件。其次,每个分类条件均具有对应的条件标识。
具体地,终端获取多个基于业务经验建立的条件,即获取多个分类条件,例如:待分类名称包含公司标识类字符,待分类名称并非全为数字,待分类名称的词性为名词等。
其中,待处理分类条件子向量描述待分类名称命中所对应的分类条件的结果,即各分类条件均有一个待分类名称对应的命中结果。且通过前述实施例可知,每个分类条件均具有对应的条件标识,因此,待分类名称命中所对应的分类条件的结果可以描述为:待分类名称对应各条件标识对应的命中结果标识,命中结果标识又可以分为命中标识以及未命中标识。其次,各分类条件在进行特征处理时被记为一个条件特征(Feature),因为可以确定待分类名称命中的分类条件,即确定为命中一个条件特征。
进一步地,终端获取多个基于业务经验建立的条件,进而获取待分类名称命中各分类条件的命中结果,再基于待分类名称命中各分类条件的命中结果,获取各分类条件对应的待处理分类条件子向量。
步骤1810,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取各分类条件对应的分类条件特征子向量。
具体地,对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量,分类条件特征向量中各分类条件对应的分类条件子向量之间的维度一致,以及分类条件特征向量的特征维度与所使用的BERT模型保持一致。其次,前述分类条件特征向量具体为一个特征矩阵,且分类条件特征向量是一个可学习的特征变量。
步骤1811,对各分类条件对应的分类条件特征子向量进行维度一致性处理,得到预设特征维度的分类条件特征向量。
其中,分类条件特征向量中各分类条件特征子向量的维度一致,即预设特征维度与所使用的BERT模型保持一致。
具体地,对各分类条件对应的分类条件特征子向量进行维度一致性处理,得到预设特征维度的分类条件特征向量。本实施例中具体对待处理名称特征向量进行平均化处理,从而得到维度一致的名称特征向量,应理解,在实际应用中,还具有其他进行维度一致性处理的方法,且基于AI技术的演变与发展,还会出现更多维度一致性处理的方法,因此此处不进行穷举。
步骤1812,基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
具体地,将名称特征向量与分类条件特征向量进行特征拼接融合,具体特征拼接融合方法与公式(3)类似,此处不再赘述。然后基于拼接融合后的特征向量通过名称分类模型确定待分类名称的分类结果。
基于此,终端具体将待分类名称用于描述公司名称的概率小于概率阈值的待分类名称,分类为“无意义名称”,前述概率阈值可以为60%。例如,名称分类模型基于待分类名称B1的名称特征向量,与待分类名称B1的分类条件特征向量输出待分类名称B1用于描述公司名称的概率为50%,那么待分类名称B1的分类结果为:待分类名称B1不为公司名称。应理解,概率阈值需要基于实际情况确定,此处不做限定。
应理解,步骤1801至步骤1812的具体实施方式已在前述实施例中详细介绍,此处不再赘述。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的名称分类方法的名称分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个名称分类装置实施例中的具体限定可以参见上文中对于名称分类方法的限定,在此不再赘述。
在一个实施例中,如图19所示,提供了一种名称分类装置,包括:获取模块1902和分类模块1904,其中:
获取模块1902,用于获取待分类名称,并基于待分类名称获取名称特征向量,名称特征向量包括待分类名称对应的文本特征向量;且获取多个分类条件,并基于各分类条件与待分类名称获取分类条件特征向量,分类条件特征向量用于描述待分类名称命中各分类条件的结果;
分类模块1904,用于基于名称特征向量与分类条件特征向量,通过名称分类模型确定待分类名称的分类结果。
在一个实施例中,获取模块1902,还用于基于待分类名称获取包括待分类名称的搜索文本;并基于搜索文本获取名称特征向量;其中,名称特征向量还包括待分类名称在搜索文本中的上下文特征向量。
在一个实施例中,获取模块1902,还用于对搜索文本进行特征处理,以得到搜索文本对应的特征向量;并确定待分类名称在搜索文本中的位置信息;并基于位置信息,在搜索文本对应的特征向量中确定名称特征向量。
在一个实施例中,获取模块1902,还用于基于位置信息,在搜索文本对应的特征向量中确定待处理名称特征向量;并对待处理名称特征向量进行维度一致性处理,得到预设特征维度的名称特征向量。
在一个实施例中,获取模块1902,还用于对搜索文本进行分词处理,得到多个文本标记;并对各文本标记进行掩码处理,并对多个掩码处理后的文本标记进行特征处理。
在一个实施例中,获取模块1902,还用于对搜索文本进行分词处理,得到多个文本标记;并提取各文本标记在搜索文本中的上下文信息,且基于各文本标记在搜索文本中的上下文信息对搜索文本进行特征处理。
在一个实施例中,名称特征向量还包括待分类名称在搜索文本中的句法结构特征向量;
获取模块1902,还用于对搜索文本进行分词处理,得到多个文本标记,并确定各文本标记在搜索文本中的句法依存信息;并基于各文本标记在搜索文本中的句法依存信息生成句法依存矩阵,并对句法依存矩阵进行随机初始化处理。
在一个实施例中,获取模块1902,还用于基于各分类条件与待分类名称,获取各分类条件对应的待处理分类条件子向量,待处理分类条件子向量描述待分类名称命中所对应的分类条件的结果;并对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取分类条件特征向量。
在一个实施例中,获取模块1902,还用于对各分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取各分类条件对应的分类条件特征子向量;并对各分类条件对应的分类条件特征子向量进行维度一致性处理,得到预设特征维度的分类条件特征向量。
在一个实施例中,名称分类装置还包括训练模块1906;
获取模块1902,还用于获取包括名称样本的搜索文本样本以及名称样本对应的分类标记,并基于搜索文本样本获取名称样本特征向量;并获取多个分类条件样本,并基于各分类条件样本与名称样本获取分类条件样本特征向量;并基于名称样本特征向量以及分类条件样本特征向量,通过初始名称分类模型确定名称样本的预测分类结果;
训练模块1906,用于基于名称样本的预测分类结果与名称样本对应的分类标记,调整初始名称分类模型的模型参数,以得到名称分类模型。
在一个实施例中,获取模块1902,还用于对搜索文本样本进行分词处理,得到多个样本文本标记,并确定各样本文本标记在搜索文本样本中的句法依存信息;并基于各样本文本标记在搜索文本样本中的句法依存信息生成样本句法依存矩阵,并对样本句法依存矩阵进行随机初始化处理,以获取名称样本特征向量;并基于各分类条件样本与名称样本,获取各分类条件样本对应的待处理分类条件样本子向量;并对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理,以获取分类条件样本特征向量。
在一个实施例中,训练模块1906,还用于调整对样本句法依存矩阵进行随机初始化处理的参数;并调整对各分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理的参数。
上述名称分类装置中的各模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图20所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种名称分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图20中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种名称分类方法,其特征在于,所述方法包括:
获取待分类名称,并基于所述待分类名称获取名称特征向量,所述名称特征向量包括所述待分类名称对应的文本特征向量;
获取多个分类条件,并基于各所述分类条件与所述待分类名称获取分类条件特征向量,所述分类条件特征向量用于描述所述待分类名称命中各所述分类条件的结果;
基于所述名称特征向量与所述分类条件特征向量,通过名称分类模型确定所述待分类名称的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待分类名称获取名称特征向量,包括:
基于所述待分类名称获取包括所述待分类名称的搜索文本;
基于所述搜索文本获取名称特征向量;
其中,所述名称特征向量还包括所述待分类名称在所述搜索文本中的上下文特征向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述搜索文本获取名称特征向量,包括:
对所述搜索文本进行特征处理,以得到所述搜索文本对应的特征向量;
确定所述待分类名称在所述搜索文本中的位置信息;
基于所述位置信息,在所述搜索文本对应的特征向量中确定所述名称特征向量。
4.根据权利要求3所述的方法,其特征在于,所述基于所述位置信息,在所述搜索文本对应的特征向量中确定所述名称特征向量,包括:
所述基于所述位置信息,在所述搜索文本对应的特征向量中确定待处理名称特征向量;
对所述待处理名称特征向量进行维度一致性处理,得到预设特征维度的所述名称特征向量。
5.根据权利要求3所述的方法,其特征在于,所述对所述搜索文本进行特征处理,包括:
对所述搜索文本进行分词处理,得到多个文本标记;
对各所述文本标记进行掩码处理,并对多个掩码处理后的文本标记进行特征处理。
6.权利要求3所述的方法,其特征在于,所述对所述搜索文本进行特征处理,还包括:
对所述搜索文本进行分词处理,得到多个文本标记;
提取各所述文本标记在所述搜索文本中的上下文信息,且基于各所述文本标记在所述搜索文本中的上下文信息对所述搜索文本进行特征处理。
7.权利要求3所述的方法,其特征在于,所述名称特征向量还包括所述待分类名称在所述搜索文本中的句法结构特征向量;
所述对所述搜索文本进行特征处理,还包括:
对所述搜索文本进行分词处理,得到多个文本标记,并确定各所述文本标记在所述搜索文本中的句法依存信息;
基于各所述文本标记在所述搜索文本中的句法依存信息生成句法依存矩阵,并对所述句法依存矩阵进行随机初始化处理。
8.根据权利要求1所述的方法,其特征在于,所述基于各所述分类条件与所述待分类名称获取分类条件特征向量,包括:
基于各所述分类条件与所述待分类名称,获取各所述分类条件对应的待处理分类条件子向量,所述待处理分类条件子向量描述所述待分类名称命中所对应的分类条件的结果;
对各所述分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取所述分类条件特征向量。
9.根据权利要求8所述的方法,其特征在于,所述对各所述分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取所述分类条件特征向量,包括:
对各所述分类条件对应的待处理分类条件子向量进行随机初始化处理,以获取各所述分类条件对应的分类条件特征子向量;
对各所述分类条件对应的分类条件特征子向量进行维度一致性处理,得到预设特征维度的所述分类条件特征向量。
10.根据权利要求1所述的方法,其特征在于,所述名称分类模型的获得方式包括:
获取包括名称样本的搜索文本样本以及所述名称样本对应的分类标记,并基于所述搜索文本样本获取名称样本特征向量;
获取多个分类条件样本,并基于各所述分类条件样本与所述名称样本获取分类条件样本特征向量;
基于所述名称样本特征向量以及所述分类条件样本特征向量,通过初始名称分类模型确定所述名称样本的预测分类结果;
基于所述名称样本的预测分类结果与所述名称样本对应的分类标记,调整所述初始名称分类模型的模型参数,以得到所述名称分类模型。
11.根据权利要求10所述的方法,其特征在于,所述基于所述搜索文本样本获取名称样本特征向量,至少包括:
对所述搜索文本样本进行分词处理,得到多个样本文本标记,并确定各所述样本文本标记在所述搜索文本样本中的句法依存信息;
基于各所述样本文本标记在所述搜索文本样本中的句法依存信息生成样本句法依存矩阵,并对所述样本句法依存矩阵进行随机初始化处理,以获取所述名称样本特征向量;
所述基于各所述分类条件样本与所述名称样本获取分类条件样本特征向量,包括:
基于各所述分类条件样本与所述名称样本,获取各所述分类条件样本对应的待处理分类条件样本子向量;
对各所述分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理,以获取所述分类条件样本特征向量。
12.根据权利要求11所述的方法,其特征在于,调整所述初始名称分类模型的模型参数,至少包括:
调整对所述样本句法依存矩阵进行随机初始化处理的参数;
调整对各所述分类条件样本对应的待处理分类条件样本子向量进行随机初始化处理的参数。
13.一种名称分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类名称,并基于所述待分类名称获取名称特征向量,所述名称特征向量包括所述待分类名称对应的文本特征向量;且获取多个分类条件,并基于各所述分类条件与所述待分类名称获取分类条件特征向量,所述分类条件特征向量用于描述所述待分类名称命中各所述分类条件的结果;
分类模块,用于基于所述名称特征向量与所述分类条件特征向量,通过名称分类模型确定所述待分类名称的分类结果。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182074.2A CN117033621A (zh) | 2022-09-27 | 2022-09-27 | 名称分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182074.2A CN117033621A (zh) | 2022-09-27 | 2022-09-27 | 名称分类方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033621A true CN117033621A (zh) | 2023-11-10 |
Family
ID=88628655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211182074.2A Pending CN117033621A (zh) | 2022-09-27 | 2022-09-27 | 名称分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033621A (zh) |
-
2022
- 2022-09-27 CN CN202211182074.2A patent/CN117033621A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021082953A1 (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
US11113599B2 (en) | Image captioning utilizing semantic text modeling and adversarial learning | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
US20200104312A1 (en) | Method and system for extracting information from graphs | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN111488742B (zh) | 用于翻译的方法和装置 | |
CN113255328B (zh) | 语言模型的训练方法及应用方法 | |
CN109858024B (zh) | 一种基于word2vec的房源词向量训练方法及装置 | |
CN111886596A (zh) | 使用基于序列的锁定/解锁分类进行机器翻译锁定 | |
CN115018549A (zh) | 广告文案生成方法及其装置、设备、介质、产品 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
US20220366139A1 (en) | Rule-based machine learning classifier creation and tracking platform for feedback text analysis | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN117197569A (zh) | 图像审核方法、图像审核模型训练方法、装置和设备 | |
Huang et al. | Target-Oriented Sentiment Classification with Sequential Cross-Modal Semantic Graph | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN116030375A (zh) | 视频特征提取、模型训练方法、装置、设备及存储介质 | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
CN117033621A (zh) | 名称分类方法、装置、计算机设备和存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
Wang et al. | Hi-Stega: A Hierarchical Linguistic Steganography Framework Combining Retrieval and Generation | |
CN113806536A (zh) | 文本分类方法及其装置、设备、介质、产品 | |
CN113536797A (zh) | 一种切片文档关键信息单模型抽取方法及系统 | |
CN113837216A (zh) | 数据分类方法、训练方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |