CN113570404A - 一种目标用户定位的方法、装置及相关设备 - Google Patents

一种目标用户定位的方法、装置及相关设备 Download PDF

Info

Publication number
CN113570404A
CN113570404A CN202110740717.XA CN202110740717A CN113570404A CN 113570404 A CN113570404 A CN 113570404A CN 202110740717 A CN202110740717 A CN 202110740717A CN 113570404 A CN113570404 A CN 113570404A
Authority
CN
China
Prior art keywords
industry
classifier
result
keyword
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110740717.XA
Other languages
English (en)
Other versions
CN113570404B (zh
Inventor
刘杨
熊焕卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donson Times Information Technology Co ltd
Original Assignee
Donson Times Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donson Times Information Technology Co ltd filed Critical Donson Times Information Technology Co ltd
Priority to CN202110740717.XA priority Critical patent/CN113570404B/zh
Publication of CN113570404A publication Critical patent/CN113570404A/zh
Application granted granted Critical
Publication of CN113570404B publication Critical patent/CN113570404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标用户定位的方法、装置、计算机设备及存储介质,应用于目标定位领域,用于提高面对多行业场景的情况下,意图识别模型的识别准确率。本发明提供的方法包括:获取用户的搜索文本;基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词;基于bert多意图识别模型,对所述目标关键词进行特征提取,获得关键词特征向量;基于所述bert多意图识别模型,对所述关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个所述行业分类器对应一个行业场景;基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值;基于所述概率值,确定所述用户对应的行业。

Description

一种目标用户定位的方法、装置及相关设备
技术领域
本发明涉及目标定位领域,尤其涉及一种目标用户定位的方法、装置、计算机设备及存储介质。
背景技术
在不同行业的营销过程中,关键的是找出该行业的目标用户群体,针对该行业对应的目标用户群体实现精准营销,能带来营销额从量到质的飞跃。
识别出某行业的目标用户群体的方法现有方法主要有意图识别方法,目前的意图识别方法针对的是单一的行业场景,对单一的行业场景进行训练意图识别模型,但是当需要针对不同行业场景,训练同一个意图识别模型时,不同行业场景之间的词汇容易出现互相干扰,从而导致意图识别结果不准确。
因此,现有技术存在因不同行业场景之间的干扰,而使得意图识别模型识别结果准确率低的问题。
发明内容
本发明实施例提供一种目标用户定位方法、装置、计算机设备及存储介质,以提高面对多行业场景的情况下,意图识别模型的识别准确率。
一种目标用户定位方法,包括:
获取用户的搜索文本;
基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词;
基于bert多意图识别模型,对所述目标关键词进行特征提取,获得关键词特征向量;
基于所述bert多意图识别模型,对所述关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个所述行业分类器对应一个行业场景;
基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值;
基于所述概率值,确定所述用户对应的行业。
一种目标用户定位装置,包括:
搜索文本获取模块,用于获取用户的搜索文本;
目标关键词获取模块,用于基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词;
关键词特征向量获取模块,用于基于bert多意图识别模型,对所述目标关键词进行特征提取,获得关键词特征向量;
预判模块,用于基于所述bert多意图识别模型,对所述关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个所述行业分类器对应一个行业场景;
概率计算模块,用于基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值;
行业确定模块,用于基于所述概率值,确定所述用户对应的行业。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述目标用户定位方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述目标用户定位方法的步骤。
本发明实施例所提供的目标用户定位方法、装置、计算机设备及存储介质,通过获取用户的搜索文本;基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词;基于bert多意图识别模型,对所述目标关键词进行特征提取,获得关键词特征向量;基于所述bert多意图识别模型,对所述关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个所述行业分类器对应一个行业场景;基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值;基于所述概率值,确定所述用户对应的行业,通过训练出bert多意图识别模型,对用户的搜索文本进行关键词提取,通过预判处理,获取到关联性较强的行业分类器,将提取到的目标关键词并行输入到上述行业分类器,提高了bert多意图识别模型对目标关键词的识别效率,基于每个行业分类器对目标关键词进行概率计算,得到对应的概率值,并根据该概率值确定该用户对应的行业,从而实现提高面对多行业场景的情况下,意图识别模型的识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中目标用户定位方法的一应用环境示意图;
图2是本发明一实施例中目标用户定位方法的一流程图;
图3是本发明一实施例中目标用户定位装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的目标用户定位方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种目标用户定位方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤S101至S106:
S101、获取用户的搜索文本。
对于上述步骤S101,获取用户的搜索文本的方法包括但不限于监听基于SaaS平台的搜索框(Software-as-a-Service,软件即服务)。
上述搜索文本是指能反应用户对应行业的文本内容。该搜索文本的形式包括但不限于被平台支持的各国语言、语句、标点符号。
通过获取用户的搜索文本,并基于用户的搜索内容,对用户进行行业定位,有利于为该用户进行行业相关内容推荐,同时能便于该行业对该用户进行精准营销,从而为该用户以及该行业双方带来便捷性。
S102、基于预设的关键词提取方式,对搜索文本进行关键词提取,得到目标关键词。
对于上述步骤S102,上述预设的关键词提取方式是指用于对搜索文本进行关键词提取的方式。该预设的关键词提取方式包括但不限于根据词性进行关键词提取、TF-IDF关键词提取。其中,根据词性进行关键词提取是指通过分词、语法分析后得到的结果。现有的关键词中,绝大多数关键词为名词或者动名词。一般情况下,名词与其他词性相比更能作为关键词,词性作为特征量化的指标,一般与其他指标结合使用。
通过预设的关键词提取方式,提取搜索文本中关键词,基于该关键词,可以对用户进行定向分析,从而定位用户可能对应的行业。
在步骤S102之前,目标用户定位方法还包括:
对搜索文本进行预处理,其中,预处理包括剔除无含义字符。
此处需要说明的是,上述预处理是指在对搜索文本进行定位分析之前的处理操作。
上述预处理的方法包括但不限于文本降噪,剔除无含义字符,寻找等同词。
优先地,上述预处理采用剔除无含义字符,如,标点符号,代词等。
具体地,步骤S102可包括如下步骤A至C:
A、基于预设的内容判断方式,对搜索文本进行内容判断,得到判断结果。
B、若判断结果为搜索文本是单个字符串,则将单个字符串作为目标关键词。
C、若判断结果为搜索文本为多个字符串,则将多个字符串进行关键词提取,得到目标关键词。
对于上述步骤A,上述预设的内容判断方式为对文本内容进行字符串个数统计。
对于上述步骤B,例如,当该单个字符串为“Transformer”时,则目标关键词为“Transformer”。
对于上述步骤C,例如,当该多个字符串为“如何通过神经网络训练模型”等时,则该目标关键词为“神经网络”、“训练”、“模型”。
通过上述方法,提取目标关键词,以便后续对目标关键词进行分析训练,得到对用户的行业定位。
S103、基于bert多意图识别模型,对目标关键词进行特征提取,获得关键词特征向量。
上述bert多意图识别模型是指基于bert算法训练建立的具有多个行业分类器的意图识别模型。
上述特征提取是指提取目标关键词对应的词向量,并将提取得到的词向量作为关键性特征向量。
提取目标关键词对应的关键词特征向量,基于bert多意图识别模型,对所述关键词特征向量进行意图识别,从而提高了定位用户行业的准确率。
S104、基于bert多意图识别模型,对关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个行业分类器对应一个行业场景。
此处需要说明的是,上述bert多意图识别模型中包括所有行业场景对应的行业分类器。
上述预判操作是指关键词特征向量与bert多意图识别模型中所有行业分类器进行匹配操作,得到匹配结果,若匹配结果大于预设匹配值,则将该匹配结果对应的行业分类器作为后续对关键词特征向量进行进一步处理的行业分类器序列中,若匹配结果不大于预设匹配值,则将该匹配结果对应的行业分类器直接跳过。
上述行业分类器是指经过训练的具有高置信度的行业分类器,该行业分类器可以用于识别关键词特征向量与本行业的相似度。
通过预判操作,将明显与该关键词特征向量无关的行业分类器进行剔除,避免浪费不必要的计算资源,从而提高了bert多意图识别模型的运行速度。
S105、基于行业分类器,对关键词特征向量进行概率计算,得到行业分类器对应的概率值。
在步骤S105中,其具体是:
将关键词特征向量并行输入经过预判处理后得到的所有行业分类器中;
每一个接收到关键词特征向量的行业分类器,对该关键词特征向量进行概率计算,得到该行业分类器对应的概率值。
通过计算每个经过预判处理后的行业分类器与该关键词特征向量的概率,得到了每个行业分类器对应的概率值,根据概率值,可确定该关键词特征向量与该行业的相似度,从而定位用户可能对应的行业,具有一定的准确率,同时避免了不同行业之间同一关键词之间的干扰。
具体地,步骤S105包括如下步骤D至E:
D、基于行业分类器,对关键词特征向量进行余弦距离计算,得到余弦距离结果。
E、对余弦距离结果进行相似度计算,得到相似度计算结果,并将相似度计算结果作为行业分类器对应的概率值。
通过行业分类器,计算与关键词特性向量的与余弦距离,并根据得到的余弦距离结果计算进行相似度计算,将得到的相似度计算结果作为该行业分类器对应的概率值,实现了不同行业分类器并行对关键词特征向量进行概率计算,既计算得到该行业分类器下对应的概率值,同时提高了该bert多意图识别模型的效率。
S106、基于概率值,确定用户对应的行业。
在步骤S106中,其具体是:
对概率值进行排序,得到排序结果。
根据预设的顺序获取方式,选取与预设数量相等的排序结果,得到选取结果,并将选取结果对应的行业作为用户所对应的行业。
此处需要说明的是,上述预设的顺序获取方式是指按照排序结果从大到小的方式。上述将选取结果对应的行业作为用户所对应的行业中,行业的数量与预设数量一致。
按照排序结果从大到小的方式,选取与预设数量相等的排序结果,并将该选取的排序结果对应的行业作为用户所对应的行业。
通过排序,并选取与预设数量相等的选取结果对应的行业作为用户所对应的行业,可确定该用户所对应的行业,从而实现提高面对多行业场景的情况下,意图识别模型的识别准确率。
进一步地,目标用户定位方法还包括如下步骤a至f:
a、训练bert多意图识别模型中每一个行业分类器。
b、选取每一个行业分类器对应的样本数据,其中,样本数据上标注行业标签。
c、对样本数据进行特征提取,得到样本特征向量。
d、计算样本特征向量与初始行业向量的余弦距离,得到距离结果。
e、对距离结果进行相似度计算,得到相似度结果。
f、若相似度结果低于预设相似度值,则通过预设的文本增强方式,选取文本增强数据,并将文本增强数据作为样本数据,返回对样本数据进行特征提取,得到样本特征向量的步骤继续执行,直到相似度结果不低于预设相似度值,得到行业分类器。
对于上述步骤a,上述行业分类器中,一个行业分类器对应一个行业。上述bert多意图识别模型包括了所有行业。
对于上述步骤b,上述样本数据包括但不限于该行业专业词汇、该行业高频词汇。
对于上述步骤f,上述预设的文本增强方式是指通过该行业对应的经典样本数据作为文本增强数据,提高该行业分类器对本行业关键词的识别能力的方式。
通过上述步骤得到的行业分类器,能准确识别本行业关键词,具有良好的识别准确率。将所有的行业分类器进行汇总,得到的bert多意图识别模型,能实现在面对多行业场景的情况下,提高意图识别模型的识别准确率。
本发明实施例所提供的目标用户定位方法,通过获取用户的搜索文本;基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词;基于bert多意图识别模型,对所述目标关键词进行特征提取,获得关键词特征向量;基于所述bert多意图识别模型,对所述关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个所述行业分类器对应一个行业场景;基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值;基于所述概率值,确定所述用户对应的行业,通过训练出bert多意图识别模型,对用户的搜索文本进行关键词提取,通过预判处理,获取到关联性较强的行业分类器,将提取到的目标关键词并行输入到上述行业分类器,提高了bert多意图识别模型对目标关键词的识别效率,基于每个行业分类器对目标关键词进行概率计算,得到对应的概率值,并根据该概率值确定该用户对应的行业,从而实现提高面对多行业场景的情况下,意图识别模型的识别准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种目标用户定位装置,该目标用户定位装置与上述实施例中目标用户定位方法一一对应。如图3所示,该目标用户定位装置包括搜索文本获取模块11、目标关键词获取模块12、关键词特征向量获取模块13、预判模块14、概率计算模块15和行业确定模块16。各功能模块详细说明如下:
搜索文本获取模块11,用于获取用户的搜索文本。
目标关键词获取模块12,用于基于预设的关键词提取方式,对搜索文本进行关键词提取,得到目标关键词。
关键词特征向量获取模块13,用于基于bert多意图识别模型,对目标关键词进行特征提取,获得关键词特征向量。
预判模块14,用于基于bert多意图识别模型,对关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个行业分类器对应一个行业场景。
概率计算模块15,用于基于行业分类器,对关键词特征向量进行概率计算,得到行业分类器对应的概率值。
行业确定模块16,用于基于概率值,确定用户对应的行业。
在其中一个实施例中,该目标用户定位装置进一步包括:
训练模块,用于训练bert多意图识别模型中每一个行业分类器。
样本数据选取模块,用于选取每一个行业分类器对应的样本数据,其中,样本数据上标注行业标签。
样本特征向量获取模块,用于对样本数据进行特征提取,得到样本特征向量。
距离计算模块,用于计算样本特征向量与初始行业向量的余弦距离,得到距离结果。
相似度计算模块,用于对距离结果进行相似度计算,得到相似度结果。
行业分类器获取模块,用于若相似度结果低于预设相似度值,则通过预设的文本增强方式,选取文本增强数据,并将文本增强数据作为样本数据,返回对样本数据进行特征提取,得到样本特征向量的步骤继续执行,直到相似度结果不低于预设相似度值,得到行业分类器。
在其中一个实施例中,目标关键词获取模块12之前进一步包括:
预处理模块,用于对搜索文本进行预处理,其中,预处理包括剔除无含义字符。
在其中一个实施例中,目标关键词获取模块12进一步包括:
判断单元,用于基于预设的内容判断方式,对搜索文本进行内容判断,得到判断结果。
第一判断单元,用于若判断结果为搜索文本是单个字符串,则将单个字符串作为目标关键词。
第二判断单元,用于若判断结果为搜索文本为多个字符串,则将多个字符串进行关键词提取,得到目标关键词。
在其中一个实施例中,概率计算模块15进一步包括:
距离计算单元,用于基于行业分类器,对关键词特征向量进行余弦距离计算,得到余弦距离结果。
概率计算单元,用于对余弦距离结果进行相似度计算,得到相似度计算结果,并将相似度计算结果作为行业分类器对应的概率值。
在其中一个实施例中,行业确定模块16进一步包括:
排序单元,用于对概率值进行排序,得到排序结果。
行业确定单元,用于根据预设的顺序获取方式,选取与预设数量相等的排序结果,得到选取结果,并将选取结果对应的行业作为用户所对应的行业。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于目标用户定位装置的具体限定可以参见上文中对于目标用户定位方法的限定,在此不再赘述。上述目标用户定位装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标用户定位方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标用户定位方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中目标用户定位方法的步骤,例如图2所示的步骤S101至步骤S106及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中目标用户定位装置的各模块/单元的功能,例如图3所示模块11至模块16的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中目标用户定位方法的步骤,例如图2所示的步骤S101至步骤S106及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中目标用户定位装置的各模块/单元的功能,例如图3所示模块11至模块16的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种目标用户定位方法,其特征在于,包括:
获取用户的搜索文本;
基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词;
基于bert多意图识别模型,对所述目标关键词进行特征提取,获得关键词特征向量;
基于所述bert多意图识别模型,对所述关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个所述行业分类器对应一个行业场景;
基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值;
基于所述概率值,确定所述用户对应的行业。
2.根据权利要求1所述的方法,其特征在于,在所述获取用户的搜索文本之前,所述方法还包括:
训练bert多意图识别模型中每一个行业分类器;
选取每一个所述行业分类器对应的样本数据,其中,所述样本数据上标注所述行业标签;
对所述样本数据进行特征提取,得到样本特征向量;
计算所述样本特征向量与初始行业向量的余弦距离,得到距离结果;
对所述距离结果进行相似度计算,得到相似度结果;
若所述相似度结果低于预设相似度值,则通过预设的文本增强方式,选取文本增强数据,并将所述文本增强数据作为样本数据,返回对所述样本数据进行特征提取,得到样本特征向量的步骤继续执行,直到所述相似度结果不低于所述预设相似度值,得到所述行业分类器。
3.根据权利要求1所述的方法,其特征在于,所述基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词之前,所述方法包括:
对所述搜索文本进行预处理,其中,所述预处理包括剔除无含义字符。
4.根据权利要求1所述的方法,其特征在于,所述基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词的步骤包括:
基于预设的内容判断方式,对所述搜索文本进行内容判断,得到判断结果;
若所述判断结果为所述搜索文本是单个字符串,则将所述单个字符串作为目标关键词;
若所述判断结果为所述搜索文本为多个字符串,则将所述多个字符串进行关键词提取,得到目标关键词。
5.根据权利要求1所述的方法,其特征在于,所述基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值的步骤包括:
基于所述行业分类器,对所述关键词特征向量进行余弦距离计算,得到余弦距离结果;
对所述余弦距离结果进行相似度计算,得到相似度计算结果,并将所述相似度计算结果作为所述行业分类器对应的概率值。
6.根据权利要求1所述的方法,其特征在于,所述基于所述概率值,确定所述用户对应的行业的步骤包括:
对所述概率值进行排序,得到排序结果;
根据预设的顺序获取方式,选取与预设数量相等所述排序结果,得到选取结果,并将所述选取结果对应的行业作为所述用户所对应的行业。
7.一种目标用户定位装置,其特征在于,包括:
搜索文本获取模块,用于获取用户的搜索文本;
目标关键词获取模块,用于基于预设的关键词提取方式,对所述搜索文本进行关键词提取,得到目标关键词;
关键词特征向量获取模块,用于基于bert多意图识别模型,对所述目标关键词进行特征提取,获得关键词特征向量;
预判模块,用于基于所述bert多意图识别模型,对所述关键词特征向量进行预判处理,获得至少一个行业分类器,其中,每个所述行业分类器对应一个行业场景;
概率计算模块,用于基于所述行业分类器,对所述关键词特征向量进行概率计算,得到所述行业分类器对应的概率值;
行业确定模块,用于基于所述概率值,确定所述用户对应的行业。
8.根据权利要求7所述的装置,其特征在于,所述搜索文本获取模块之前,所述装置还包括:
训练模块,用于训练bert多意图识别模型中每一个行业分类器;
样本数据选取模块,用于选取每一个所述行业分类器对应的样本数据,其中,所述样本数据上标注所述行业标签;
样本特征向量获取模块,用于对所述样本数据进行特征提取,得到样本特征向量;
距离计算模块,用于计算所述样本特征向量与初始行业向量的余弦距离,得到距离结果;
相似度计算模块,用于对所述距离结果进行相似度计算,得到相似度结果;
行业分类器获取模块,用于若所述相似度结果低于预设相似度值,则通过预设的文本增强方式,选取文本增强数据,并将所述文本增强数据作为样本数据,返回对所述样本数据进行特征提取,得到样本特征向量的步骤继续执行,直到所述相似度结果不低于所述预设相似度值,得到所述行业分类器。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述目标用户定位方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述目标用户定位方法的步骤。
CN202110740717.XA 2021-06-30 2021-06-30 一种目标用户定位的方法、装置及相关设备 Active CN113570404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110740717.XA CN113570404B (zh) 2021-06-30 2021-06-30 一种目标用户定位的方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110740717.XA CN113570404B (zh) 2021-06-30 2021-06-30 一种目标用户定位的方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN113570404A true CN113570404A (zh) 2021-10-29
CN113570404B CN113570404B (zh) 2023-12-05

Family

ID=78163323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110740717.XA Active CN113570404B (zh) 2021-06-30 2021-06-30 一种目标用户定位的方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN113570404B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102591890A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种展示搜索信息的方法及搜索信息展示装置
CN103336796A (zh) * 2013-06-09 2013-10-02 北京百度网讯科技有限公司 一种直接展示广告商品的方法及系统
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和系统
CN103793403A (zh) * 2012-10-31 2014-05-14 中国电信股份有限公司 推送与搜索结果相关联信息的方法与装置
CN106843721A (zh) * 2016-12-26 2017-06-13 重庆仁腾科技有限公司 一种企业信息获取展示方法、装置及系统
CN107395492A (zh) * 2017-07-31 2017-11-24 王守武 一种全国性行业信息即时交流论坛系统
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN109471929A (zh) * 2018-11-06 2019-03-15 湖南云智迅联科技发展有限公司 一种基于图谱匹配进行设备维修记录语义搜索的方法
KR102031067B1 (ko) * 2019-05-21 2019-10-11 정우석 검색결과 및 고객의사를 반영하여 온라인/오프라인상에서 독창적인 간접광고 이벤트를 실행하는 이벤트 실행서버
CN110390574A (zh) * 2018-04-20 2019-10-29 阿里巴巴集团控股有限公司 业务对象的确定方法和装置
CN111488510A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 小程序相关词的确定方法、装置、处理设备及搜索系统
CN111814058A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 基于用户意图的推送方法、装置、电子设备及存储介质
CN112541079A (zh) * 2020-12-10 2021-03-23 杭州远传新业科技有限公司 多意图识别方法、装置、设备及介质
CN112749344A (zh) * 2021-02-04 2021-05-04 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备、存储介质及程序产品
CN112801719A (zh) * 2021-03-01 2021-05-14 深圳市欢太科技有限公司 用户行为预测方法、用户行为预测装置、存储介质及设备
CN112905893A (zh) * 2021-03-22 2021-06-04 北京百度网讯科技有限公司 搜索意图识别模型的训练方法、搜索意图识别方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102591890A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种展示搜索信息的方法及搜索信息展示装置
CN103793403A (zh) * 2012-10-31 2014-05-14 中国电信股份有限公司 推送与搜索结果相关联信息的方法与装置
CN103336796A (zh) * 2013-06-09 2013-10-02 北京百度网讯科技有限公司 一种直接展示广告商品的方法及系统
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和系统
CN106843721A (zh) * 2016-12-26 2017-06-13 重庆仁腾科技有限公司 一种企业信息获取展示方法、装置及系统
CN107395492A (zh) * 2017-07-31 2017-11-24 王守武 一种全国性行业信息即时交流论坛系统
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN110390574A (zh) * 2018-04-20 2019-10-29 阿里巴巴集团控股有限公司 业务对象的确定方法和装置
CN109471929A (zh) * 2018-11-06 2019-03-15 湖南云智迅联科技发展有限公司 一种基于图谱匹配进行设备维修记录语义搜索的方法
KR102031067B1 (ko) * 2019-05-21 2019-10-11 정우석 검색결과 및 고객의사를 반영하여 온라인/오프라인상에서 독창적인 간접광고 이벤트를 실행하는 이벤트 실행서버
CN111488510A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 小程序相关词的确定方法、装置、处理设备及搜索系统
CN111814058A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 基于用户意图的推送方法、装置、电子设备及存储介质
CN112541079A (zh) * 2020-12-10 2021-03-23 杭州远传新业科技有限公司 多意图识别方法、装置、设备及介质
CN112749344A (zh) * 2021-02-04 2021-05-04 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备、存储介质及程序产品
CN112801719A (zh) * 2021-03-01 2021-05-14 深圳市欢太科技有限公司 用户行为预测方法、用户行为预测装置、存储介质及设备
CN112905893A (zh) * 2021-03-22 2021-06-04 北京百度网讯科技有限公司 搜索意图识别模型的训练方法、搜索意图识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周敏杰;裴国才;胡忠顺;丁富强;: "基于搜索引擎的行业标签分类体系构建与扩展研究", 信息技术与信息化, no. 06 *

Also Published As

Publication number Publication date
CN113570404B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN108711422B (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN111325037B (zh) 文本意图识别方法、装置、计算机设备和存储介质
CN109522393A (zh) 智能问答方法、装置、计算机设备和存储介质
CN111145737B (zh) 语音测试方法、装置和电子设备
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN111090719B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110263326B (zh) 一种用户行为预测方法、预测装置、存储介质及终端设备
CN112446218A (zh) 长短句文本语义匹配方法、装置、计算机设备及存储介质
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114449310A (zh) 视频剪辑方法、装置、计算机设备及存储介质
US20220058214A1 (en) Document information extraction method, storage medium and terminal
CN113255343A (zh) 标签数据的语义识别方法、装置、计算机设备及存储介质
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质
CN113570404B (zh) 一种目标用户定位的方法、装置及相关设备
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN108304366B (zh) 一种上位词检测方法及设备
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant