CN115599903A - 对象标签获取方法、装置、电子设备及存储介质 - Google Patents
对象标签获取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115599903A CN115599903A CN202110768936.9A CN202110768936A CN115599903A CN 115599903 A CN115599903 A CN 115599903A CN 202110768936 A CN202110768936 A CN 202110768936A CN 115599903 A CN115599903 A CN 115599903A
- Authority
- CN
- China
- Prior art keywords
- candidate
- vocabulary
- text
- target
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 claims description 92
- 238000012545 processing Methods 0.000 claims description 78
- 239000013598 vector Substances 0.000 claims description 73
- 238000001914 filtration Methods 0.000 claims description 18
- 238000013139 quantization Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 16
- 230000001976 improved effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 239000003814 drug Substances 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 241000422846 Sequoiadendron giganteum Species 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 235000013305 food Nutrition 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 244000025254 Cannabis sativa Species 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000017531 blood circulation Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 208000001848 dysentery Diseases 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008961 swelling Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 235000013611 frozen food Nutrition 0.000 description 2
- 235000015243 ice cream Nutrition 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 235000014102 seafood Nutrition 0.000 description 2
- 231100000167 toxic agent Toxicity 0.000 description 2
- 239000003440 toxic substance Substances 0.000 description 2
- 241001391115 Gelsemium elegans Species 0.000 description 1
- 241001604597 Pyrestini Species 0.000 description 1
- 240000001866 Vernicia fordii Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 235000008216 herbs Nutrition 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000008736 traumatic injury Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种对象标签获取方法、装置、电子设备及存储介质,该对象标签获取方法基于参考词汇集合从待处理文本中提取第一目标关键词,并且根据第一目标关键词确定若干个候选实体,利用第一特征相似度从候选实体中确定与第一目标关键词对应的目标实体,根据目标实体得到第一对象标签,本发明实施例的对象标签获取方法通过确定目标实体的方式来获取第一对象标签,能够充分利用知识库规模较大、涉及领域较广、时效性较高的优点,从而提高获取到的对象标签的覆盖度,可以广泛应用于人工智能领域。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种对象标签获取方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,基于个性化服务、群组划分等需求,通常需要获取目标对象的对象标签。目前在相关技术中,主要通过人工构建标签体系,再根据人工构建好的标签体系来进行对象标签的获取,然而,上述对象标签获取方式获取得到的对象标签局限于人工构建的标签体系,由于人工构建的标签体系规模较小,因而降低了获取到的对象标签的覆盖度。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种对象标签获取方法、装置、电子设备及存储介质,能够提高获取到的对象标签的覆盖度。
一方面,本发明实施例提供了一种对象标签获取方法,包括:
获取待处理文本;
将所述待处理文本输入至第一处理模型,基于所述第一处理模型,从所述待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词,根据与所述第一目标关键词对应的所述参考词汇,从所述参考词汇集合中确定若干个候选实体,获取所述候选实体的候选实体信息,获取所述第一目标关键词与所述候选实体信息之间的第一特征相似度,根据所述第一特征相似度从所述候选实体中确定目标实体;其中,所述参考词汇集合包括多个所述参考词汇以及所述参考词汇在知识库中对应的若干个实体;
根据所述目标实体得到第一对象标签。
另一方面,本发明实施例还提供了一种对象标签获取装置,包括:
文本获取模块,用于获取待处理文本;
关键词提取模块,用于将所述待处理文本输入至第一处理模型,从所述待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词;其中,所述参考词汇集合包括多个所述参考词汇以及所述参考词汇在知识库中对应的若干个实体;
候选实体信息获取模块,用于根据与所述第一目标关键词对应的所述参考词汇,从所述参考词汇集合中确定若干个候选实体,获取所述候选实体的候选实体信息;
目标实体确定模块,用于通过所述第一处理模型获取所述第一目标关键词与所述候选实体信息之间的第一特征相似度,根据所述第一特征相似度从所述候选实体中确定目标实体;
对象标签确定模块,用于根据所述目标实体得到第一对象标签。
进一步,上述候选实体信息获取模块具体用于:
获取所述候选实体的实体名称以及所述候选实体对应的第一属性信息;
将所述实体名称与所述第一属性信息进行拼接,得到所述候选实体的候选实体信息。
进一步,上述对象标签确定模块还用于:
获取所述待处理文本的特征信息,根据所述特征信息确定第二对象标签,所述特征信息包括序列标识或者全局特征中的至少一种;
将所述第一对象标签和所述第二对象标签合并得到对象标签集合。
进一步,当所述特征信息包括序列标识时,上述对象标签确定模块具体用于:
对所述待处理文本进行分词处理,得到多个候选单词;
对多个所述候选单词进行序列标注,得到所述待处理文本的所述序列标识;
根据所述序列标识从多个所述候选单词中确定目标单词,对所述目标单词进行拼接处理得到第二目标关键词;
将所述第二目标关键词作为第二对象标签。
进一步,上述对象标签确定模块具体用于:
剔除与过滤词汇集合中任意一个过滤词汇均不匹配的所述第二目标关键词;
将剩余的所述第二目标关键词作为第二对象标签。
进一步,当所述特征信息包括全局特征时,上述对象标签确定模具体用于:
将所述待处理文本输入至第二处理模型,基于所述第二处理模型,获取所述全局特征的第三特征向量,获取第三特征向量与第四特征向量之间的第三特征相似度,根据所述第三特征相似度从预设的候选对象标签中确定第二对象标签;
其中,所述第四特征向量为所述候选对象标签的特征向量,所述候选对象标签的数量为多个。
进一步,上述对象标签确定模块具体用于:
基于预设的字典树从所述待处理文本中提取出第四目标关键词,将所述第四目标关键词作为第三对象标签;
将所述第一对象标签、所述第二对象标签和所述第三对象标签合并得到对象标签集合。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的对象标签获取方法。
另一方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的对象标签获取方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现上述的对象标签获取方法。
本发明实施例至少包括以下有益效果:本发明实施例通过将待处理文本输入至第一处理模型,从待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词,根据与第一目标关键词对应的参考词汇,从参考词汇集合中确定若干个候选实体,获取候选实体的候选实体信息,获取第一目标关键词与候选实体信息之间的第一特征相似度,根据第一特征相似度从候选实体中确定与第一目标关键词对应的目标实体,根据目标实体得到第一对象标签,由于参考词汇集合中包括多个参考词汇以及参考词汇在知识库中对应的若干个实体,利用参考词汇提取出第一目标关键词后,能够通过参考词汇集合快速地确定候选实体,进而根据候选实体中与第一目标关键词对应的目标实体得到第一对象标签,本发明实施例的对象标签获取方法通过确定目标实体的方式来获取第一对象标签,能够充分利用知识库规模较大、涉及领域较广、时效性较高的优点,从而提高获取到的对象标签的覆盖度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的一种实施环境的示意图;
图2为本发明实施例提供的对象标签获取方法的流程图;
图3为本发明实施例提供的百科网站中部分内容的示意图;
图4为本发明实施例提供的参考词汇集合的一种结构示意图;
图5为本发明实施例提供的构建参考词汇集合时获取多个参考词汇的具体流程图;
图6为本发明实施例提供的第一处理模型的结构示意图;
图7为本发明实施例提供的第一处理模型的训练流程图;
图8为本发明实施例提供的第二处理模型的结构示意图;
图9为本发明实施例提供的第二处理模型的训练流程图;
图10为本发明实施例提供的对象画像的构建的流程图;
图11为本发明实施例提供的兴趣点挖掘的流程图;
图12为本发明实施例提供的兴趣点挖掘的一个例子的结果示意图;
图13为本发明实施例提供的对象标签获取装置的结构示意图;
图14为本发明实施例提供的手机的部分的结构框图;
图15为本发明实施例提供的服务器的部分的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释:
对象标签:对目标对象进行抽象分类和概括,用于对目标对象进行标识,便于对目标对象进行管理,例如,对象标签可以是目标对象的兴趣点等。其中,对象是要确定标签的任何事物,可以是有形的也可以是无形的,可以是一部电影、一个人或者天气。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着互联网技术的发展,基于个性化服务、群组划分等需求,通常需要获取目标对象的对象标签。目前在相关技术中,主要通过人工构建标签体系,再根据人工构建好的标签体系来进行对象标签的获取,例如,针对目标对象进行文体类的对象标签获取,一级标签可以是“运动”、“多媒体”等,“运动”对应的二级标签可以是“球类”、“跑步”等,“多媒体”对应的二级标签可以是“电影”、“歌曲”等,二级标签还可以继续往下分类,在此不再赘述。
然而,上述一级标签、二级标签的具体内容需要人工预先设定好,因而上述对象标签获取方式获取得到的对象标签局限于人工构建的标签体系,上述对象体系的构建会受构建者的知识水平、认知范围等因素制约,使得人工构建的标签体系规模较小,因而降低了获取到的对象标签的覆盖度。
基于此,本发明实施例提供了一种对象标签获取方法、装置、电子设备及存储介质,能够提高获取到的对象标签的覆盖度。
本发明实施例提供的方案涉及人工智能、自然语言处理、机器学习等技术,具体通过如下实施例进行说明。
图1是本发明实施例提供的一种实施环境的示意图。参见图1,该实施环境包括服务器101和电子设备102。
服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,服务器101还可以是区块链网络中的一个节点服务器。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。
电子设备102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。电子设备102以及服务器101可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例在此不做限制。
示例性地基于图1所示的实施环境,参照图2,本发明实施例提供了一种对象标签获取方法,下面以该对象标签获取方法应用于服务器101中为例子进行说明,可以理解的是,该对象标签获取方法也可以应用于电子设备102中,该对象标签获取方法包括但不限于以下步骤201至步骤205。
步骤201:获取待处理文本;
在一种可能的实现方式中,待处理文本可以是与目标对象相关的文本,例如,待处理文本可以是目标对象在浏览新闻时出现的文本;或者,待处理文本也可以是目标对象在社交网络中公开展示的状态;又或者,待处理文本也可以是目标对象观看过的视频里出现的文本。
在一种可能的实现方式中,获取待处理文本的方式可以是本地获取,也可以是通过云端获取,本发明实施例不做限定。
步骤202:将待处理文本输入至第一处理模型,基于第一处理模型,从待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词;
其中,参考词汇集合包括多个参考词汇以及参考词汇在知识库中对应的若干个实体。知识库(Knowledge Base)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合,知识库常见的表现形式为知识图谱,知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。通过参考词汇集合,能够快速地识别出待处理文本中的第一目标关键词,再快速地确定第一目标关键词对应的目标实体,有利于提高对象标签的获取效率。
在一种可能的实现方式中,参考词汇集合可以通过以下方式构建:
获取多个参考词汇,获取每个参考词汇在知识库中的义项,根据义项得到每个参考词汇对应的若干个实体,基于多个参考词汇以及参考词汇对应的若干个实体构建参考词汇集合。其中,参考词汇可以通过对知识库中文本进行拆解或者拼接得到,又或者可以通过人工收集得到,本发明实施例不做限定。义项即参考词汇在知识库中对于每一个不同概念意义事物的描述内容。然后,再从义项中得到若干个实体,具体的方式可以通过人工标注、模型标注等方式实现。确定了参考词汇以及参考词汇在知识库中对应的实体后,即可基于多个参考词汇以及参考词汇对应的实体构建参考词汇集合。基于知识库构建参考词汇集合,具有涉及领域范围广泛、更新及时的优点。并且,知识库包含了海量的结构化和非结构化的数据,具有良好的消歧能力。
如前面所述,百科网站作为一种大规模的通用知识图谱项目,可以通过百科网站来得到参考词汇对应的实体。例如,参照图3,图3为本发明实施例提供的百科网站中部分内容的示意图,以“七里香”作为参考词汇时,可以以“七里香”作为百科网站的词条,在百科网站的该词条的义项(参见图3中的义项展示区域301)下出现的其他词汇作为该词条所对应的实体,例如,以“七里香”作为百科网站的词条时,该词条的义项下出现了“植物”、“中药”、“景点”、“电视剧”、“小说”或者“歌曲”等词汇,则可以以这些词汇作为“七里香”对应的实体,进而构建参考词汇集合。
基于此,参照图4,图4为本发明实施例提供的参考词汇集合的一种结构示意图,参考词汇集合可以包括多个“参考词汇-实体”的组合,例如,参考词汇可以是“七里香”,则该参考词汇在参考词汇集合中对应的实体可以是“植物”、“中药”、“景点”、“电视剧”、“小说”或者“歌曲”等等,基于此,参考词汇集合可以包括:“七里香-植物”、“七里香-中药”、“七里香-景点”、“七里香-电视剧”、“七里香-小说”或者“七里香-歌曲”等组合。在此基础上,参考词汇集合还可以进一步包括实体标识,每个实体均有对应的实体标识,实体标识可以便于对参考词汇集合进行整理,基于此,参考词汇集合可以包括:“七里香-植物-001”、“七里香-中药-002”、“七里香-景点-003”、“七里香-电视剧-004”、“七里香-小说-005”或者“七里香-歌曲-006”等组合,其中,001至006为实体标识。可以理解的是,上述参考词汇及其对应的实体、实体标识均为示例性的说明,实际应用中不同的参考词汇对应的实体的类型、数量、实体标识的具体设置方式均可以根据实际情况调整。
可以理解的是,参考词汇集合的构建可以由服务器101执行,或者服务器101直接获取外部设备预先构建好的参考词汇集合,本发明实施例不做限定。
步骤203:根据与第一目标关键词对应的参考词汇,从参考词汇集合中确定若干个候选实体,获取候选实体的候选实体信息;
其中,可以直接将候选实体的实体名称作为候选实体的候选实体信息,又或者,可以将候选实体的实体名称与第一属性信息相拼接后作为候选实体的候选实体信息,基于此,上述步骤202中,获取候选实体的候选实体信息,具体可以是获取候选实体的实体名称以及候选实体对应的第一属性信息,将实体名称与第一属性信息进行拼接,得到候选实体的候选实体信息。第一属性信息可以是实体的类别、描述等信息,例如,“七里香”对应的“中药”实体的第一属性信息可以是“海桐花科植物台琼海桐的根、活血消肿、解毒止痢”等。通过将候选实体的实体名称与第一属性信息相拼接后作为候选实体的候选实体信息,有利于丰富候选实体信息的表达,提高获取对象标签的准确性。
可以理解的是,步骤203可以由第一处理模型执行,也可以通过独立的程序获取候选实体信息后输入至第一处理模型。
步骤204:通过第一处理模型获取第一目标关键词与候选实体信息之间的第一特征相似度,根据第一特征相似度从候选实体中确定目标实体;
以从待处理文本中识别到的第一目标关键词为“七里香”作为例子进行说明,从参考词汇集合中确定的候选实体为“植物”、“中药”、“景点”、“电视剧”、“小说”和“歌曲”,则分别计算“七里香”与候选实体“植物”、“中药”、“景点”、“电视剧”、“小说”和“歌曲”之间的第一特征相似度,若“七里香”与“中药”的第一特征相似度最高,则将“中药”作为目标实体。
其中,第一特征相似度可以为余弦相似度,当然,本发明实施例不做限定。
步骤205:根据目标实体得到第一对象标签。
其中,根据目标实体得到第一对象标签,可以是将目标实体作为第一对象标签,又或者,可以基于知识库对目标实体进行关系扩展,将与目标实体相关联的其他实体作为第一对象标签,从而能够更好地服务下游应用,例如推荐、搜索和问答等。而具体的关系扩展可以采用节点游走等方式实现,本发明实施例不再展开描述,下面以目标实体作为第一对象标签为例子说明本发明实施例提供的对象标签获取方法的原理。
上述步骤201至步骤205中,由于参考词汇集合中包括多个参考词汇以及参考词汇在知识库中对应的若干个实体,利用参考词汇提取出第一目标关键词后,能够通过参考词汇集合快速地确定候选实体,进而根据候选实体中与第一目标关键词对应的目标实体得到第一对象标签,本发明实施例的对象标签获取方法通过确定目标实体的方式来获取第一对象标签,能够充分利用知识库规模较大、涉及领域较广、时效性较高的优点,从而提高获取到的对象标签的覆盖度。
参照图5,在一种可能的实现方式中,构建参考词汇集合时获取多个参考词汇,可以具体通过以下步骤501至步骤505。
步骤501:获取多个候选词汇。
其中,候选词汇可以通过对知识库中文本进行拆解或者拼接得到,又或者可以通过人工收集得到,本发明实施例不做限定。
步骤502:获取第一词汇在知识库中对应的第一词汇信息,确定第一词汇信息中第二词汇出现且存在链接的第一频次。
步骤503:获取第一词汇信息中出现第二词汇但不存在链接的第二频次;
步骤504:根据第一频次和第二频次确定第二词汇的词汇属性;
步骤505:根据词汇属性确定目标词汇,从多个候选词汇中剔除目标词汇,得到多个参考词汇。
其中,第二词汇为多个候选词汇中的任意一个词汇,第一词汇为知识库中除第二词汇以外的任意一个词汇,链接用于跳转至第二词汇在知识库中对应的第二词汇信息。
具体地,词汇信息为词汇在知识库中所有的释义文本(参见图3所示的释义文本区域302中的文本),其中,词汇信息比候选实体对应的属性信息指代的范围更广,候选实体对应的属性信息可以理解为从词汇信息中抽取得到的类别、描述等信息。
由于参考词汇涉及的领域比较广泛,虽然某个参考词汇在知识库中有对应的实体,但利用参考词汇识别出第一目标关键词后,得到的目标实体可能与待处理文本并不相匹配,即参考词汇本身大概率不属于一个实体。以参考词汇“大树”为例进行说明,在知识库中,参考词汇“大树”对应有冷门实体“清代袁枚七律诗”,而“大树”本身属于一个比较常规的词汇,在文本中经常出现,例如,在待处理文本“今天天气明媚,我们在大树底下乘凉吧”中出现了“大树”,但知识库中一般没有实体“大树”与该处理文本中的“大树”相对应。因此,上述情况会使得获取到的对象标签的准确性降低。因此,通过根据词汇属性剔除目标词汇,可以使得参考词汇集合里的参考词汇更加合理化,提高获取到的对象标签的准确性。
百科网站中,在某个词汇的词汇信息中会出现其他词汇,并且这些其他词汇可以通过链接跳转至相应的词汇信息中,例如,参照图3,在“七里香”的词汇信息中,部分释义文本为“小乔木,高达12m,树干及小枝白灰或淡黄灰色,略有光泽,当年生枝绿色,其横切面呈钝三角形,底边近圆弧形”,这里的“小乔木”存在链接,可以通过点击该链接跳转至“小乔木”对应的词汇信息,作为一种体现链接的方式,“小乔木”一词可以被标记为其他颜色或者添加下划线等标识。
下面以第二词汇为“大树”作为例子进行说明剔除目标词汇的原理,“大树”对应着“清代袁枚七律诗”这个实体,在除了“大树”以外的其他词汇的词汇信息中,出现“大树”且能够通过链接跳转至“大树”对应为“清代袁枚七律诗”这个词条的页面的总频次为5次,而出现“大树”但不存在链接的总频次为95次,因此可以得知,“大树”一词本身大概率不属于一个实体,则不将“大树”一词作为参考词汇。
在一种可能的实现方式中,可以利用词汇属性来表征参考词汇本身是否属于实体,其中,词汇属性可以包括实体和非实体,基于上述“大树”的例子,可以根据第一频次和第二频次确定“大树”的词汇属性为非实体。根据第一频次和第二频次确定“大树”的词汇属性,可以是对第一频次和第二频次进行求和,得到第三频次,根据第一频次和第三频次的比值得到第一权重值,根据第二频次和第三频次的比值得到第二权重值,根据第一权重值和第二权重值确定第二词汇的词汇属性,基于上述“大树”的例子,第一频次即为5次,第二频次即为95次,第三频次为100次,第一权重值为5%,第二权重值为95%,因此,在除了“大树”以外的其他词汇的词汇信息中,出现“大树”且存在链接的权重值比出现“大树”但不存在链接的权重值要低,因此可以确定“大树”的词汇属性为非实体。除此以外,得到第一频次和第二频次以后,也可以直接通过对第一频次和第二频次进行大小比较,基于上述“大树”的例子,第一频次比第二频次要小,因此可以确定“大树”的词汇属性为非实体。
上述步骤202、步骤204基于第一处理模型执行,参照图6,图6为本发明实施例提供的第一处理模型的结构示意图,第一处理模型包括第一向量化模块601、第二向量化模块602和第一相似度计算模块603,基于图6所示的模型结构,参照图7,图7为本发明实施例提供的第一处理模型的训练流程图,第一处理模型通过以下步骤701至步骤705训练得到:
步骤701:获取第一训练文本以及第一训练文本中的训练关键词对应的训练实体信息;
步骤702:将第一训练文本输入至第一向量化模块,基于参考词汇集合从第一训练文本中提取出训练关键词,得到训练关键词的第一特征向量;
步骤703:将训练实体信息输入至第二向量化模块得到训练实体信息的第二特征向量;
步骤704:通过第一相似度计算模块得到第一特征向量与第二特征向量之间的第二特征相似度;
步骤705:根据第二特征相似度确定第一损失值,基于第一损失值对第一处理模型进行训练。
例如,第一训练文本可以是:
[CLS]小明刚刚摔了一跤,捣碎一些[E1]七里香[/E1]帮他敷一下吧[SEP]
对应的训练实体信息可以是:
[CLS]中药[TYPE]其他[DESC]为海桐花科植物台琼海桐的根、叶[PROP]具有活血消肿、解毒止痢之功效;味酸、苦、辛、性温;用于跌打损伤、痢疾[SEP]
其中,标识符[CLS]代表开头,标识符[SEP]代表结尾,标识符[TYPE]代表类型,标识符[DESC]代表描述,标识符[PROP]代表属性,可见,训练实体信息可以由实体名称和属性信息拼接得到,以丰富训练实体信息的表达。而标识符[E1][/E1]用于标识出训练关键词,[E1]用于标识出训练关键词的头部,[/E1]用于标识出训练关键词的尾部。
第一向量化模块和第二向量化模块可以采用Bert模块实现,第一相似度计算模块可以采用前向反馈神经网络;将上述第一训练文本输入至第一向量化模块,利用标识符[E1][/E1]标识出“七里香”,进而得到“七里香”对应的第一特征向量;将上述训练实体信息输入至第二向量化模块,得到训练实体信息对应的第二特征向量,再通过前向反馈神经网络做维度转化后计算第一特征向量与第二特征向量之间的第二特征相似度,由于第一训练文本与训练实体信息对应,因而可以基于第二特征相似度来确定第一处理模型的第一损失值,进而对第一处理模型进行训练,第一损失值可以用来表征输入待处理文本后第一处理模型对第一目标关键词的提取损失以及目标实体的确定损失,第一损失值可以采用softmax函数计算。
可以理解的是,第一处理模型的训练可以由服务器101执行,或者服务器101直接获取外部设备预先训练好的第一处理模型。
基于训练好的第一处理模型,将待处理文本输入至第一处理模型,通过第一向量化模块基于参考词汇集合从待处理文本中提取出第一目标关键词,再获取第一目标关键词对应的特征向量,基于Bert模块得到的第一目标关键词对应的特征向量,该特征向量包含有待处理文本的语义信息;根据第一目标关键词对应的参考词汇从参考词汇集合中确定若干个候选实体,获取候选实体的候选实体信息,将候选实体信息输入至第二向量化模块得到候选实体信息的特征向量;通过第一相似度计算模块计算第一目标关键词对应的特征向量与候选实体信息的特征向量之间的第一特征相似度,将最高的第一特征相似度对应的候选实体作为目标实体。
其中,第二特征相似度可以为余弦相似度,当然,本发明实施例不做限定。
在一种可能的实现方式中,同一个待处理文本中可能出现多个相同的第一目标关键词,通过第一处理模型得到的不同位置的第一目标关键词的特征向量不相同,因此,通过第一处理模型得到每个第一目标关键词的特征向量后可以进行加权处理,将加权处理得到的特征向量作为第一目标关键词的特征向量。例如,待处理文本为“小明刚刚摔了一跤,捣碎一些七里香帮他敷一下吧,七里香可以活血消肿”,第一目标关键词“七里香”在不同的位置出现了两次,因此第一处理模型得到的“七里香”的特征向量为两个不同位置的“七里香”的特征向量的加权。可以理解的是,不同位置的第一目标关键词的权重可以根据实际情况设置,例如权重可以均为1,本发明实施例不做限定。通过对同一个待处理文本中多个相同的第一目标关键词的特征向量进行加权作为第一目标关键词对应的特征向量,有利于提高后续第一相似度计算的准确性。
在一种可能的实现方式中,在上述步骤201至步骤205的基础上,本发明实施例提供的对象标签获取方法还可以进一步包括以下步骤:
获取待处理文本的特征信息,根据特征信息确定第二对象标签,将第一对象标签和第二对象标签合并得到对象标签集合。
其中,待处理文本的特征信息可以包括序列标识或者全局特征中的至少一种,即特征信息可以包括序列标识,也可以包括全局特征,也可以包括序列标识和全局特征,序列标识可以用于表征待处理文本的上下文语法结构信息,全局特征可以用于表征待处理文本整体的语义信息。
当特征信息包括序列标识时,获取待处理文本的特征信息,根据特征信息确定第二对象标签,具体可以为:对待处理文本进行分词处理,得到多个候选单词;对多个候选单词进行序列标注,得到待处理文本的序列标识;根据序列标识从多个候选单词中确定目标单词,对目标单词进行拼接处理得到第二目标关键词;将第二目标关键词作为第二对象标签。
其中,序列标注可以是BIO标注,B即Begin,表示开始,I即Intermediate,表示中间,O即Other,表示其他,用于标记无关字符;
例如,待处理文本可以是:
[CLS]文学介绍《呐喊》[SEP]
对该待处理文本进行分词处理,得到多个候选单词“文”、“学”、“介”、“绍”、“《”、“呐”、“喊”、“》”;
对上述候选单词进行序列标注,得到待处理文本的序列标识依次为O、O、O、O、O、B、I、O;
基于上述序列标识结果,可以确定目标单词为“呐”、“喊”,进而得到第二目标关键词“呐喊”,可将第二目标关键词“呐喊”作为第二对象标签。
通过序列标识得到第二对象标签,可以关注待处理文本的语法结构信息,结合第一对象标签得到对象标签集合,有利于提高得到的对象标签的覆盖度。
由于分词处理或者序列标注难免出现错误,为解决上述问题,本发明实施例中先剔除与过滤词汇集合中任意一个过滤词汇均不匹配的第二目标关键词,将剩余的第二目标关键词作为第二对象标签。其中,过滤词汇集合可以是预先构建的,过滤词汇集合可以包括多个过滤词汇,过滤词汇可以为常用的词汇,一旦提取到的第二目标关键词在过滤词汇集合中没有出现过,则认为分词处理或者序列标注出现错误,则将该第二目标关键词剔除掉,不作为第二对象标签,从而提高获取到的第二对象标签的准确性。当然,在此过程中也可以加入人工审核,虽然第二目标关键词与过滤词汇集合中任意一个过滤词汇均不匹配,但人工审核后确定该第二目标关键词没有错误,则将该第二目标关键词加入过滤词汇集合中,以更新过滤词汇集合,提高后续利用过滤词汇集合剔除第二目标关键词的准确性。
在一种可能的实现方式中,可以利用Bert模型来进行序列标注,Bert模型可以采用采用中文3层roberta预训练模型实现,通过Bert模型输出每个单词B、I、O三种序列标识的概率值,将概率值最高的序列标识对单词进行序列标注,然后根据序列标识对单词进行拼接,得到第二目标关键词。
另外,当特征信息包括全局特征时,获取待处理文本的特征信息,根据特征信息确定第二对象标签,具体可以为:
将待处理文本输入至第二处理模型,基于第二处理模型,获取全局特征的第三特征向量,获取第三特征向量与第四特征向量之间的第三特征相似度,根据第三特征相似度从多个候选对象标签中确定第二对象标签;
其中,第四特征向量为预设的候选对象标签的特征向量,候选对象标签的数量为多个。候选对象标签可以为预设的对象标签,通过获取第三特征向量与第四特征向量之间的第三特征相似度,根据第三特征相似度从多个候选对象标签中确定第二对象标签,当无法从待处理文本中提取出目标关键词时,或者待处理文本中不存在合适的用于确定对象标签的目标关键词时,都会降低获取到的对象标签的准确性,因而可以利用待处理文本整体的语义信息来确定第二对象标签,在前述的无法从待处理文本中提取出目标关键词的情况下,或者待处理文本中不存在合适的用于确定对象标签的目标关键词的情况下,可以提高获取到的对象标签的准确性。例如,当待处理文本为“离离原上草,一岁一枯荣”时,显然待处理文本中并不存在合适的用于确定对象标签的目标关键词,因此可以通过提取待处理文本整体的语义信息,从预设的候选对象标签中确定第二对象标签。其中,候选对象标签可以选取含义相对较广泛、覆盖范围较大的对象标签。
其中,第三特征相似度可以为余弦相似度,当然,本发明实施例不做限定。
参照图8,图8为本发明实施例提供的第二处理模型的结构示意图,第二处理模型包括第三向量化模块801、第四向量化模块802和第二相似度计算模块803,基于图8所示的模型结构,参照图9,图9为本发明实施例提供的第二处理模型的训练流程图,第二处理模型通过以下步骤901至步骤905:
步骤901:获取第二训练文本以及第二训练文本对应的候选对象标签;
步骤902:将第二训练文本输入至第三向量化模块,得到第二训练文本对应的第五特征向量;
步骤903:将候选对象标签输入至第四向量化模块,得到候选对象标签对应的第六特征向量;
步骤904:通过第二相似度计算模块得到第五特征向量与第六特征向量之间的第四特征相似度;
步骤905:根据第四特征相似度确定第二损失值,基于第二损失值对第二处理模型进行训练。
例如,第二训练文本可以是:
离离原上草,一岁一枯荣;
第二训练文本对应的候选对象标签可以是“诗词”,第三向量化模块和第四向量化模块可以采用Bert模块实现,第二相似度计算模块可以采用前向反馈神经网络;将第二训练文本输入至第三向量化模块,得到用于表征第二训练文本整体的语义信息的第五特征向量;将候选对象标签输入至第四向量化模块,得到候选对象标签对应的第六特征向量,再通过前向反馈神经网络做维度转化后计算第五特征向量与第六特征向量之间的第四特征相似度,由于第二训练文本与候选对象标签对应,因而可以基于第四特征相似度来确定第二处理模型的第二损失值,进而对第二处理模型进行训练,第二损失值可以用来表征输入待处理文本后第二处理模型对第二对象标签的确定损失,第二损失值可以采用softmax函数计算。
在一种可能的实现方式中,第二训练文本与对应的候选对象标签为一个正样本对,在训练第二处理模型时,可以将多个正样本对输入至第二处理模型,在计算第二损失值时,可以利用其他样本对中的候选对象标签来构造负样本对,基于正样本对和负样本对来计算第二损失值,有利于提升第二处理模型的召回效果。例如,输入的正样本对为“离离原上草,一岁一枯荣”-“诗词”、“今天天文台说下午将会下雨”-“天气预报”,则构造的负样本对为“离离原上草,一岁一枯荣”-“天气预报”或者“今天天文台说下午将会下雨”-“诗词”。
其中,由于候选对象标签一般已经预先设置好,在对第二处理模型训练完毕后,可以得到候选对象标签对应的特征向量,并将候选对象标签对应的特征向量预先储存起来,因此,在利用第二处理模型确定待处理文本对应的第二对象标签时,只需要将待处理文本输入至第二处理模型,并通过第二处理模型的第三向量化模块获取待处理文本的全局特征的第三特征向量,再检索出与待处理文本的全局特征的第三特征相似度最高的候选对象标签即可,检索方式可以采用近邻检索技术FAISS。
其中,第四特征相似度可以为余弦相似度,当然,本发明实施例不做限定。
在一种可能的实现方式中,在获取第二训练文本以及第二训练文本对应的候选对象标签之后,还可以获取第二训练文本对应的候选对象标签中相同的目标对象标签的数量,当目标对象标签的数量大于或者等于第一阈值,将目标对象标签对应的若干个目标训练文本剔除,直至目标训练文本在第二训练文本中的占比小于或者等于第二阈值。当第二处理模型的训练集中某些候选对象标签的出现频次过高,需要对部分的第二训练文本进行筛选,限制出现频次过高的候选对象标签所对应的第二训练文本的数量,从而提高第二处理模型的训练效果。例如,有50个第二训练文本均对应候选对象标签“诗词”,则候选对象标签“诗词”为目标对象标签,需要减小这50个第二训练文本的数量,假设第一阈值为50,第二阈值为40%,则需要将这50个第二训练文本的数量减小至20个,被剔除掉的那30个第二训练文本为目标训练文本。可以理解的是,第一阈值和第二阈值可以根据实际情况调整,本发明实施例不做限定。
在一种可能的实现方式中,在获取第二训练文本以及第二训练文本对应的候选对象标签之后,从第二训练文本中筛选出预设数量占比的第三训练文本,将第三训练文本中与候选对象标签对应的第三目标关键词进行屏蔽处理,从而增加训练难度,提高第二处理模型的训练效果。例如,训练集中有50个第二训练文本,预设数量占比为20%,则从这50个第二训练文本中筛选出10个第三训练文本,对这10个第三训练文本与候选对象标签对应的第三目标关键词进行屏蔽处理,例如,第三训练文本为“今天天文台说下午将会下雨”,则第三目标关键词可以是“天文台”,将第三目标关键词进行屏蔽处理,对于Bert模型来说,可以采用标识符[mask]实现屏蔽处理。可以理解的是,预设数量占比可以根据实际情况调整,可以是10%、20%、30%等,本发明实施例不做限定。
可以理解的是,上述将目标对象标签对应的若干个目标训练文本剔除以及将第三训练文本中与候选对象标签对应的第三目标关键词进行屏蔽处理这两种处理方式可以择一执行,也可以均执行,本发明实施例不做限定。
可以理解的是,特征信息可以包括序列标识或者全局特征中的一种或者多种,当特征信息为序列标识时,得到的对象标签集合中包括基于参考词汇集合得到的对象标签和基于序列标识得到的对象标签;当特征信息为全局特征时,得到的对象标签集合中包括基于参考词汇集合得到的对象标签和基于全局特征得到的对象标签;当特征信息包括序列标识和全局特征时,得到的对象标签集合中包括基于参考词汇集合得到的对象标签、基于序列标识得到的对象标签和基于全局特征得到的对象标签。
在一种可能的实现方式中,在基于待处理文本的特征信息得到第二对象标签的基础上,还可以进一步基于预设的字典树从待处理文本中提取出第四目标关键词,将第四目标关键词作为第三对象标签,将第一对象标签、第二对象标签和第三对象标签合并得到对象标签集合。
其中,字典树(Trie树)又被称为前缀树,是一种树状的数据结构,包括多个节点,可用于字符串匹配和快速查找等处理过程中。它可以最大限度地减少无谓字符串的比较次数,提高词频统计和字符串排序的效率。其核心思想是通过构建树状结构,用空间换时间,利用字符串间的公共前缀来降低查询的开销。基于预设的字典树,可以快速地从待处理文本中提取出第四目标关键词,具有效率高的优点,并且,基于预设的字典树,可以便于运维人员快速地针对特殊需求调整需要获取的对象标签的方向,有利于进一步扩大获取到的对象标签的覆盖度,并且提高获取到的对象标签的合理性。
可以理解的是,基于上述特征信息以及字典树,当特征信息为序列标识时,得到的对象标签集合中包括基于参考词汇集合得到的对象标签、基于序列标识得到的对象标签和基于字典树得到的对象标签;当特征信息为全局特征时,得到的对象标签集合中包括基于参考词汇集合得到的对象标签、基于全局特征得到的对象标签和基于字典树得到的对象标签;当特征信息包括序列标识和全局特征时,得到的对象标签集合中包括基于参考词汇集合得到的对象标签、基于序列标识得到的对象标签、基于全局特征得到的对象标签和基于字典树得到的对象标签。
当然,在一种可能的实现方式中,得到的对象标签集合中也可以仅包括基于参考词汇集合得到的对象标签和基于字典树得到的对象标签。
基于本发明实施例提供的对象标签获取方法得到的对象标签,可以进行对象画像的构建,对象画像是一种勾画对象、联系对象诉求与设计方向的有效工具,对象画像在各领域得到了广泛的应用,例如可以对对象画像进行分析,以进行广告投放、搜索推荐等,又或者可以利用对象画像数据刻画对象间的相似性,从而实现对对象分类或聚类的业务需求。
下面以对象标签为兴趣点作为示例说明对象画像构建的流程,参照图10,图10为本发明实施例提供的对象画像的构建的流程图,其中,通过本发明实施例提供的对象标签获取方法对待处理文本进行兴趣点挖掘,得到对应的兴趣点集合,再将兴趣点集合映射到相应的对象中,进而构建对象画像,其中,映射可以是通过账号映射的方式实现。由于本发明实施例提供的对象标签获取方法可以提高获取到的兴趣点的覆盖度,因而构建的对象画像能够更好地对对象进行勾画,以提升后续的对象画像分析的效果。
参照图11,图11为本发明实施例提供的兴趣点挖掘的流程图,针对待处理文本,本发明实施例通过实体对应、序列标注、标签检索以及字典树匹配的方式分别从待处理文本中挖掘出兴趣点,然后将上述不同方式挖掘到的兴趣点进行合并,得到兴趣点集合,其中,实体对应即前述通过参考词汇集合来获取兴趣点的方式,序列标注即前述通过序列标识来获取兴趣点的方式,标签检索即前述通过全局特征来获取兴趣点的方式,字典树匹配即前述通过字典树来获取兴趣点的方式,通过实体对应、序列标注、标签检索以及字典树匹配的方式分别从待处理文本中挖掘出兴趣点,可以使得获取到的兴趣点集合的覆盖度更加广泛。其中,不同方式获取到的兴趣点的合并方式可以是去重后合并。
基于图11所示的兴趣点挖掘的流程图,下面以一个实际例子进行说明。参照图12,图12为本发明实施例提供的兴趣点挖掘的一个例子的结果示意图,待处理文本为“A公司承接了B市进口冷链食品的安全检验工作”,则通过实体对应的方式获取到的兴趣点可以是“A公司”,通过序列标注的方式获取到的兴趣点可以是“安全检验”,通过标签检索的方式获取到的兴趣点可以是“时事新闻”,通过字典树匹配的方式获取到的兴趣点可以是“冷链食品”,基于此,对应的兴趣点集合就包含了“A公司”、“安全检验”、“时事新闻”以及“冷链食品”这四个兴趣点,从而使得获取到的兴趣点集合的覆盖度更加广泛。
基于获取到的兴趣点,可以进一步根据兴趣点来进行广告投放。例如,获取到的兴趣点是“冷链食品”,则可以针对性地进行雪糕、海鲜等冷冻类食品的广告投放,有利于提高广告投放的准确性。
又或者,可以进一步根据兴趣点来进行搜索推荐。例如,获取到的兴趣点是“A公司”,则在利用搜索网站搜索A公司时,在下拉的搜索推荐框中提供“食品安全的检验规范”等推荐内容,有利于提高推荐内容的准确性。
又或者,可以进一步根据兴趣点来进行对象分类,其中,对象分类常常应用于即时通信的应用场景,可以用于进行好友推荐等。例如,获取到的兴趣点是“时事新闻”,则可以推荐兴趣点同为“时事新闻”的好友,有利于提高好友推荐的准确性。
又或者,可以进一步根据兴趣点来进行内容推荐,其中,内容推荐可以是视频推荐,例如,获取到的兴趣点是“时事新闻”,则可以推荐与时事新闻相关的视频,有利于提高视频推荐的准确性。
又或者,可以进一步根据兴趣点来进行智能问答,其中,智能问答可以是网上商城的智能客服,例如,获取到的兴趣点是“冷链食品”,则基于问题“有什么好吃的推荐?”,则回答雪糕、海鲜等冷冻类食品相关的商品或者店铺,有利于提高智能问答的准确性。
可以理解的是,上述例子仅仅用于说明本发明实施例提供的对象标签获取方法可以应用的场景,并不对本发明实施例提供的对象标签获取方法的应用范围作出限定。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
参照图13,本发明实施例还提供了一种对象标签获取装置,包括:
文本获取模块1301,用于获取待处理文本;
关键词提取模块1302,用于将待处理文本输入至第一处理模型,从待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词;其中,参考词汇集合包括多个参考词汇以及参考词汇在知识库中对应的若干个实体;
候选实体信息获取模块1303,用于根据与第一目标关键词对应的参考词汇,从参考词汇集合中确定若干个候选实体,获取候选实体的候选实体信息;
目标实体确定模块1304,用于通过第一处理模型获取第一目标关键词与候选实体信息之间的第一特征相似度,根据第一特征相似度从候选实体中确定目标实体;
对象标签确定模块1305,用于根据目标实体得到第一对象标签。
其中,参考词汇集合的构建方式前面对象标签获取方法的实施例中已经进行详细说明,在此不再赘述。
其中,第一处理模型的训练方式前面对象标签获取方法的实施例中已经进行详细说明,在此不再赘述。
进一步,上述候选实体信息获取模块1303具体用于:
获取候选实体的实体名称以及候选实体对应的第一属性信息;
将实体名称与第一属性信息进行拼接,得到候选实体的候选实体信息。
进一步,上述对象标签确定模块1305还用于:
获取待处理文本的特征信息,根据特征信息确定第二对象标签,特征信息包括序列标识或者全局特征中的至少一种;
将第一对象标签和第二对象标签合并得到对象标签集合。
进一步,当特征信息包括序列标识时,上述对象标签确定模块1305具体用于:
对待处理文本进行分词处理,得到多个候选单词;
对多个候选单词进行序列标注,得到待处理文本的序列标识;
根据序列标识从多个候选单词中确定目标单词,对目标单词进行拼接处理得到第二目标关键词;
将第二目标关键词作为第二对象标签。
进一步,上述对象标签确定模块1305具体用于:
剔除与过滤词汇集合中任意一个过滤词汇均不匹配的第二目标关键词;
将剩余的第二目标关键词作为第二对象标签。
进一步,当特征信息包括全局特征时,上述对象标签确定模1305具体用于:
将待处理文本输入至第二处理模型,基于第二处理模型,获取全局特征的第三特征向量,获取第三特征向量与第四特征向量之间的第三特征相似度,根据第三特征相似度从多个候选对象标签中确定第二对象标签;
其中,第四特征向量为预设的候选对象标签的特征向量,候选对象标签的数量为多个。
其中,第二处理模型的训练方式前面对象标签获取方法的实施例中已经进行详细说明,在此不再赘述。
进一步,上述对象标签确定模块1305具体用于:
基于预设的字典树从待处理文本中提取出第四目标关键词,将第四目标关键词作为第三对象标签;
将第一对象标签、第二对象标签和第三对象标签合并得到对象标签集合。
本发明实施例提供的对象标签获取装置,通过文本获取模块1301获取待处理文本,关键词提取模块1302将待处理文本输入至第一处理模型,从待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词,候选实体信息获取模块1303根据与第一目标关键词对应的参考词汇,从参考词汇集合中确定若干个候选实体,获取候选实体的候选实体信息,目标实体确定模块1304通过第一处理模型获取第一目标关键词与候选实体信息之间的第一特征相似度,根据第一特征相似度从候选实体中确定目标实体,对象标签确定模块1305根据目标实体得到第一对象标签,由于参考词汇集合中包括多个参考词汇以及参考词汇在知识库中对应的若干个实体,利用参考词汇提取出第一目标关键词后,能够通过参考词汇集合快速地确定候选实体,进而根据候选实体中与第一目标关键词对应的目标实体得到第一对象标签,本发明实施例的对象标签获取方法通过确定目标实体的方式来获取第一对象标签,能够充分利用知识库规模较大、涉及领域较广、时效性较高的优点,从而提高获取到的对象标签的覆盖度。
另外,本发明实施例还提供了一种电子设备,该电子设备可以进行对象标签获取。下面结合附图对该电子设备进行介绍。请参见图14,本发明实施例提供了一种电子设备,该电子设备可以是终端装置,该终端装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端装置为手机为例:
图14示出的是与本发明实施例提供的手机的部分的结构框图。参考图14,手机包括:射频(Radio Frequency,简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity,简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图14中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图14对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。通常,RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他装置通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入装置1432。触控面板1431,也称为触摸屏,可收集在其上或附近的触摸操作(比如使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1480,并能接收处理器1480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类别实现触控面板1431。除了触控面板1431,输入单元1430还可以包括其他输入装置1432。具体地,其他输入装置1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1440可用于显示输入的信息或提供的信息以及手机的各种菜单。显示单元1440可包括显示面板1441,可选的,可以采用液晶显示器(Liquid Crystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1441。进一步的,触控面板1431可覆盖显示面板1441,当触控面板1431检测到在其上或附近的触摸操作后,传送给处理器1480以确定触摸事件的类别,随后处理器1480根据触摸事件的类别在显示面板1441上提供相应的视觉输出。虽然在图14中,触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1460、扬声器1461、传声器1462可提供音频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1410以发送给比如另一手机,或者将音频数据输出至存储器1420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以收发电子邮件、浏览网页和访问流式媒体等,它提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1480可包括一个或多个处理单元;优选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、操作界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
手机还包括给各个部件供电的电源1490(比如电池),优选的,电源可以通过电源管理系统与处理器1480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端装置所包括的处理器1480能够执行前面实施例的对象标签获取方法。
本发明实施例用于执行对象标签获取方法的还可以是服务器,请参见图15所示,图15为本发明实施例提供的服务器1500的部分的结构框图,服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,简称CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储装置)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器中的处理器可以用于执行对象标签获取方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述各个实施例的执行对象标签获取方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例的执行对象标签获取方法。
本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本发明中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
应了解,在本发明实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
还应了解,本发明实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
Claims (15)
1.一种对象标签获取方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入至第一处理模型,从所述待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词;其中,所述参考词汇集合包括多个所述参考词汇以及所述参考词汇在知识库中对应的若干个实体;
根据与所述第一目标关键词对应的所述参考词汇,从所述参考词汇集合中确定若干个候选实体,获取所述候选实体的候选实体信息;
通过所述第一处理模型获取所述第一目标关键词与所述候选实体信息之间的第一特征相似度,根据所述第一特征相似度从所述候选实体中确定目标实体;
根据所述目标实体得到第一对象标签。
2.根据权利要求1所述的对象标签获取方法,其特征在于,所述获取所述候选实体的候选实体信息,包括:
获取所述候选实体的实体名称以及所述候选实体对应的第一属性信息;
将所述实体名称与所述第一属性信息进行拼接,得到所述候选实体的候选实体信息。
3.根据权利要求1所述的对象标签获取方法,其特征在于,所述参考词汇集合通过以下步骤构建:
获取多个参考词汇;
获取每个所述参考词汇在所述知识库中的若干个义项;
根据所述若干个义项得到每个所述参考词汇对应的若干个实体;
基于多个所述参考词汇以及所述参考词汇对应的若干个实体构建所述参考词汇集合。
4.根据权利要求3所述的对象标签获取方法,其特征在于,所述获取多个参考词汇,包括:
获取多个候选词汇;
获取第一词汇在所述知识库中对应的第一词汇信息,确定所述第一词汇信息中第二词汇出现且存在链接的第一频次,其中,所述第二词汇为多个所述候选词汇中的任意一个词汇,所述第一词汇为所述知识库中除所述第二词汇以外的任意一个词汇,所述链接用于跳转至所述第二词汇在所述知识库中对应的第二词汇信息;
获取所述第一词汇信息中出现所述第二词汇但不存在所述链接的第二频次;
根据所述第一频次和所述第二频次确定所述第二词汇的词汇属性;
根据所述词汇属性确定目标词汇,从多个所述候选词汇中剔除所述目标词汇,得到多个参考词汇。
5.根据权利要求1所述的对象标签获取方法,其特征在于,所述第一处理模型包括第一向量化模块、第二向量化模块和第一相似度计算模块,所述第一处理模型通过以下步骤训练得到:
获取第一训练文本以及所述第一训练文本中的训练关键词对应的训练实体信息;
将第一训练文本输入至所述第一向量化模块,基于所述参考词汇集合从所述第一训练文本中提取出所述训练关键词,得到所述训练关键词的第一特征向量;
将所述训练实体信息输入至所述第二向量化模块得到所述训练实体信息的第二特征向量;
通过所述第一相似度计算模块得到所述第一特征向量与第二特征向量之间的第二特征相似度;
根据所述第二特征相似度确定第一损失值,基于所述第一损失值对所述第一处理模型进行训练。
6.根据权利要求1至5任意一项所述的对象标签获取方法,其特征在于,所述对象标签获取方法还包括:
获取所述待处理文本的特征信息,根据所述特征信息确定第二对象标签,所述特征信息包括序列标识或者全局特征中的至少一种;
将所述第一对象标签和所述第二对象标签合并得到对象标签集合。
7.根据权利要求6所述的对象标签获取方法,其特征在于,当所述特征信息包括序列标识时,所述获取所述待处理文本的特征信息,根据所述特征信息确定第二对象标签,包括:
对所述待处理文本进行分词处理,得到多个候选单词;
对多个所述候选单词进行序列标注,得到所述待处理文本的所述序列标识;
根据所述序列标识从多个所述候选单词中确定目标单词,对所述目标单词进行拼接处理得到第二目标关键词;
将所述第二目标关键词作为第二对象标签。
8.根据权利要求7所述的对象标签获取方法,其特征在于,所述将所述第二目标关键词作为第二对象标签,包括:
剔除与过滤词汇集合中任意一个过滤词汇均不匹配的所述第二目标关键词;
将剩余的所述第二目标关键词作为第二对象标签。
9.根据权利要求6所述的对象标签获取方法,其特征在于,当所述特征信息包括全局特征时,所述获取所述待处理文本的特征信息,根据所述特征信息确定第二对象标签,包括:
将所述待处理文本输入至第二处理模型,基于所述第二处理模型,获取所述全局特征的第三特征向量,获取第三特征向量与第四特征向量之间的第三特征相似度,根据所述第三特征相似度从预设的候选对象标签中确定第二对象标签;
其中,所述第四特征向量为所述候选对象标签的特征向量,所述候选对象标签的数量为多个。
10.根据权利要求9所述的对象标签获取方法,其特征在于,所述第二处理模型包括第三向量化模块、第四向量化模块和第二相似度计算模块,所述第二处理模型通过以下步骤训练得到:
获取第二训练文本以及所述第二训练文本对应的所述候选对象标签;
将所述第二训练文本输入至所述第三向量化模块,得到所述第二训练文本对应的第五特征向量;
将所述候选对象标签输入至所述第四向量化模块,得到所述候选对象标签对应的第六特征向量;
通过所述第二相似度计算模块得到所述第五特征向量与第六特征向量之间的第四特征相似度;
根据所述第四特征相似度确定第二损失值,基于所述第二损失值对所述第二处理模型进行训练。
11.根据权利要求10所述的对象标签获取方法,其特征在于,所述获取第二训练文本以及所述第二训练文本对应的所述候选对象标签之后,还包括以下至少之一:
获取所述候选对象标签中相同的目标对象标签的数量,当所述目标对象标签的数量大于或者等于第一阈值,将所述目标对象标签对应的若干个所述目标训练文本剔除,直至所述目标训练文本在所述第二训练文本中的占比小于或者等于第二阈值;
或者,从所述第二训练文本中筛选出预设数量占比的第三训练文本,将所述第三训练文本中与所述候选对象标签对应的第三目标关键词进行屏蔽处理。
12.根据权利要求6所述的对象标签获取方法,其特征在于,所述将所述第一对象标签和所述第二对象标签合并得到对象标签集合,包括:
基于预设的字典树从所述待处理文本中提取出第四目标关键词,将所述第四目标关键词作为第三对象标签;
将所述第一对象标签、所述第二对象标签和所述第三对象标签合并得到对象标签集合。
13.一种对象标签获取装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
关键词提取模块,用于将所述待处理文本输入至第一处理模型,从所述待处理文本中提取出与参考词汇集合中任意一个参考词汇相匹配的第一目标关键词;其中,所述参考词汇集合包括多个所述参考词汇以及所述参考词汇在知识库中对应的若干个实体;
候选实体信息获取模块,用于根据与所述第一目标关键词对应的所述参考词汇,从所述参考词汇集合中确定若干个候选实体,获取所述候选实体的候选实体信息;
目标实体确定模块,用于通过所述第一处理模型获取所述第一目标关键词与所述候选实体信息之间的第一特征相似度,根据所述第一特征相似度从所述候选实体中确定目标实体;
对象标签确定模块,用于根据所述目标实体得到第一对象标签。
14.一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至12任意一项所述的对象标签获取方法。
15.一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现权利要求1至12任意一项所述的对象标签获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768936.9A CN115599903A (zh) | 2021-07-07 | 2021-07-07 | 对象标签获取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768936.9A CN115599903A (zh) | 2021-07-07 | 2021-07-07 | 对象标签获取方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115599903A true CN115599903A (zh) | 2023-01-13 |
Family
ID=84841131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110768936.9A Pending CN115599903A (zh) | 2021-07-07 | 2021-07-07 | 对象标签获取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599903A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057345A (zh) * | 2023-10-11 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 一种角色关系的获取方法及相关产品 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
WO2018153295A1 (zh) * | 2017-02-27 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 文本实体提取方法、装置、设备及存储介质 |
CN109241294A (zh) * | 2018-08-29 | 2019-01-18 | 国信优易数据有限公司 | 一种实体链接方法及装置 |
CN109299221A (zh) * | 2018-09-04 | 2019-02-01 | 广州神马移动信息科技有限公司 | 实体抽取和排序方法与装置 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN111104526A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于关键词语义的金融标签提取方法及系统 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN112131350A (zh) * | 2020-09-30 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本标签确定方法、装置、终端及可读存储介质 |
CN112650817A (zh) * | 2020-12-08 | 2021-04-13 | 清华大学 | 关键词汇扩展方法及系统、电子设备及存储介质 |
WO2021073254A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
-
2021
- 2021-07-07 CN CN202110768936.9A patent/CN115599903A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
WO2018153295A1 (zh) * | 2017-02-27 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 文本实体提取方法、装置、设备及存储介质 |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
US20190012377A1 (en) * | 2017-07-05 | 2019-01-10 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for generating text tag |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN109241294A (zh) * | 2018-08-29 | 2019-01-18 | 国信优易数据有限公司 | 一种实体链接方法及装置 |
CN109299221A (zh) * | 2018-09-04 | 2019-02-01 | 广州神马移动信息科技有限公司 | 实体抽取和排序方法与装置 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
WO2021073254A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN111104526A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于关键词语义的金融标签提取方法及系统 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN112131350A (zh) * | 2020-09-30 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本标签确定方法、装置、终端及可读存储介质 |
CN112650817A (zh) * | 2020-12-08 | 2021-04-13 | 清华大学 | 关键词汇扩展方法及系统、电子设备及存储介质 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057345A (zh) * | 2023-10-11 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 一种角色关系的获取方法及相关产品 |
CN117057345B (zh) * | 2023-10-11 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 一种角色关系的获取方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN111553162B (zh) | 一种意图识别的方法以及相关装置 | |
CN110598046B (zh) | 一种基于人工智能的标题党识别方法和相关装置 | |
CN104933113A (zh) | 一种基于语义理解的表情输入方法和装置 | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN114328852A (zh) | 一种文本处理的方法、相关装置及设备 | |
CN112214605A (zh) | 一种文本分类方法和相关装置 | |
CN114328906A (zh) | 一种多级类目的确定方法、模型训练的方法以及相关装置 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN113761122A (zh) | 一种事件抽取方法、相关装置、设备及存储介质 | |
CN115599903A (zh) | 对象标签获取方法、装置、电子设备及存储介质 | |
KR101955920B1 (ko) | 속성 언어를 이용한 검색 방법 및 장치 | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN115168568B (zh) | 一种数据内容的识别方法、装置以及存储介质 | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN116340550A (zh) | 一种文本标签的确定方法和相关装置 | |
CN113051379B (zh) | 一种知识点推荐方法、装置、电子设备及存储介质 | |
CN117057345B (zh) | 一种角色关系的获取方法及相关产品 | |
CN115618094A (zh) | 一种实体词的推荐方法、相关装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |