CN114238573B - 基于文本对抗样例的信息推送方法及装置 - Google Patents

基于文本对抗样例的信息推送方法及装置 Download PDF

Info

Publication number
CN114238573B
CN114238573B CN202111536773.8A CN202111536773A CN114238573B CN 114238573 B CN114238573 B CN 114238573B CN 202111536773 A CN202111536773 A CN 202111536773A CN 114238573 B CN114238573 B CN 114238573B
Authority
CN
China
Prior art keywords
text
text information
emotion analysis
training
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111536773.8A
Other languages
English (en)
Other versions
CN114238573A (zh
Inventor
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111536773.8A priority Critical patent/CN114238573B/zh
Publication of CN114238573A publication Critical patent/CN114238573A/zh
Priority to PCT/CN2022/089693 priority patent/WO2023108980A1/zh
Application granted granted Critical
Publication of CN114238573B publication Critical patent/CN114238573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于文本对抗样例的信息推送方法及装置,涉及人工智能技术领域,主要目的在于改善现有由于无法有效生成文本对抗样例而导致的信息推送有效性低下的技术问题。包括:获取目标对象的评价文本信息;基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果;若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。主要用于信息的推送。

Description

基于文本对抗样例的信息推送方法及装置
技术领域
本申请涉及一种人工智能技术领域,特别是涉及一种基于文本对抗样例的信息推送方法及装置。
背景技术
随着人工智能技术的飞速发展,大部分的智能医疗系统引入了文本智能管理系统。通常情况下,可以预先收集大量文本的标注数据,利用机器学习或者深度学习的方法训练模型,然后为用户推荐与其兴趣相匹配的信息。那么模型的精度直接影响了用户针对文本进行信息推送的体验,因此大数据是机器学习的前提,只有大量的标注数据才能有效的提高模型的精度。但是现实中往往仅有少量文本的标注数据,而采用人工标注的成本又极高,因此,目前大多采用基于原始数据生成对抗样例的方式。
然而,由于用户针对不同医疗产品、项目作出的评价大多为文本数据,针对自然语言处理领域,文本对抗样例的生成较为困难,主要原因在于针对图像处理领域而言,图像数据属于连续型数据,经过旋转、剪切等手段处理后,依旧能够保持原始数据的特征,但文本数据属于离散型数据,经过传统的替换、删除等手段处理后,可能改变文本的上下文连贯性和文本所表达的语义情境。因此,有效的生成文本对抗样例成为智能管理系统中推荐模块的热点任务之一。
发明内容
有鉴于此,本申请提供一种基于文本对抗样例的信息推送方法及装置,主要目的在于改善现有由于无法有效生成文本对抗样例而导致的信息推送有效性低下的技术问题。
依据本申请一个方面,提供了一种基于文本对抗样例的信息推送方法,包括:
获取目标对象的评价文本信息;
基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;
若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;
若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。
优选的,所述基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理之前,所述方法还包括:
获取全量初始评价文本信息,得到情感分析训练原始样本集;
基于卷积神经网络构建初始文本情感分析模型,并基于所述情感分析训练原始样本集对所述初始文本情感分析模型进行模型训练,得到基础文本情感分析模型。
优选的,所述得到基础文本情感分析模型之后,所述方法还包括:
基于所述基础文本情感分析模型,计算所述评价文本信息中标记词的重要性参数,选取重要性参数最大值对应的标记词作为所述评价文本信息的种子词,所述评价文本信息为所述情感分析训练原始样本集中的评价文本信息;
基于预训练语言表示模型预测所述种子词位置的对应标记词,获取预设数量的标记词替换所述种子词,生成所述评价文本信息的待度量对抗样例;
基于语义相似度模型度量所述待度量对抗样例和所述评价文本信息之间的相似度参数,选取相似度参数最大值对应的所述待度量对抗样例作为所述评价文本信息的对抗样例,生成情感分析训练扩充样本集。
优选的,所述生成情感分析训练扩充样本集之后,所述方法还包括:
基于由所述情感分析训练原始样本集以及所述情感分析训练扩充样本集组合得到的训练样本对所述基础文本情感分析模型进行训练,得到文本情感分析模型。
优选的,所述获取全量初始评价文本信息,得到情感分析训练原始样本集,具体包括:
获取全量初始评价文本信息;
对所述初始评价文本信息进行目标字符串的筛选,得到情感分析训练原始样本集。
优选的,所述方法还包括:
若所述情感分类结果为负面情感,则输出询问框,所述询问框用于询问是否屏蔽所述目标对象的管理类别下的所有对象;
若屏蔽,则基于用户特征信息从所述分类管理数据库中匹配替换对象,将所述替换对象进行推送,所述用户特征信息包括用户年龄、用户性别以及借阅记录。
优选的,所述方法还包括:
若不存在所述关联对象,则输出关注度排行榜,所述关注度排行榜用于表征所述分类管理数据库中所有对象的被关注程度的排行榜。
依据本申请另一个方面,提供了一种基于文本对抗样例的信息推送装置,包括:
第一获取模块,用于获取目标对象的评价文本信息;
分类模块,用于基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;
查找模块,用于若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;
第一输出模块,用于若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。
优选的,所述分类模块之前,所述装置还包括:
第二获取模块,用于获取全量初始评价文本信息,得到情感分析训练原始样本集;
构建模块,用于基于卷积神经网络构建初始文本情感分析模型,并基于所述情感分析训练原始样本集对所述初始文本情感分析模型进行模型训练,得到基础文本情感分析模型。
优选的,所述构建模块之后,所述装置还包括:
计算模块,用于基于所述基础文本情感分析模型,计算所述评价文本信息中标记词的重要性参数,选取重要性参数最大值对应的标记词作为所述评价文本信息的种子词,所述评价文本信息为所述情感分析训练原始样本集中的评价文本信息;
预测模块,用于基于预训练语言表示模型预测所述种子词位置的对应标记词,获取预设数量的标记词替换所述种子词,生成所述评价文本信息的待度量对抗样例;
度量模块,用于基于语义相似度模型度量所述待度量对抗样例和所述评价文本信息之间的相似度参数,选取相似度参数最大值对应的所述待度量对抗样例作为所述评价文本信息的对抗样例,生成情感分析训练扩充样本集。
优选的,所述度量模块之后,所述装置还包括:
训练模块,用于基于由所述情感分析训练原始样本集以及所述情感分析训练扩充样本集组合得到的训练样本对所述基础文本情感分析模型进行训练,得到文本情感分析模型。
优选的,所述第二获取模块,具体包括:
获取单元,用于获取全量初始评价文本信息;
筛选单元,用于对所述初始评价文本信息进行目标字符串的筛选,得到情感分析训练原始样本集。
优选的,所述装置还包括:
第二输出模块,用于若所述情感分类结果为负面情感,则输出询问框,所述询问框用于询问是否屏蔽所述目标对象的管理类别下的所有对象;
匹配模块,用于若屏蔽,则基于用户特征信息从所述分类管理数据库中匹配替换对象,将所述替换对象进行推送,所述用户特征信息包括用户年龄、用户性别以及借阅记录。
优选的,所述装置还包括:
第三输出模块,用于若不存在所述关联对象,则输出关注度排行榜,所述关注度排行榜用于表征所述分类管理数据库中所有对象的被关注程度的排行榜。
根据本申请的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于文本对抗样例的信息推送方法对应的操作。
根据本申请的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于文本对抗样例的信息推送方法对应的操作。
借由上述技术方案,本申请实施例提供的技术方案至少具有下列优点:
本申请提供了一种基于文本对抗样例的信息推送方法及装置,首先获取目标对象的评价文本信息;其次基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;再次若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;最后若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。与现有技术相比,本申请实施例通过利用由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的文本情感分析模型对目标对象的评价文本信息进行分类处理,大大的提高了对评价文本信息分类处理的准确度,以使得根据分类处理结果进行信息推送的有效性也得到了相应的提高。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种基于文本对抗样例的信息推送方法流程图;
图2示出了本申请实施例提供的另一种基于文本对抗样例的信息推送方法流程图;
图3示出了本申请实施例提供的种子词位置对应标记词的预测模型结构示意图;
图4示出了本申请实施例提供的一种基于文本对抗样例的信息推送装置组成框图;
图5示出了本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
基于此,在一个实施例中,如图1所示,提供了一种基于文本对抗样例的信息推送方法,以该方法应用于服务器等计算机设备为例进行说明,其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,如智能医疗系统、数字医疗平台等。上述方法包括以下步骤:
101、获取目标对象的评价文本信息。
本申请实施例中,执行主体可以是带有信息推送功能的智能管理系统,例如,智能医疗评价系统,图书馆智能管理系统等。示例性的,当前执行主体可以是带有评价以及推送功能的图书智能管理系统,目标对象可以为当前用户进行评价的目标图书,评价文本信息可以为当前用户对目标图示做出的文本类评价信息。当用户完成电子书的购买,或者归还纸版图书后,管理系统会向用户提供关于目标图书的评价服务,以对目标图书的内容、购买或租借体验进行评价。其中,主要的是针对图书内容进行情感上的评价,以根据用户对图书内容的感兴趣与否进行相同类别图书的匹配,并进一步向用户进行推送。例如,用户A在归还图书B后,评价的文本信息为“作者以诙谐的口吻阐述历史事件,看得停不下来”,那么基于这一评价文本信息的情感分类为正面情感,进一步向用户A推荐关键词为“轻松或幽默”的历史类丛书。
需要说明的是,本申请实施例中的评价文本信息可以基于图书智能管理系统的用户客户端获取到,其中,图书智能管理系统可以为图书馆的智能配套系统,以方便用户借阅图书;也可以为配有评价以及推送功能的电子书售卖平台。用户在完成电子书的购买,或者归还纸版图书后,可以对图书进行评价,以上传至图书智能管理系统中。
102、基于已完成模型训练的文本情感分析模型对评价文本信息进行分类处理,得到情感分类结果。
其中,文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例。
本申请实施例中,文本情感分析模型可以为基于卷积神经网络模型构建的文本情感分析模型,例如,TextCNN模型等。且由基于掩码语言模型生成的文本对抗样例(扩充文本信息)与原始文本信息组合得到的训练样本,完成模型训练的。其中。基于卷积神经网络模型构建的文本情感分析模型为基于卷积神经网络的一种文本分类模型。基于掩码语言模型生成文本对抗样例,可以将原始文本扩充一倍,然后将由对抗样例构成的扩充文本以及原始文本组成的训练样本,对文本情感分析模型进行训练可以有效的提高文本情感分析结果的准确率。由于是情感分析,因此得到的分类结果包括正面情感与负面情感,因此,可以确定出用户针对目标对象的感兴趣与否。
103、若情感分类结果为正面情感,则提取目标对象的管理类别以及关键词,并在预设分类管理数据库中与目标对象相同的管理类别下,查找与关键词之间相似度大于预设相似度阈值的关联对象。
本申请实施例中,由于情感分类结果代表用户对于目标对象的感兴趣与否,若用户针对目标对象的评价文本信息的情感分类结果为正面情感,说明该用户对目标对象为喜欢情感,那么对相同类别的对象大概率也是感兴趣的。为了提高用户的阅读体验感,可以提取目标对象的类别以及内容简介中的关键词,并在图书分类管理数据库中与目标对象相同的管理类别下,查找与关键词之间相似度大于预设相似度阈值的关联对象。其中,图书分类管理数据库可以由图书馆的智能配套系统进行设置,用于对馆存图书进行分类管理,以便于用户查阅;也可以由电子书售卖平台进行设置,以在向用户进行售卖时方便调取。例如,“盗墓笔记系列”“鬼吹灯系列”均存储在图书分类管理数据库中“悬疑、冒险”类别下,关键词为“盗墓”,当用户A对“盗墓笔记系列”图书的评价文本信息的情感分类结果为正面情感,则提取类别“悬疑、毛线”,关键词“盗墓”,查找到关联图书“鬼吹灯系列”。
104、若存在关联对象,则基于相似度值进行排序,按照排序结果输出关联对象。
本申请实施例中,若查找到了与目标对象类别相同,关键词相关联的关联对象,则基于相似度值进行排序,按照排序结果将关联对象进行输出,可以按照由高到低的顺序进行输出,也可以按照由低到高的顺序进行输出,具体可以由用户自行设定,本申请实施例不做具体限定。
需要说明的是,目标对象类别相同,关键词相关联的关联对象可以是1项也可以是多项,将其按照相似度排序结果进行输出,可以使用户根据自己的选择,首先看到与自己感兴趣的目标对象关联度高的关联对象,更容易点击查看。
本申请实施例提供了另一种基于文本对抗样例的信息推送方法,如图2所示,该方法包括:
201、获取全量初始评价文本信息;
本申请实施例中,以带有评价以及推送功能的图书智能管理系统为例,在构建模型之前,首先获取全量初始评价文本信息。其中,图书智能管理系统中存储的所有图书的评价文本信息,经过标注后,作为全量初始评价文本信息。
202、对初始评价文本信息进行目标字符串的筛选,得到情感分析训练原始样本集。
本申请实施例中,全量初始评价文本信息具体可表示为:G={(x1,y1),...,(xi,yi),...,(xn,yn)},其中,(xi,yi)分别表示数据集G中第i条评价文本信息和其对应的正负面类别标签,n表示数据集总数量,对于任一条评价文本信息,yi∈{0,1},0表示正面标签,1表示负面标签。由于原始图书的文本信息中蕴含着大量的无用字符,因此需要评价文本信息做数据预处理,主要包括分词、去停用词、去标点符号等操作,最终第i条评价文本信息,可表示为其中,wij表示为评价文本信息xi预处理后的第j个词或者词语(token),l表示预处理后的文本长度,则数据集G经过预处理后可表示为D。
203、基于卷积神经网络构建初始文本情感分析模型,并基于情感分析训练原始样本集对初始文本情感分析模型进行模型训练,得到基础文本情感分析模型。
本申请实施例中,基于步骤202预处理的评价文本信息D,示例性的,本申请实施例采用TextCNN模型训练该评价文本信息,生成初始文本情感分析模型M1。模型训练完成后,模型M1可以有效的预测评价文本信息属于正负面情感的概率。
样本xi属于正面情感的概率Pi可表述为:
Pi=M1(xi)
样本xi属于负面情感的概率Ni可表述为:
Ni=1-Pi
204、基于基础文本情感分析模型,计算评价文本信息中标记词的重要性参数,选取重要性参数最大值对应的标记词作为评价文本信息的种子词。
其中,评价文本信息为所述情感分析训练原始样本集中的评价文本信息。
本申请实施例中,对于评价文本信息中任一标记词wij的重要性参数计算如下:
从评价文本信息xi中删除wij,记作xi[≠j],然后将xi[≠j]输入到模型M1中预测其分数,公式如下:
其中,pi[≠j]表示将xi[≠j]输入到模型M1中获取的分数,yi表示样本xi的真实标签,Sij表示将标记词wij在评价文本信息xi中的重要性,它反映了标记词wij对样本标签yi的影响程度,同时Sij越大表示wij对评价文本信息xi越重要。
统计评价文本信息D中每条样本中每个标记词的重要性参数,选取每条评价文本信息中重要性参数最大的标记词作为该评价文本信息的种子词。
205、基于预训练语言表示模型预测种子词位置的对应标记词,获取预设数量的标记词替换种子词,生成评价文本信息的待度量对抗样例。
本申请实施例中,假设评价文本信息xi的种子词标记为wij,将评价文本信息wij替换为[MASK],则替换后的评价文本信息xi可表示为xi*=[wi1,wi2,...,[MASK],...,wil],然后将xi*输入到预训练的语言表示模型中,预测种子词位置所对应的词,模型结构如下图3所示。将评价文本信息xi的替换文本xi*输入到预训练的语言表示模型预测种子词位置对应标记词wi*,经过模型预测后,获取该位置预设数量的标记词替换原始评价文本信息xi的种子词,生成新的文本即为评价文本信息xi的待度量对抗样例。
206、基于语义相似度模型度量待度量对抗样例和评价文本信息之间的相似度参数,选取相似度参数最大值对应的待度量对抗样例作为评价文本信息的对抗样例,生成情感分析训练扩充样本集。
基于步骤205预训练模型生成的待度量对抗样例,保证了文本上下文的连贯性,为了进一步保证对抗样例的与原评价文本信息的语义相似性,本申请实施例中,基于语义相似度模型度量待度量对抗样例和评价文本信息之间的相似度参数,选取相似度参数最大值对应的待度量对抗样例作为评价文本信息的对抗样例,并生成情感分析训练扩充样本集。
207、基于由所述情感分析训练原始样本集以及情感分析训练扩充样本集组合得到的训练样本对基础文本情感分析模型进行训练,得到文本情感分析模型。
本申请实施例中,将步骤206生成的情感分析训练扩充样本集与步骤202得到情感分析训练原始样本集组合得到的训练样本,对步骤203得到基础文本情感分析模型进行训练,得到文本情感分析模型。由于将原始训练样本扩充了一本,以使得文本情感分析模型的准确度得以大幅度提升。
另一个实施例中,为了进一步说明及限定,本实施例方法还包括:若情感分类结果为负面情感,则输出询问框,询问框用于询问是否屏蔽目标对象的管理类别下的所有对象;若屏蔽,则基于用户特征信息从分类管理数据库中匹配替换对象,将替换对象进行推送,用户特征信息包括用户年龄、用户性别以及借阅记录。
具体的,若用户对于目标对象的评价文本信息的情感分类结果为负面情感,则说明该用户对目标对象不喜欢或者不感兴趣,那么大概率也是不希望接收到与之相关联的信息推送的,为了确定用户是否真的不希望接收相关推送,此时,可以向用户输出询问框,用于确定是否屏蔽与目标对象相关联的其他所有对象。若接收到确定屏蔽的反馈,则执行屏蔽操作,并基于用户特征信息从分类管理数据库中查询与之相匹配的替换对象进行推送,以提升用户的体验感。其中用户特征信息可以包括用户年龄、用户性别以及借阅记录等。例如,用户A为23岁女性用户,借阅记录中“都市言情类”图书借阅的比例最高,则在图书分类管理数据库中匹配都市言情类的图书进行推送。
需要说明的是,用户特征信息中用户年龄、用户性别等基础信息可以在用户进行系统注册时获得,借阅记录需要在用户的每次登录操作后及时更新,以确保信息的时效性。
另一个实施例中,为了进一步说明及限定,本实施例方法还包括:若不存在关联对象,则输出关注度排行榜,关注度排行榜用于表征分类管理数据库中所有对象的被关注程度的排行榜。
具体的,若在分类管理数据库中为查找到与目标对象相匹配的关联对象时,为了保证用户的体验感,可以向用户输出关注度排行榜。其中,关注度排行榜用于表征分类管理数据库中所有对象的被关注程度的排行榜,例如,热门图书借阅榜,图书热销榜等。
本申请提供了一种基于文本对抗样例的信息推送方法,首先获取目标对象的评价文本信息;其次基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;再次若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;最后若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。与现有技术相比,本申请实施例通过利用由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的文本情感分析模型对目标对象的评价文本信息进行分类处理,大大的提高了对评价文本信息分类处理的准确度,以使得根据分类处理结果进行信息推送的有效性也得到了相应的提高。
进一步的,作为对上述图1所示方法的实现,本申请实施例提供了一种基于文本对抗样例的信息推送装置,如图4所示,该装置包括:
第一获取模块31,分类模块32,查找模块33,第一输出模块34。
第一获取模块31,用于获取目标对象的评价文本信息;
分类模块32,用于基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;
查找模块33,用于若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;
第一输出模块34,用于若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。
在具体的应用场景中,所述分类模块32之前,所述装置还包括:
第二获取模块,用于获取全量初始评价文本信息,得到情感分析训练原始样本集;
构建模块,用于基于卷积神经网络构建初始文本情感分析模型,并基于所述情感分析训练原始样本集对所述初始文本情感分析模型进行模型训练,得到基础文本情感分析模型。
在具体的应用场景中,所述构建模块之后,所述装置还包括:
计算模块,用于基于所述基础文本情感分析模型,计算所述评价文本信息中标记词的重要性参数,选取重要性参数最大值对应的标记词作为所述评价文本信息的种子词,所述评价文本信息为所述情感分析训练原始样本集中的评价文本信息;
预测模块,用于基于预训练语言表示模型预测所述种子词位置的对应标记词,获取预设数量的标记词替换所述种子词,生成所述评价文本信息的待度量对抗样例;
度量模块,用于基于语义相似度模型度量所述待度量对抗样例和所述评价文本信息之间的相似度参数,选取相似度参数最大值对应的所述待度量对抗样例作为所述评价文本信息的对抗样例,生成情感分析训练扩充样本集。
在具体的应用场景中,所述度量模块之后,所述装置还包括:
训练模块,用于基于由所述情感分析训练原始样本集以及所述情感分析训练扩充样本集组合得到的训练样本对所述基础文本情感分析模型进行训练,得到文本情感分析模型。
在具体的应用场景中,所述第二获取模块,具体包括:
获取单元,用于获取全量初始评价文本信息;
筛选单元,用于对所述初始评价文本信息进行目标字符串的筛选,得到情感分析训练原始样本集。
在具体的应用场景中,所述装置还包括:
第二输出模块,用于若所述情感分类结果为负面情感,则输出询问框,所述询问框用于询问是否屏蔽所述目标对象的管理类别下的所有对象;
匹配模块,用于若屏蔽,则基于用户特征信息从所述分类管理数据库中匹配替换对象,将所述替换对象进行推送,所述用户特征信息包括用户年龄、用户性别以及借阅记录。
在具体的应用场景中,所述装置还包括:
第三输出模块,用于若不存在所述关联对象,则输出关注度排行榜,所述关注度排行榜用于表征所述分类管理数据库中所有对象的被关注程度的排行榜。
本申请提供了一种基于文本对抗样例的信息推送装置,首先获取目标对象的评价文本信息;其次基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;再次若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;最后若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。与现有技术相比,本申请实施例通过利用由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的文本情感分析模型对目标对象的评价文本信息进行分类处理,大大的提高了对评价文本信息分类处理的准确度,以使得根据分类处理结果进行信息推送的有效性也得到了相应的提高。
根据本申请一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于文本对抗样例的信息推送方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
图5示出了根据本申请一个实施例提供的一种计算机设备的结构示意图,本申请具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述基于文本对抗样例的信息推送方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
获取目标对象的评价文本信息;
基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;
若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;
若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述基于文本对抗样例的信息推送的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本申请的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。

Claims (8)

1.一种基于文本对抗样例的信息推送方法,其特征在于,包括:
获取目标对象的评价文本信息;
基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;
若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;
若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象;
其中,所述方法还包括:
基于基础文本情感分析模型,计算所述评价文本信息中标记词的重要性参数,选取重要性参数最大值对应的标记词作为所述评价文本信息的种子词,所述评价文本信息为情感分析训练原始样本集中的评价文本信息,所述基础文本情感分析模型为基于情感分析训练原始样本集对初始文本情感分析模型进行训练得到的;
基于预训练语言表示模型预测所述种子词位置的对应标记词,获取预设数量的标记词替换所述种子词,生成所述评价文本信息的待度量对抗样例;
基于语义相似度模型度量所述待度量对抗样例和所述评价文本信息之间的相似度参数,选取相似度参数最大值对应的所述待度量对抗样例作为所述评价文本信息的对抗样例,生成情感分析训练扩充样本集,以将所述情感分析训练原始样本集以及所述情感分析训练扩充样本集组合得到的训练样本对所述基础文本情感分析模型进行训练,得到文本情感分析模型。
2.根据权利要求1所述的方法,其特征在于,所述基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理之前,所述方法还包括:
获取全量初始评价文本信息,得到情感分析训练原始样本集;
基于卷积神经网络构建初始文本情感分析模型,并基于所述情感分析训练原始样本集对所述初始文本情感分析模型进行模型训练,得到基础文本情感分析模型。
3.根据权利要求2所述的方法,其特征在于,所述获取全量初始评价文本信息,得到情感分析训练原始样本集,具体包括:
获取全量初始评价文本信息;
对所述初始评价文本信息进行目标字符串的筛选,得到情感分析训练原始样本集。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述情感分类结果为负面情感,则输出询问框,所述询问框用于询问是否屏蔽所述目标对象的管理类别下的所有对象;
若屏蔽,则基于用户特征信息从所述分类管理数据库中匹配替换对象,将所述替换对象进行推送,所述用户特征信息包括用户年龄、用户性别以及借阅记录。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若不存在所述关联对象,则输出关注度排行榜,所述关注度排行榜用于表征所述分类管理数据库中所有对象的被关注程度的排行榜。
6.一种基于文本对抗样例的信息推送装置,其特征在于,包括:
第一获取模块,用于获取目标对象的评价文本信息;
分类模块,用于基于已完成模型训练的文本情感分析模型对所述评价文本信息进行分类处理,得到情感分类结果,所述文本情感分析模型是由扩充文本信息以及原始文本信息组合得到的训练样本训练得到的,所述扩充文本信息用于表征基于掩码语言模型生成的文本对抗样例;
查找模块,用于若所述情感分类结果为正面情感,则提取所述目标对象的管理类别以及关键词,并在预设分类管理数据库中与所述目标对象相同的管理类别下,查找与所述关键词之间相似度大于预设相似度阈值的关联对象;
第一输出模块,用于若存在所述关联对象,则基于相似度值进行排序,按照排序结果输出所述关联对象;
其中,所述装置还包括:
计算模块,用于基于基础文本情感分析模型,计算所述评价文本信息中标记词的重要性参数,选取重要性参数最大值对应的标记词作为所述评价文本信息的种子词,所述评价文本信息为情感分析训练原始样本集中的评价文本信息,所述基础文本情感分析模型为基于情感分析训练原始样本集对初始文本情感分析模型进行训练得到的;
预测模块,用于基于预训练语言表示模型预测所述种子词位置的对应标记词,获取预设数量的标记词替换所述种子词,生成所述评价文本信息的待度量对抗样例;
度量模块,用于基于语义相似度模型度量所述待度量对抗样例和所述评价文本信息之间的相似度参数,选取相似度参数最大值对应的所述待度量对抗样例作为所述评价文本信息的对抗样例,生成情感分析训练扩充样本集,以将所述情感分析训练原始样本集以及所述情感分析训练扩充样本集组合得到的训练样本对所述基础文本情感分析模型进行训练,得到文本情感分析模型。
7.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的基于文本对抗样例的信息推送方法对应的操作。
8.一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的基于文本对抗样例的信息推送方法对应的操作。
CN202111536773.8A 2021-12-15 2021-12-15 基于文本对抗样例的信息推送方法及装置 Active CN114238573B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111536773.8A CN114238573B (zh) 2021-12-15 2021-12-15 基于文本对抗样例的信息推送方法及装置
PCT/CN2022/089693 WO2023108980A1 (zh) 2021-12-15 2022-04-27 基于文本对抗样例的信息推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111536773.8A CN114238573B (zh) 2021-12-15 2021-12-15 基于文本对抗样例的信息推送方法及装置

Publications (2)

Publication Number Publication Date
CN114238573A CN114238573A (zh) 2022-03-25
CN114238573B true CN114238573B (zh) 2023-09-22

Family

ID=80756511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111536773.8A Active CN114238573B (zh) 2021-12-15 2021-12-15 基于文本对抗样例的信息推送方法及装置

Country Status (2)

Country Link
CN (1) CN114238573B (zh)
WO (1) WO2023108980A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238573B (zh) * 2021-12-15 2023-09-22 平安科技(深圳)有限公司 基于文本对抗样例的信息推送方法及装置
CN116882412A (zh) * 2023-06-29 2023-10-13 易方达基金管理有限公司 一种基于nlp分类的语义推理方法及系统
CN117350804A (zh) * 2023-09-22 2024-01-05 深圳市小绿人网络信息技术有限公司 基于综合信用积分体系的信息推送方法及系统
CN117093782B (zh) * 2023-10-20 2024-03-12 国网智能科技股份有限公司 一种电力人工智能模型系统及方法
CN117574981B (zh) * 2024-01-16 2024-04-26 城云科技(中国)有限公司 一种信息分析模型的训练方法及信息分析方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684478A (zh) * 2018-12-18 2019-04-26 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN110162770A (zh) * 2018-10-22 2019-08-23 腾讯科技(深圳)有限公司 一种词扩展方法、装置、设备及介质
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111950254A (zh) * 2020-09-22 2020-11-17 北京百度网讯科技有限公司 搜索样本的词特征提取方法、装置、设备以及存储介质
CN112507735A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置和电子设备
CN112598039A (zh) * 2020-12-15 2021-04-02 平安普惠企业管理有限公司 获取nlp分类领域阳性样本方法及相关设备
CN112883193A (zh) * 2021-02-25 2021-06-01 中国平安人寿保险股份有限公司 一种文本分类模型的训练方法、装置、设备以及可读介质
CN113420145A (zh) * 2021-05-11 2021-09-21 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN113486670A (zh) * 2021-07-23 2021-10-08 平安科技(深圳)有限公司 基于目标语义的文本分类方法、装置、设备及存储介质
CN113705697A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于情感分类模型的信息推送方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2665239C2 (ru) * 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
US11151175B2 (en) * 2018-09-24 2021-10-19 International Business Machines Corporation On-demand relation extraction from text
US20200151246A1 (en) * 2018-11-13 2020-05-14 International Business Machines Corporation Labeling Training Set Data
US11610061B2 (en) * 2019-12-02 2023-03-21 Asapp, Inc. Modifying text according to a specified attribute
US11544472B2 (en) * 2020-01-17 2023-01-03 Samsung Electronics Co., Ltd. Structured adversarial, training for natural language machine learning tasks
CN114238573B (zh) * 2021-12-15 2023-09-22 平安科技(深圳)有限公司 基于文本对抗样例的信息推送方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162770A (zh) * 2018-10-22 2019-08-23 腾讯科技(深圳)有限公司 一种词扩展方法、装置、设备及介质
CN109684478A (zh) * 2018-12-18 2019-04-26 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111950254A (zh) * 2020-09-22 2020-11-17 北京百度网讯科技有限公司 搜索样本的词特征提取方法、装置、设备以及存储介质
CN112598039A (zh) * 2020-12-15 2021-04-02 平安普惠企业管理有限公司 获取nlp分类领域阳性样本方法及相关设备
CN112507735A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置和电子设备
CN112883193A (zh) * 2021-02-25 2021-06-01 中国平安人寿保险股份有限公司 一种文本分类模型的训练方法、装置、设备以及可读介质
CN113420145A (zh) * 2021-05-11 2021-09-21 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN113486670A (zh) * 2021-07-23 2021-10-08 平安科技(深圳)有限公司 基于目标语义的文本分类方法、装置、设备及存储介质
CN113705697A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于情感分类模型的信息推送方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于信息熵的半监督领域实体关系抽取研究;郭剑毅;雷春雅;余正涛;苏磊;赵君;田维;;山东大学学报(工学版)(第04期);第10-15页 *
结合半监督学习和LDA模型的文本分类方法;韩栋;王春华;肖敏;;计算机工程与设计(第10期);第273-279页 *

Also Published As

Publication number Publication date
CN114238573A (zh) 2022-03-25
WO2023108980A1 (zh) 2023-06-22

Similar Documents

Publication Publication Date Title
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
US11663254B2 (en) System and engine for seeded clustering of news events
Li et al. Using text mining and sentiment analysis for online forums hotspot detection and forecast
US8843490B2 (en) Method and system for automatically extracting data from web sites
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
JP2005316999A (ja) エンハンストドキュメント取り出しのためのコンテンツ伝播
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN107368521B (zh) 一种基于大数据和深度学习的知识推介方法及系统
CN115659008B (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CA2956627A1 (en) System and engine for seeded clustering of news events
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
WO2007011714A9 (en) Method and system for automatically extracting data from web sites
CN114238735B (zh) 一种互联网数据智能采集方法
CN115905705A (zh) 基于工业大数据的工业算法模型推荐方法
Dziczkowski et al. An opinion mining approach for web user identification and clients' behaviour analysis
CN115658993A (zh) 一种网页的核心内容的智能化抽取方法及系统
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
Omidvar et al. A novel approach to determining the quality of news headlines
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
CN110930189A (zh) 基于用户行为的个性化营销方法
Mohammadi et al. Web Content Extraction by Weighing the Fundamental Contextual Rules
Liu et al. Faceted bug report search with topic model
Saura et al. Does SEO matter for early-stage startups? Insights from visual data mining and topic-modeling techniques
CN115906858A (zh) 文本处理方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40063364

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant