CN116383372A - 基于人工智能的数据分析方法及系统 - Google Patents

基于人工智能的数据分析方法及系统 Download PDF

Info

Publication number
CN116383372A
CN116383372A CN202310397967.7A CN202310397967A CN116383372A CN 116383372 A CN116383372 A CN 116383372A CN 202310397967 A CN202310397967 A CN 202310397967A CN 116383372 A CN116383372 A CN 116383372A
Authority
CN
China
Prior art keywords
text
long
long text
pushed
verified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310397967.7A
Other languages
English (en)
Other versions
CN116383372B (zh
Inventor
王野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chuangyi Internet Technology Co ltd
Original Assignee
Xinyu Technology Shenyang Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinyu Technology Shenyang Co ltd filed Critical Xinyu Technology Shenyang Co ltd
Priority to CN202310397967.7A priority Critical patent/CN116383372B/zh
Publication of CN116383372A publication Critical patent/CN116383372A/zh
Application granted granted Critical
Publication of CN116383372B publication Critical patent/CN116383372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供的基于人工智能的数据分析方法及系统,通过从承载了待推送对象的阅读事件记录的对象特征中挖掘得到待推送对象对过往长文本特征集合中的每一过往长文本的倾向度,那么需求识别模型可以基于待推送对象的对象特征和过往长文本特征集合构建待推送对象的阅读需求集合,待推送对象的阅读需求集合包括待推送对象对每一过往长文本的倾向度以及待推送对象对多个过往长文本的合计倾向度的比例系数,待推送对象的阅读需求集合可以体现待推送对象对过往长文本特征集合中每一过往长文本的倾向度情况。然后长文本匹配模型基于待推送对象的阅读需求集合为待推送对象进行长文本匹配,匹配得到的长文本和待推送对象的倾向度情况更加的匹配。

Description

基于人工智能的数据分析方法及系统
技术领域
本申请涉及人工智能领域,具体涉及一种基于人工智能的数据分析方法及系统。
背景技术
随着互联网的迅速发展,传统的文本阅读空间被大范围迁移至互联网上。文学作品、时事要闻等传统纸媒基本被互联网替代,相较于传统阅读方式,互联网阅读平台不仅可以为平台用户提供文本内容,还可以根据用户的阅读倾向进行分析,并为用户展示推送优质内容,以减少平台用户找寻倾向内容的过程,增加用户的使用体验,提高用户对平台的粘性。目前,对于文本展示推送的方式通常采用关联文本展示的方式,例如同一作者的多个作品,简介相似的多个关联文本展示等等,其结合的维度较为简单,不利于高效准确地进行文本展示。
发明内容
本申请提供了一种基于人工智能的数据分析方法及系统。
根据本申请的一方面,提供了一种基于人工智能的数据分析方法,应用于数据分析系统,所述方法包括:获取不少于两个待推荐长文本的长文本特征和待推送对象的对象特征,所述待推送对象的对象特征是基于所述待推送对象的对象画像信息和所述待推送对象的阅读事件记录得到的;基于所述待推送对象已阅读的多个过往长文本,获取所述多个过往长文本的长文本特征构建的所述待推送对象的过往长文本特征集合;将所述待推送对象的对象特征和过往长文本特征集合加载至需求识别模型,得到所述待推送对象的阅读需求集合,所述待推送对象的阅读需求集合包括所述待推送对象对每个所述过往长文本的倾向度与所述待推送对象对所述多个过往长文本的合计倾向度的比例系数;将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至长文本匹配模型,得到所述长文本匹配模型基于所述不少于两个待推荐长文本分别被所述待推送对象积极响应的第一置信系数,从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本。
作为一种实施方式,所述将所述待推送对象的对象特征和过往长文本特征集合加载至需求识别模型,得到所述待推送对象的阅读需求集合,包括:将所述待推送对象的对象特征和过往长文本特征集合加载至所述需求识别模型,得到所述待推送对象对每个所述过往长文本的倾向度与所述待推送对象对所述多个过往长文本的合计倾向度的比例系数;基于所述多个过往长文本各自对应的比例系数,得到所述待推送对象的过往长文本特征集合的整合权重集;基于所述整合权重集和所述待推送对象的过往长文本特征集合,构建所述待推送对象的阅读需求集合。
作为一种实施方式,所述需求识别模型通过如下操作进行调试得到:获取多个第一示例对象的示例对象特征和所述多个第一示例对象分别对应的示例过往长文本特征集合;将所述多个第一示例对象的示例对象特征和示例过往长文本特征集合加载至基础需求识别模型,得到所述多个第一示例对象分别对应的示例阅读需求集合;获取每个所述第一示例对象已阅读的第一示例长文本的长文本特征和指示所述第一示例长文本有没有被所述第一示例对象积极响应的批注信息;将每个所述第一示例对象已阅读的第一示例长文本的长文本特征和所述第一示例对象的示例阅读需求集合加载至所述长文本匹配模型,得到所述第一示例长文本有没有被所述第一示例对象积极响应的第一推理置信系数;基于每个所述第一示例长文本的第一推理置信系数与批注信息,对所述基础需求识别模型进行调试,得到所述需求识别模型。
作为一种实施方式,所述将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本,包括:将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至所述长文本匹配模型,得到所述不少于两个待推荐长文本分别被所述待推送对象积极响应的第一置信系数;基于所述不少于两个待推荐长文本分别对应的第一置信系数,获取所述不少于两个待推荐长文本分别对应的第一匹配系数;基于所述不少于两个待推荐长文本分别对应的第一匹配系数,从所述不少于两个待推荐长文本中确定所述待推送对象的匹配长文本。
作为一种实施方式,在所述基于所述待推送对象已阅读的多个过往长文本,获取所述多个过往长文本的长文本特征构建的所述待推送对象的过往长文本特征集合之后,还包括:将所述待推送对象的对象特征和过往长文本特征集合加载至需求聚焦模型,得到所述待推送对象的需求聚焦集合;所述将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本,包括:将所述不少于两个待推荐长文本的长文本特征,以及所述待推送对象的阅读需求集合和需求聚焦集合,加载至所述长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本;其中,所述将所述待推送对象的对象特征和过往长文本特征集合加载至需求聚焦模型,得到所述待推送对象的需求聚焦集合,包括:将所述待推送对象的对象特征和过往长文本特征集合加载至所述需求聚焦模型,将所述待推送对象的对象特征映射为与所述过往长文本的长文本特征一致维数的映射数组;获取所述待推送对象的过往长文本特征集合中每个所述过往长文本的长文本特征与所述映射数组的共性度量系数,得到所述待推送对象的过往长文本特征集合的聚焦权重;基于所述聚焦权重和所述待推送对象的过往长文本特征集合,构建所述待推送对象的需求聚焦集合。
作为一种实施方式,所述需求聚焦模型通过如下操作调试得到:获取多个第二示例对象的示例对象特征和所述多个第二示例对象分别对应的示例过往长文本特征集合;将所述多个第二示例对象的示例对象特征和示例过往长文本特征集合加载至基础需求聚焦模型,得到所述多个第二示例对象分别对应的示例需求聚焦集合;获取每个所述第二示例对象已阅读的第二示例长文本的长文本特征和指示所述第二示例长文本有没有被所述第二示例对象积极响应的批注信息;将每个所述第二示例对象已阅读的第二示例长文本的长文本特征和所述第二示例对象的示例需求聚焦集合加载至所述长文本匹配模型,得到所述第二示例长文本有没有被所述第二示例对象积极响应的第二推理置信系数;基于每个所述第二示例长文本的第二推理置信系数与批注信息,对所述基础需求聚焦模型进行调试,得到所述需求聚焦模型;其中,所述将每个所述第二示例对象已阅读的第二示例长文本的长文本特征和所述第二示例对象的示例需求聚焦集合加载至所述长文本匹配模型,得到所述第二示例长文本有没有被所述第二示例对象积极响应的第二推理置信系数,包括:获取每个所述第二示例对象的示例阅读需求集合;将每个所述第二示例对象已阅读的第二示例长文本的长文本特征,以及所述第二示例对象的示例需求聚焦集合和示例阅读需求集合,加载至所述长文本匹配模型,得到所述第二示例长文本有没有被所述第二示例对象积极响应的第二推理置信系数。
作为一种实施方式,所述将所述不少于两个待推荐长文本的长文本特征,以及所述待推送对象的阅读需求集合和需求聚焦集合,加载至所述长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本,包括:将所述不少于两个待推荐长文本的长文本特征,以及所述待推送对象的阅读需求集合和需求聚焦集合,加载至所述长文本匹配模型,得到所述不少于两个待推荐长文本被所述待推送对象积极响应的第二置信系数;基于所述不少于两个待推荐长文本分别对应的第二置信系数,获取所述不少于两个待推荐长文本分别对应的第二匹配系数;基于所述不少于两个待推荐长文本分别对应的第二匹配系数,从所述不少于两个待推荐长文本中确定所述待推送对象的匹配长文本。
作为一种实施方式,所述方法还包括:从拟验证长文本中获取第一设定数目个拟验证文本段落,并获取所述拟验证长文本的拟验证简介文本段落;将所述拟验证简介文本段落分别和每个所述拟验证文本段落构建获得一个拟验证文本段落组,获得所述第一设定数目个拟验证文本段落组;将所述第一设定数目个拟验证文本段落组加载到事先部署的长文本简介分析网络,获得所述第一设定数目个所述拟验证文本段落与所述拟验证简介文本段落的拟验证文本段落匹配系数;基于所述第一设定数目个拟验证文本段落匹配系数,确定得到所述拟验证长文本的验证结果;其中,所述验证结果包括第一验证结果和第二验证结果,所述第一验证结果指示简介文本不可以作为所述拟验证长文本的简介,所述第二验证结果指示简介文本可以作为所述拟验证长文本的简介。
作为一种实施方式,所述基于所述第一设定数目个拟验证文本段落匹配系数,确定得到所述拟验证长文本的验证结果,包括:将所述第一设定数目个拟验证文本段落匹配系数分别与匹配系数临界值进行对比,并获取小于所述匹配系数临界值的拟验证文本段落匹配系数的数目统计结果;将所述数目统计结果与数目统计结果临界值进行对比,如果所述数目统计结果大于所述数目统计结果临界值,则确认所述拟验证长文本对应所述第一验证结果,如果所述数目统计结果小于或等于所述数目统计结果临界值,则确认所述拟验证长文本对应所述第二验证结果;其中,所述数目统计结果临界值不大于所述第一设定数目;所述基于所述第一设定数目个拟验证文本段落匹配系数,确定得到所述拟验证长文本的验证结果,包括:基于每一拟验证文本段落对应的权重信息,对所述第一设定数目个拟验证文本段落匹配系数进行加权求和,得到计算结果;将所述计算结果与所述匹配系数临界值进行对比,如果所述计算结果小于所述匹配系数临界值,则确认所述拟验证长文本对应所述第一验证结果,如果所述计算结果大于或等于所述匹配系数临界值,则确认所述拟验证长文本对应所述第二验证结果。
根据本申请的另一方面,提供了一种数据分析系统,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一项所述的方法。
本申请至少包括如下有益效果:
本申请实施例提供的基于人工智能的数据分析方法及系统,通过从承载了待推送对象的阅读事件记录的对象特征中挖掘得到待推送对象对过往长文本特征集合中的每一过往长文本的倾向度,那么需求识别模型可以基于待推送对象的对象特征和过往长文本特征集合构建待推送对象的阅读需求集合,待推送对象的阅读需求集合包括待推送对象对每一过往长文本的倾向度以及待推送对象对多个过往长文本的合计倾向度的比例系数,待推送对象的阅读需求集合可以体现待推送对象对过往长文本特征集合中每一过往长文本的倾向度情况。然后长文本匹配模型基于待推送对象的阅读需求集合为待推送对象进行长文本匹配,匹配得到的长文本和待推送对象的倾向度情况更加的匹配,精度更好。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本申请的实施例的基于人工智能的数据分析方法的应用场景示意图。
图2示出了根据本申请的实施例的一种基于人工智能的数据分析方法的流程图。
图3示出了根据本申请的实施例的数据分析装置的功能模块架构示意图。
图4示出了根据本申请的实施例的一种数据分析系统的组成示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本申请中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。在本申请中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本申请中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
图1示出了根据本申请的实施例提供的场景示意图,包括一个或多个客户端101、数据分析系统120以及将一个或多个客户端101耦接到数据分析系统120的一个或多个通信网络110。客户端101可以被配置为执行一个或多个应用程序。在本申请的实施例中,数据分析系统120可以运行使得能够执行基于人工智能的数据分析方法的一个或多个服务或软件应用。
在某些实施例中,数据分析系统120还可以提供其他服务或软件应用,这些服务或软件应用可以包括非虚拟环境和虚拟环境。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端101的用户。在图1所示的配置中,数据分析系统120可以包括实现由数据分析系统120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端101的用户可以依次利用一个或多个应用程序来与数据分析系统120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与系统100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。
用户可以使用客户端101进行文本阅读。客户端101可以提供使客户端101的用户能够与客户端101进行交互的接口。客户端101还可以经由该接口向用户输出信息。客户端101可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统,例如MICROSOFT Windows、APPLE iOS、类UNIX操作系统、Linux或类Linux操作系统(例如GOOGLE Chrome OS);或包括各种移动操作系统,例如MICROSOFT Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器(诸如智能眼镜)和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端101能够执行各种不同的应用程序,例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序,并且可以使用各种通信协议。网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、区块链网络、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。
数据分析系统120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。数据分析系统120可以包括运行虚拟操作系统的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,数据分析系统120可以运行提供下文所描述的功能的一个或多个服务或软件应用。数据分析系统120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。数据分析系统120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。
在一些实施方式中,数据分析系统120可以包括一个或多个应用程序,以分析和合并从客户端101的用户接收的数据馈送和/或事件更新。数据分析系统120还可以包括一个或多个应用程序,以经由客户端101的一个或多个显示设备来显示数据馈送和/或实时事件。在一些实施方式中,数据分析系统120可以为分布式系统的服务器,或者是结合了区块链的服务器。数据分析系统120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。
此外,还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储长文本。数据库130可以驻留在各种位置。例如,由数据分析系统120使用的数据库可以在数据分析系统120本地,或者可以远离数据分析系统120且可以经由基于网络或专用的连接与数据分析系统120通信。数据库130可以是不同的类型。在某些实施例中,由数据分析系统120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件系统支持的常规存储库。
图1的系统100可以以各种方式配置和操作,以使得能够应用根据本申请所描述的各种方法和装置。
请参照图2,是本申请实施例提供的基于人工智能的数据分析方法的流程图,具体包括以下操作:
操作S101,获取不少于两个待推荐长文本的长文本特征和待推送对象的对象特征。
操作S102,基于待推送对象已阅读的多个过往长文本,获取多个过往长文本的长文本特征构建的待推送对象的过往长文本特征集合。
操作S103,将待推送对象的对象特征和过往长文本特征集合加载至需求识别模型,得到待推送对象的阅读需求集合,待推送对象的阅读需求集合包括待推送对象对每个过往长文本的倾向度与待推送对象对多个过往长文本的合计倾向度的比例系数。
操作S104,将不少于两个待推荐长文本的长文本特征和待推送对象的阅读需求集合加载至长文本匹配模型,得到从不少于两个待推荐长文本中确定的待推送对象的匹配长文本。
本申请实施例中,长文本可以为文学作品(如小说)、时事要闻等长文本,在将数据输入长文本匹配模型进行处理之前,将长文本、待推送对象等进行矢量映射,获得长文本的长文本特征与待推送对象的对象特征。长文本特征为基于长文本的多类特征得到的特征向量,举例而言,长文本特征包括长文本的文本大小,如包含的章节数量、长文本发布对象、长文本分区等。待推荐长文本为文本库中的长文本,例如小说,待推送对象已阅读的多个过往长文本为待推送对象在最近的统计周期内已阅读的多个过往长文本。待推送对象的过往长文本特征集合为待推送对象已阅读的多个过往长文本向量,其具体可基于阅读的时序进行排布,一个过往长文本特征集合包括了每个长文本被待推送对象响应的各种事件类型。举例而言,对于10个过往长文本,构建得到一个购买集合、一个打赏集合,购买集合中包括10个过往长文本分别对应的长文本特征,10个过往长文本中被购买的长文本的长文本特征映射成1,没有被购买的长文本的长文本特征映射成2。打赏集合中包括10个过往长文本分别对应的长文本特征,10个过往长文本中被打赏的长文本的长文本特征映射成1,没有被打赏的长文本的长文本特征映射成2。其他示例中,对于10个过往长文本,仅构建一个集合,其包括10个过往长文本分别对应的长文本特征之外,还包括10个过往长文本是否产生购买、打赏等特征向量,产生购买的长文本的长文本特征映射成1,没有被购买的长文本的长文本特征映射成2,产生打赏的长文本的长文本特征映射成3,没有被打赏的长文本的长文本特征映射成4等。
对象特征为基于待推送对象的对象画像信息和待推送对象的阅读事件记录等得到的,对象画像信息例如为静态描述信息,如学历、性别,待推送对象的阅读事件记录记录的是待推送对象产生的事件数据,如点击、互动等事件。对象特征包括待推送对象的信息,则对对象特征进行处理获得待推送对象对已阅读的过往长文本特征集合中的每个过往长文本的倾向度与待推送对象对过往长文本特征集合中的多个过往长文本的合计倾向度的比例系数。在对象特征中挖掘出对已阅读的过往长文本特征集合中的每个过往长文本的倾向度是需要考虑的重点,待推送对象对过往长文本特征集合中一个过往长文本的倾向度为对过往长文本的倾向度与待推送对象对过往长文本特征集合中全部过往长文本的合计倾向度的比例系数。其中,不同情况或在不同过往长文本特征集合中,待推送对象对一个长文本的倾向度可能不一致。举例而言,不喜欢重复内容的待推送对象对已然推送的和长文本1一样种类的长文本时,对长文本1的倾向度低,没有推送过长文本1一样种类长文本时,对长文本1的倾向度高。那么,过往长文本特征集合中的过往长文本需要有顺次关系,基于对象特征挖掘各过往长文本的倾向度也有顺次关系,顺次关系对应的倾向度,可以精准体现待推送对象的倾向度分布情况。
待推送对象对长文本的倾向度可基于待推送对象对长文本的响应进行评估,举例而言,通常情况下待推送对象对购买的长文本比没有购买的长文本的倾向度高,对打赏的长文本比购买过的长文本倾向度更高。基于待推送对象对已阅读的各个过往长文本的倾向度与过往长文本特征集合中多个长文本的合计倾向度的比例系数对待推送对象的过往长文本特征集合进行偏心计算(乘以对应的权值),获得待推送对象的阅读需求集合,待推送对象的阅读需求集合体现待推送对象对过往长文本特征集合中每个过往长文本的倾向度分布情况,待推送对象倾向度越高,对应的长文本偏心系数越大(权值越大)。
至于怎样将对象特征映射为整合权重集,本申请实施例通过调试需求识别模型,基于需求识别模型从对象特征中挖掘待推送对象对每一过往长文本的倾向度与待推送对象对多个过往长文本的合计倾向度的比例系数。通过整合权重集指示一个待推送对象对待推送对象的过往长文本特征集合中每个过往长文本的倾向度,整合权重集中的每个组元对应顺次关系,整合权重集中的每个组元的顺次关系和每一过往长文本在过往长文本特征集合中的顺次关系相同,如果待推送对象的过往长文本特征集合是一个,对象特征中挖掘得到的是和过往长文本特征集合对应的整合权重集,基于整合权重集对待推送对象的过往长文本特征集合进行处理以获得待推送对象的阅读需求集合,然后基于阅读需求集合对待推送对象进行长文本展示,完成信息推送,如果待推送对象的过往长文本特征集合为多个,对象特征中挖掘得到的是和过往长文本特征集合的数量一致的整合权重集。举例而言,对于包含一样过往长文本的购买集合和打赏集合,各自在对象特征中挖掘得到待推送对象对购买集合的整合权重集和对打赏集合的整合权重集,再基于分别对应的整合权重集对集合进行偏心计算,各自获得购买阅读需求集合和打赏阅读需求集合。获取到两阅读需求集合后,将购买阅读需求集合和打赏阅读需求集合整合起来获得待推送对象的阅读需求集合,基于阅读需求集合进行长文本的推送,或者各自基于每种阅读需求集合获得一匹配系数,再依据每个匹配系数进行长文本推送。
在依据两阅读需求集合进行长文本推送时,例如将购买阅读需求集合和打赏阅读需求集合均各自作为阅读需求集合进行长文本推送,将购买阅读需求集合和打赏阅读需求集合,以及不少于两个待推荐长文本的长文本特征加载至长文本匹配模型,长文本匹配模型基于购买阅读需求集合获得每个待推荐长文本的购买因子,基于打赏阅读需求集合得到每个待推荐长文本的打赏因子,结合每个待推荐长文本的购买因子和打赏因子获得各待推荐长文本的第一匹配系数,依据第一匹配系数确定待推送对象的匹配长文本。基于第一示例对象的示例对象特征和示例过往长文本特征集合对基础需求识别模型进行调试,获得调试完成的需求识别模型,该需求识别模型获取了怎样在示例对象特征中挖掘示例过往长文本特征集合的整合权重集的知识。基于需求识别模型在对象特征中挖掘得到整合权重集,然后基于整合权重集对待推送对象的过往长文本特征集合进行偏心计算,得到待推送对象的阅读需求集合。待推送对象的阅读需求集合中,各过往长文本的长文本特征的偏心系数不同,则待推送对象的阅读需求集合可精确体现待推送对象的倾向度分布情况。长文本匹配模型在基于待推送对象的阅读需求集合对待推送对象进行长文本推送的过程中,匹配得到的长文本更加匹配待推送对象的倾向度,精度更好。长文本匹配模型的调校流程例如采纳现有技术,此处不作限定。
本申请实施例中,对象特征对应待推送对象的各事件记录,从对象特征中可挖掘得到待推送对象对过往长文本特征集合中的各过往长文本的倾向度,则需求识别模型可基于待推送对象的对象特征和过往长文本特征集合构建待推送对象的阅读需求集合,待推送对象的阅读需求集合包括待推送对象对每个过往长文本的倾向度与待推送对象对多个过往长文本的合计倾向度的比例系数,待推送对象的阅读需求集合可以体现待推送对象对过往长文本特征集合中每个过往长文本的倾向度分布情况,然后长文本匹配模型基于待推送对象的阅读需求集合为待推送对象进行长文本展示,完成信息推送,匹配得到的长文本和待推送对象的倾向度情况更加的匹配,精度更好。
下面介绍需求识别模型的调校流程,具体而言,获取多个第一示例对象的示例对象特征和多个第一示例对象分别对应的示例过往长文本特征集合;将多个第一示例对象的示例对象特征和示例过往长文本特征集合加载至基础需求识别模型,获得多个第一示例对象分别对应的示例阅读需求集合。其中,基础需求识别模型为需要进行调试的需求识别模型,模型的组成和调试完成的需求识别模型一致。基于基础需求识别模型获取第一示例对象的示例阅读需求集合的过程和需求识别模型获取待推送对象的阅读需求集合的过程一致。其中,基础需求识别模型获取第一示例对象的示例阅读需求集合的过程包括:将第一示例对象的示例对象特征和示例过往长文本特征集合加载至基础需求识别模型,获得第一示例对象对示例过往长文本特征集合中每个过往长文本的倾向度与第一示例对象对示例过往长文本特征集合中各个过往长文本的合计倾向度的比例系数,基于多个过往长文本各自对应的比例系数,获得第一示例对象的示例过往长文本特征集合的整合权重集。本申请实施例中,采用多倍(例如2)归一化算法(如激活函数ReLU)对比例系数进行计算,以让各比例系数限制在同样的区间,如[0,2],获得第一示例对象的示例过往长文本特征集合的整合权重集。基于整合权重集和第一示例对象的示例过往长文本特征集合,构建第一示例对象的示例阅读需求集合。整合权重集中组元的数量和示例过往长文本特征集合中的长文本特征一致,可以依据每个长文本特征的对应的整合权重集中组元,各自为每个长文本特征进行偏心计算,获得第一示例对象的示例阅读需求集合。
需求识别模型获取待推送对象的阅读需求集合的过程可以包括:将待推送对象的对象特征和过往长文本特征集合加载至需求识别模型,得到待推送对象对过往长文本特征集合中每个过往长文本的倾向度与待推送对象的多个过往长文本的合计倾向度的比例系数,基于多个过往长文本各自对应的比例系数得到待推送对象的过往长文本特征集合的整合权重集,基于整合权重集和待推送对象的过往长文本特征集合,构建待推送对象的阅读需求集合。同理,基于多倍归一化算法对比例系数进行处理,得到待推送对象的过往长文本特征集合的整合权重集。
那么,得到的待推送对象的阅读需求集合体现了待推送对象对过往长文本特征集合中每个过往长文本的倾向度,同时基于多个过往长文本分别对应的比例系数进行处理,令获得的整合权重集完成标准化,有利于后面操作的进行。
对于通过长文本匹配模型协同需求识别模型进行调试的过程,将需求识别模型作为长文本匹配模型的一个预调试流程,基于长文本匹配模型推理出长文本有没有被待推送对象响应,再基于长文本实际上被待推送对象的响应对需求识别模型进行调试,获得调试完成的需求识别模型。需求识别模型得到的阅读需求集合不便直接进行调试,基于长文本匹配模型协同需求识别模型进行调试,长文本匹配模型依据需求识别模型输出的阅读需求集合进行展示推送,长文本匹配模型可以推理得到长文本有没有被待推送对象积极响应,以长文本实际上有没有被待推送对象积极响应作为监督信息对需求识别模型进行调试。
在长文本匹配模型的协同的情况下,对基础需求识别模型进行调试还要获取第一示例对象已阅读的多个第一示例长文本分别对应的长文本特征,以及多个第一示例长文本分别对应的批注信息,第一示例长文本的批注信息指示第一示例长文本有没有被对应的第一示例对象积极响应,例如点击、打赏、购买。对于每一第一示例对象,将第一示例对象已阅读的第一示例长文本的长文本特征和第一示例对象的示例阅读需求集合加载至长文本匹配模型,得到第一示例长文本有没有被第一示例对象积极响应的第一推理置信系数,对于每个响应均对应一推理置信系数。基于每一第一示例长文本的第一推理置信系数与批注信息间的差别,构建误差算法,并依据误差算法对基础需求识别模型进行调试,在基础需求识别模型达到预设条件时获得需求识别模型,预设条件例如为调试达到预设次数、迭代权值的变化小于预设值、误差小于预设误差。
举例而言,在推理购买响应和打赏响应时,将第一示例长文本的长文本特征和对应的第一示例对象的阅读需求集合加载至长文本匹配模型,第一示例对象的阅读需求集合是基于基础需求识别模型获得的,长文本匹配模型推理第一示例长文本被第一示例对象购买的置信系数,以及第一示例长文本被第一示例对象打赏的置信系数。基于第一示例长文本的批注信息中包括的第一示例有没有被第一示例对象购买,以及推理的第一示例长文本被第一示例对象购买的置信系数间的误差,构建购买误差算法,按照相同过程构建打赏误差算法,依据购买误差算法和打赏误差算法对基础需求识别模型的参变量进行优化。依据至少一个过往长文本特征集合调试获得需求识别模型的思路是一致的,即将需求识别模型作为长文本匹配模型的一个预调试过程,基于长文本匹配模型推理长文本有没有被执行集合对应的至少一个响应,再基于长文本实际被响应情况对基础需求识别模型进行调试,以获得调试完成的需求识别模型。其中,需求识别模型的调试过程中,长文本匹配模型为已经调试完成的,或者与需求识别模型一并进行调试,基于调试完成的长文本匹配模型协同需求识别模型进行调试,这样能增加需求识别模型的调试效率,进行长文本展示推送时,运行调试完成的长文本匹配模型。这样,由于需求识别模型得到的阅读需求集合较难直接进行调试,则基于长文本匹配模型协同需求识别模型进行调试,令需求识别模型构建精确的待推送对象的阅读需求集合,同时得到的阅读需求集合更匹配后续长文本匹配模型的需求。
在通过长文本匹配模型确定匹配长文本时,长文本匹配模型基于输入的特征,对于每一待推荐长文本,推理待推荐长文本被待推送对象对应各个响应的第一推理置信系数。举例而言,对于待推荐长文本1,推理待推荐长文本1被待推送对象购买的置信系数为A,推理待推荐长文本2被待推送对象打赏的置信系数为B,对于待推荐长文本2,推理待推荐长文本2被待推送对象购买的置信系数为C,推理待推荐长文本2被待推送对象打赏的置信系数为D。基于每个待推荐长文本分别对应的各响应对应的第一推理置信系数,可获得待推荐长文本的第一匹配系数,各响应对应的第一推理置信系数可配置不同的偏心系数(权值)。举例而言,购买的偏心系数为α,打赏的偏心系数为β,那么,待推荐长文本1的第一匹配系数为αA+βB,待推荐长文本2的第一匹配系数为αC+βD。
基于不少于两个待推荐长文本分别对应的第一匹配系数,在不少于两个待推荐长文本中确定待推送对象的匹配长文本。例如将不少于两个待推荐长文本中第一匹配系数最大的待推荐长文本确定为待推送对象的匹配长文本。这样一来,基于待推送对象的阅读需求集合对待推送对象进行长文本展示,匹配得到的长文本更匹配待推送对象的倾向度分布情况,准确度更高。
作为一种实施方式,基于以上实施例,本申请还可以构建待推送对象的需求聚焦集合,待推送对象的需求聚焦集合是对待推送对象的过往长文本特征集合进行了偏心计算获得的集合,偏心计算对应的偏心系数体现待推送对象对过往长文本特征集合中每个过往长文本的聚焦度,或者说注意力。那么待推送对象的需求聚焦集合包括了待推送对象对过往长文本特征集合中每个过往长文本的聚焦度。待推送对象的需求聚焦集合是在将待推送对象的对象特征和过往长文本特征集合加载至需求聚焦模型后,需求聚焦模型获取的待推送对象的需求聚焦集合,需求聚焦模型是对比学习获取得到。
本申请前述描述了依据待推送对象的阅读需求集合对待推送对象进行长文本展示,将不少于两个待推荐长文本的长文本特征和待推送对象的阅读需求集合加载至长文本匹配模型,获得在不少于两个待推荐长文本中确定的待推送对象的匹配长文本,还可依据待推送对象的需求聚焦集合对待推送对象进行长文本展示,以将不少于两个待推荐长文本的长文本特征和待推送对象的需求聚焦集合加载至长文本匹配模型,获得在不少于两个待推荐长文本中确定的待推送对象的匹配长文本,或者同时依据待推送对象的阅读需求集合和需求聚焦集合对待推送对象进行长文本展示,换言之将不少于两个待推荐长文本的长文本特征,以及待推送对象的阅读需求集合和需求聚焦集合,加载至长文本匹配模型,获得在不少于两个待推荐长文本中确定的待推送对象的匹配长文本。由于待推送对象的需求聚焦集合包括了待推送对象对过往长文本特征集合中每个过往长文本的聚焦度,则依据待推送对象的需求聚焦集合对待推送对象进行长文本展示,相较于直接依据待推送对象的过往长文本特征集合进行长文本展示,能令确定的匹配长文本和过往长文本特征集合中待推送对象更聚焦的过往长文本相关性越好,提高精度。
对于需求聚焦集合的构建,对象特征包括可以获取的待推送对象的信息,那么对待推送对象的对象特征进行处理,可获得待推送对象对过往长文本特征集合中各过往长文本的聚焦度,将待推送对象对过往长文本特征集合中各个过往长文本的聚焦度依据每个过往长文本在过往长文本特征集合中的顺次关系,可获得过往长文本特征集合的聚焦权重。基于过往长文本特征集合的聚焦权重对待推送对象的过往长文本特征集合进行偏心计算,以获得待推送对象的需求聚焦集合。
待推送对象的需求聚焦集合是将待推送对象的对象特征和过往长文本特征集合加载至需求聚焦模型获取得到,需求聚焦模型通过第二示例对象的示例对象特征和示例过往长文本特征集合得到将示例对象特征映射为与过往长文本的长文本特征一致维数的映射数组的知识。作为一种实施方式,将待推送对象的对象特征和过往长文本特征集合加载至需求聚焦模型,需求聚焦模型将待推送对象的对象特征映射为与过往长文本的长文本特征一致维数的待推送对象的映射数组(如一维数组即向量);获取过往长文本特征集合中每个过往长文本的长文本特征与待推送对象的映射数组的共性度量系数,将每个过往长文本对应的共性度量系数确定为在基于过往长文本特征集合构建需求聚焦集合时过往长文本对应的偏心系数(权值),过往长文本在过往长文本特征集合中包含顺次关系,则各过往长文本的偏心系数也对应一致的顺次关系,将包含顺次关系的偏心系数确定为过往长文本特征集合的聚焦权重;基于聚焦权重为待推送对象的过往长文本特征集合进行偏心计算,以构建得到待推送对象的需求聚焦集合。基于此,得到的待推送对象的需求聚焦集合包括待推送对象对过往长文本特征集合中各过往长文本的聚焦度,再依据待推送对象的需求聚焦集合进行长文本展示时,令匹配得到的长文本和过往长文本特征集合中的各个长文本更接近,也就是说,匹配得到的长文本与待推送对象的倾向性更匹配。
对于需求聚焦模型的调试过程,首先获取多个第二示例对象的示例对象特征和多个第二示例对象分别对应的示例过往长文本特征集合。第二示例对象和第一示例对象可以是一致的。再将多个第二示例对象的示例对象特征和示例过往长文本特征集合加载至基础需求聚焦模型,获得多个第二示例对象分别对应的示例需求聚焦集合。该基础需求聚焦模型是需要进行调试的需求聚焦模型,具有和调试完成的需求聚焦模型一样的模型组成架构。基于基础需求聚焦模型获取第二示例对象的示例需求聚焦集合的过程和前述需求聚焦模型获取待推送对象的需求聚焦集合的过程一致。
在长文本匹配模型的协同基础上,对基础需求聚焦模型进行调试还要获取第二示例对象已阅读的多个第二示例长文本分别对应的长文本特征和多个第二示例长文本分别对应的批注信息,第二示例长文本的批注信息指示第二示例长文本有没有被对应的第二示例对象积极响应中各个响应的信息。如果第二示例对象为第一示例对象,则将第一示例对象的第一示例长文本作为第二示例对象的第二示例长文本。对于每一第二示例对象,将第二示例对象已阅读的第二示例长文本的长文本特征和第二示例对象的示例需求聚焦集合加载至长文本匹配模型,获得第二示例长文本有没有被第二示例对象积极响应的第二推理置信系数,例如对于每一响应类型均包括一第二推理置信系数,基于每个第二示例长文本的第二推理置信系数与批注信息间的误差构建误差算法,并依据误差算法对基础需求聚焦模型进行调试,在达到预设条件时获得需求聚焦模型,例如调试次数达到最大迭代次数、达到最小误差值等。
基于此,由于需求聚焦模型得到的需求聚焦集合不好直接进行调试,则依据长文本匹配模型协同需求聚焦模型进行调试,可以令需求聚焦模型构建精准的待推送对象的需求聚焦集合,此外得到的需求聚焦集合更匹配后续长文本匹配模型的需要。作为一种实施方式,可以在输入阅读需求集合的基础上对需求聚焦模型进行调试。
将每个第二示例对象已阅读的第二示例长文本的长文本特征,以及第二示例对象的示例需求聚焦集合和示例阅读需求集合,一并加载至长文本匹配模型获得第二示例长文本有没有被第二示例对象积极响应的第二推理置信系数。其中,得到第二示例对象的示例阅读需求集合的过程和获取第一示例对象的示例阅读需求集合的过程类似。作为一种实施方式,需求聚焦模型为和需求识别模型一起进行调试,也就是加载至长文本匹配模型的第二示例对象的示例需求聚焦集合是依据基础需求聚焦模型获得的,加载至长文本匹配模型的第二示例对象的示例阅读需求集合为基于基础需求识别模型获取得到的。作为一种实施方式,需求聚焦模型为和需求识别模型各自独立调试,也就是加载至长文本匹配模型的第二示例对象的示例需求聚焦集合是基于基础需求聚焦模型获取,加载至长文本匹配模型的第二示例对象的阅读需求集合是基于调试完成的需求识别模型获取的,或者先调试需求聚焦模型,再调试需求识别模型,也就是加载至长文本匹配模型的第二示例对象的需求聚焦集合是基于调试完成的需求聚焦模型获得,加载至长文本匹配模型的第二示例对象的示例阅读需求集合是基于基础需求识别模型获得。
基于此,依据阅读需求集合和需求聚焦集合一起进行长文本展示的情况,在展示推送时精度更高,相较未输入阅读需求集合对需求聚焦模型进行调试,在输入阅读需求集合时对需求聚焦模型进行调试可以对同时依据阅读需求集合和需求聚焦集合进行长文本展示的情况具有更好精度,且基于长文本匹配模型协同需求聚焦模型进行调试能令需求聚焦模型获取待推送对象的需求聚焦集合更符合长文本匹配模型的需求。
对于,长文本匹配模型确定匹配长文本,可将不少于两个待推荐长文本的长文本特征,以及待推送对象的阅读需求集合和需求聚焦集合加载至长文本匹配模型,获得不少于两个待推荐长文本被待推送对象积极响应的第二推理置信系数。如果加载至长文本匹配模型的是不少于两个待推荐长文本的长文本特征和待推送对象的阅读需求集合,则过程和前述过程是一致的。反之,如果加载至长文本匹配模型的是不少于两个待推荐长文本的长文本特征和待推送对象的需求聚焦集合,则将待推送对象对过往长文本特征集合中每个过往长文本的聚焦度进行衡量。如果加载至长文本匹配模型的是不少于两个待推荐长文本的长文本特征、待推送对象的阅读需求集合和需求聚焦集合,则将待推送对象对过往长文本特征集合中每个长文本的倾向度和聚焦度进行衡量,获得的匹配长文本精度更好。
长文本匹配模型基于加载到的各特征,对于每一待推荐长文本,推理待推荐长文本被待推送对象各响应的第二置信系数。基于每个待推荐长文本分别对应的每个响应对应的第二置信系数,获得待推荐长文本的第二匹配系数,不同响应对应的第二置信系数可以设置对应偏心系数。基于不少于两个待推荐长文本分别对应的第二匹配系数,在不少于两个待推荐长文本中确定待推送对象的匹配长文本。作为一种实施方式,可将不少于两个待推荐长文本中第二匹配系数最高的待推荐长文本确定为待推送对象的匹配长文本,或者将不少于两个待推荐长文本依据第二匹配系数的递减次序中的前面多个待推荐长文本确定为匹配长文本。
第二置信系数为在长文本匹配模型加载至不少于两个待推荐长文本的长文本特征,以及待推送对象的阅读需求集合和需求聚焦集合时获得的,或者在长文本匹配模型加载至不少于两个待推荐长文本的长文本特征,以及待推送对象的阅读需求集合或需求聚焦集合中的一个时获得的。基于此,依据待推送对象的阅读需求集合和需求聚焦集合对待推送对象进行长文本展示,匹配得到的长文本不仅满足待推送对象的倾向度分布情况,且更匹配待推送对象聚焦的过往长文本特征集合中的过往长文本,精度更高。
作为本申请实施例的另一个可独立实施的方案,本申请实施例还提供对展示给待推送对象的长文本进行验证的过程。因为通常而言,展示给待推送对象的文本信息是一段简介,以概述文本的基本内容,然而,有时候因为简介的概括不准确,其与内容具有较大的偏差,本申请实施例提供的方法在该独立实施的方案中,具体验证的是长文本简介是否可以作为拟验证长文本的简介。
具体地,可以包括如下操作:
操作S001,从拟验证长文本中获取第一设定数目个拟验证文本段落,并获取拟验证长文本的拟验证简介文本段落。
操作S002,将拟验证简介文本段落分别和每个拟验证文本段落构建获得一个拟验证文本段落组,获得第一设定数目个拟验证文本段落组。
操作S003,将第一设定数目个拟验证文本段落组加载到事先部署的长文本简介分析网络,获得第一设定数目个拟验证文本段落匹配系数。
操作S004,基于第一设定数目个拟验证文本段落匹配系数,确定得到拟验证长文本的验证结果。其中,验证结果包括第一验证结果和第二验证结果,第一验证结果指示简介文本不可以作为所述拟验证长文本的简介,第二验证结果指示简介文本可以作为所述拟验证长文本的简介。
拟验证长文本为需要进行文本简介验证的长文本。第一设定数目为从拟验证长文本中获取的文本段落的数目,第一设定数目的具体数值不做限定。从拟验证长文本中获取第一设定数目的文本段落,获得第一设定数目个拟验证文本段落。获取拟验证长文本的文本简介,获得拟验证简介文本段落。将拟验证简介文本段落与第一设定数目个拟验证文本段落逐一拼组,构成拟验证文本段落组,获得第一设定数目个拟验证文本段落组。例如,拟验证简介文本段落为P1,从拟验证长文本中获取了100个文本段落,100个文本段落分别为P2、P3、……、P101。将检测文本简介为P1与100个文本段落P2,P3,…,P101逐一拼组,构建拟验证文本段落组,获得100个拟验证文本段落组[P1;P2]、[P1;P3]、……、[P1,P101]。
调取长文本简介分析网络,将第一设定数目个拟验证文本段落组加载到长文本简介分析网络,使长文本简介分析网络得到第一设定数目个拟验证文本段落匹配系数。基于第一设定数目个拟验证文本段落匹配系数,确定得到拟验证长文本的验证结果。验证结果包括第一验证结果和第二验证结果,第一验证结果指示简介文本不可以作为所述拟验证长文本的简介,第二验证结果指示简介文本可以作为所述拟验证长文本的简介。
本申请实施例提供的基于人工智能的数据分析方法中,通过从拟验证长文本中获取第一设定数目个拟验证文本段落,并获取拟验证长文本的拟验证简介文本段落;将拟验证简介文本段落分别和每个拟验证文本段落构建获得一个拟验证文本段落组,获得第一设定数目个拟验证文本段落组;将第一设定数目个拟验证文本段落组加载到事先部署的长文本简介分析网络,获得第一设定数目个拟验证文本段落匹配系数,这样一来,可基于长文本简介分析网络通过两个层面对拟验证文本段落组中的拟验证文本段落和拟验证简介文本段落各自进行特征挖掘,以获得对应的拟验证文本段落匹配系数,以基于拟验证文本段落匹配系数确定得到拟验证长文本的验证结果,取代传统人工进行验证的方式,精度和效率更高。
可选地,操作S004具体可以包括:将第一设定数目个拟验证文本段落匹配系数分别与匹配系数临界值进行对比,并获取小于匹配系数临界值的拟验证文本段落匹配系数的数目统计结果;将该数目统计结果与数目统计结果临界值进行比较,如果该数目统计结果大于数目统计结果临界值,则认定拟验证长文本为第一验证结果,如果数目统计结果小于或等于数目统计结果临界值,则确认拟验证长文本对应第二验证结果;其中,数目统计结果临界值不大于第一设定数目。
匹配系数临界值的具体数值不做限定,基于匹配系数临界值可以评估拟验证文本段落组的近似程度。数目统计结果临界值和第一设定数目关联,例如其为第一设定数目的50%。从拟验证长文本中获取的拟验证文本段落可以体现拟验证长文本的内容,拟验证文本段落匹配系数越小,则拟验证文本段落组中的两个文本段落越不相似,拟验证简介文本段落不能作为文本的简介。那么,为了评估拟验证长文本的验证结果,需确定第一设定数目个拟验证文本段落匹配系数与匹配系数临界值的大小,确定小于匹配系数临界值的拟验证文本段落匹配系数的数目统计结果。以及对比小于匹配系数临界值的拟验证文本段落匹配系数的数目统计结果与数目统计结果临界值间的大小,如果小于匹配系数临界值的拟验证文本段落匹配系数的数目统计结果大于数目统计结果临界值,则拟验证文本段落与拟验证长文本文本简介的不太接近,则确认拟验证长文本对应第一验证结果,否则则确认拟验证长文本对应第二验证结果。
作为一种实施方式,基于每一拟验证文本段落对应的权重信息,对第一设定数目个拟验证文本段落匹配系数进行加权求和,得到计算结果;将该计算结果与匹配系数临界值进行对比,如果该计算结果小于匹配系数临界值,则确认拟验证长文本对应第一验证结果,如果计算结果大于或等于匹配系数临界值,则确认拟验证长文本对应第二验证结果。
基于此,依据比较第一设定数目个拟验证文本段落匹配系数与匹配系数临界值,确定得到拟验证长文本的验证结果,互相验证,增加验证结果的可靠度。
在操作S002之前,还可以包括:
操作S011,获取目标长文本集合,并获取目标长文本集合中目标长文本的验证结果。
操作S012,针对目标长文本集合中的每一目标长文本,获取目标长文本的目标长文本简介,以及从目标长文本中获取第二设定数目的目标文本段落。
操作S013,将目标长文本简介与每一目标文本段落构建获得一个目标文本段落组,获得第三设定数目的目标文本段落组。
操作S014,将第三设定数目的目标文本段落组加载到初始长文本简介分析网络,以目标长文本的验证结果为约束条件对初始长文本简介分析网络进行调试,获得长文本简介分析网络。
目标长文本集合为通过多个目标长文本构建得到的集合,目标长文本为包含访问系数(访问的次数或者访问率)的长文本。第二设定数目为从目标长文本中获取的文本段落的数目,第三设定数目为对目标文本段落组变换得到的目标文本段落组的数目,例如,第三设定数目与第二设定数目相同或者大于第二设定数目。
例如,获取目标长文本集合,并获取目标长文本集合中目标长文本的验证结果。针对目标长文本集合中的每一目标长文本,获取目标长文本的目标长文本简介,并从目标长文本中获取第二设定数目的目标文本段落,将目标长文本简介与每一目标文本段落构建获得一个目标文本段落组,获得第二设定数目的目标文本段落组,再对第一设定数目的目标文本段落组进行变换获得第三设定数目的目标文本段落组。将第三设定数目的目标文本段落组加载到初始长文本简介分析网络,以目标长文本的验证结果为约束条件对初始长文本简介分析网络进行调试,获得长文本简介分析网络。长文本简介分析网络可以获取文本组的匹配系数,以确定目标长文本简介是否可体现目标文本段落的内容。
综上,基于获取目标长文本集合并获取目标长文本集合中目标长文本的验证结果;针对目标长文本集合中的每一目标长文本,获取目标长文本的目标长文本简介,从目标长文本中获取第二设定数目的目标文本段落,为网络调试提供信息。然后将目标长文本简介与每一目标文本段落构建获得一个目标文本段落组,对目标文本段落组变换获得第三设定数目的目标文本段落组;将第三设定数目的目标文本段落组加载到初始长文本简介分析网络,以目标长文本的验证结果为约束条件对初始长文本简介分析网络进行调试,获得长文本简介分析网络。这样一来,基于预设网络在两个维度对目标文本段落组中的目标文本段落和目标长文本简介各自进行特征挖掘,基于目标长文本的验证结果对两个维度的信息进行约束调试,从而确定得到长文本简介分析网络,文本简介确定的精度得到提高。
可选地,为操作S011具体可以包括:获取目标长文本集合中每一目标长文本的推广用户响应系数;基于目标长文本集合中每一目标长文本的访问系数和驻留时长系数,确定得到目标长文本的验证结果。
推广用户响应系数可以包含访问系数和驻留时长系数,访问系数在前述已经说明,可是访问次数或者访问率,驻留时长系数可以是用户驻留在文本上的时间长度。
例如,操作S011包括:
操作S0111,基于目标长文本集合中每一目标长文本的访问系数和驻留时长系数,确定得到访问系数第一计算结果、访问系数第二计算结果、驻留时长系数第一计算结果和驻留时长系数第二计算结果。
操作S0112,获取访问系数与访问系数第一计算结果的作差结果D-value1,访问系数第二计算结果与第一系数阈值的作积结果Product1,并获取驻留时长系数第一计算结果与驻留时长系数的作差结果D-value2,驻留时长系数第二计算结果与第二系数阈值的作积结果Product2。
操作S0113,基于作差结果D-value1、作积结果Product1、作差结果D-value2和作积结果Product2,确定得到目标长文本的验证结果。第一系数阈值和第二系数阈值为超参。
操作S0113具体可以包括:
操作S01131,将作差结果D-value1和作积结果Product1进行对比,以及将作差结果D-value2和作积结果Product2进行对比。
操作S01132,如果作差结果D-value1大于作积结果Product1,且作差结果D-value2大于作积结果Product2,则确认目标长文本的验证结果为第一验证结果,否则确认目标长文本的验证结果为第二验证结果。
以上过程可以基于用户的推广用户响应系数确定得到目标长文本的验证结果,这样能减少人工投入,增加了文本简介识别精度。
对于长文本简介分析网络的构建,具体可以包括:
操作TS01,获取目标长文本集合,并获取目标长文本集合中目标长文本的验证结果.
其中,验证结果包括第一验证结果和第二验证结果,第一验证结果指示简介文本不可以作为所述拟验证长文本的简介,第二验证结果指示简介文本可以作为所述拟验证长文本的简介。
操作TS02,针对目标长文本集合中的每一目标长文本,获取目标长文本的目标长文本简介,以及从目标长文本中获取第二设定数目的目标文本段落。
操作TS03,将目标长文本简介与每一目标文本段落构建获得一个目标文本段落组,获得第三设定数目的目标文本段落组。
操作TS04,将第三设定数目的目标文本段落组加载到初始长文本简介分析网络,以目标长文本的验证结果为约束条件对初始长文本简介分析网络进行调试,获得长文本简介分析网络。
例如,获取目标长文本集合,并获取目标长文本集合中目标长文本的验证结果。针对目标长文本集合中的每一目标长文本,获取目标长文本的目标长文本简介,从目标长文本中获取第二设定数目的目标文本段落,将目标长文本简介与每一目标文本段落构建获得一个目标文本段落组,获得第二设定数目的目标文本段落组,对第一设定数目的目标文本段落组变换获得第三设定数目的目标文本段落组。将第三设定数目的目标文本段落组加载到初始长文本简介分析网络,以目标长文本的验证结果为约束条件对初始长文本简介分析网络进行调试,获得长文本简介分析网络。长文本简介分析网络可确定文本组的匹配系数,以确定目标长文本简介是否可以代表目标文本段落的内容。
可选地,操作TS01包括:获取目标长文本集合中每一目标长文本的推广用户响应系数;基于目标长文本集合中每一目标长文本的访问系数和驻留时长系数,确定得到目标长文本的验证结果。
另一方面,TS01具体可以包括:
操作TS011,基于目标长文本集合中每一目标长文本的访问系数和驻留时长系数,确定得到访问系数第一计算结果、访问系数第二计算结果、驻留时长系数第一计算结果和驻留时长系数第二计算结果。
操作TS012,获取访问系数与访问系数第一计算结果的作差结果D-value1,访问系数第二计算结果与第一系数阈值的作积结果Product1,并获取驻留时长系数第一计算结果与驻留时长系数的作差结果D-value2,驻留时长系数第二计算结果与第二系数阈值的作积结果Product2。
操作TS013,基于作差结果D-value1、作积结果Product1、作差结果D-value2和作积结果Product2,确定得到目标长文本的验证结果。第一系数阈值、第二系数阈值为超参。
具体而言,可以包括:
操作TS0131,将作差结果D-value1和作积结果Product1进行对比,以及将作差结果D-value2和作积结果Product2进行对比。
操作TS0132,如果作差结果D-value1大于作积结果Product1,且作差结果D-value2大于作积结果Product2,则确认目标长文本的验证结果为第一验证结果,否则确认目标长文本的验证结果为第二验证结果。
总上,完成本申请实施例该可独立实施的方案的介绍,整体而言,通过从拟验证长文本中获取第一设定数目个拟验证文本段落,并获取拟验证长文本的拟验证简介文本段落;将拟验证简介文本段落分别和每个拟验证文本段落构建获得一个拟验证文本段落组,获得第一设定数目个拟验证文本段落组;将第一设定数目个拟验证文本段落组加载到事先部署的长文本简介分析网络,获得第一设定数目个拟验证文本段落匹配系数,这样一来,可基于长文本简介分析网络通过两个层面对拟验证文本段落组中的拟验证文本段落和拟验证简介文本段落各自进行特征挖掘,以获得对应的拟验证文本段落匹配系数,以基于拟验证文本段落匹配系数确定得到拟验证长文本的验证结果,取代传统人工进行验证的方式,精度和效率更高。
根据本申请的另一方面,还提供一种数据分析装置,请参图3,装置900包括:
特征挖掘模块910,用于获取不少于两个待推荐长文本的长文本特征和待推送对象的对象特征,所述待推送对象的对象特征是基于所述待推送对象的对象画像信息和所述待推送对象的阅读事件记录得到的;
特征获取模块920,用于基于所述待推送对象已阅读的多个过往长文本,获取所述多个过往长文本的长文本特征构建的所述待推送对象的过往长文本特征集合;
模型调用模块930,用于将所述待推送对象的对象特征和过往长文本特征集合加载至需求识别模型,得到所述待推送对象的阅读需求集合,所述待推送对象的阅读需求集合包括所述待推送对象对每个所述过往长文本的倾向度与所述待推送对象对所述多个过往长文本的合计倾向度的比例系数;
文本确定模块940,用于将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至长文本匹配模型,得到所述长文本匹配模型基于所述不少于两个待推荐长文本分别被所述待推送对象积极响应的第一置信系数,从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本。
根据本申请的实施例,还提供了一种电子设备(即数据分析系统)、一种可读存储介质和一种计算机程序产品。
请参考图4,为本申请的电子设备1000的结构框图,电子设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
电子设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006、输出单元1007、存储单元1008以及通信单元10010。输入单元1006可以是能向电子设备1000输入信息的任何类型的设备,输入单元1006可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1007可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1008可以包括但不限于磁盘、光盘。通信单元10010允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如方法200。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的方法200的一个或多个操作。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除操作。例如,本申请中记载的各操作可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。虽然已经参照附图描述了本申请的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本申请中描述的次序来执行各操作。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本申请之后出现的等同要素进行替换。

Claims (10)

1.一种基于人工智能的数据分析方法,其特征在于,应用于所述数据分析系统,所述方法包括:
获取不少于两个待推荐长文本的长文本特征和待推送对象的对象特征,所述待推送对象的对象特征是基于所述待推送对象的对象画像信息和所述待推送对象的阅读事件记录得到的;
基于所述待推送对象已阅读的多个过往长文本,获取所述多个过往长文本的长文本特征构建的所述待推送对象的过往长文本特征集合;
将所述待推送对象的对象特征和过往长文本特征集合加载至需求识别模型,得到所述待推送对象的阅读需求集合,所述待推送对象的阅读需求集合包括所述待推送对象对每个所述过往长文本的倾向度与所述待推送对象对所述多个过往长文本的合计倾向度的比例系数;
将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至长文本匹配模型,得到所述长文本匹配模型基于所述不少于两个待推荐长文本分别被所述待推送对象积极响应的第一置信系数,从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本。
2.如权利要求1所述的方法,其特征在于,所述将所述待推送对象的对象特征和过往长文本特征集合加载至需求识别模型,得到所述所述待推送对象的阅读需求集合,包括:
将所述待推送对象的对象特征和过往长文本特征集合加载至所述需求识别模型,得到所述待推送对象对每个所述过往长文本的倾向度与所述待推送对象对所述多个过往长文本的合计倾向度的比例系数;
基于所述多个过往长文本各自对应的比例系数,得到所述待推送对象的过往长文本特征集合的整合权重集;
基于所述整合权重集和所述待推送对象的过往长文本特征集合,构建所述待推送对象的阅读需求集合。
3.如权利要求1或2所述的方法,其特征在于,所述需求识别模型通过如下操作进行调试得到:
获取多个第一示例对象的示例对象特征和所述多个第一示例对象分别对应的示例过往长文本特征集合;
将所述多个第一示例对象的示例对象特征和示例过往长文本特征集合加载至基础需求识别模型,得到所述多个第一示例对象分别对应的示例阅读需求集合;
获取每个所述第一示例对象已阅读的第一示例长文本的长文本特征和指示所述第一示例长文本有没有被所述第一示例对象积极响应的批注信息;
将每个所述第一示例对象已阅读的第一示例长文本的长文本特征和所述第一示例对象的示例阅读需求集合加载至所述长文本匹配模型,得到所述第一示例长文本有没有被所述第一示例对象积极响应的第一推理置信系数;
基于每个所述第一示例长文本的第一推理置信系数与批注信息,对所述基础需求识别模型进行调试,得到所述需求识别模型。
4.如权利要求2或3所述的方法,其特征在于,所述将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本,包括:
将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至所述长文本匹配模型,得到所述不少于两个待推荐长文本分别被所述待推送对象积极响应的第一置信系数;
基于所述不少于两个待推荐长文本分别对应的第一置信系数,获取所述不少于两个待推荐长文本分别对应的第一匹配系数;
基于所述不少于两个待推荐长文本分别对应的第一匹配系数,从所述不少于两个待推荐长文本中确定所述待推送对象的匹配长文本。
5.如权利要求1所述的方法,其特征在于,在所述基于所述待推送对象已阅读的多个过往长文本,获取所述多个过往长文本的长文本特征构建的所述待推送对象的过往长文本特征集合之后,还包括:
将所述待推送对象的对象特征和过往长文本特征集合加载至需求聚焦模型,得到所述待推送对象的需求聚焦集合;
所述将所述不少于两个待推荐长文本的长文本特征和所述待推送对象的阅读需求集合加载至长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本,包括:
将所述不少于两个待推荐长文本的长文本特征,以及所述待推送对象的阅读需求集合和需求聚焦集合,加载至所述长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本;
其中,所述将所述待推送对象的对象特征和过往长文本特征集合加载至需求聚焦模型,得到所述待推送对象的需求聚焦集合,包括:
将所述待推送对象的对象特征和过往长文本特征集合加载至所述需求聚焦模型,将所述待推送对象的对象特征映射为与所述过往长文本的长文本特征一致维数的映射数组;
获取所述待推送对象的过往长文本特征集合中每个所述过往长文本的长文本特征与所述映射数组的共性度量系数,得到所述待推送对象的过往长文本特征集合的聚焦权重;
基于所述聚焦权重和所述待推送对象的过往长文本特征集合,构建所述待推送对象的需求聚焦集合。
6.如权利要求5所述的方法,其特征在于,所述需求聚焦模型通过如下操作调试得到:
获取多个第二示例对象的示例对象特征和所述多个第二示例对象分别对应的示例过往长文本特征集合;
将所述多个第二示例对象的示例对象特征和示例过往长文本特征集合加载至基础需求聚焦模型,得到所述多个第二示例对象分别对应的示例需求聚焦集合;
获取每个所述第二示例对象已阅读的第二示例长文本的长文本特征和指示所述第二示例长文本有没有被所述第二示例对象积极响应的批注信息;
将每个所述第二示例对象已阅读的第二示例长文本的长文本特征和所述第二示例对象的示例需求聚焦集合加载至所述长文本匹配模型,得到所述第二示例长文本有没有被所述第二示例对象积极响应的第二推理置信系数;
基于每个所述第二示例长文本的第二推理置信系数与批注信息,对所述基础需求聚焦模型进行调试,得到所述需求聚焦模型;
其中,所述将每个所述第二示例对象已阅读的第二示例长文本的长文本特征和所述第二示例对象的示例需求聚焦集合加载至所述长文本匹配模型,得到所述第二示例长文本有没有被所述第二示例对象积极响应的第二推理置信系数,包括:
获取每个所述第二示例对象的示例阅读需求集合;
将每个所述第二示例对象已阅读的第二示例长文本的长文本特征,以及所述第二示例对象的示例需求聚焦集合和示例阅读需求集合,加载至所述长文本匹配模型,得到所述第二示例长文本有没有被所述第二示例对象积极响应的第二推理置信系数。
7.如权利要求5所述的方法,其特征在于,所述将所述不少于两个待推荐长文本的长文本特征,以及所述待推送对象的阅读需求集合和需求聚焦集合,加载至所述长文本匹配模型,得到从所述不少于两个待推荐长文本中确定的所述待推送对象的匹配长文本,包括:
将所述不少于两个待推荐长文本的长文本特征,以及所述待推送对象的阅读需求集合和需求聚焦集合,加载至所述长文本匹配模型,得到所述不少于两个待推荐长文本被所述待推送对象积极响应的第二置信系数;
基于所述不少于两个待推荐长文本分别对应的第二置信系数,获取所述不少于两个待推荐长文本分别对应的第二匹配系数;
基于所述不少于两个待推荐长文本分别对应的第二匹配系数,从所述不少于两个待推荐长文本中确定所述待推送对象的匹配长文本。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
从拟验证长文本中获取第一设定数目个拟验证文本段落,并获取所述拟验证长文本的拟验证简介文本段落;
将所述拟验证简介文本段落分别和每个所述拟验证文本段落构建获得一个拟验证文本段落组,获得所述第一设定数目个拟验证文本段落组;
将所述第一设定数目个拟验证文本段落组加载到事先部署的长文本简介分析网络,获得所述第一设定数目个所述拟验证文本段落与所述拟验证简介文本段落的拟验证文本段落匹配系数;
基于所述第一设定数目个拟验证文本段落匹配系数,确定得到所述拟验证长文本的验证结果;其中,所述验证结果包括第一验证结果和第二验证结果,所述第一验证结果指示简介文本不可以作为所述拟验证长文本的简介,所述第二验证结果指示简介文本可以作为所述拟验证长文本的简介。
9.如权利要求8所述的方法,其特征在于,所述基于所述第一设定数目个拟验证文本段落匹配系数,确定得到所述拟验证长文本的验证结果,包括:
将所述第一设定数目个拟验证文本段落匹配系数分别与匹配系数临界值进行对比,并获取小于所述匹配系数临界值的拟验证文本段落匹配系数的数目统计结果;
将所述数目统计结果与数目统计结果临界值进行对比,如果所述数目统计结果大于所述数目统计结果临界值,则确认所述拟验证长文本对应所述第一验证结果,如果所述数目统计结果小于或等于所述数目统计结果临界值,则确认所述拟验证长文本对应所述第二验证结果;其中,所述数目统计结果临界值不大于所述第一设定数目;
所述基于所述第一设定数目个拟验证文本段落匹配系数,确定得到所述拟验证长文本的验证结果,包括:
基于每一拟验证文本段落对应的权重信息,对所述第一设定数目个拟验证文本段落匹配系数进行加权求和,得到计算结果;
将所述计算结果与所述匹配系数临界值进行对比,如果所述计算结果小于所述匹配系数临界值,则确认所述拟验证长文本对应所述第一验证结果,如果所述计算结果大于或等于所述匹配系数临界值,则确认所述拟验证长文本对应所述第二验证结果。
10.一种数据分析系统,其特征在于,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~9中任一项所述的方法。
CN202310397967.7A 2023-04-14 2023-04-14 基于人工智能的数据分析方法及系统 Active CN116383372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310397967.7A CN116383372B (zh) 2023-04-14 2023-04-14 基于人工智能的数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310397967.7A CN116383372B (zh) 2023-04-14 2023-04-14 基于人工智能的数据分析方法及系统

Publications (2)

Publication Number Publication Date
CN116383372A true CN116383372A (zh) 2023-07-04
CN116383372B CN116383372B (zh) 2023-11-24

Family

ID=86978600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310397967.7A Active CN116383372B (zh) 2023-04-14 2023-04-14 基于人工智能的数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN116383372B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250550A (zh) * 2016-08-12 2016-12-21 智者四海(北京)技术有限公司 一种实时关联新闻推荐内容的方法和装置
WO2018121380A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
KR20210038473A (ko) * 2020-09-10 2021-04-07 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 도큐먼트 타입의 추천 방법, 장치, 전자 기기 및 판독 가능 저장 매체
WO2021174890A1 (zh) * 2020-03-02 2021-09-10 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN113505292A (zh) * 2021-06-15 2021-10-15 深圳追一科技有限公司 信息推送方法、装置、电子设备及存储介质
CN114416995A (zh) * 2022-01-20 2022-04-29 中国平安人寿保险股份有限公司 信息推荐方法、装置及设备
CN114722183A (zh) * 2022-03-18 2022-07-08 成都飞机工业(集团)有限责任公司 一种面向科研任务的知识推送方法及系统
CN115114425A (zh) * 2021-03-18 2022-09-27 腾讯科技(深圳)有限公司 文本推送方法、装置、电子设备及计算机可读存储介质
CN115345645A (zh) * 2022-07-12 2022-11-15 广州欢聚时代信息科技有限公司 推送文本生成方法、装置以及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250550A (zh) * 2016-08-12 2016-12-21 智者四海(北京)技术有限公司 一种实时关联新闻推荐内容的方法和装置
WO2018121380A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
WO2021174890A1 (zh) * 2020-03-02 2021-09-10 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
KR20210038473A (ko) * 2020-09-10 2021-04-07 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 도큐먼트 타입의 추천 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN115114425A (zh) * 2021-03-18 2022-09-27 腾讯科技(深圳)有限公司 文本推送方法、装置、电子设备及计算机可读存储介质
CN113505292A (zh) * 2021-06-15 2021-10-15 深圳追一科技有限公司 信息推送方法、装置、电子设备及存储介质
CN114416995A (zh) * 2022-01-20 2022-04-29 中国平安人寿保险股份有限公司 信息推荐方法、装置及设备
CN114722183A (zh) * 2022-03-18 2022-07-08 成都飞机工业(集团)有限责任公司 一种面向科研任务的知识推送方法及系统
CN115345645A (zh) * 2022-07-12 2022-11-15 广州欢聚时代信息科技有限公司 推送文本生成方法、装置以及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
虞哲英;关贝;昝道广;吕荫润;毕丽阳;王永吉;: "一种不依赖用户行为数据的科研文献推送系统", 文献与数据学报, no. 02 *
邬登峰;白琳;王涛;李慧;许舒人;: "基于多粒度特征和混合算法的文档推荐系统", 计算机系统应用, no. 03 *

Also Published As

Publication number Publication date
CN116383372B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
WO2022141968A1 (zh) 对象推荐方法及装置、计算机设备和介质
CN114791982B (zh) 对象推荐方法和装置
CN114443989B (zh) 排序方法、排序模型的训练方法、装置、电子设备及介质
CN116541536A (zh) 知识增强的内容生成系统、数据生成方法、设备和介质
CN116383372B (zh) 基于人工智能的数据分析方法及系统
CN115359309A (zh) 目标检测模型的训练方法及装置、设备和介质
CN115269989A (zh) 对象推荐方法、装置、电子设备和存储介质
CN114676062A (zh) 用于接口的差异数据测试方法及装置、电子设备和介质
CN114118067A (zh) 术语名词纠错方法及装置、电子设备和介质
CN114429678A (zh) 模型训练方法及装置、电子设备和介质
CN114445147A (zh) 电子券发放方法及装置、设备和介质
CN114861658B (zh) 地址信息解析方法及装置、设备和介质
CN112765975B (zh) 分词岐义处理方法、装置、设备以及介质
CN113284484B (zh) 模型训练方法及装置、语音识别方法和语音合成方法
CN116384410B (zh) 一种数字工厂的可视化处理方法及系统
CN116841506B (zh) 程序代码生成方法及装置、模型训练方法及装置
CN116883181B (zh) 基于用户画像的金融服务推送方法、存储介质及服务器
CN117291191A (zh) 文本处理方法及装置、设备和介质
CN117194798A (zh) 内容的推荐方法、装置、电子设备和介质
CN117909235A (zh) 代码风险检测方法、深度学习模型的训练方法和装置
CN114780819A (zh) 对象推荐方法和装置
CN116384410A (zh) 一种数字工厂的可视化处理方法及系统
CN114548261A (zh) 数据处理方法、装置、电子设备以及存储介质
CN113887417A (zh) 文本匹配方法、装置、设备和介质
CN116129245A (zh) 图像反卷积方法及装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230927

Address after: 110000 No. 12, Tiantan South Street, Hunnan District, Shenyang City, Liaoning Province

Applicant after: Wang Ye

Address before: No. 17-3, Yingpan West Street, Hunnan District, Shenyang, 110000 Liaoning Province

Applicant before: Xinyu Technology (Shenyang) Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231102

Address after: Room 302, 3rd Floor, Building 16, Yard 26, Waihuan West Road, Fengtai District, Beijing, 100000

Applicant after: Beijing Chuangyi Internet Technology Co.,Ltd.

Address before: 110000 No. 12, Tiantan South Street, Hunnan District, Shenyang City, Liaoning Province

Applicant before: Wang Ye

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant