CN116992111A - 数据处理方法、装置、电子设备及计算机存储介质 - Google Patents
数据处理方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN116992111A CN116992111A CN202311268248.1A CN202311268248A CN116992111A CN 116992111 A CN116992111 A CN 116992111A CN 202311268248 A CN202311268248 A CN 202311268248A CN 116992111 A CN116992111 A CN 116992111A
- Authority
- CN
- China
- Prior art keywords
- title
- keyword
- information
- content
- resource information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据处理方法、装置、电子设备及计算机存储介质,涉及信息推荐技术领域。该方法包括:获取用户信息和目标领域的数据库中的资源信息,确定用户信息中的第一标题关键词和第一内容关键词,确定资源信息中的第二标题关键词和第二内容关键词,将两部分的标题关键词进行匹配,获取标题匹配结果,将两部分的内容关键词进行匹配,获取内容匹配结果,从而获得目标匹配结果,将匹配成功的关键词对应的资源信息作为目标资源信息并推送给用户。本申请提供的数据处理方法,针对信息的标题和内容分别进行关键词的提取和匹配,能够提取出恰当的关键词,从而匹配到所有可能相关的资源信息,向用户推荐更恰当的资源信息,提升用户体验。
Description
技术领域
本申请涉及信息推荐技术领域,具体而言,本申请涉及一种数据处理方法、装置、电子设备及计算机存储介质。
背景技术
随着移动互联网的深入发展,为资源推荐系统的广泛应用奠定了基础。在现实生活中,许多应用程序都运用了资源推荐系统,如出行、购物、视频、新闻和社交等,从而能够向用户提供更多用户自身感兴趣的信息,或便于用户快速搜索自身感兴趣的信息。科技数据库中具有多种类型的科技信息资源,如科技政策、科技论文、专利、科技资讯等。
每种类型的信息都具有各自的数据特点,例如科技信息中用户内容信息和资源内容信息的不同部分内容可能有不同的语义空间信息,现有的技术对不同的语义空间信息统一进行处理,导致文本分析不够准确,资源推荐不够精准,用户体验度低。
发明内容
本申请实施例旨在解决现有的内容推荐方法针对某个领域的专业术语识别效果不好,推荐结果欠佳的问题。所述技术方案如下:
第一方面,本申请提供了一种数据处理方法,包括:
获取用户的用户信息和目标领域数据库中的资源信息;所述用户信息包括第一标题信息和第一内容信息;所述资源信息包括第二标题信息和第二内容信息;
确定所述第一标题信息的至少一个第一标题关键词,确定所述第二标题信息的至少一个第二标题关键词;确定所述第一内容信息的至少一个第一内容关键词,确定所述第二内容信息的至少一个第二内容关键词;
将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果;将所述第一内容关键词和所述第二内容关键词进行匹配,获取内容匹配结果;基于所述标题匹配结果与所述内容匹配结果确定目标匹配结果;
基于所述目标匹配结果,将匹配成功的第二标题关键词和匹配成功的第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户。
在第一方面的可选实施例中,所述确定所述第一标题信息的至少一个第一标题关键词,包括:
对所述第一标题信息进行分词,获取多个候选关键词;
确定所述每一候选关键词对应的词向量,并确定所述用户信息对应的文本向量;
确定所述每一词向量与所述文本向量的相似度,从所述多个候选关键词中筛选出所述至少一个第一标题关键词。
在第一方面的可选实施例中,所述对所述第一标题信息进行分词,获取多个候选关键词,包括:
对所述第一标题信息进行分词,得到所述用户信息中的多个词语以及每一词语的词语类别;
基于预设的词语类别组合规则以及所述每一词语的词语类别,从多个词语中确定出多个候选关键词。
在第一方面的可选实施例中,所述将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果,包括如下至少一种:
将所述第一标题关键词与所述第二标题关键词进行匹配,若所述第二标题关键词与所述第一标题关键词完全匹配,则所述标题匹配结果为匹配成功;
将所述第一标题关键词与所述第二标题关键词进行匹配,若所述第一标题关键词包含所述至少一个第二标题关键词,或所述第一标题关键词包含在所述至少一个第二标题关键词中,则所述标题匹配结果为匹配成功;
将所述第一标题关键词与所述第二标题关键词按照预设字符数分别拆分成第一词语集合和第二词语集合;分别将所述第一词语集合中的每一词语与所述第二词语集合中的词语进行匹配,若所述第一词语集合中的每一词语均包含于所述第二词语集合中,则所述标题匹配结果为匹配成功。
在第一方面的可选实施例中,所述基于所述目标匹配结果,将匹配成功的第二标题关键词和第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户,包括:
基于所述目标匹配结果,将匹配成功的第二标题关键词和第二内容关键词对应的所述资源信息作为候选资源信息;
确定所述候选资源信息对应的每一第二标题信息与所述第一标题信息的目标相似度;
基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户。
在第一方面的可选实施例中,所述确定所述候选资源信息对应的每一第二标题信息与所述第一标题信息的目标相似度,包括:
确定每一候选资源信息对应的第二标题信息和所述第一标题信息的初始相似度;
基于所述目标匹配结果,确定匹配成功的第二标题关键词数量和第二内容关键词数量,并确定第一编辑距离和第二编辑距离;所述第一编辑距离是基于所述第一标题关键词与所述第二标题关键词所获得的;所述第二编辑距离是基于所述第一内容关键词与所述第二内容关键词所获得的;
基于所述初始相似度、预设的时间参数、所述第二标题关键词数量、所述第二内容关键词数量、所述第一编辑距离和所述第二编辑距离,确定所述目标相似度。
在第一方面的可选实施例中,所述基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户之前,还包括:
获取历史推送信息;
将所述候选资源信息中与所述历史推送信息相同的候选资源信息删除,获取第一候选资源信息;
所述基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户,包括:
基于所述目标相似度从所述第一候选资源信息中筛选出所述目标资源信息并推送给用户。
第二方面,提供了一种数据处理装置,该装置包括:
获取模块,用于获取用户的用户信息和目标领域数据库中的资源信息;所述用户信息包括第一标题信息和第一内容信息;所述资源信息包括第二标题信息和第二内容信息;
关键词提取模块,用于确定所述第一标题信息的至少一个第一标题关键词,确定所述第二标题信息的至少一个第二标题关键词;确定所述第一内容信息的至少一个第一内容关键词,确定所述第二内容信息的至少一个第二内容关键词;
匹配模块,用于将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果;将所述第一内容关键词和所述第二内容关键词进行匹配,获取内容匹配结果;基于所述标题匹配结果与所述内容匹配结果确定目标匹配结果;
推送模块,用于基于所述目标匹配结果,将匹配成功的第二标题关键词和匹配成功的第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户。
第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现本申请第一方面中任一项所述方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本申请第一方面中任一项所示的数据处理方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请提供的数据处理方法,通过从用户信息的标题信息和内容信息部分分别获取第一标题关键词和第一内容关键词,从资源信息的标题信息和内容信息部分获取第二标题关键词和第二内容关键词,将第一标题关键词和第二标题关键词进行匹配,获得标题匹配结果,将第一内容关键词和第二内容关键词进行匹配,获得内容匹配结果,从而根据匹配结果推送资源信息给用户,将标题部分与内容部分分别进行关键词的提取,能够更好捕捉到恰当的关键词,从而提升对文本的理解程度,将不同文本的同一部分信息进行匹配,能够有针对性的匹配资源,从而提升信息匹配的准确率。
进一步的,在将关键词进行匹配时,若第一关键词与至少一个第二关键词完全匹配,则匹配成功,若每一第一关键词包含在至少一个第二关键词中或第一关键词包含至少一个第二关键词,则匹配结果为匹配成功,若第一关键词基于预设的字符数拆分得到的第一词语集合中的每一词语均包含于第二关键词基于预设的字符数拆分得到的第二词语集合中,则标题匹配结果为匹配成功,使用多种匹配方式,能够将可能符合用户需要的资源信息都筛选出来,提高了资源信息推送的效率,也能够提升推送结果的准确率。
另外,在从用户信息和目标领域信息中提取关键词的过程中,可以使用基于目标领域的数据库进行训练获得的预训练语言模型进行关键词的提取,在目标领域的文本提取中准确率较高,使得上述数据处理方法使用于不同的领域,不受资源类型特征的限制,可扩展性较强。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种数据处理方法的应用场景示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的一种数据处理方法中提取关键词的流程示意图;
图4为本申请实施例提供的一种数据处理方法中关键词匹配的流程示意图;
图5为本申请实施例提供的一种数据处理方法中调整相似度的流程示意图;
图6为本申请实施例提供的一种数据处理方法的示例的流程示意图;
图7为本申请实施例提供的一种数据处理方法中训练相似度模型的流程示意图;
图8为本申请实施例提供的一种数据处理方法中使用相似度模型计算相似度的流程示意图;
图9为本申请实施例提供的一种数据处理装置的结构示意图;
图10为本申请实施例提供的一种数据处理方法适用的电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作和组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为了更好的说明和理解本申请实施例提供的方案,首先对本申请实施例中所涉及的一些相关的技术用语进行介绍:
编辑距离(Edit Distance):是衡量两个字符串之间差异的度量标准。编辑距离的计算可以使用动态规划算法来实现,其中需要构建一个二维矩阵,记录每个子问题的最小编辑距离。通过填充矩阵并进行适当的操作,最终可以得到两个字符串之间的最小编辑距离。编辑距离的值越小,表示两个字符串越相似;值越大,表示两个字符串差异越大。编辑距离还可以用于比较字符串的相似度,并作为其他文本匹配和比对算法的基础。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
许多领域的信息中都包括多种不同类型的信息,每种类型的信息都具有各自的数据特点,现有基于内容的推荐方法需要对不同类型的数据设计不同的方法才能获得较好的推荐效果,可扩展性差。例如,科技领域通常具有大量的科技术语,目前已有的基于内容的推荐方法在通用领域都取得了不错的效果,但由于不能较好地识别这些科技术语导致在科技领域的效果欠佳。用户的内容信息和资源的内容信息的不同部分内容具有不同的语义空间信息,现有的技术较少对不同的语义空间信息分别处理,导致最终的推荐结果效果欠佳。
针对相关技术中所存在的至少一个技术问题或需要改善的地方,本申请提出一种数据处理方法、装置、电子设备及计算机存储介质,该方案提供的数据处理方法,通过从用户信息的标题信息和内容信息部分分别获取第一标题关键词和第一内容关键词,从资源信息的标题信息和内容信息部分获取第二标题关键词和第二内容关键词,将第一标题关键词和第二标题关键词进行匹配,获得标题匹配结果,将第一内容关键词和第二内容关键词进行匹配,获得内容匹配结果,从而根据匹配结果推送资源信息给用户,将标题部分与内容部分分别进行关键词的提取,能够更好捕捉到恰当的关键词,从而提升对文本的理解程度,将不同文本的同一部分信息进行匹配,能够有针对性的匹配资源,从而提升信息匹配的准确率。
进一步的,在将关键词进行匹配时,若第一关键词与至少一个第二关键词完全匹配,则匹配成功,若每一第一关键词包含在至少一个第二关键词中或第一关键词包含至少一个第二关键词,则匹配结果为匹配成功,若第一关键词基于预设的字符数拆分得到的第一词语集合中的每一词语均包含于第二关键词基于预设的字符数拆分得到的第二词语集合中,则标题匹配结果为匹配成功,使用多种匹配方式,能够将可能符合用户需要的资源信息都筛选出来,提高了资源信息推送的效率,也能够提升推送结果的准确率。
另外,在从用户信息和目标领域信息中提取关键词的过程中,可以使用基于目标领域的数据库进行训练获得的预训练语言模型进行关键词的提取,在目标领域的文本提取中准确率较高,使得上述数据处理方法使用于不同的领域,不受资源类型特征的限制,可扩展性较强。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1为本申请实施例提供的数据处理方法的应用场景示意图,其中,应用环境可以包括一个终端101,终端101上可以安装有能够使用上述数据处理方法的应用程序。
具体的,终端101获取用户的用户信息,并获取目标领域的资源信息,分别从所述用户信息和资源信息的对应部分提取出对应的关键词,获取用户信息中的第一标题关键词和第一内容关键词,获取资源信息中的第二标题关键词和第二内容关键词,将第一标题关键词和第二标题关键词互相匹配,将第一内容关键词和第二内容关键词相互匹配,再根据两个匹配结果,获取目标匹配结果从而确定匹配成功的关键词对应的目标资源信息,将获取的目标资源信息发送给使用上述终端101的用户。
上述应用场景中,有接口测试需求的应用程序可以是在终端上,也可以是在服务器上,具体可以基于实际应用场景需求确定。上述的应用场景只是一个示例,并不对本申请数据处理方法的应用场景进行限制。
本技术领域技术人员可以理解,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile Internet Devices,移动互联网设备)、PDA(个人数字助理)、台式计算机、智能家电、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等,终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,但并不局限于此。
服务器可以包括安装有能够处理数据库操作的服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。具体也可基于实际应用场景需求确定,在此不作限定。
在一些可能的实施方式中,以执行主体为能够应用上述数据处理方法的终端为例,本申请实施例提供了一种数据处理方法,如图2所示,可以包括如下步骤:
S201,获取用户的用户信息和目标领域数据库中的资源信息。
其中,所述用户信息包括第一标题信息和第一内容信息;所述资源信息包括第二标题信息和第二内容信息。
其中,用户信息可以包括用户上传的个人信息或发表的文章、新闻或论文等,可以是用户主动上传的,也可以是根据用户的个人信息在信息库中查找到的信息;资源信息可以包括目标领域的政策信息、论文信息、专利信息和新闻资讯信息等等。
在具体实施过程中,获取用户信息的过程可以包括,接收用户在指定区域的输入或选择,确定用户信息,还可以包括,根据用户上传的个人信息在论文数据库、新闻数据库或网络中搜索与该用户相关的信息,得到用户信息。获取目标领域的资源信息的过程可以包括,接收用户的刷新或信息更新请求,根据用户请求或者用户信息确定用户需要的信息所在的领域,从而确定目标领域,从目标领域的数据库中确定能够推送的资源信息。
S202,确定所述第一标题信息的至少一个第一标题关键词,确定所述第二标题信息的至少一个第二标题关键词;确定所述第一内容信息的至少一个第一内容关键词,确定所述第二内容信息的至少一个第二内容关键词。
其中,第一标题关键词和第一内容关键词是用来描述用户偏好,第二标题关键词和第二内容关键词是用来描述资源信息主题的。
具体的,从用户信息的第一标题信息中提取出至少一个第一标题关键词,从第一内容信息中提取出至少一个第一内容关键词;从资源信息的第二标题信息中提取出至少一个第二标题关键词,从第二内容信息中提取出至少一个第二内容关键词。
在具体实施过程中,可以预先训练一个预训练语言模型用于从信息中提取关键词。该预训练语言模型的获取方式可以包括,使用通用的语料进行训练获取一个通用的语言模型,在确定目标领域之后,获取目标领域的训练数据对通用的语言模型进行微调,获取微调的预训练语言模型,其中,目标领域的训练数据可以包括预先设置的目标领域的知识图谱,获取历史用户信息与对应的目标领域数据库的信息对该初始的预训练模型进行训练和优化,获取预训练语言模型。其中,在使用目标领域的知识图谱对通用语言模型进行训练时,具体可以采用K-BERT(知识图谱增强模型)、ERNIE(百度的自然语言处理框架)、KnowBERT(知识增强预训练方法)等知识图谱与预训练语言模型的融合方法。使用预训练语言模型提取关键词能够有效提升确定的关键词的质量。
在具体实施过程中,该预训练语言模型的获取方式还可以包括,直接获取目标领域的训练数据和历史的用户信息与其对应的目标领域数据库的信息作为训练语料训练得到预训练语言模型。
S203,将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果;将所述第一内容关键词和所述第二内容关键词进行匹配,获取内容匹配结果;基于所述标题匹配结果与所述内容匹配结果确定目标匹配结果。
具体的,将第一标题关键词和第二标题关键词进行匹配,也就是将用户标题信息的标题关键词与资源标题信息的标题关键词进行匹配,将第一内容关键词和第二内容关键词进行匹配,也就是将用户内容信息的内容关键词与资源内容信息的内容关键词进行匹配。
在具体实施过程中,将每一第一标题关键词和第二标题关键词进行匹配,当满足预设匹配要求即存在匹配成功的第二标题关键词时,将该第二标题关键词对应的资源信息放入候选资源信息池中,将每一第一内容关键词和第二内容关键词进行匹配,若存在匹配成功的第二内容关键词,将该第二内容关键词对应的资源信息放入候选资源信息池中,若是原有的候选资源信息池中已包含该资源信息,则可以不重复放入;当标题关键词与内容关键词都匹配完毕时,获取目标匹配结果,以及匹配成功的候选资源信息池。
S204,基于所述目标匹配结果,将匹配成功的第二标题关键词和匹配成功的第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户。
其中,匹配成功的第二标题关键词指的是与第一标题关键词相匹配的第二标题关键词,匹配成功的第二内容关键词指的是与第一内容关键词相匹配的第二内容关键词。
具体的,匹配成功的第二标题关键词和第二内容关键词对应的资源信息,可以是上述步骤中候选资源信息池中的资源信息,在确定目标资源信息的步骤中,可以去除候选资源信息池中的资源信息中的已推送过的信息,确定目标资源信息推送给用户,可以避免对用户重复推荐相同信息,导致用户体验差。
在一些可能的实施方式中,上述S202中确定所述第一标题信息的至少一个第一标题关键词的步骤,如图3所示,包括:
(1)对所述第一标题信息进行分词,获取多个候选关键词;
(2)确定所述每一候选关键词对应的词向量,并确定所述用户信息对应的文本向量;
(3)确定所述每一词向量与所述文本向量的相似度,从所述多个候选关键词中筛选出所述至少一个第一标题关键词。
其中,上述确定第一标题信息的至少一个第一标题关键词的方法也同样可以用于确定第二标题信息的至少一个第二标题关键词,确定第一内容信息的至少一个第一内容关键词和确定第二内容信息的至少一个第二内容关键词。
具体的,第一标题信息即为一段文本,对第一标题信息进行分词,获取分词后的词语,根据上述步骤中获取的预训练语言模型确定分词获得的词语对应的至少一个候选关键词的词向量,根据第一标题信息和预训练语言模型确定文本对应的文本向量;根据每一词向量和文本向量确定出每一候选关键词与文本的相似度,根据相似度确定至少一个第一标题关键词。
在具体实施过程中,根据相似度确定至少一个第一标题关键词的过程可以包括,根据相似度将多个候选关键词从大到小进行排序,从前往后选择预设数量的候选关键词作为第一标题关键词,通过相似度确定关键词能够选择能够表达整个标题信息文本主题与意义的关键词,更加准确。
在一些可能的实施方式中,上述步骤中对所述第一标题信息进行分词,获取多个候选关键词,如图3所示,包括:
(1)对所述第一标题信息进行分词,得到所述用户信息中的多个词语以及每一词语的词语类别;
(2)基于预设的词语类别组合规则以及所述每一词语的词语类别,从多个词语中确定出多个候选关键词。
其中,上述获取多个候选关键词的方法也同样可以用于确定第二标题信息的多个候选关键词,确定第一内容信息的多个候选关键词和确定第二内容信息的多个候选关键。
其中,确定词语类别可以包括标注词语的词性,词语的词性可以包括名词、动词、形容词、副词、介词、连词等,词性组合规则可以是基于历史词性组合获得的,也可以是根据预设的语法规则确定的。
具体的,对第一标题信息进行分词并确定词语类别,根据预设的词性组合规则从多个词语中确定多个符合规则的候选关键词,还可以去除多个候选关键词中的停用词以及标点符号,或根据预设的推荐规则保留部分特定词,例如,可以根据需要去除“是”和“的”等与语义无关的词语,也可以保留“非常”等特定词语。
在一些可能的实施方式中,上述S203中将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果,如图4所示,包括如下至少一种:
(1)将所述第一标题关键词与所述第二标题关键词进行匹配,若所述第二标题关键词与所述第一标题关键词完全匹配,则所述标题匹配结果为匹配成功;
(2)将所述第一标题关键词与所述第二标题关键词进行匹配,若所述第一标题关键词包含所述至少一个第二标题关键词,或所述第一标题关键词包含在所述至少一个第二标题关键词中,则所述标题匹配结果为匹配成功;
(3)将所述第一标题关键词与所述第二标题关键词按照预设字符数分别拆分成第一词语集合和第二词语集合;分别将所述第一词语集合中的每一词语与所述第二词语集合中的词语进行匹配,若所述第一词语集合中的每一词语均包含于所述第二词语集合中,则所述标题匹配结果为匹配成功。
其中,上述将第一标题关键词和第二标题关键词进行匹配,获取标题匹配结果的方法也同样可以用于将第一内容关键词和第二内容关键词进行匹配,获取内容匹配结果。
具体的,将第一标题关键词与第二标题关键词进行匹配的步骤可以包括:若第一标题关键词与至少一个第二标题关键词完全匹配,则认为匹配成功,若第一标题关键词包含至少一个第二标题关键词,或第一标题关键词包含于至少一个第二标题关键词,则认为匹配成功,将获取的匹配结果返回可以称为图中所示的召回;其中,第一标题关键词和第二标题关键词之间可以相互包含。
在具体实施过程中,将第一标题关键词与第二标题关键词按照预设字符数分别拆分成第一词语集合和第二词语集合中预设字符数可以根据具体需求进行设置,例如,关键词为“红色的裙子”,设置字符数为2,则获取的词语集合可以包括“红色”、“色的”、“的裙”、“裙子”。
在一些可能的实施方式中,上述步骤S204中基于所述目标匹配结果,将匹配成功的第二标题关键词和第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户,包括:
(1)基于所述目标匹配结果,将匹配成功的第二标题关键词和第二内容关键词对应的所述资源信息作为候选资源信息;
(2)确定所述候选资源信息对应的每一第二标题信息与所述第一标题信息的目标相似度;
(3)基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户。
具体的,确定匹配成功的第一标题关键词和第一内容标题关键词对应的第一标题信息,并确定匹配成功的第二标题关键词和第二内容关键词对应的第二标题信息,计算每一第二标题信息与其对应的第一标题信息的目标相似度。
在具体实施过程中,对于匹配成功的第二标题关键词和第二内容关键词的处理步骤是相同的:对于第二标题关键词来说,获取每一第二标题关键词对应的第二标题信息与所述第一标题关键词对应的第一标题信息的目标相似度,可以根据标题之间的相似度将第二标题信息对应的资源信息从大到小进行排列,从前往后获取预设数量的目标资源信息推送给用户,在确定目标资源信息之前可以对待选的资源信息进行去重,即去除已经推荐过的资源信息,确定目标资源信息。
在一些可能的实施方式中,上述步骤中确定所述候选资源信息对应的每一第二标题信息与所述第一标题信息的目标相似度,如图5所示,包括:
(1)确定每一候选资源信息对应的第二标题信息和所述第一标题信息的初始相似度;
(2)基于所述目标匹配结果,确定匹配成功的第二标题关键词数量和第二内容关键词数量,并确定第一编辑距离和第二编辑距离;
(3)基于所述初始相似度、预设的时间参数、所述第二标题关键词数量、所述第二内容关键词数量、所述第一编辑距离和所述第二编辑距离,确定所述目标相似度。
其中,所述第一编辑距离是基于所述第一标题关键词与所述第二标题关键词所获得的;所述第二编辑距离是基于所述第一内容关键词与所述第二内容关键词所获得的。
具体的,确定匹配成功的第二标题关键词数量、第二内容关键词数量、第一编辑距离和第二编辑距离,可以根据匹配成功的第二标题关键词数量、第二内容关键词数量、第一编辑距离和第二编辑距离、预设的时间参数和初始相似度,确定目标相似度,其中,匹配成功的关键词数量可以包括完全匹配的关键词数量。
在具体实施过程中,上述匹配成功的第二标题关键词数量可以为与第一标题关键词完全匹配的第二标题关键词的数量,匹配成功的第二内容关键词数量可以为与第一内容关键词完全匹配的第二标题关键词的数量;其中,完全匹配可以包括两个相匹配的关键词完全相同。
在具体实施过程中,可以根据预设的时间参数、匹配成功的第二标题关键词数量、匹配成功的第二内容关键词数量、第一编辑距离和第二编辑距离确定调整参数,将调整参数与初始相似度相乘,从而确定目标相似度。
其中,调整参数可以使用如下公式获取:
其中,可以表示与第一标题关键词完全匹配的第二标题关键词数量,即匹配成功的第二标题关键词数量;/>可以表示与第一内容关键词完全匹配的第二内容关键词数量,即匹配成功的第二内容关键词数量;/>可以表示表示所有匹配成功的第二标题关键词与第一标题关键词之间的编辑距离的和,即上述的第一编辑距离;/>可以表示表示所有匹配成功的第二内容关键词与第一内容关键词之间的编辑距离的和,即上述的第二编辑距离;/>可以是时间因子函数,即上述的时间参数。
其中,时间参数可以使用如下公式计算得到:
其中,是时间衰减参数,针对新闻等时效性强的资源数据,其取值应该较大,对于政策等时效性弱的资源数据,其取值相对较小;t0为资源信息的生成时间,ti为当前时间。
在一些可能的实施方式中,上述步骤中基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户之前,还包括:
(1)获取历史推送信息;
(2)将所述候选资源信息中与所述历史推送信息相同的候选资源信息删除,获取第一候选资源信息;
所述基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户,包括:
(3)基于所述目标相似度从所述第一候选资源信息中筛选出所述目标资源信息并推送给用户。
其中,历史推送信息可以包括在当前时刻之前已经推送过的资源信息,可以从推送日志中获取历史推送信息。
具体的,获取用户以及目标领域对应的历史推送信息,即在目标领域已推送过的资源信息,去除当前候选资源信息中与已推送信息相同的信息,避免重复将统一资源信息推送给用户,获取第一候选资源信息,再根据目标相似度确定目标资源信息。
上述实施例中,通过从用户信息的标题信息和内容信息部分分别获取第一标题关键词和第一内容关键词,从资源信息的标题信息和内容信息部分获取第二标题关键词和第二内容关键词,将第一标题关键词和第二标题关键词进行匹配,获得标题匹配结果,将第一内容关键词和第二内容关键词进行匹配,获得内容匹配结果,从而根据匹配结果推送资源信息给用户,将标题部分与内容部分分别进行关键词的提取,能够更好捕捉到恰当的关键词,从而提升对文本的理解程度,将不同文本的同一部分信息进行匹配,能够有针对性的匹配资源,从而提升信息匹配的准确率。
进一步的,在将关键词进行匹配时,若第一关键词与至少一个第二关键词完全匹配,则匹配成功,若每一第一关键词包含在至少一个第二关键词中或第一关键词包含至少一个第二关键词,则匹配结果为匹配成功,若第一关键词基于预设的字符数拆分得到的第一词语集合中的每一词语均包含于第二关键词基于预设的字符数拆分得到的第二词语集合中,则标题匹配结果为匹配成功,使用多种匹配方式,能够将可能符合用户需要的资源信息都筛选出来,提高了资源信息推送的效率,也能够提升推送结果的准确率。
另外,在从用户信息和目标领域信息中提取关键词的过程中,可以使用基于目标领域的数据库进行训练获得的预训练语言模型进行关键词的提取,在目标领域的文本提取中准确率较高,使得上述数据处理方法使用于不同的领域,不受资源类型特征的限制,可扩展性较强。
为更清楚地理解本申请实施例描述的数据处理方法,以下将结合示例进行进一步详细阐述。
在一个示例中,本申请的数据处理方法,如图6、图7和图8所示,可以包括:
基于目标领域的科技知识图谱和通用的预训练语言模型获取预训练语言模型对用户信息与科技智库资源进行处理,获取用户的用户信息和目标领域的数据库中的资源信息(即图中所示的科技智库资源),用户信息包括第一标题信息和第一内容信息,资源信息包括第二标题信息和第二内容信息,确定第一标题信息的至少一个第一标题关键词(即图中所示的用户标题关键词),确定第二标题信息的至少一个第二标题关键词(即图中所示的资源标题关键词),确定第一内容信息的至少一个第一内容关键词(即图中所示的用户内容关键词),确定第二内容信息的至少一个第二内容关键词(即图中所示的用户内容关键词)。
将第一标题关键词和第二标题关键词进行匹配,获取标题匹配结果,确定匹配成功的第二标题关键词对应的资源信息(即图中所示的与用户关键词完全匹配的资源、与用户关键词包含匹配的资源和与用户关键词基于n元组匹配的资源),将第一内容关键词和第二内容关键词进行匹配,获取内容匹配结果,基于标题匹配结果与内容匹配结果确定目标匹配结果。
基于目标匹配结果,将匹配成功的第二标题关键词和第二内容关键词对应的资源信息作为候选资源信息,确定每一候选资源信息对应的第二标题信息和第一标题信息的初始相似度(即图中所示的标题相似度)。
基于目标匹配结果,确定完全匹配的第二标题关键词数量和第二内容关键词数量,并确定第一编辑距离和第二编辑距离,基于初始相似度、预设的时间参数、第二标题关键词数量、第二内容关键词数量、第一编辑距离和第二编辑距离,确定目标相似度。
获取历史推送信息,将候选资源信息中与历史推送信息相同的候选资源信息删除,获取第一候选资源信息(即图中所示的去重),基于目标相似度从第一候选资源信息中筛选出目标资源信息并推送给用户基于目标相似度从候选资源信息中筛选出目标资源信息并推送给用户。
另外,在计算目标相似度的时候可以使用相似度计算模型,获取该模型的步骤可以包括:将预先准备的句子输入预设的预训练语言模型,经过池化层提取出关键信息,从而转换为向量计算出相似度,与预设的相似度进行比较,确保输出的相似度在预设的区间之内,获取训练后的相似度计算模型。使用该相似度计算模型时,将两个标题句子输入模型,通过向量距离度量函数获取标题之间的相似度。
上述数据处理方法,通过从用户信息的标题信息和内容信息部分分别获取第一标题关键词和第一内容关键词,从资源信息的标题信息和内容信息部分获取第二标题关键词和第二内容关键词,将第一标题关键词和第二标题关键词进行匹配,获得标题匹配结果,将第一内容关键词和第二内容关键词进行匹配,获得内容匹配结果,从而根据匹配结果推送资源信息给用户,将标题部分与内容部分分别进行关键词的提取,能够更好捕捉到恰当的关键词,从而提升对文本的理解程度,将不同文本的同一部分信息进行匹配,能够有针对性的匹配资源,从而提升信息匹配的准确率。
进一步的,在将关键词进行匹配时,若第一关键词与至少一个第二关键词完全匹配,则匹配成功,若每一第一关键词包含在至少一个第二关键词中或第一关键词包含至少一个第二关键词,则匹配结果为匹配成功,若第一关键词基于预设的字符数拆分得到的第一词语集合中的每一词语均包含于第二关键词基于预设的字符数拆分得到的第二词语集合中,则标题匹配结果为匹配成功,使用多种匹配方式,能够将可能符合用户需要的资源信息都筛选出来,提高了资源信息推送的效率,也能够提升推送结果的准确率。
另外,在从用户信息和目标领域信息中提取关键词的过程中,可以使用基于目标领域的数据库进行训练获得的预训练语言模型进行关键词的提取,在目标领域的文本提取中准确率较高,使得上述数据处理方法使用于不同的领域,不受资源类型特征的限制,可扩展性较强。
本申请实施例提供了一种数据处理装置,如图9所示,该装置90可以包括:获取模块901、关键词提取模块902、匹配模块903和推送模块904,其中,
获取模块901,用于获取用户的用户信息和目标领域数据库中的资源信息;所述用户信息包括第一标题信息和第一内容信息;所述资源信息包括第二标题信息和第二内容信息;
关键词提取模块902,用于确定所述第一标题信息的至少一个第一标题关键词,确定所述第二标题信息的至少一个第二标题关键词;确定所述第一内容信息的至少一个第一内容关键词,确定所述第二内容信息的至少一个第二内容关键词;
匹配模块903,用于将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果;将所述第一内容关键词和所述第二内容关键词进行匹配,获取内容匹配结果;基于所述标题匹配结果与所述内容匹配结果确定目标匹配结果;
推送模块904,用于基于所述目标匹配结果,将匹配成功的第二标题关键词和匹配成功的第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户。
本申请提供的数据处理装置中,通过从用户信息的标题信息和内容信息部分分别获取第一标题关键词和第一内容关键词,从资源信息的标题信息和内容信息部分获取第二标题关键词和第二内容关键词,将第一标题关键词和第二标题关键词进行匹配,获得标题匹配结果,将第一内容关键词和第二内容关键词进行匹配,获得内容匹配结果,从而根据匹配结果推送资源信息给用户,将标题部分与内容部分分别进行关键词的提取,能够更好捕捉到恰当的关键词,从而提升对文本的理解程度,将不同文本的同一部分信息进行匹配,能够有针对性的匹配资源,从而提升信息匹配的准确率。
进一步的,在将关键词进行匹配时,若第一关键词与至少一个第二关键词完全匹配,则匹配成功,若每一第一关键词包含在至少一个第二关键词中或第一关键词包含至少一个第二关键词,则匹配结果为匹配成功,若第一关键词基于预设的字符数拆分得到的第一词语集合中的每一词语均包含于第二关键词基于预设的字符数拆分得到的第二词语集合中,则标题匹配结果为匹配成功,使用多种匹配方式,能够将可能符合用户需要的资源信息都筛选出来,提高了资源信息推送的效率,也能够提升推送结果的准确率。
另外,在从用户信息和目标领域信息中提取关键词的过程中,可以使用基于目标领域的数据库进行训练获得的预训练语言模型进行关键词的提取,在目标领域的文本提取中准确率较高,使得上述数据处理方法使用于不同的领域,不受资源类型特征的限制,可扩展性较强。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现数据处理方法的步骤,与相关技术相比可实现:不借助第三方存储,直接在本地进行数据正确性的检查。
在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备1000包括:处理器1001和存储器1003。其中,处理器1001和存储器1003相连,如通过总线1002相连。可选地,电子设备1000还可以包括收发器1004,收发器1004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器1004不限于一个,该电子设备1000的结构并不构成对本申请实施例的限定。
处理器1001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1002可包括一通路,在上述组件之间传送信息。总线1002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器1003用于存储执行本申请实施例的计算机程序,并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:能应用上述数据处理方法的终端和服务器。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取用户的用户信息和目标领域数据库中的资源信息;所述用户信息包括第一标题信息和第一内容信息;所述资源信息包括第二标题信息和第二内容信息;
确定所述第一标题信息的至少一个第一标题关键词,确定所述第二标题信息的至少一个第二标题关键词;确定所述第一内容信息的至少一个第一内容关键词,确定所述第二内容信息的至少一个第二内容关键词;
将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果;将所述第一内容关键词和所述第二内容关键词进行匹配,获取内容匹配结果;基于所述标题匹配结果与所述内容匹配结果确定目标匹配结果;
基于所述目标匹配结果,将匹配成功的第二标题关键词和匹配成功的第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户。
2.基于权利要求1所述的数据处理方法,其特征在于,所述确定所述第一标题信息的至少一个第一标题关键词,包括:
对所述第一标题信息进行分词,获取多个候选关键词;
确定所述每一候选关键词对应的词向量,并确定所述用户信息对应的文本向量;
确定所述每一词向量与所述文本向量的相似度,从所述多个候选关键词中筛选出所述至少一个第一标题关键词。
3.基于权利要求2所述的数据处理方法,其特征在于,所述对所述第一标题信息进行分词,获取多个候选关键词,包括:
对所述第一标题信息进行分词,得到所述用户信息中的多个词语以及每一词语的词语类别;
基于预设的词语类别组合规则以及所述每一词语的词语类别,从多个词语中确定出多个候选关键词。
4.基于权利要求1所述的数据处理方法,其特征在于,所述将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果,包括如下至少一种:
将所述第一标题关键词与所述第二标题关键词进行匹配,若所述第二标题关键词与所述第一标题关键词完全匹配,则所述标题匹配结果为匹配成功;
将所述第一标题关键词与所述第二标题关键词进行匹配,若所述第一标题关键词包含所述至少一个第二标题关键词,或所述第一标题关键词包含在所述至少一个第二标题关键词中,则所述标题匹配结果为匹配成功;
将所述第一标题关键词与所述第二标题关键词按照预设字符数分别拆分成第一词语集合和第二词语集合;分别将所述第一词语集合中的每一词语与所述第二词语集合中的词语进行匹配,若所述第一词语集合中的每一词语均包含于所述第二词语集合中,则所述标题匹配结果为匹配成功。
5.基于权利要求1所述的数据处理方法,其特征在于,所述基于所述目标匹配结果,将匹配成功的第二标题关键词和第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户,包括:
基于所述目标匹配结果,将匹配成功的第二标题关键词和第二内容关键词对应的所述资源信息作为候选资源信息;
确定所述候选资源信息对应的每一第二标题信息与所述第一标题信息的目标相似度;
基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户。
6.基于权利要求5所述的数据处理方法,其特征在于,所述确定所述候选资源信息对应的每一第二标题信息与所述第一标题信息的目标相似度,包括:
确定每一候选资源信息对应的第二标题信息和所述第一标题信息的初始相似度;
基于所述目标匹配结果,确定匹配成功的第二标题关键词数量和第二内容关键词数量,并确定第一编辑距离和第二编辑距离;所述第一编辑距离是基于所述第一标题关键词与所述第二标题关键词所获得的;所述第二编辑距离是基于所述第一内容关键词与所述第二内容关键词所获得的;
基于所述初始相似度、预设的时间参数、所述第二标题关键词数量、所述第二内容关键词数量、所述第一编辑距离和所述第二编辑距离,确定所述目标相似度。
7.基于权利要求5所述的数据处理方法,其特征在于,所述基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户之前,还包括:
获取历史推送信息;
将所述候选资源信息中与所述历史推送信息相同的候选资源信息删除,获取第一候选资源信息;
所述基于所述目标相似度从所述候选资源信息中筛选出所述目标资源信息并推送给用户,包括:
基于所述目标相似度从所述第一候选资源信息中筛选出所述目标资源信息并推送给用户。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取用户的用户信息和目标领域数据库中的资源信息;所述用户信息包括第一标题信息和第一内容信息;所述资源信息包括第二标题信息和第二内容信息;
关键词提取模块,用于确定所述第一标题信息的至少一个第一标题关键词,确定所述第二标题信息的至少一个第二标题关键词;确定所述第一内容信息的至少一个第一内容关键词,确定所述第二内容信息的至少一个第二内容关键词;
匹配模块,用于将所述第一标题关键词和所述第二标题关键词进行匹配,获取标题匹配结果;将所述第一内容关键词和所述第二内容关键词进行匹配,获取内容匹配结果;基于所述标题匹配结果与所述内容匹配结果确定目标匹配结果;
推送模块,用于基于所述目标匹配结果,将匹配成功的第二标题关键词和匹配成功的第二内容关键词对应的所述资源信息作为目标资源信息并推送给用户。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311268248.1A CN116992111B (zh) | 2023-09-28 | 2023-09-28 | 数据处理方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311268248.1A CN116992111B (zh) | 2023-09-28 | 2023-09-28 | 数据处理方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992111A true CN116992111A (zh) | 2023-11-03 |
CN116992111B CN116992111B (zh) | 2023-12-26 |
Family
ID=88528804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311268248.1A Active CN116992111B (zh) | 2023-09-28 | 2023-09-28 | 数据处理方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992111B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330002A1 (en) * | 2016-01-27 | 2018-11-15 | Alibaba Group Holding Limited | Service Processing Method, and Data Processing Method and Apparatus |
CN109635082A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 政策影响分析方法、装置、计算机设备和存储介质 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
CN110874530A (zh) * | 2019-10-30 | 2020-03-10 | 深圳价值在线信息科技股份有限公司 | 关键词提取方法、装置、终端设备及存储介质 |
CN111737501A (zh) * | 2020-06-22 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种内容推荐方法及装置、电子设备、存储介质 |
CN111881339A (zh) * | 2020-06-05 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 资源信息的推送、通知方法、装置、电子设备及存储介质 |
CN113377971A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 多媒体资源生成方法、装置、电子设备以及存储介质 |
CN114357278A (zh) * | 2020-09-28 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种话题推荐方法、装置及设备 |
CN114428861A (zh) * | 2022-01-27 | 2022-05-03 | 陕西煤业股份有限公司 | 一种企业政策智能解读方法、系统、设备及存储介质 |
-
2023
- 2023-09-28 CN CN202311268248.1A patent/CN116992111B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330002A1 (en) * | 2016-01-27 | 2018-11-15 | Alibaba Group Holding Limited | Service Processing Method, and Data Processing Method and Apparatus |
CN109635082A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 政策影响分析方法、装置、计算机设备和存储介质 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
CN110874530A (zh) * | 2019-10-30 | 2020-03-10 | 深圳价值在线信息科技股份有限公司 | 关键词提取方法、装置、终端设备及存储介质 |
CN111881339A (zh) * | 2020-06-05 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 资源信息的推送、通知方法、装置、电子设备及存储介质 |
CN111737501A (zh) * | 2020-06-22 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种内容推荐方法及装置、电子设备、存储介质 |
CN114357278A (zh) * | 2020-09-28 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种话题推荐方法、装置及设备 |
CN113377971A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 多媒体资源生成方法、装置、电子设备以及存储介质 |
CN114428861A (zh) * | 2022-01-27 | 2022-05-03 | 陕西煤业股份有限公司 | 一种企业政策智能解读方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116992111B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9449271B2 (en) | Classifying resources using a deep network | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN109543007A (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
US20100191758A1 (en) | System and method for improved search relevance using proximity boosting | |
CN112671886B (zh) | 基于边缘计算和人工智能的信息推送方法及大数据服务器 | |
CN110162675B (zh) | 应答语句的生成方法、装置、计算机可读介质及电子设备 | |
US11379527B2 (en) | Sibling search queries | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN113392305A (zh) | 关键词的提取方法及装置、电子设备、计算机存储介质 | |
CN113407814A (zh) | 文本搜索方法、装置、可读介质及电子设备 | |
CN116150306A (zh) | 问答机器人的训练方法、问答方法及装置 | |
CN111078849A (zh) | 用于输出信息的方法和装置 | |
CN114490923A (zh) | 相似文本匹配模型的训练方法、装置、设备及存储介质 | |
CN114298007A (zh) | 一种文本相似度确定方法、装置、设备及介质 | |
CN117312518A (zh) | 一种智能问答方法、装置、计算机设备及存储介质 | |
CN115129976B (zh) | 一种资源召回方法、装置、设备及存储介质 | |
CN116431912A (zh) | 用户画像推送方法及装置 | |
CN116992111B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN115203378A (zh) | 基于预训练语言模型的检索增强方法、系统及存储介质 | |
CN113704422A (zh) | 一种文本推荐方法、装置、计算机设备和存储介质 | |
EP4127957A1 (en) | Methods and systems for searching and retrieving information | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113946668A (zh) | 基于边缘节点的语义处理方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |