CN115659046B - 基于ai大数据的技术交易推荐系统及方法 - Google Patents

基于ai大数据的技术交易推荐系统及方法 Download PDF

Info

Publication number
CN115659046B
CN115659046B CN202211407437.8A CN202211407437A CN115659046B CN 115659046 B CN115659046 B CN 115659046B CN 202211407437 A CN202211407437 A CN 202211407437A CN 115659046 B CN115659046 B CN 115659046B
Authority
CN
China
Prior art keywords
text
word
technical
words
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211407437.8A
Other languages
English (en)
Other versions
CN115659046A (zh
Inventor
杨高林
兰毅
宋文力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guozi Qingdao Digital Technology Co ltd
Original Assignee
Guozi Qingdao Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guozi Qingdao Digital Technology Co ltd filed Critical Guozi Qingdao Digital Technology Co ltd
Priority to CN202211407437.8A priority Critical patent/CN115659046B/zh
Publication of CN115659046A publication Critical patent/CN115659046A/zh
Application granted granted Critical
Publication of CN115659046B publication Critical patent/CN115659046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及交易数据处理技术领域,具体涉及一种基于AI大数据的技术交易推荐系统及方法,该方法包括:收集所有用户账号的技术文本构成推荐集;对技术文本进行分词与文本位置划分,根据词出现的文本位置以及在对应文本位置出现的数量获取每个文本位置的重要程度;获取每个技术文本中每个词的共现值和离散程度;根据每个文本位置的重要程度、每个词的共现值以及离散程度更新TF‑IDF算法中的关键值函数,根据更新后的关键值函数得到技术文本中每个词的关键值;根据每个词的关键值提取推荐集中的相似文本,并获取每个相似文本的相似度,根据相似度对相似文本进行降序排列得到推荐结果;关键词的提取更加准确,进而使得推荐结果更加准确。

Description

基于AI大数据的技术交易推荐系统及方法
技术领域
本发明涉及交易数据处理技术领域,具体涉及一种基于AI大数据的技术交易推荐系统及方法。
背景技术
随着专利数量以及技术成果的不断丰富,对于新技术的需求也在不断增加,如何将有用的技术成果转换成看得见的经济效益是一个重点关注的问题,也因此出现了技术转移并建立了技术转移信息服务平台,技术转移不仅在研究和产业之间起着重要的连接作用,并且能够促进区域内的知识流动。
目前在技术转移信息服务平台搜索自身需求的相关技术信息时,往往是以文本相似度的匹配为主,对于文本相似度的匹配最常用的方法便是基于TF-IDF算法,利用传统的TF-IDF算法对文本的关键词进行提取以进行匹配,但该方法忽略了不同词的重要程度以及词的分布状况,对于权重的调整精确度较低,且没有考虑到词所在位置的重要性,因此会导致匹配结果不够精准。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于AI大数据的技术交易推荐系统及方法,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种基于AI大数据的技术交易推荐方法,该方法包括以下步骤:
收集所有用户账号的浏览记录,所述浏览记录中包括至少两个技术文本,所有用户账号的技术文本构成推荐集;
对每个技术文本进行文本位置的划分,同时对每个技术文本进行分词,统计特定长度词出现的文本位置以及在对应文本位置出现的数量,以得到每个文本位置中词的出现比例;根据所有词的出现比例以及所有词出现的文本位置得到每个文本位置的重要程度;
将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句;根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值;统计每个词在技术文本中出现的行位置信息,根据每个词出现的行位置信息获取对应的离散程度;
根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子;根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值;
根据每个词的关键值提取所述推荐集中的相似文本,并获取每个所述相似文本的相似度,根据所述相似度对所述相似文本进行降序排列得到推荐结果。
优选的,所述根据文本位置中词的数量以及所有词出现的文本位置数量得到每个文本位置的重要程度,包括:
Figure 289196DEST_PATH_IMAGE001
其中,
Figure 504539DEST_PATH_IMAGE002
表示第
Figure 587072DEST_PATH_IMAGE003
个文本位置的重要程度;
Figure 952587DEST_PATH_IMAGE004
表示第
Figure 298118DEST_PATH_IMAGE003
个文本位置中词的数量;
Figure 808996DEST_PATH_IMAGE005
表示第
Figure 731822DEST_PATH_IMAGE006
种词出现的文本位置数量;
Figure 868405DEST_PATH_IMAGE007
表示所有的词的种类的数量,U表示文本位置的 数量。
优选的,所述根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子,包括:
Figure 740546DEST_PATH_IMAGE008
W表示第
Figure 422325DEST_PATH_IMAGE006
种词的校正因子;
Figure 98026DEST_PATH_IMAGE009
表示第
Figure 38300DEST_PATH_IMAGE006
种词出现的文本位置数量;
Figure 499369DEST_PATH_IMAGE010
表示第
Figure 352049DEST_PATH_IMAGE011
种词的共现值;
Figure 780625DEST_PATH_IMAGE012
表示第
Figure 993432DEST_PATH_IMAGE006
种词的离散程度。
优选的,所述根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值,包括:
Figure 325319DEST_PATH_IMAGE013
其中,
Figure 598168DEST_PATH_IMAGE014
表示第u种词的关键值,
Figure 514040DEST_PATH_IMAGE015
表示文本位置的数量;
Figure 796117DEST_PATH_IMAGE016
表示第
Figure 231778DEST_PATH_IMAGE003
个文本位置 的重要程度;
Figure 703559DEST_PATH_IMAGE017
表示第
Figure 857460DEST_PATH_IMAGE006
种词在第
Figure 661336DEST_PATH_IMAGE003
个文本位置中的出现比例;
Figure 951503DEST_PATH_IMAGE018
表示第
Figure 848046DEST_PATH_IMAGE011
种词在所有技 术文本中出现的技术文本的数量;
Figure 223664DEST_PATH_IMAGE019
表示所有技术文本的数量;
Figure 831232DEST_PATH_IMAGE020
表示第u种词的校正因 子。
优选的,所述将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句,包括:
根据技术文本中的标点符号将技术文本划分为多个分句,统计分句中每种词在技术文本中出现的频次,当出现的频次大于预设次数时将该词进行保留;当出现的频次不大于预设次数时,将该词进行舍弃;最终得到所有保留下的分句,将保留下的分句记为剩余分句。
优选的,所述根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值的步骤,包括:
由剩余分句中所有种类的词作为矩阵的行和列,矩阵中每个位置的元素表示对应的行和列的两个词出现在同一剩余分句的次数;
将矩阵中每行的所有元素值进行相加得到累加结果,最终对于每个词都有一个累加结果,然后对累加结果进行极差归一化,得到每个词的共现值。
优选的,所述统计每个词在技术文本中出现的行位置信息,根据每个词出现的行位置信息获取对应的离散程度,包括:
所述出现的行位置信息是指每个词在技术文本中每次出现的行的行数;
所述离散程度的计算为:
Figure 975905DEST_PATH_IMAGE021
其中,
Figure 777770DEST_PATH_IMAGE022
表示第
Figure 640684DEST_PATH_IMAGE006
种词的离散程度;
Figure 51943DEST_PATH_IMAGE023
表示第
Figure 5118DEST_PATH_IMAGE006
种词第一次出现的行数;
Figure 227152DEST_PATH_IMAGE024
表示第
Figure 92208DEST_PATH_IMAGE006
种词下一次出现的行数;
Figure 57890DEST_PATH_IMAGE025
表示技术文本的总行数,P即第
Figure 927888DEST_PATH_IMAGE011
种词出现的次数;
最终得到每个词的离散程度,然后对所有词的离散程度进行极差归一化,作为最终每个词的离散程度。
优选的所述根据每个词的关键值提取所述推荐集中的相似文本的步骤,包括:
获取当前用户账号的搜索关键词以及历史浏览记录,提取所述历史浏览记录中所有技术文本内关键值最高的第一预设数量的词为关键词;
根据当前用户账号对应的关键词以及所述搜索关键词在所述推荐集中提取相似文本,每个所述相似文本中关键值最高的第二预设数量的词与当前用户账号对应的第一预设数量的关键词以及所述搜索关键词一致。
优选的,所述获取每个所述相似文本的相似度的步骤,包括:
获取与当前用户账号利用相同所述搜索关键词的其他的目标用户,统计所述目标用户对应的所有历史浏览记录,统计每个所述目标用户的历史浏览记录中对每个技术文本的浏览时间,以每个所述目标用户对每个技术文本的浏览时间与该技术文本中搜索关键词的关键值的乘积作为每个所述目标用户对每个技术文本的关注度,每个技术文本受到所有所述目标用户的关注度的求和为对应技术文本的推荐程度;
获取当前用户账号对应的所述相似文本的推荐程度,对当前用户账号对应的第一预设数量关键词以及所述搜索关键词赋予权重,获取每个所述相似文本中第一预设数量关键词以及所述搜索关键词的关键值与权重的加权求和结果,所述加权求和结果与所述相似文本对应推荐程度的乘积为对应所述相似文本的相似度。
第二方面,本发明另一个实施例提供了一种基于AI大数据的技术交易推荐系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器在执行所述计算机程序时实现上述基于AI大数据的技术交易推荐方法中任意一项所述方法的步骤。
本发明具有如下有益效果:本发明实施例中通过技术文本中每个词出现的文本位置以及每个文本位置对应的重要程度对TF-IDF算法进行改进,以使得TF-IDF算法中得到的每个词的关键值更加准确可靠;在对每个文本位置的重要程度的获取时,结合所有词的出现比例以及所有词出现的文本位置进行计算,提高了重要程度获取的全面性;同时,对技术文本中每个分句以及每一行的词进行分析,得到每个词对应的共现值和离散程度;在对TF-IDF算法的关键值获取的改进中,同样结合每个词对应的共现值和离散程度进行分析,信息结合的更加全面多样,基于技术文本中关键词的特征信息进行关键值获取,关键值结果的获取更加合理和准确,根据更加准确的关键值提取到的技术文本中的关键词更加准确,并且后续得到的相似文本更加具有参考价值,同时在对相似文本进行推荐结果的设定时,获取每个相似文本的相似度进行排列,使得推荐的结果更加直观明了,减少了搜索查找过程中的时间浪费,提高了效率的同时保证了推荐结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于AI大数据的技术交易推荐方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于AI大数据的技术交易推荐系统及方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于AI大数据的技术交易推荐系统及方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于AI大数据的技术交易推荐方法流程图,该方法包括以下步骤:
步骤S100,收集所有用户账号的浏览记录,所述浏览记录中包括至少两个技术文本,所有用户账号的技术文本构成推荐集。
具体的,在技术交易平台上,通过平台后台收集所有用户账号的浏览记录,本发明实施例中的浏览记录对应的就是技术文本,以所有用户账号对应的技术文本构成推荐集,以推荐集作为基础来进行平台推荐,保存每个用户账户对应技术文本的关键词,若用户账号不存在浏览记录,则第一次搜索以关键词为准,之后将该用户账号的浏览记录进行保存;关键词是指每个技术文本中的关键词,可用于对用户需求的相似文本进行推荐,因此每个技术文本中关键词获取的准确性,决定了技术文本推荐的准确性。
步骤S200,对每个技术文本进行文本位置的划分,同时对每个技术文本进行分词,统计特定长度词出现的文本位置以及在对应文本位置出现的数量,以得到每个文本位置中词的出现比例;根据文本位置中词的数量以及所有词出现的文本位置数量得到每个文本位置的重要程度。
在对每个技术文本的关键词进行获取的方法,本发明实施例中采用改进的TF-IDF算法,TF-IDF算法的主要计算方式就是统计技术文本中某一个词语出现的频次以及该词语在语类库中的逆向文件频率,将得到的每个词语出现的频次与对应的逆向文件频率相乘得到该词语的TF-IDF值,也即是该词语的关键值;但传统的TF-IDF算法忽略了不同词语所在位置的影响,对权重的调整不够准确,从而会导致计算出的每个词语的关键值不够精准,并且传统的TF-IDF算法中逆向文件频率计算时认为文本量越少越重要,评估方法较为单一,准确性较低,因此对TF-IDF算法进行改进。
首先,对平台获取的推荐集中的所有技术文本的词进行提取,也即是通过NLP分词对所有的技术文本进行分词,NLP分词可通过jieba库实现,这里不再赘述其原理。
需要说明的是,在提取词的过程中,标点符号不参与词的构成,即需要进行停用词处理,为自然语言处理中常见的文本处理手段,这里不再赘述。
通常技术文本包含多个部分,每部分其作用不同,因此为了更准确的计算每个词的重要程度,本发明实施例中每篇技术文本的位置来求取权重,技术文本的位置部分本方案划分为五个文本位置,分别为题目、摘要、背景、说明以及正文,即文本位置数量U为5,在其他实施例中实施者可根据技术文本的类型进行文本位置的自适应划分;对于整篇技术文档而言,不同文本位置中的词的重要度可能存在差异,因此通过添加不同词对应的位置信息的考虑,可增加逆向文件频率获取的准确性。
通常技术文本而言,大多关键词都集中在长度2、3、4上,因此本发明分析上述几个长度的词,实施者也可根据文本类型分析更多长度的词,即本发明下述分析只分析长度为2、3、4的词,其他长度的词不考虑。
对所有长度下的词的文本位置进行统计,由于本发明实施例中每个技术文本包括 五个文本位置,因此统计每个文本位置下每个词出现的数量,构建每个词对应的位置序列, 位置序列表示为:
Figure 55244DEST_PATH_IMAGE026
,其中,
Figure 142018DEST_PATH_IMAGE006
表示词的种类,
Figure 645812DEST_PATH_IMAGE027
表示第
Figure 635895DEST_PATH_IMAGE006
种词对应 的位置序列,本发明实施例中将所有的词的种类的数量记为H;
Figure 199732DEST_PATH_IMAGE009
表示第
Figure 773802DEST_PATH_IMAGE011
种词出现的文 本位置数量,假设第
Figure 81286DEST_PATH_IMAGE006
种词在题目、摘要、背景、说明以及正文均出现过,则
Figure 660297DEST_PATH_IMAGE028
Figure 395035DEST_PATH_IMAGE029
表示 第
Figure 190822DEST_PATH_IMAGE006
种词在题目中出现的数量;
Figure 567576DEST_PATH_IMAGE030
表示第u种词在摘要中出现的数量;
Figure 515941DEST_PATH_IMAGE031
表示第u种词在背 景中出现的数量;
Figure 906733DEST_PATH_IMAGE032
表示第
Figure 189816DEST_PATH_IMAGE011
种词在说明中出现的数量;
Figure 839103DEST_PATH_IMAGE033
表示第
Figure 115408DEST_PATH_IMAGE006
种词在正文中出现 的数量;以此类推,可构建出不同长度下每个词对应的位置序列,基于位置序列中的元素对 每个文本位置下每个词的出现比例进行获取,出现比例的计算方法为:
Figure 191949DEST_PATH_IMAGE034
其中,
Figure 962328DEST_PATH_IMAGE035
表示第
Figure 149726DEST_PATH_IMAGE003
个文本位置下每个词的出现比例;
Figure 823415DEST_PATH_IMAGE036
表示第
Figure 70857DEST_PATH_IMAGE003
个文本位置下每个 词出现的数量;
Figure 328532DEST_PATH_IMAGE037
表示第
Figure 116359DEST_PATH_IMAGE003
个文本位置下所有的词出现的数量。
至此,即可获取每个词在不同文本中的出现比例。
当任意一个词在文本位置中出现的数量越多时,该词在对应文本位置的出现比例越大,出现比例也即是该词的出现次数在对应文本位置的占比。
进一步的,根据不同文本位置的词的数量及每个词出现的文本位置数量进行文本位置的重要程度的衡量,如果一个词只出现在一个文本位置,则该文本位置越重要,同时该文本位置中词的数量越小,该文本位置越重要,因此每个文本位置的重要程度的计算为:
Figure 893823DEST_PATH_IMAGE001
其中,
Figure 531740DEST_PATH_IMAGE002
表示第
Figure 27443DEST_PATH_IMAGE003
个文本位置的重要程度;
Figure 71491DEST_PATH_IMAGE004
表示第
Figure 188614DEST_PATH_IMAGE003
个文本位置中词的数量;
Figure 777858DEST_PATH_IMAGE005
表示第
Figure 26437DEST_PATH_IMAGE006
种词出现的文本位置数量;
Figure 608597DEST_PATH_IMAGE007
表示所有的词的种类的数量。
Figure 95073DEST_PATH_IMAGE002
越大,表明该 文本位置出现的各种词数量较少,且词出现在所有文本位置的次数也越少,该文本位置越 重要。
步骤S300,将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句;根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值;统计每个词在技术文本中出现的行位置信息,根据每个词出现的行位置信息获取对应的离散程度。
由步骤S200中对每个技术文本中每个文本位置的重要程度进行获取,考虑到技术文本中的关键词一般具备两点特征,一是与其他词之间的搭配组合较多,二是在技术文本中出现的次数较多且较为分散,基于此对技术文本中每个词的特有指标进行获取,本发明实施例中特有指标包括每个词的共现值和离散程度,具体获取的方法为:
(1)每个词的共现值的获取。
根据技术文本中的标点符号将技术文本划分为多个分句,例如逗号、分号以及句号隔开的句子均是一个分句,对于每一个分句,获取该分句中所有种类的词,统计分句中每种词在技术文本中出现的频次,当出现的频次大于预设次数时将该词进行保留;当出现的频次不大于预设次数时,将该词进行舍弃;优选的,本发明实施例中预设次数为3,其他实施例中实施者可根据需要自行设置。
由于只考虑长度为2、3、4的词语,且存在分句中所有上述长度的词都被舍弃的情况,因此可能有些分句会被舍弃;对技术文本中所有的分句进行分析,得到所有保留下的分句,将保留下的分句记为剩余分句,并获取剩余分句中保留的多个种类的词。
根据剩余分句中所有保留下的词进行矩阵的构建,该矩阵的行由每个种类的词构成,该矩阵的列也由每个种类的词构成,矩阵中每个位置的元素表示对应的行和列的两个词出现在同一剩余分句的次数;基于该方法构建出剩余分句中所有保留下的词的共现矩阵。
将矩阵中每行的所有元素值进行相加得到累加结果,最终对于每个词都有一个累 加结果,然后对累加结果进行极差归一化,得到每个词的共现值。将每种词的共现值记为
Figure 183115DEST_PATH_IMAGE038
,共现值越大,表明该词在技术文本中存在较多的搭配组合,则该词的重要性越大,越可 能为关键词。
(2)每个词的离散程度的获取。
统计每个词在技术文本中出现的行位置信息,以技术文本中每一行作为一个距离进行统计,第一行与第二行之间的距离为1,第三行与第一行之间的距离为2,以此类推;当一个词在技术文本中每次出现的距离很近,则说明该词属于区域性集中的词,大概率不为关键词,关键词的特征是在整篇技术文本中都出现且每次出现的距离不会过近,因此基于每个词在技术文本中出现的位置进行离散程度的获取。
从技术文本的第一行开始,计算每个词与该词下一次出现的间隔距离,按照行数依次计算,例如前三行中都存在一个种类的词,则该词的总距离为2;从第一行开始遍历,对于某个词,在某一行找到该词后,该行数就表示该词的位置,以该行数继续进行遍历寻找,该词下一次出现的行数与第一次出现的行数之间的差值即为该词的距离,因此根据每个词对应的所有的距离进行离散程度的计算为:
Figure 76247DEST_PATH_IMAGE021
其中,
Figure 993256DEST_PATH_IMAGE022
表示第
Figure 334239DEST_PATH_IMAGE006
种词的离散程度;
Figure 281597DEST_PATH_IMAGE023
表示第
Figure 160560DEST_PATH_IMAGE006
种词第一次出现的行数;
Figure 631993DEST_PATH_IMAGE024
表示第
Figure 93061DEST_PATH_IMAGE006
种词下一次出现的行数;
Figure 680163DEST_PATH_IMAGE025
表示技术文本的总行数,P即第
Figure 656209DEST_PATH_IMAGE011
种词出现的次数。
作为一个示例,假设技术文本的总行数
Figure 383862DEST_PATH_IMAGE025
为30,某个词在技术文本中共出现5次, 每一次的行数分别为1、5、9、16、25,根据上述离散程度的计算公式可得到该词的离散程度 的计算为:
Figure 965017DEST_PATH_IMAGE039
;每个词的离散程度越大,表明其出现在技术文 本中的每一行之间的距离差值越大,该种词出现次数也越多,则该词为关键词的可能性越 大;每个词的离散程度越小,该词在技术文本中每次出现的行数之间的差值越小,也即是该 词出现的位置越紧凑,该种词出现次数越少,为关键词的可能性越小。
最终得到每个词的离散程度,然后对所有词的离散程度进行极差归一化,作为最终每个词的离散程度。
步骤S400,根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子;根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值。
由步骤S300得到了每个词的共现值和离散程度,步骤S200中得到了技术文本中每 个文本位置的重要程度,因此为了解决传统的TF-IDF(即TFIDF算法)算法权重设置不准确 且忽略技术本文中位置的影响的问题,本发明实施例中基于技术文本中每个文本位置的重 要程度、每个词的共现值以及离散程度对TF-IDF算法中TF-IDF值获取的公式进行修正,也 即是更新了TF-IDF算法中的关键值函数,以第
Figure 191861DEST_PATH_IMAGE006
种词为例,更新后的关键值函数计算出技 术文本中第
Figure 920782DEST_PATH_IMAGE006
种词的关键值为:
首先计算校正因子W:
Figure 937280DEST_PATH_IMAGE040
Figure 622208DEST_PATH_IMAGE009
表示第
Figure 65959DEST_PATH_IMAGE006
种词出现的文本位置数量;
Figure 716732DEST_PATH_IMAGE041
表示第
Figure 786188DEST_PATH_IMAGE006
种词的共现值;
Figure 499191DEST_PATH_IMAGE012
表示第
Figure 379422DEST_PATH_IMAGE011
种词的离散程度。对应的第
Figure 738728DEST_PATH_IMAGE006
种词出现的文本位置数量越多,词共现值越大,离散程度越 大,该词越可能是关键词,校正因子也越大。
计算词的关键值:
Figure 893766DEST_PATH_IMAGE042
其中,
Figure 992434DEST_PATH_IMAGE014
表示第
Figure 43567DEST_PATH_IMAGE006
种词的关键值;
Figure 155748DEST_PATH_IMAGE017
表示第
Figure 52160DEST_PATH_IMAGE006
种词在第
Figure 67652DEST_PATH_IMAGE003
个文本位置中出现的比 例;
Figure 7795DEST_PATH_IMAGE043
表示第
Figure 154743DEST_PATH_IMAGE006
种词在所有技术文本中出现的技术文本的数量;
Figure 120425DEST_PATH_IMAGE044
表示所有技术文本的数 量;
Figure 724843DEST_PATH_IMAGE045
表示以自然对数计算; 对于
Figure 117779DEST_PATH_IMAGE046
一项,为该词的加权文本位置词频,结合了 第
Figure 204552DEST_PATH_IMAGE006
种词在不同文本位置中出现的比例与对应文本位置的重要程度对该词的重要性进行 度量,该项取值越大,第
Figure 442767DEST_PATH_IMAGE006
种词出现在越重要的文本位置的比例越多;
Figure 636113DEST_PATH_IMAGE016
表示第
Figure 449217DEST_PATH_IMAGE003
个文本位 置的重要程度;
Figure 774019DEST_PATH_IMAGE047
表示第
Figure 301078DEST_PATH_IMAGE006
种词的逆文档概率,是该词的普遍重要性的度量。
基于获取第
Figure 457252DEST_PATH_IMAGE006
种词的关键值相同的方法,利用更新后的关键值函数获取技术文本 中每个词对应的关键值,本发明实施例中以每篇技术文本的10个关键词表示该技术文本的 特征,则选取每篇技术文本的关键值最大的前10个词表示该技术文本的特征,同时,被选取 出的关键值最大的前10个词也即是该技术文本的关键词。
步骤S500,根据每个词的关键值提取所述推荐集中的相似文本,并获取每个所述相似文本的相似度,根据所述相似度对所述相似文本进行降序排列得到推荐结果。
在获取到技术文本中每个词的关键值后,可根据每个词的关键值选取中每个技术文本对应的关键词,基于此获取平台上所有技术文本对应的关键词;在用户账号进行搜索时,可知用户需求搜索时的搜索关键词以及用户账号的历史浏览记录,在用户账号的历史浏览记录的所有技术文本中,可以得到每个技术文本的关键词信息,则对于该用户账号的搜索结果以及其对应的历史浏览记录中所有的技术文本中,提取五个关键词作为基础,本发明实施例中默认搜索时是以单个关键词进行搜索,因此五个关键词中一个关键词为搜索关键词,其他四个关键词为浏览记录中所有技术文本中的所有种类的词的关键值最高的4个词。
在提取到用户账户的五个关键词后,将推荐集的所有技术文本中这五个关键词的关键值最高所在的技术文本提取出来,提取出的技术文本即为搜索推荐的相似文本。
进一步的,对相似文本的推荐程度进行获取;对于当前用户账号的搜索关键词,找到平台的历史记录中同样使用该搜索关键词搜索的用户账号对应的历史浏览记录,将所有用该搜索关键词搜索的用户账号记为目标用户,将所有的目标用户进行整理构建成表格,该表格的纵向表示不同的目标用户,横向表示历史浏览记录中不同的技术文本,表格中的每个数据表示该目标用户浏览该技术文本的浏览时间,浏览时间越长越可以表示该篇技术文本的目标用户的关注度越高。
虽然每个目标用户利用同样的搜索关键词进行搜索,但是不同目标用户浏览的技术文本不同,且每篇技术文本的浏览时长不同,也即是在表格中一定会存在某个位置的数据为0,数据为0时表明该目标用户没有浏览该技术文本;由于每篇技术文本是根据搜索关键词搜索得到的,因此在技术文本中会存在搜索关键词,且基于步骤S400中的方法可得到该搜索关键词在不同技术文本中的关键值,那么根据不同目标用户对该技术文本的浏览时间以及该技术文本中搜索关键词的关键值得到文档关注度,文档关注度的计算为每个目标用户对技术文本的浏览时间与该技术文本中搜索关键词对应的关键值的乘积;以此类推,可得到每个目标用户对每篇技术文本的文档关注度,则可基于每个目标用户对每篇技术文本的文档关注度构建关注度矩阵,关注度矩阵的行为技术文本,列为不同的目标用户,关注度矩阵中的每个元素值表示目标用户对技术文本的关注度。
将关注度矩阵中每一列的元素值进行累加,得到的结果为对应的技术文本的推荐程度,推荐程度越大,该技术文本对不同目标用户的关注度越大,则该技术文本在推荐时越优先考虑。
至此,获取了当前用户文档的五个关键词以及对应的相似文本,由于五个关键词中包括了搜索关键词和技术文本的关键词,因此对于不同的关键词赋予不同的权重,其中搜索关键词的权重为0.6,其他四个关键词的权重分别为0.1,在其他实施例中实施者可根据关键词的数量以及实际情况进行调整;同时,还根据相同搜索关键词的目标用户得到每个技术文本的推荐程度,因此可对应得到每个相似文本的推荐程度,则根据每个相似文本的推荐程度以及其中关键词对应的关键值以及权重获取每个相似文本的相似度,相似度的计算为:
Figure 191990DEST_PATH_IMAGE048
其中,
Figure 987777DEST_PATH_IMAGE049
表示第
Figure 833373DEST_PATH_IMAGE050
个关键词对应的权重;
Figure 266891DEST_PATH_IMAGE051
表示第
Figure 421797DEST_PATH_IMAGE050
个关键词在该相似文本中的 关键值;
Figure 252350DEST_PATH_IMAGE052
表示该相似文本的推荐程度;
Figure 636058DEST_PATH_IMAGE053
表示相似文本的相似度。
相似文本的推荐程度越大,且其中关键词的关键值和权重越大,则该相似文本与用户搜索需求越匹配,相似度越高,越应该被优先推荐;以此类推,获取所有相似文本的相似度,按照相似文本的相似度进行由大到小的排列,相似度最大的相似文本在推荐时排列在第一个,由此,基于每个相似文本对应的相似度排列后得到当前用户账号的搜索的推荐结果。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种基于AI大数据的技术交易推荐系统,该系统包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序。处理器执行所述计算机程序时实现上述基于AI大数据的技术交易推荐方法实施例中的步骤,例如图1所示的步骤。该基于AI大数据的技术交易推荐方法在上述实施例中已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于AI大数据的技术交易推荐方法,其特征在于,该方法包括以下步骤:
收集所有用户账号的浏览记录,所述浏览记录中包括至少两个技术文本,所有用户账号的技术文本构成推荐集;
对每个技术文本进行文本位置的划分,同时对每个技术文本进行分词,统计特定长度词出现的文本位置以及在对应文本位置出现的数量,以得到每个文本位置中词的出现比例;根据文本位置中词的数量以及所有词出现的文本位置数量得到每个文本位置的重要程度;
将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句;根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值;统计每个词在技术文本中出现的行位置信息,根据每个词出现的行位置信息获取对应的离散程度;
根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子;根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值;
根据每个词的关键值提取所述推荐集中的相似文本,并获取每个所述相似文本的相似度,根据所述相似度对所述相似文本进行降序排列得到推荐结果;
所述根据文本位置中词的数量以及所有词出现的文本位置数量得到每个文本位置的重要程度,包括:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示第
Figure QLYQS_3
个文本位置的重要程度;
Figure QLYQS_4
表示第
Figure QLYQS_5
个文本位置中词的数量;
Figure QLYQS_6
表示第
Figure QLYQS_7
种词出现的文本位置数量;
Figure QLYQS_8
表示所有的词的种类的数量,U表示文本位置的数量;
所述根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值,包括:
Figure QLYQS_9
其中,
Figure QLYQS_11
表示第u种词的关键值,
Figure QLYQS_14
表示文本位置的数量;
Figure QLYQS_18
表示第
Figure QLYQS_12
个文本位置的重要程度;
Figure QLYQS_15
表示第
Figure QLYQS_17
种词在第
Figure QLYQS_20
个文本位置中的出现比例;
Figure QLYQS_10
表示第
Figure QLYQS_13
种词在技术文本中出现的技术文本的数量;
Figure QLYQS_16
表示所有技术文本的数量;
Figure QLYQS_19
表示第u种词的校正因子;
所述统计每个词在技术文本中出现的行位置信息,根据每个词出现的行位置信息获取对应的离散程度,包括:
所述出现的行位置信息是指每个词在技术文本中每次出现的行的行数;
所述离散程度的计算为:
Figure QLYQS_21
其中,
Figure QLYQS_23
表示第
Figure QLYQS_26
种词的离散程度;
Figure QLYQS_28
表示第
Figure QLYQS_24
种词第一次出现的行数;
Figure QLYQS_25
表示第
Figure QLYQS_27
种词下一次出现的行数;
Figure QLYQS_29
表示技术文本的总行数,P即第
Figure QLYQS_22
种词出现的次数;
最终得到每个词的离散程度,然后对所有词的离散程度进行极差归一化,作为最终每个词的离散程度。
2.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子,包括:
Figure QLYQS_30
W表示第
Figure QLYQS_31
种词的校正因子;
Figure QLYQS_32
表示第
Figure QLYQS_33
种词出现的文本位置数量;
Figure QLYQS_34
表示第
Figure QLYQS_35
种词的共现值;
Figure QLYQS_36
表示第
Figure QLYQS_37
种词的离散程度。
3.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句,包括:
根据技术文本中的标点符号将技术文本划分为多个分句,统计分句中每种词在技术文本中出现的频次,当出现的频次大于预设次数时将该词进行保留;当出现的频次不大于预设次数时,将该词进行舍弃;最终得到所有保留下的分句,将保留下的分句记为剩余分句。
4.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值的步骤,包括:
由剩余分句中所有种类的词作为矩阵的行和列,矩阵中每个位置的元素表示对应的行和列的两个词出现在同一剩余分句的次数;
将矩阵中每行的所有元素值进行相加得到累加结果,最终对于每个词都有一个累加结果,然后对累加结果进行极差归一化,得到每个词的共现值。
5.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述根据每个词的关键值提取所述推荐集中的相似文本的步骤,包括:
获取当前用户账号的搜索关键词以及历史浏览记录,提取所述历史浏览记录中所有技术文本内关键值最高的第一预设数量的词为关键词;
根据当前用户账号对应的第一预设数量的关键词以及所述搜索关键词在所述推荐集中提取相似文本,每个所述相似文本中关键值最高的第二预设数量的词与当前用户账号对应的第一预设数量的关键词以及所述搜索关键词一致。
6.根据权利要求5所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述获取每个所述相似文本的相似度的步骤,包括:
获取与当前用户账号利用相同所述搜索关键词的其他的目标用户,统计所述目标用户对应的所有历史浏览记录,统计每个所述目标用户的历史浏览记录中对每个技术文本的浏览时间,以每个所述目标用户对每个技术文本的浏览时间与该技术文本中搜索关键词的关键值的乘积作为每个所述目标用户对每个技术文本的关注度,每个技术文本受到所有所述目标用户的关注度的求和为对应技术文本的推荐程度;
获取当前用户账号对应的所述相似文本的推荐程度,对当前用户账号对应的第一预设数量关键词以及所述搜索关键词赋予权重,获取每个所述相似文本中第一预设数量关键词以及所述搜索关键词的关键值与权重的加权求和结果,所述加权求和结果与所述相似文本对应推荐程度的乘积为对应所述相似文本的相似度。
7.一种基于AI大数据的技术交易推荐系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器在执行所述计算机程序时实现如权利要求1-6任意一项所述方法的步骤。
CN202211407437.8A 2022-11-10 2022-11-10 基于ai大数据的技术交易推荐系统及方法 Active CN115659046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211407437.8A CN115659046B (zh) 2022-11-10 2022-11-10 基于ai大数据的技术交易推荐系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211407437.8A CN115659046B (zh) 2022-11-10 2022-11-10 基于ai大数据的技术交易推荐系统及方法

Publications (2)

Publication Number Publication Date
CN115659046A CN115659046A (zh) 2023-01-31
CN115659046B true CN115659046B (zh) 2023-03-10

Family

ID=85021359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211407437.8A Active CN115659046B (zh) 2022-11-10 2022-11-10 基于ai大数据的技术交易推荐系统及方法

Country Status (1)

Country Link
CN (1) CN115659046B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725146A (zh) * 2023-12-22 2024-03-19 中信出版集团股份有限公司 一种基于人工智能的网络信息加工处理系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339502A (zh) * 2016-09-18 2017-01-18 电子科技大学 一种基于用户行为数据分片聚类的建模推荐方法
CN113705217A (zh) * 2021-09-01 2021-11-26 国网江苏省电力有限公司电力科学研究院 一种面向电力领域知识学习的文献推荐方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100113423A (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN111061957A (zh) * 2019-12-26 2020-04-24 广东电网有限责任公司 一种文章相似度推荐方法和装置
CN112256822A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质
CN113239201A (zh) * 2021-05-20 2021-08-10 国网上海市电力公司 一种基于知识图谱的科技文献分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339502A (zh) * 2016-09-18 2017-01-18 电子科技大学 一种基于用户行为数据分片聚类的建模推荐方法
CN113705217A (zh) * 2021-09-01 2021-11-26 国网江苏省电力有限公司电力科学研究院 一种面向电力领域知识学习的文献推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张俊伟 ; 杨柳 ; 王硕宁 ; 王忠建 ; .基于文本挖掘的商品推荐.2017,(第04期),全文. *

Also Published As

Publication number Publication date
CN115659046A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US8341159B2 (en) Creating taxonomies and training data for document categorization
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
US20090307213A1 (en) Suffix Tree Similarity Measure for Document Clustering
US20040141354A1 (en) Query string matching method and apparatus
US20070112867A1 (en) Methods and apparatus for rank-based response set clustering
KR20150036117A (ko) 쿼리 확장
CN110750995B (zh) 一种基于自定义图谱的文件管理方法
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN109145260A (zh) 一种文本信息自动提取方法
CN112581006A (zh) 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN115659046B (zh) 基于ai大数据的技术交易推荐系统及方法
CN103942232B (zh) 用于挖掘意图的方法和设备
Da Silva et al. Measuring quality of similarity functions in approximate data matching
CN113282834A (zh) 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质
CN113988053A (zh) 一种热词提取方法及装置
CN111782956A (zh) 一种基于用户行为和关键词分类的搜索方法
JP4426041B2 (ja) カテゴリ因子による情報検索方法
Watanabe et al. A paper recommendation mechanism for the research support system papits
CN112184021A (zh) 一种基于相似支持集的答案质量评估方法
Geleijnse et al. Web-Based Artist Categorization.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant