CN117520627A - 项目检索数据处理方法及装置 - Google Patents
项目检索数据处理方法及装置 Download PDFInfo
- Publication number
- CN117520627A CN117520627A CN202311351310.3A CN202311351310A CN117520627A CN 117520627 A CN117520627 A CN 117520627A CN 202311351310 A CN202311351310 A CN 202311351310A CN 117520627 A CN117520627 A CN 117520627A
- Authority
- CN
- China
- Prior art keywords
- policy
- item
- text
- parameters
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000005516 engineering process Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 21
- 238000007635 classification algorithm Methods 0.000 claims abstract description 12
- 230000036316 preload Effects 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 30
- 238000003062 neural network model Methods 0.000 claims description 21
- 230000009193 crawling Effects 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种项目检索数据处理方法及装置,该方法包括:从多个科技项目政策发布网站上获取多个项目政策抓取数据;基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数;基于相似度算法,根据用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本,以预加载到后台;根据实时获取的网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本,将所述目标政策文本推送显示给所述目标用户。可见,本发明能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种项目检索数据处理方法及装置。
背景技术
科技项目的从业人员或辅助检索人员,需要在网站上通过关键词检索等方式持续地对科技项目政策进行检索和更新,这些需要付出大量的人工成本和时间成本,且由于人工精度有限有可能出错,因此引入大数据技术来提高对科技项目政策的检索效率势在必行。
但现有技术在实现科技项目政策检索更新相关的技术目的时,一般仅通过爬虫技术来做简单的数据爬取,没有进一步考虑到利用算法优势来提前进行项目政策文本的分析,并根据检索人员的用户参数和实时操作来提高推荐算法的推荐效果,其检索效率交底,推荐效果较差。可见,现有技术存在缺陷,亟需解决。
发明内容
本发明所要解决的技术问题在于,提供一种项目检索数据处理方法及装置,能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
为了解决上述技术问题,本发明第一方面公开了一种项目检索数据处理方法,所述方法包括:
基于预设的网站抓取参数,从多个科技项目政策发布网站上获取多个项目政策抓取数据;
基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数;
获取所述目标用户的用户参数,基于相似度算法,根据所述用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本,以预加载到后台;
实时获取目标用户的在目标网页的网页操作,根据所述网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本,将所述目标政策文本推送显示给所述目标用户。
作为一个可选的实施方式,在本发明第一方面中,所述网站抓取参数包括网站网址、网站登录参数和项目政策关键词;和/或,所述项目参数包括项目领域、项目奖励金额、项目参与主体标准和项目验收标准;和/或,所述用户参数包括用户姓名、用户职业、用户所属企业信息、用户所属领域、用户历史项目检索记录、用户历史项目参与记录中的至少一种;和/或,所述网页操作包括网页输入操作、网页点击操作、网页鼠标移动操作和网页上下滑操作。
作为一个可选的实施方式,在本发明第一方面中,所述基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数,包括:
对于每一所述项目政策抓取数据,将该项目政策抓取数据按预设的分割符号进行分割以得到多个分割数据;所述分割符号包括特定标点符号、段落符号和分页符号中的至少一种;
根据神经网络算法,预测每一所述分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数;
将所述概率参数大于预设的第一参数阈值的所有所述分割数据确定为目标文本数据;
将所述预测政策主题相同的所有所述目标文本数据,归集为同一个项目政策文本,以得到多个所述项目政策文本;
将每一所述项目政策文本对应的所有所述目标文本数据对应的所有所述预测项目参数中的出现次数占最高出现次数的比例超过预设的比例阈值的预测项目参数,确定为所述项目政策文本对应的项目参数;所述出现次数为所述预测项目参数在所述项目政策文本对应的所有预测项目参数中的出现次数;所述最高出现次数为所述项目政策文本对应的所有所述预测项目参数的所述出现次数的最高值。
作为一个可选的实施方式,在本发明第一方面中,所述根据神经网络算法,预测每一所述分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数,包括:
将每一所述分割数据,输入至训练好的政策文本识别神经网络模型,以得到输出的所述分割数据对应的预测政策主题、预测政策类型和第一预测概率;所述政策文本识别神经网络模型通过包括有多个训练文本数据和对应的政策主题标注和政策类型标注的训练数据集训练得到;所述预测政策类型或所述政策类型标注为不同发布主体发布的政策、不同行政区域级别的政策、不同地域范围的政策、激励类型政策或惩罚类型政策;
将每一所述分割数据,输入至对应的所述预测政策类型对应的训练好的项目参数预测神经网络模型,以得到输出的所述分割数据对应的预测项目参数和第二预测概率;所述项目参数预测神经网络模型通过包括有多个训练项目文本数据和对应的项目参数标注的训练数据集训练得到;
对于每一所述分割数据,计算该分割数据对应的所述第一预测概率和所述第二预测概率的加权求和平均值,得到该分割数据对应的概率参数。
作为一个可选的实施方式,在本发明第一方面中,所述基于相似度算法,根据所述用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本,包括:
对于任一所述项目政策文本,计算该项目政策文本的所述项目参数与所述用户参数之间的第一相似度参数;
根据所述第一相似度参数从大到小,对所述多个项目政策文本进行排序以得到第一文本序列;
筛选出所述第一文本序列中前第一数量个的且所述第一相似度参数大于第二参数阈值的所有所述项目政策文本,得到多个候选政策文本。
作为一个可选的实施方式,在本发明第一方面中,所述目标网页上设置有多个对应于不同项目参数的网页区域;所述根据所述网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本,包括:
根据所述网页操作的操作参数,确定每一所述网页区域对应的用户操作偏好度;
根据所述用户操作偏好度从大到小对所有所述网页区域进行排序得到区域序列,将所述区域序列的前第二数量个且所述用户操作偏好度大于预设的偏好度阈值的所有所述网页区域确定为偏好区域;
获取所有所述偏好区域对应的项目参数以组成区域项目参数;
获取所有所述偏好区域对应的历史包含政策记录,得到区域政策记录;所述历史包含政策记录为所述偏好区域所对应的跳转显示页面在历史时间段中显示过的政策文本;
对于每一所述候选政策文本,计算该候选政策文本的所述项目参数和所述区域项目参数之间的第一相似度,和计算该候选政策文本和所述区域政策记录之间的第二相似度;
计算所述第一相似度和所述第二相似度的加权求和平均值,得到该候选政策文本对应的第二相似度参数;
根据所述第二相似度参数从大到小,对所有所述候选政策文本进行排序以得到第二文本序列,筛选出所述第二文本序列中前第二数量个的且所述第二相似度参数大于第三参数阈值的所有所述候选政策文本,得到目标政策文本。
作为一个可选的实施方式,在本发明第一方面中,所述操作参数包括操作位置、操作轨迹和操作浏览页面范围;所述根据所述网页操作的操作参数,确定每一所述网页区域对应的用户操作偏好度,包括:
根据所述网页操作的操作参数,确定所述网页操作对应的操作覆盖范围;
计算每一所述网页区域与所述操作覆盖范围的重合度参数,以得到每一所述网页区域对应的用户操作偏好度。
作为一个可选的实施方式,在本发明第一方面中,所述目标政策文本包括多个目标政策文本;所述将所述目标政策文本推送显示给所述目标用户,包括:
对于每一所述目标政策文本,基于时间文本识别算法,确定该目标政策文本对应的发布时间信息;
计算所述发布时间信息与当前时间之间的时间差参数;
计算该目标政策文本对应的所述第一相似度参数和所述第二相似度参数的加权求和值,得到该目标政策文本对应的匹配度参数;
计算所述时间差参数和所述匹配度参数的加权求和值,得到该目标政策文本对应的优先级参数;
根据所述优先级参数从大到小,对所述多个目标政策文本进行排序得到第三文本序列,并将所述第三文本序列推送显示给所述目标用户。
本发明第二方面公开了一种项目检索数据处理装置,所述装置包括:
抓取模块,用于基于预设的网站抓取参数,从多个科技项目政策发布网站上获取多个项目政策抓取数据;
分析模块,用于基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数;
加载模块,用于获取所述目标用户的用户参数,基于相似度算法,根据所述用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本,以预加载到后台;
显示模块,用于实时获取目标用户的在目标网页的网页操作,根据所述网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本,将所述目标政策文本推送显示给所述目标用户。
作为一个可选的实施方式,在本发明第二方面中,所述网站抓取参数包括网站网址、网站登录参数和项目政策关键词;和/或,所述项目参数包括项目领域、项目奖励金额、项目参与主体标准和项目验收标准;和/或,所述用户参数包括用户姓名、用户职业、用户所属企业信息、用户所属领域、用户历史项目检索记录、用户历史项目参与记录中的至少一种;和/或,所述网页操作包括网页输入操作、网页点击操作、网页鼠标移动操作和网页上下滑操作。
作为一个可选的实施方式,在本发明第二方面中,所述分析模块基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数的具体方式,包括:
对于每一所述项目政策抓取数据,将该项目政策抓取数据按预设的分割符号进行分割以得到多个分割数据;所述分割符号包括特定标点符号、段落符号和分页符号中的至少一种;
根据神经网络算法,预测每一所述分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数;
将所述概率参数大于预设的第一参数阈值的所有所述分割数据确定为目标文本数据;
将所述预测政策主题相同的所有所述目标文本数据,归集为同一个项目政策文本,以得到多个所述项目政策文本;
将每一所述项目政策文本对应的所有所述目标文本数据对应的所有所述预测项目参数中的出现次数占最高出现次数的比例超过预设的比例阈值的预测项目参数,确定为所述项目政策文本对应的项目参数;所述出现次数为所述预测项目参数在所述项目政策文本对应的所有预测项目参数中的出现次数;所述最高出现次数为所述项目政策文本对应的所有所述预测项目参数的所述出现次数的最高值。
作为一个可选的实施方式,在本发明第二方面中,所述分析模块根据神经网络算法,预测每一所述分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数的具体方式,包括:
将每一所述分割数据,输入至训练好的政策文本识别神经网络模型,以得到输出的所述分割数据对应的预测政策主题、预测政策类型和第一预测概率;所述政策文本识别神经网络模型通过包括有多个训练文本数据和对应的政策主题标注和政策类型标注的训练数据集训练得到;所述预测政策类型或所述政策类型标注为不同发布主体发布的政策、不同行政区域级别的政策、不同地域范围的政策、激励类型政策或惩罚类型政策;
将每一所述分割数据,输入至对应的所述预测政策类型对应的训练好的项目参数预测神经网络模型,以得到输出的所述分割数据对应的预测项目参数和第二预测概率;所述项目参数预测神经网络模型通过包括有多个训练项目文本数据和对应的项目参数标注的训练数据集训练得到;
对于每一所述分割数据,计算该分割数据对应的所述第一预测概率和所述第二预测概率的加权求和平均值,得到该分割数据对应的概率参数。
作为一个可选的实施方式,在本发明第二方面中,所述加载模块基于相似度算法,根据所述用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本的具体方式,包括:
对于任一所述项目政策文本,计算该项目政策文本的所述项目参数与所述用户参数之间的第一相似度参数;
根据所述第一相似度参数从大到小,对所述多个项目政策文本进行排序以得到第一文本序列;
筛选出所述第一文本序列中前第一数量个的且所述第一相似度参数大于第二参数阈值的所有所述项目政策文本,得到多个候选政策文本。
作为一个可选的实施方式,在本发明第二方面中,所述目标网页上设置有多个对应于不同项目参数的网页区域;所述显示模块根据所述网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本的具体方式,包括:
根据所述网页操作的操作参数,确定每一所述网页区域对应的用户操作偏好度;
根据所述用户操作偏好度从大到小对所有所述网页区域进行排序得到区域序列,将所述区域序列的前第二数量个且所述用户操作偏好度大于预设的偏好度阈值的所有所述网页区域确定为偏好区域;
获取所有所述偏好区域对应的项目参数以组成区域项目参数;
获取所有所述偏好区域对应的历史包含政策记录,得到区域政策记录;所述历史包含政策记录为所述偏好区域所对应的跳转显示页面在历史时间段中显示过的政策文本;
对于每一所述候选政策文本,计算该候选政策文本的所述项目参数和所述区域项目参数之间的第一相似度,和计算该候选政策文本和所述区域政策记录之间的第二相似度;
计算所述第一相似度和所述第二相似度的加权求和平均值,得到该候选政策文本对应的第二相似度参数;
根据所述第二相似度参数从大到小,对所有所述候选政策文本进行排序以得到第二文本序列,筛选出所述第二文本序列中前第二数量个的且所述第二相似度参数大于第三参数阈值的所有所述候选政策文本,得到目标政策文本。
作为一个可选的实施方式,在本发明第二方面中,所述操作参数包括操作位置、操作轨迹和操作浏览页面范围;所述显示模块根据所述网页操作的操作参数,确定每一所述网页区域对应的用户操作偏好度的具体方式,包括:
根据所述网页操作的操作参数,确定所述网页操作对应的操作覆盖范围;
计算每一所述网页区域与所述操作覆盖范围的重合度参数,以得到每一所述网页区域对应的用户操作偏好度。
作为一个可选的实施方式,在本发明第二方面中,所述目标政策文本包括多个目标政策文本;所述显示模块将所述目标政策文本推送显示给所述目标用户的具体方式,包括:
对于每一所述目标政策文本,基于时间文本识别算法,确定该目标政策文本对应的发布时间信息;
计算所述发布时间信息与当前时间之间的时间差参数;
计算该目标政策文本对应的所述第一相似度参数和所述第二相似度参数的加权求和值,得到该目标政策文本对应的匹配度参数;
计算所述时间差参数和所述匹配度参数的加权求和值,得到该目标政策文本对应的优先级参数;
根据所述优先级参数从大到小,对所述多个目标政策文本进行排序得到第三文本序列,并将所述第三文本序列推送显示给所述目标用户。
本发明第三方面公开了另一种项目检索数据处理装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的项目检索数据处理方法中的部分或全部步骤。
与现有技术相比,本发明具有以下有益效果:
可见,本发明实施例能够根据神经网络算法和相似度算法,来从抓取的政策数据中处理出政策文本和筛选出候选政策文本进行预加载以提高数据处理效率,并根据实时操作来确定用户偏好以进一步确定出推荐政策文本,从而能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种项目检索数据处理方法的流程示意图。
图2是本发明实施例公开的一种项目检索数据处理装置的结构示意图。
图3是本发明实施例公开的另一种项目检索数据处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第二”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种项目检索数据处理方法及装置,能够根据神经网络算法和相似度算法,来从抓取的政策数据中处理出政策文本和筛选出候选政策文本进行预加载以提高数据处理效率,并根据实时操作来确定用户偏好以进一步确定出推荐政策文本,从而能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。以下分别进行详细说明。
实施例一,请参阅图1,图1是本发明实施例公开的一种项目检索数据处理方法的流程示意图。其中,图1所描述的项目检索数据处理方法应用于数据处理芯片、处理终端或处理服务器(其中,该处理服务器可以为本地服务器或云服务器)中。如图1所示,该项目检索数据处理方法可以包括以下操作:
101、基于预设的网站抓取参数,从多个科技项目政策发布网站上获取多个项目政策抓取数据。
可选的,网站抓取参数包括网站网址、网站登录参数和项目政策关键词。
102、基于神经网络分类算法,对多个项目政策抓取数据进行分析,确定多个项目政策文本和每一项目政策文本对应的项目参数。
可选的,项目参数包括项目领域、项目奖励金额、项目参与主体标准和项目验收标准。
103、获取目标用户的用户参数,基于相似度算法,根据用户参数和项目参数,从多个项目政策文本中确定出多个候选政策文本,以预加载到后台。
可选的,用户参数包括用户姓名、用户职业、用户所属企业信息、用户所属领域、用户历史项目检索记录、用户历史项目参与记录中的至少一种。
104、实时获取目标用户的在目标网页的网页操作,根据网页操作,基于操作偏好算法,从后台中的多个候选政策文本中确定出目标政策文本,将目标政策文本推送显示给目标用户。
可选的,网页操作包括网页输入操作、网页点击操作、网页鼠标移动操作和网页上下滑操作。
可见,上述发明实施例能够根据神经网络算法和相似度算法,来从抓取的政策数据中处理出政策文本和筛选出候选政策文本进行预加载以提高数据处理效率,并根据实时操作来确定用户偏好以进一步确定出推荐政策文本,从而能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
作为一个可选的实施例,上述步骤中的,基于神经网络分类算法,对多个项目政策抓取数据进行分析,确定多个项目政策文本和每一项目政策文本对应的项目参数,包括:
对于每一项目政策抓取数据,将该项目政策抓取数据按预设的分割符号进行分割以得到多个分割数据;分割符号包括特定标点符号、段落符号和分页符号中的至少一种;
根据神经网络算法,预测每一分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数;
将概率参数大于预设的第一参数阈值的所有分割数据确定为目标文本数据;
将预测政策主题相同的所有目标文本数据,归集为同一个项目政策文本,以得到多个项目政策文本;
将每一项目政策文本对应的所有目标文本数据对应的所有预测项目参数中的出现次数占最高出现次数的比例超过预设的比例阈值的预测项目参数,确定为项目政策文本对应的项目参数;出现次数为预测项目参数在项目政策文本对应的所有预测项目参数中的出现次数;最高出现次数为项目政策文本对应的所有预测项目参数的出现次数的最高值。
通过上述实施例,能够有效根据神经网络算法,预测每一分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数,并以此确定出目标文本数据以及归集出多个项目政策文本和每一项目政策文本对应的项目参数,从而能够在后续有效利用项目参数来进行政策文本的筛选和推荐,以充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
作为一个可选的实施例,上述步骤中的,根据神经网络算法,预测每一分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数,包括:
将每一分割数据,输入至训练好的政策文本识别神经网络模型,以得到输出的分割数据对应的预测政策主题、预测政策类型和第一预测概率;政策文本识别神经网络模型通过包括有多个训练文本数据和对应的政策主题标注和政策类型标注的训练数据集训练得到;预测政策类型或政策类型标注为不同发布主体发布的政策、不同行政区域级别的政策、不同地域范围的政策、激励类型政策或惩罚类型政策;
将每一分割数据,输入至对应的预测政策类型对应的训练好的项目参数预测神经网络模型,以得到输出的分割数据对应的预测项目参数和第二预测概率;项目参数预测神经网络模型通过包括有多个训练项目文本数据和对应的项目参数标注的训练数据集训练得到;
对于每一分割数据,计算该分割数据对应的第一预测概率和第二预测概率的加权求和平均值,得到该分割数据对应的概率参数。
可选的,本发明中的神经网络模型均可以为CNN结构、RNN结构或LTSM结构的神经网络算法模型,操作人员可以根据具体实施场景和数据特点来选择相应的模型架构,本发明不做限定。
通过上述实施例,能够有效根据神经网络算法,预测每一分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数,并以此确定出目标文本数据以及归集出多个项目政策文本和每一项目政策文本对应的项目参数,从而能够在后续有效利用项目参数来进行政策文本的筛选和推荐,以充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
作为一个可选的实施例,上述步骤中的,基于相似度算法,根据用户参数和项目参数,从多个项目政策文本中确定出多个候选政策文本,包括:
对于任一项目政策文本,计算该项目政策文本的项目参数与用户参数之间的第一相似度参数;
根据第一相似度参数从大到小,对多个项目政策文本进行排序以得到第一文本序列;
筛选出第一文本序列中前第一数量个的且第一相似度参数大于第二参数阈值的所有项目政策文本,得到多个候选政策文本。
可选的,本发明中的相似度或相似度参数的计算,均可以通过现有的数据重合度计算方法或向量距离计算算法来实现。
通过上述实施例,能够根据第一相似度参数对多个项目政策文本进行排序和筛选,得到多个候选政策文本进行预加载,从而能够预先加载出用户大概率感兴趣的政策文本,以提高后续数据处理的效率,实现充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
作为一个可选的实施例,目标网页上设置有多个对应于不同项目参数的网页区域,该网页区域可以为用线框限定的区域,也可以为用特定UI元件表示的区域,每一网页区域对应的项目参数可以由操作人员预先设定,例如特定网页区域对应于省级的科技项目政策,则可以在特定网页区域上显示省级政策的字眼。
上述步骤中的,根据网页操作,基于操作偏好算法,从后台中的多个候选政策文本中确定出目标政策文本,包括:
根据网页操作的操作参数,确定每一网页区域对应的用户操作偏好度;
根据用户操作偏好度从大到小对所有网页区域进行排序得到区域序列,将区域序列的前第二数量个且用户操作偏好度大于预设的偏好度阈值的所有网页区域确定为偏好区域;
获取所有偏好区域对应的项目参数以组成区域项目参数;
获取所有偏好区域对应的历史包含政策记录,得到区域政策记录;历史包含政策记录为偏好区域所对应的跳转显示页面在历史时间段中显示过的政策文本;
对于每一候选政策文本,计算该候选政策文本的项目参数和区域项目参数之间的第一相似度,和计算该候选政策文本和区域政策记录之间的第二相似度;
计算第一相似度和第二相似度的加权求和平均值,得到该候选政策文本对应的第二相似度参数;
根据第二相似度参数从大到小,对所有候选政策文本进行排序以得到第二文本序列,筛选出第二文本序列中前第二数量个的且第二相似度参数大于第三参数阈值的所有候选政策文本,得到目标政策文本。
通过上述实施例,能够根据第二相似度参数的计算来通过候选文本和区域的项目参数的匹配度和历史包含政策的匹配度精准评估该候选文本的适配程度,以进一步对多个候选政策文本进行排序和筛选,得到目标政策文本进行推荐展示,从而能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
作为一个可选的实施例,操作参数包括操作位置、操作轨迹和操作浏览页面范围,例如操作位置可以为点击操作的点击位置,操作轨迹可以为移动操作的移动轨迹,而操作浏览页面范围则可以为翻页或滑动操作所导致的页面显示的变换过程中所包括的页面范围。
上述步骤中的,根据网页操作的操作参数,确定每一网页区域对应的用户操作偏好度,包括:
根据网页操作的操作参数,确定网页操作对应的操作覆盖范围;
计算每一网页区域与操作覆盖范围的重合度参数,以得到每一网页区域对应的用户操作偏好度。
可选的,该操作覆盖范围包括了操作位置范围和操作轨迹范围和操作浏览页面范围的总和,其中操作位置范围和操作轨迹范围,应该在操作位置和操作轨迹的基础上做一定程度的扩展,例如操作位置范围设定为操作位置为圆心,预设距离为半径的圆,而操作轨迹范围可以为包含有操作轨迹且范围边缘距离操作轨迹的垂直距离大于预设距离的一个限定范围形状。
通过上述实施例,能够计算每一网页区域与操作覆盖范围的重合度参数,以得到每一网页区域对应的用户操作偏好度,以在后续根据用户操作偏好度进一步对网页区域进行筛选,从而能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
作为一个可选的实施例,上述步骤中的,目标政策文本包括多个目标政策文本;将目标政策文本推送显示给目标用户,包括:
对于每一目标政策文本,基于时间文本识别算法,确定该目标政策文本对应的发布时间信息;
计算发布时间信息与当前时间之间的时间差参数;
计算该目标政策文本对应的第一相似度参数和第二相似度参数的加权求和值,得到该目标政策文本对应的匹配度参数;
计算时间差参数和匹配度参数的加权求和值,得到该目标政策文本对应的优先级参数;
根据优先级参数从大到小,对多个目标政策文本进行排序得到第三文本序列,并将第三文本序列推送显示给目标用户。
通过上述实施例,能够计算时间差参数和匹配度参数,以得到每一目标政策文本对应的优先级参数,以对多个目标政策文本进行排序得到第三文本序列,并将第三文本序列推送显示给目标用户,提高显示效果和推荐效果,从而能够充分利用算法优势和大数据技术来实现项目政策文本的更加精准地筛选和推荐,有效提高项目检索人员的工作效率。
实施例二,请参阅图2,图2是本发明实施例公开的一种项目检索数据处理装置的结构示意图。其中,图2所描述的项目检索数据处理装置应用于数据处理芯片、处理终端或处理服务器(其中,该处理服务器可以为本地服务器或云服务器)中。如图2所示,该项目检索数据处理装置可以包括:
抓取模块201,用于基于预设的网站抓取参数,从多个科技项目政策发布网站上获取多个项目政策抓取数据;
分析模块202,用于基于神经网络分类算法,对多个项目政策抓取数据进行分析,确定多个项目政策文本和每一项目政策文本对应的项目参数;
加载模块203,用于获取目标用户的用户参数,基于相似度算法,根据用户参数和项目参数,从多个项目政策文本中确定出多个候选政策文本,以预加载到后台;
显示模块204,用于实时获取目标用户的在目标网页的网页操作,根据网页操作,基于操作偏好算法,从后台中的多个候选政策文本中确定出目标政策文本,将目标政策文本推送显示给目标用户。
作为一个可选的实施例,网站抓取参数包括网站网址、网站登录参数和项目政策关键词;和/或,项目参数包括项目领域、项目奖励金额、项目参与主体标准和项目验收标准;和/或,用户参数包括用户姓名、用户职业、用户所属企业信息、用户所属领域、用户历史项目检索记录、用户历史项目参与记录中的至少一种;和/或,网页操作包括网页输入操作、网页点击操作、网页鼠标移动操作和网页上下滑操作。
作为一个可选的实施例,分析模块202基于神经网络分类算法,对多个项目政策抓取数据进行分析,确定多个项目政策文本和每一项目政策文本对应的项目参数的具体方式,包括:
对于每一项目政策抓取数据,将该项目政策抓取数据按预设的分割符号进行分割以得到多个分割数据;分割符号包括特定标点符号、段落符号和分页符号中的至少一种;
根据神经网络算法,预测每一分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数;
将概率参数大于预设的第一参数阈值的所有分割数据确定为目标文本数据;
将预测政策主题相同的所有目标文本数据,归集为同一个项目政策文本,以得到多个项目政策文本;
将每一项目政策文本对应的所有目标文本数据对应的所有预测项目参数中的出现次数占最高出现次数的比例超过预设的比例阈值的预测项目参数,确定为项目政策文本对应的项目参数;出现次数为预测项目参数在项目政策文本对应的所有预测项目参数中的出现次数;最高出现次数为项目政策文本对应的所有预测项目参数的出现次数的最高值。
作为一个可选的实施例,分析模块202根据神经网络算法,预测每一分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数的具体方式,包括:
将每一分割数据,输入至训练好的政策文本识别神经网络模型,以得到输出的分割数据对应的预测政策主题、预测政策类型和第一预测概率;政策文本识别神经网络模型通过包括有多个训练文本数据和对应的政策主题标注和政策类型标注的训练数据集训练得到;预测政策类型或政策类型标注为不同发布主体发布的政策、不同行政区域级别的政策、不同地域范围的政策、激励类型政策或惩罚类型政策;
将每一分割数据,输入至对应的预测政策类型对应的训练好的项目参数预测神经网络模型,以得到输出的分割数据对应的预测项目参数和第二预测概率;项目参数预测神经网络模型通过包括有多个训练项目文本数据和对应的项目参数标注的训练数据集训练得到;
对于每一分割数据,计算该分割数据对应的第一预测概率和第二预测概率的加权求和平均值,得到该分割数据对应的概率参数。
作为一个可选的实施例,加载模块203基于相似度算法,根据用户参数和项目参数,从多个项目政策文本中确定出多个候选政策文本的具体方式,包括:
对于任一项目政策文本,计算该项目政策文本的项目参数与用户参数之间的第一相似度参数;
根据第一相似度参数从大到小,对多个项目政策文本进行排序以得到第一文本序列;
筛选出第一文本序列中前第一数量个的且第一相似度参数大于第二参数阈值的所有项目政策文本,得到多个候选政策文本。
作为一个可选的实施例,目标网页上设置有多个对应于不同项目参数的网页区域;显示模块204根据网页操作,基于操作偏好算法,从后台中的多个候选政策文本中确定出目标政策文本的具体方式,包括:
根据网页操作的操作参数,确定每一网页区域对应的用户操作偏好度;
根据用户操作偏好度从大到小对所有网页区域进行排序得到区域序列,将区域序列的前第二数量个且用户操作偏好度大于预设的偏好度阈值的所有网页区域确定为偏好区域;
获取所有偏好区域对应的项目参数以组成区域项目参数;
获取所有偏好区域对应的历史包含政策记录,得到区域政策记录;历史包含政策记录为偏好区域所对应的跳转显示页面在历史时间段中显示过的政策文本;
对于每一候选政策文本,计算该候选政策文本的项目参数和区域项目参数之间的第一相似度,和计算该候选政策文本和区域政策记录之间的第二相似度;
计算第一相似度和第二相似度的加权求和平均值,得到该候选政策文本对应的第二相似度参数;
根据第二相似度参数从大到小,对所有候选政策文本进行排序以得到第二文本序列,筛选出第二文本序列中前第二数量个的且第二相似度参数大于第三参数阈值的所有候选政策文本,得到目标政策文本。
作为一个可选的实施例,操作参数包括操作位置、操作轨迹和操作浏览页面范围;显示模块204根据网页操作的操作参数,确定每一网页区域对应的用户操作偏好度的具体方式,包括:
根据网页操作的操作参数,确定网页操作对应的操作覆盖范围;
计算每一网页区域与操作覆盖范围的重合度参数,以得到每一网页区域对应的用户操作偏好度。
作为一个可选的实施例,目标政策文本包括多个目标政策文本;显示模块204将目标政策文本推送显示给目标用户的具体方式,包括:
对于每一目标政策文本,基于时间文本识别算法,确定该目标政策文本对应的发布时间信息;
计算发布时间信息与当前时间之间的时间差参数;
计算该目标政策文本对应的第一相似度参数和第二相似度参数的加权求和值,得到该目标政策文本对应的匹配度参数;
计算时间差参数和匹配度参数的加权求和值,得到该目标政策文本对应的优先级参数;
根据优先级参数从大到小,对多个目标政策文本进行排序得到第三文本序列,并将第三文本序列推送显示给目标用户。
上述实施例中的模块和步骤的具体的技术细节和技术效果,可以参照实施例一中的相应的表述,在此不再赘述。
实施例三,请参阅图3,图3是本发明实施例公开的又一种项目检索数据处理装置。图3所描述的项目检索数据处理装置应用于数据处理芯片、处理终端或处理服务器(其中,该处理服务器可以为本地服务器或云服务器)中。如图3所示,该项目检索数据处理装置可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
其中,处理器302调用存储器301中存储的可执行程序代码,用于执行实施例一所描述的项目检索数据处理方法的步骤。
实施例四,本发明实施例公开了一种计算机读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一所描述的项目检索数据处理方法的步骤。
实施例五,本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一所描述的项目检索数据处理方法的步骤。
上述对本说明书特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field ProgrammableGateArray, FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera HardwareDescriptionLanguage)、 Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL (Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL (RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后应说明的是:本发明实施例公开的一种项目检索数据处理方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种项目检索数据处理方法,其特征在于,所述方法包括:
基于预设的网站抓取参数,从多个科技项目政策发布网站上获取多个项目政策抓取数据;
基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数;
获取所述目标用户的用户参数,基于相似度算法,根据所述用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本,以预加载到后台;
实时获取目标用户的在目标网页的网页操作,根据所述网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本,将所述目标政策文本推送显示给所述目标用户。
2.根据权利要求1所述的项目检索数据处理方法,其特征在于,所述网站抓取参数包括网站网址、网站登录参数和项目政策关键词;和/或,所述项目参数包括项目领域、项目奖励金额、项目参与主体标准和项目验收标准;和/或,所述用户参数包括用户姓名、用户职业、用户所属企业信息、用户所属领域、用户历史项目检索记录、用户历史项目参与记录中的至少一种;和/或,所述网页操作包括网页输入操作、网页点击操作、网页鼠标移动操作和网页上下滑操作。
3.根据权利要求1所述的项目检索数据处理方法,其特征在于,所述基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数,包括:
对于每一所述项目政策抓取数据,将该项目政策抓取数据按预设的分割符号进行分割以得到多个分割数据;所述分割符号包括特定标点符号、段落符号和分页符号中的至少一种;
根据神经网络算法,预测每一所述分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数;
将所述概率参数大于预设的第一参数阈值的所有所述分割数据确定为目标文本数据;
将所述预测政策主题相同的所有所述目标文本数据,归集为同一个项目政策文本,以得到多个所述项目政策文本;
将每一所述项目政策文本对应的所有所述目标文本数据对应的所有所述预测项目参数中的出现次数占最高出现次数的比例超过预设的比例阈值的预测项目参数,确定为所述项目政策文本对应的项目参数;所述出现次数为所述预测项目参数在所述项目政策文本对应的所有预测项目参数中的出现次数;所述最高出现次数为所述项目政策文本对应的所有所述预测项目参数的所述出现次数的最高值。
4.根据权利要求3所述的项目检索数据处理方法,其特征在于,所述根据神经网络算法,预测每一所述分割数据对应的预测政策主题、预测项目参数和其属于政策文本的概率参数,包括:
将每一所述分割数据,输入至训练好的政策文本识别神经网络模型,以得到输出的所述分割数据对应的预测政策主题、预测政策类型和第一预测概率;所述政策文本识别神经网络模型通过包括有多个训练文本数据和对应的政策主题标注和政策类型标注的训练数据集训练得到;所述预测政策类型或所述政策类型标注为不同发布主体发布的政策、不同行政区域级别的政策、不同地域范围的政策、激励类型政策或惩罚类型政策;
将每一所述分割数据,输入至对应的所述预测政策类型对应的训练好的项目参数预测神经网络模型,以得到输出的所述分割数据对应的预测项目参数和第二预测概率;所述项目参数预测神经网络模型通过包括有多个训练项目文本数据和对应的项目参数标注的训练数据集训练得到;
对于每一所述分割数据,计算该分割数据对应的所述第一预测概率和所述第二预测概率的加权求和平均值,得到该分割数据对应的概率参数。
5.根据权利要求1所述的项目检索数据处理方法,其特征在于,所述基于相似度算法,根据所述用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本,包括:
对于任一所述项目政策文本,计算该项目政策文本的所述项目参数与所述用户参数之间的第一相似度参数;
根据所述第一相似度参数从大到小,对所述多个项目政策文本进行排序以得到第一文本序列;
筛选出所述第一文本序列中前第一数量个的且所述第一相似度参数大于第二参数阈值的所有所述项目政策文本,得到多个候选政策文本。
6.根据权利要求5所述的项目检索数据处理方法,其特征在于,所述目标网页上设置有多个对应于不同项目参数的网页区域;所述根据所述网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本,包括:
根据所述网页操作的操作参数,确定每一所述网页区域对应的用户操作偏好度;
根据所述用户操作偏好度从大到小对所有所述网页区域进行排序得到区域序列,将所述区域序列的前第二数量个且所述用户操作偏好度大于预设的偏好度阈值的所有所述网页区域确定为偏好区域;
获取所有所述偏好区域对应的项目参数以组成区域项目参数;
获取所有所述偏好区域对应的历史包含政策记录,得到区域政策记录;所述历史包含政策记录为所述偏好区域所对应的跳转显示页面在历史时间段中显示过的政策文本;
对于每一所述候选政策文本,计算该候选政策文本的所述项目参数和所述区域项目参数之间的第一相似度,和计算该候选政策文本和所述区域政策记录之间的第二相似度;
计算所述第一相似度和所述第二相似度的加权求和平均值,得到该候选政策文本对应的第二相似度参数;
根据所述第二相似度参数从大到小,对所有所述候选政策文本进行排序以得到第二文本序列,筛选出所述第二文本序列中前第二数量个的且所述第二相似度参数大于第三参数阈值的所有所述候选政策文本,得到目标政策文本。
7.根据权利要求6所述的项目检索数据处理方法,其特征在于,所述操作参数包括操作位置、操作轨迹和操作浏览页面范围;所述根据所述网页操作的操作参数,确定每一所述网页区域对应的用户操作偏好度,包括:
根据所述网页操作的操作参数,确定所述网页操作对应的操作覆盖范围;
计算每一所述网页区域与所述操作覆盖范围的重合度参数,以得到每一所述网页区域对应的用户操作偏好度。
8.根据权利要求7所述的项目检索数据处理方法,其特征在于,所述目标政策文本包括多个目标政策文本;所述将所述目标政策文本推送显示给所述目标用户,包括:
对于每一所述目标政策文本,基于时间文本识别算法,确定该目标政策文本对应的发布时间信息;
计算所述发布时间信息与当前时间之间的时间差参数;
计算该目标政策文本对应的所述第一相似度参数和所述第二相似度参数的加权求和值,得到该目标政策文本对应的匹配度参数;
计算所述时间差参数和所述匹配度参数的加权求和值,得到该目标政策文本对应的优先级参数;
根据所述优先级参数从大到小,对所述多个目标政策文本进行排序得到第三文本序列,并将所述第三文本序列推送显示给所述目标用户。
9.一种项目检索数据处理装置,其特征在于,所述装置包括:
抓取模块,用于基于预设的网站抓取参数,从多个科技项目政策发布网站上获取多个项目政策抓取数据;
分析模块,用于基于神经网络分类算法,对所述多个项目政策抓取数据进行分析,确定多个项目政策文本和每一所述项目政策文本对应的项目参数;
加载模块,用于获取所述目标用户的用户参数,基于相似度算法,根据所述用户参数和所述项目参数,从所述多个项目政策文本中确定出多个候选政策文本,以预加载到后台;
显示模块,用于实时获取目标用户的在目标网页的网页操作,根据所述网页操作,基于操作偏好算法,从后台中的所述多个候选政策文本中确定出目标政策文本,将所述目标政策文本推送显示给所述目标用户。
10.一种项目检索数据处理装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-8任一项所述的项目检索数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311351310.3A CN117520627B (zh) | 2023-10-18 | 2023-10-18 | 项目检索数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311351310.3A CN117520627B (zh) | 2023-10-18 | 2023-10-18 | 项目检索数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520627A true CN117520627A (zh) | 2024-02-06 |
CN117520627B CN117520627B (zh) | 2024-04-26 |
Family
ID=89757466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311351310.3A Active CN117520627B (zh) | 2023-10-18 | 2023-10-18 | 项目检索数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520627B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090210514A1 (en) * | 2008-02-15 | 2009-08-20 | Nokia Corporation | Methods, apparatuses, computer program products, and systems for mobile web browsing |
WO2018113241A1 (zh) * | 2016-12-20 | 2018-06-28 | 上海壹账通金融科技有限公司 | 页面展示方法、装置、服务器和存储介质 |
CN108255696A (zh) * | 2016-12-29 | 2018-07-06 | 航天信息软件技术有限公司 | 一种基于用户对网页操作行为采集的分析方法和系统 |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
CN108874800A (zh) * | 2017-05-08 | 2018-11-23 | 中兴通讯股份有限公司 | 网页浏览方法及装置 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN113343102A (zh) * | 2021-06-28 | 2021-09-03 | 平安信托有限责任公司 | 基于特征筛选的数据推荐方法、装置、电子设备及介质 |
WO2022016561A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
CN114428861A (zh) * | 2022-01-27 | 2022-05-03 | 陕西煤业股份有限公司 | 一种企业政策智能解读方法、系统、设备及存储介质 |
CN116186267A (zh) * | 2023-03-08 | 2023-05-30 | 上海泛微网络科技股份有限公司 | 政策数据处理方法、装置、计算机设备及存储介质 |
CN116455623A (zh) * | 2023-04-06 | 2023-07-18 | 哈尔滨臻善科技有限责任公司 | 基于大数据识别技术的计算机信息安全共享系统及方法 |
KR20230136410A (ko) * | 2022-03-18 | 2023-09-26 | 주식회사 웰로 | 개인에게 최적화된 정책을 추천하는 방법 및 장치 |
-
2023
- 2023-10-18 CN CN202311351310.3A patent/CN117520627B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090210514A1 (en) * | 2008-02-15 | 2009-08-20 | Nokia Corporation | Methods, apparatuses, computer program products, and systems for mobile web browsing |
WO2018113241A1 (zh) * | 2016-12-20 | 2018-06-28 | 上海壹账通金融科技有限公司 | 页面展示方法、装置、服务器和存储介质 |
CN108255696A (zh) * | 2016-12-29 | 2018-07-06 | 航天信息软件技术有限公司 | 一种基于用户对网页操作行为采集的分析方法和系统 |
CN108874800A (zh) * | 2017-05-08 | 2018-11-23 | 中兴通讯股份有限公司 | 网页浏览方法及装置 |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
WO2022016561A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN113343102A (zh) * | 2021-06-28 | 2021-09-03 | 平安信托有限责任公司 | 基于特征筛选的数据推荐方法、装置、电子设备及介质 |
CN114428861A (zh) * | 2022-01-27 | 2022-05-03 | 陕西煤业股份有限公司 | 一种企业政策智能解读方法、系统、设备及存储介质 |
KR20230136410A (ko) * | 2022-03-18 | 2023-09-26 | 주식회사 웰로 | 개인에게 최적화된 정책을 추천하는 방법 및 장치 |
CN116186267A (zh) * | 2023-03-08 | 2023-05-30 | 上海泛微网络科技股份有限公司 | 政策数据处理方法、装置、计算机设备及存储介质 |
CN116455623A (zh) * | 2023-04-06 | 2023-07-18 | 哈尔滨臻善科技有限责任公司 | 基于大数据识别技术的计算机信息安全共享系统及方法 |
Non-Patent Citations (4)
Title |
---|
JIAN-LAN ZHOU; JIN-AN CHEN: "A Consensus Model to Manage Minority Opinions and Noncooperative Behaviors in Large Group Decision Making With Probabilistic Linguistic Term Sets", IEEE TRANSACTIONS ON FUZZY SYSTEMS, 2 April 2020 (2020-04-02), pages 1667, XP011857835, DOI: 10.1109/TFUZZ.2020.2984188 * |
张涛;马海群;: "一种基于LDA主题模型的政策文本聚类方法研究", 数据分析与知识发现, no. 09, 25 September 2018 (2018-09-25), pages 59 - 65 * |
彭庆: "基于大数据技术的流量分析平台方案研究", 邮电设计技术, 20 August 2014 (2014-08-20), pages 22 - 25 * |
穆瑞辉;叶喜民;: "基于数据挖掘的网页个性化推荐系统分析", 新乡学院学报(自然科学版), no. 03, 15 June 2010 (2010-06-15), pages 68 - 71 * |
Also Published As
Publication number | Publication date |
---|---|
CN117520627B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2637415C2 (ru) | Альтернативные семантики для операций масштабирования в масштабируемой сцене | |
CN113095124A (zh) | 一种人脸活体检测方法、装置以及电子设备 | |
CN111010590A (zh) | 一种视频裁剪方法及装置 | |
CN109034183B (zh) | 一种目标检测方法、装置及设备 | |
CN111401062B (zh) | 文本的风险识别方法、装置及设备 | |
CN110457578A (zh) | 一种客服服务需求识别方法及装置 | |
CN112966186A (zh) | 一种模型训练和信息推荐的方法及装置 | |
US20220171823A1 (en) | Interest tapering for topics | |
CN111488510B (zh) | 小程序相关词的确定方法、装置、处理设备及搜索系统 | |
CN110502614A (zh) | 文本拦截方法、装置、系统以及设备 | |
CN111191132B (zh) | 一种信息推荐方法、装置及电子设备 | |
Qu et al. | A method of single‐shot target detection with multi‐scale feature fusion and feature enhancement | |
CN112966577B (zh) | 一种模型训练以及信息提供的方法及装置 | |
CN116757278B (zh) | 一种预测模型的训练方法、装置、存储介质及电子设备 | |
CN114331602A (zh) | 一种基于迁移学习的模型训练方法、信息推荐方法及装置 | |
CN117520627B (zh) | 项目检索数据处理方法及装置 | |
CN116822606A (zh) | 一种异常检测模型的训练方法、装置、设备及存储介质 | |
CN115456801B (zh) | 个人信用的人工智能大数据风控系统、方法和存储介质 | |
CN116228180A (zh) | 用户信息推荐方法、装置和存储介质 | |
CN116188895A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN115456114A (zh) | 一种模型训练和业务执行的方法、装置、介质及设备 | |
CN112307371B (zh) | 小程序子服务识别方法、装置、设备及存储介质 | |
CN114860967A (zh) | 一种模型训练的方法、信息推荐的方法以及装置 | |
Isupova et al. | Anomaly detection in video with Bayesian nonparametrics | |
CN114861043A (zh) | 一种模型训练以及推荐位置确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |