CN112287229B - 一种基于组合语义相似度的国防建设动态信息推荐方法 - Google Patents
一种基于组合语义相似度的国防建设动态信息推荐方法 Download PDFInfo
- Publication number
- CN112287229B CN112287229B CN202011188956.0A CN202011188956A CN112287229B CN 112287229 B CN112287229 B CN 112287229B CN 202011188956 A CN202011188956 A CN 202011188956A CN 112287229 B CN112287229 B CN 112287229B
- Authority
- CN
- China
- Prior art keywords
- similarity
- dynamic information
- defense construction
- national defense
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于组合语义相似度的国防建设动态信息推荐方法,所述方法包括:根据对用户行为的分析建立用户关注语料库以及选择与其兴趣匹配的网站作为抓取对象,根据设置的多层次抓取要素分别抓取不同网站的相关信息,基于文本同现相似度和文本语义相似度值的组合语义计算国防建设动态信息相似度,向用户推荐相似度高的国防建设动态信息。本发明的技术方案能够按照指定的多层次要素自动抓取国防建设动态信息,提高了信息抓取的效率,并且,通过组合语义计算国防建设动态信息相似度,推荐信息的质量得到了提升。
Description
技术领域
本发明属于计算机信息处理领域,特别涉及一种基于组合语义相似度的国防建设动态信息推荐方法。
背景技术
随着互联网的普及和全球信息化进程的发展,网络已经成为人们获取信息的主要途径,互联网上的信息资源也开始呈现爆炸式增长。用户往往很难找到真正有用的信息,同时一些很少被用户关注到的信息很容易成为孤岛信息。个性化信息服务系统的出现可以有效地解决这些问题,它分析用户的兴趣和浏览记录,向用户推荐其感兴趣的信息,帮助用户寻找真正需要的信息。但是,当下的个性化信息服务系统并不成熟,存在推荐效率低,推荐质量差等问题。
发明内容
针对现有技术中存在的上述缺陷,本发明提出了一种基于组合语义相似度的国防建设动态信息推荐方法,根据对用户的行为分析构建用户关注语料库,按照多层次要素自动抓取相关网站信息,通过组合语义相似度对比,得到相似度较高的信息,并推荐给用户。与现有技术相比,该方法具有以下优点:
1)能够按照指定的多层次要素自动抓取国防建设动态信息,提升了信息抓取效率;
2)通过组合语义相似度的方法,提高了推荐信息的质量,自动推荐用户关心的相关国防建设动态信息,提高了用户体验。
本发明提出的基于组合语义相似度的国防建设动态信息推荐方法,包括以下步骤:
S1.建立用户关注语料库
获取用户行为,包括用户的历史浏览记录、访问的广告信息、搜索的关键词、分享的信息;收集用户在输入过程中产生的原始文本,根据所述原始文本中的自然标记将其划分为多个自然标记文本,将所述自然标记文本输入分词模型进行分词训练,得到用户关注语料库;
S2.抓取国防建设动态信息
S21.分析所述用户行为,选择与其兴趣匹配的网站作为抓取对象,用html(k)表示第k个抓取对象;
S22.针对第k个抓取对象,利用Web scraper插件建立抓取项目project(k),包括抓取项目名称和网址;
S23.针对所述抓取对象,结合国防建设动态信息的特点,建立多层次的抓取要素;
S24.根据设置的多层次抓取要素,分别抓取不同网站的相关信息,将抓取到的信息保存在抓取结果文件中,所述抓取结果文件中的每个条目包括标题、发布单位、发布时间和信息内容;
S3.计算国防建设动态信息相似度
S31.自动提取所述抓取结果文件中的条目标题;
S32.基于文本同现计算国防建设动态信息相似度,并基于文本语义相似度值计算国防建设动态信息相似度;
S33.基于文本同现相似度和文本语义相似度值组合语义相似度计算国防建设动态信息相似度;
S4.设置推荐信息的阈值,根据阈值推荐国防建设动态信息。
附图说明
图1显示了本发明的基于组合语义相似度的国防建设动态信息推荐方法的流程;
图2显示了多层次要素;
图3显示了根据抓取的国防建设动态信息自动提取的信息标题。
图4显示了包括基于文本同现的国防建设动态信息相似度,基于文本语义相似度值的国防建设动态信息相似度,以及基于组合语义相似度的国防建设动态信息相似度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1显示了本发明的基于组合语义相似度的国防建设动态信息推荐方法的流程。
S1.建立用户关注语料库
获取用户行为,包括用户的历史浏览记录、访问的广告信息、经常访问的文件、搜索的关键词和分享的信息;收集用户在输入过程中产生的原始文本,根据所述原始文本中的自然标记将其划分为多个自然标记文本,将所述自然标记文本输入分词模型进行分词训练,得到用户关注语料库;
S2.抓取国防建设动态信息
S21.分析所述用户行为,选择与其兴趣匹配的网站作为抓取对象,用html(k)表示第k个抓取对象;
S22.针对第k个抓取对象,利用Web scraper插件建立抓取项目project(k),包括抓取项目名称和网址;
S23.针对所述抓取对象,结合国防建设动态信息的特点,建立多层次抓取要素;针对抓取网站,结合国防建设动态信息特点,利用Web scraper插件,建立多层次抓取要素,所述建立多层次抓取要素为:
1)建立第1层次抓取要素
第k个抓取网站第1层次抓取要素名称为items(k),抓取类型为link(链接),并选择抓取的内容(整个网站的信息)。
2)建立第2层次抓取要素
在第1层次抓取要素之下,设置第2层次抓取要素,主要包括标题(title)、发布单位(author)、发布时间(time)和信息内容(content)等,抓取类型为text(文本),并分别选择抓取的内容。
S24.根据设置的多层次抓取要素,分别抓取不同网站的相关信息,将抓取到的信息保存在抓取结果文件中,所述抓取结果文件中的每个条目包括标题、发布单位、发布时间和信息内容;
根据设置的抓取要素,利用Web scraper插件,分别抓取不同网站的相关信息,第k个抓取网站的信息保存为wangzhan(k).csv文件格式,文件中每条信息包括标题、发布单位、发布时间和信息内容等要素。最后,将所有wangzhan(k).csv文件进行合并,得到所以抓取的国防建设信息,并保存为wangzhan.csv。
S3.计算国防建设动态信息相似度
S31.自动提取所述抓取结果文件中的条目标题;
根据抓取的国防建设信息(wangzhan.csv),自动提取国防建设信息标题。a(i)表示第i行国防建设信息的标题,共有imax行。
S32.基于文本同现计算国防建设动态信息相似度,并基于文本语义相似度值计算国防建设动态信息相似度;
所述基于文本同现计算国防建设动态信息相似度的方法为:
其中,a(i)表示国防建设动态信息的语句,b(j)表示用户关注语料库中的语句,string_similar(a(i),b(j))表示a(i)和b(j)语句相似度数值,M为a(i)和b(j)两个语句序列匹配的字符数,T为a(i)和b(j)两个语句序列的总字符数;
采取嵌套循环方式,两两对比所有语句的相似度,针对国防建设动态信息a(1),首先循环计算a(1)与所有b(j)的相似度,然后计算a(2),…a(i)与b(j)相似度数值,j取值从1至max。
所述基于文本语义相似度值计算国防建设动态信息相似度的方法为:
对国防建设信息a(i)和用户关注语料库中的语句b(j)进行分词,对分词得到的每一个词w,从词向量库中找到其对应词向量vw;接着,以国防建设信息a(i)所包含词的词向量平均值作为计算国防建设信息a(i)的语义向量:
以用户关注语料库中的语句b(j)所包含词的词向量平均值作为b(j)的语义向量:
其中L(a(i))为a(i)的长度,L(b(j))为b(j)的长度。最后计算a(i)和b(j)的语义相似度:
采取嵌套循环方式,两两对比所有语句的相似度。针对国防建设动态信息a(1),首先循环计算a(1)与所有b(j)的相似度,然后计算a(2),…a(i)与b(j)相似度数值,j取值从1至max;
S33.基于文本同现相似度和文本语义相似度值组合语义相似度计算国防建设动态信息相似度,计算公式如下:
similar(a(i),b(j))=wstring×string_similar(a(i),b(j))
+wtf×string_similar(a(i),b(j));
其中,similar(a(i),b(j))表示a(i)和b(j)语句相似度数值,wstring表示基于文本同现的相似度权重,string_similar(a(i),b(j))表示a(i)和b(j)语句基于文本同现相似度数值,wtf基于文本语义相似度值的相似度权重,tf_similar(a(i),b(j))表示a(i)和b(j)语句基于文本语义相似度值相似度数值。
S4.设置推荐信息的阈值,根据阈值推荐国防建设动态信息。
设置推荐信息的阈值,当国防建设动态信息相似度数值大于阈值d,则将与a(i)标题对应的国防建设动态信息推荐给用户,计算公式如下:
其中,x(a(i))=1,表示与a(i)标题对应的国防建设动态信息可以推荐给用户,x(a(i))=0,表示与a(i)标题对应的国防建设动态信息不用推荐给用户。
下面假设通过用户行为分析得知用户感兴趣的领域为军工相关信息,以此为例阐述抓取相关国防建设动态信息的过程:
S1.建立用户关注语句库;
通过用户行为分析,构建用户关注语料库,用户关注语料库中的语句可以是:军民融合发展战略、军民鱼水情、军民共建、民营企业参与国防建设、科技协同创新、社会化保障、国防动员、退役军人保障等。
S2.抓取国防建设动态信息
针对性抓取中国军网相关的网站,利用Web scraper插件,建立多层次抓取要素。
从图2可以看出,第1层为items,抓取类型为link(链接),并选择抓取的内容(整个网站的信息)。在第1层次抓取要素之下,设置第2层次抓取要素,主要包括标题(title)、发布单位(author)、发布时间(time)和信息内容(content)等,抓取类型为text(文本),并分别选择抓取的内容,根据设置的抓取要素,利用Web scraper插件,抓取中国军网相关的信息,每条信息包括标题、发布单位、发布时间和信息内容等要素。
S2.计算国防建设动态信息相似度
根据抓取的国防建设动态信息,自动提取信息标题,如图3所示。
设wstring=0.4,wtf=0.6,计算国防建设动态信息相似度,如图4所示。
图4中包括基于文本同现的国防建设动态信息相似度,基于文本语义相似度值的国防建设动态信息相似度,基于组合语义相似度的国防建设动态信息相似度。
S3.推荐国防建设动态信息
设阈值d=0.2,向用户推荐的相关信息包括:“‘战疫’对国防动员的启示”,“国防动员系统抗疫斗争政治工作经验启示”,“联勤保障部队创新手段提升退役干部移交安置质量”,“八一特稿:人民军队始终是党和人民完全可以信赖的英雄军队”,“制造业企稳回升,中国经济下半年开局向好”,“解放军报评论员:中国航天走向更远深空的里程碑”等标题对应的信息。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (9)
1.一种基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,包括以下步骤:
S1.建立用户关注语料库
获取用户行为,包括用户的历史浏览记录、访问的广告信息、经常访问的文件、搜索的关键词和分享的信息;收集用户在输入过程中产生的原始文本,根据所述原始文本中的自然标记将其划分为多个自然标记文本,将所述自然标记文本输入分词模型进行分词训练,得到用户关注语料库;
S2.抓取国防建设动态信息
S21.分析所述用户行为,选择与其兴趣匹配的网站作为抓取对象;
S22.针对抓取对象,利用Web scraper插件建立抓取项目,包括抓取项目名称和网址;
S23.针对所述抓取对象,结合国防建设动态信息的特点,建立多层次抓取要素;
S24.根据设置的多层次抓取要素,分别抓取不同网站的相关信息,将抓取到的信息保存在抓取结果文件中,所述抓取结果文件中的每个条目包括标题、发布单位、发布时间和信息内容;
S3.计算国防建设动态信息相似度
S31.自动提取所述抓取结果文件中的条目标题;
S32.基于文本同现计算国防建设动态信息相似度,并基于文本语义相似度值计算国防建设动态信息相似度;
S33.基于文本同现相似度和文本语义相似度值组合语义相似度计算国防建设动态信息相似度;
S4.设置推荐信息的阈值,根据阈值推荐国防建设动态信息。
2.根据权利要求1所述的基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,在所述步骤S1中,在将所述自然标记文本输入分词模型之前,使用基于特征投票的分类模型对所述自然标记文本进行打分,挑选出高质量自然标记文本,再将所述高质量自然标记文本输入到所述分词模型。
3.根据权利要求1所述的基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,
所述步骤S23中,所述建立多层次的抓取要素,包括:第k个抓取网站第一层次抓取要素名称为items(k),抓取类型为链接,并选择抓取的内容为整个网站的信息;第二层次抓取要素,包括标题、发布单位、发布时间和信息内容,抓取类型为文本,并分别选择抓取的内容。
4.根据权利要求1所述的基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,
所述步骤S24中的所述抓取结果文件为csv格式的文件。
5.根据权利要求1所述的基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,
所述步骤S24中的所述抓取结果文件为csv格式的文件。
6.根据权利要求1所述的基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,所述步骤S32中,所述基于文本同现计算国防建设动态信息相似度的计算公式如下:
其中,a(i)表示国防建设动态信息的语句,b(j)表示用户关注语料库中的语句,string_similar(a(i),b(j))表示a(i)和b(j)语句相似度数值,M为a(i)和b(j)两个语句序列匹配的字符数,T为a(i)和b(j)两个语句序列的总字符数;
采取嵌套循环方式,两两对比所有语句的相似度,针对国防建设动态信息a(1),首先循环计算a(1)与所有b(j)的相似度,然后计算a(2),…a(i)与b(j)相似度数值,j取值从1至max。
7.根据权利要求1所述的基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,所述步骤S32中,所述基于文本语义相似度值计算国防建设动态信息相似度,包括:
对国防建设动态信息a(i)和用户关注语料库中的语句b(j)进行分词,对分词得到的每一个词w,从用户关注语料库中找到其对应词向量vw;接着,以国防建设动态信息a(i)所包含词的词向量平均值作为计算国防建设动态信息a(i)的语义向量:
以用户关注语料库中的语句b(j)所包含词的词向量平均值作为b(j)的语义向量:
其中L(a(i))为a(i)的长度,L(b(j))为b(j)的长度;
最后计算a(i)和b(j)的语义相似度:
采取嵌套循环方式,两两对比所有语句的相似度, 针对国防建设动态信息a(1),首先循环计算a(1)与所有b(j)的相似度,然后计算a(2),…a(i)与b(j)相似度数值,j取值从1至max。
8.根据权利要求1所述的基于组合语义相似度的国防建设动态信息推荐方法,其特征在于,所述步骤S33中,所述基于文本同现相似度和文本语义相似度值组合语义相似度计算国防建设动态信息相似度,计算公式如下:
similar(a(i),b(j))=wstring×string_similar(a(i),b(j))+wtf×string_similar(a(i),b(j));
其中,similar(a(i),b(j))表示a(i)和b(j)语句相似度数值,wstring表示基于文本同现的相似度权重,string_similar(a(i),b(j))表示a(i)和b(j)语句基于文本同现相似度数值,wtf基于文本语义相似度值的相似度权重,tf_similar(a(i),b(j))表示a(i)和b(j)语句基于文本语义相似度值相似度数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188956.0A CN112287229B (zh) | 2020-10-30 | 2020-10-30 | 一种基于组合语义相似度的国防建设动态信息推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188956.0A CN112287229B (zh) | 2020-10-30 | 2020-10-30 | 一种基于组合语义相似度的国防建设动态信息推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287229A CN112287229A (zh) | 2021-01-29 |
CN112287229B true CN112287229B (zh) | 2022-10-21 |
Family
ID=74353755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011188956.0A Active CN112287229B (zh) | 2020-10-30 | 2020-10-30 | 一种基于组合语义相似度的国防建设动态信息推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287229B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063147A (zh) * | 2018-08-06 | 2018-12-21 | 北京航空航天大学 | 基于文本相似度的在线课程论坛内容推荐方法及系统 |
CN109766013A (zh) * | 2018-12-28 | 2019-05-17 | 北京金山安全软件有限公司 | 诗词语句输入推荐方法、装置和电子设备 |
CN110851731B (zh) * | 2019-09-25 | 2022-05-03 | 浙江工业大学 | 一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法 |
-
2020
- 2020-10-30 CN CN202011188956.0A patent/CN112287229B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112287229A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079444B (zh) | 一种基于多模态关系的网络谣言检测方法 | |
AU2012327239B8 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
Iqbal et al. | Mining writeprints from anonymous e-mails for forensic investigation | |
US8630972B2 (en) | Providing context for web articles | |
CN109740152B (zh) | 文本类目的确定方法、装置、存储介质和计算机设备 | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
Mirani et al. | Sentiment analysis of isis related tweets using absolute location | |
CN103258000A (zh) | 对网页中高频关键词进行聚类的方法及装置 | |
Rehman et al. | A benchmark dataset and learning high-level semantic embeddings of multimedia for cross-media retrieval | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
US9407589B2 (en) | System and method for following topics in an electronic textual conversation | |
Iwata et al. | Modeling social annotation data with content relevance using a topic model | |
CN105378730A (zh) | 社交媒体分析与输出 | |
Palod et al. | Misleading metadata detection on YouTube | |
Ertugrul et al. | Word embedding based event detection on social media | |
Vidya et al. | Web mining-concepts and application | |
Liu et al. | Cross domain search by exploiting wikipedia | |
CN112287229B (zh) | 一种基于组合语义相似度的国防建设动态信息推荐方法 | |
Abulaish et al. | A layered approach for summarization and context learning from microblogging data | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 | |
Vadivukarassi et al. | A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset | |
Arora et al. | Web‐Based News Straining and Summarization Using Machine Learning Enabled Communication Techniques for Large‐Scale 5G Networks | |
Mathur et al. | Spam detection techniques: issues and challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |