CN115496062A - 企业选址意愿识别方法、系统、计算机设备以及存储介质 - Google Patents
企业选址意愿识别方法、系统、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN115496062A CN115496062A CN202211404794.9A CN202211404794A CN115496062A CN 115496062 A CN115496062 A CN 115496062A CN 202211404794 A CN202211404794 A CN 202211404794A CN 115496062 A CN115496062 A CN 115496062A
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- text
- enterprise
- news articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000005065 mining Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 149
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 2
- 239000013307 optical fiber Substances 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 46
- 239000000463 material Substances 0.000 description 24
- 229910052742 iron Inorganic materials 0.000 description 23
- 238000011161 development Methods 0.000 description 14
- 238000010276 construction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 235000006629 Prosopis spicigera Nutrition 0.000 description 2
- 240000000037 Prosopis spicigera Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000696 magnetic material Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于企业选址技术领域,特别涉及一种企业选址意愿识别方法、系统、计算机设备以及存储介质。企业选址意愿识别方法包括如下步骤:根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序;根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;对筛选出的有选址意愿的新闻文章进行行业分类;对筛选出的有选址意愿的新闻文章进行企业名称挖掘。本发明兼顾考虑了企业与涉及该企业的新闻政策等因素,以及各因素之间的关联匹配,提高了企业选址意愿识别准确率。
Description
技术领域
本发明属于企业选址技术领域,特别涉及一种企业选址意愿识别方法、系统、计算机设备以及存储介质。
背景技术
企业选址的技术背景主要是考虑企业以及各相关方等综合因素后计算的企业选址概率,已有公开的专利很多是基于选址要素打分方法。例如:
专利文献1公开了一种确定企业选址的方法、装置、电子设备及介质。
该文献中提供了一种利用地块选址打分模型对每个地块的预设指数进行打分,以使得企业根据每个地块的预设指数的分数进行选址的方法。
专利文献2公开了一种建设项目规划选址系统及方法。
该文献通过对规划和现状等各类信息对比分析,并根据建设项目的规划建设要求,能够快速过滤出满足条件的可建设地块,汇总计算意向地块的总分,自动生成选址报告。
然而,上述选址要素打分方法,在实际应用中多存在如下问题:
此类方法考虑要素与计算逻辑较简单,可扩展性差,在实际应用中准确率不高;而且一般常见的方法通常只考虑企业一方的因素,并没有考虑其它方的影响因素。
相关文献:
专利文献1 中国发明专利申请公开号:CN110110859A,公开日:2019.08.09;
专利文献2 中国发明专利申请公开号:CN105279711A,公开日:2016.01.27。
发明内容
本发明的目的在于提出一种企业选址意愿识别方法,通过兼顾考虑企业与涉及该企业的新闻政策等因素,以及各因素之间的关联匹配,以提高选址意愿识别准确率。
本发明为了实现上述目的,采用如下技术方案:
一种企业选址意愿识别方法,包括如下步骤:
步骤1. 根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;
步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从步骤1筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
步骤3. 利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类;
步骤4. 利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
此外,在上述企业选址意愿识别方法的基础上,本发明还提出了一种与之相适应的企业选址意愿识别系统,其采用如下技术方案:
一种企业选址意愿识别系统,包括:
第一匹配度计算模块,用于根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;
第二匹配度计算模块,用于根据企业选址意愿词库以及与该企业选址意愿词库的语义关系从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
文本分类模块,用于对筛选出的有选址意愿的新闻文章进行行业分类;
实体识别模块,用于对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
此外,在上述企业选址意愿识别方法的基础上,本发明还提出了一种计算机设备,该计算机设备包括存储器和一个或多个处理器。
所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上面述及的企业选址意愿识别方法。
此外,在上述企业选址意愿识别方法的基础上,本发明还提出了一种计算机可读存储介质,其上存储有程序。
该程序被处理器执行时,用于实现上面述及的企业选址意愿识别方法。
本发明具有如下优点:
如上所述,本发明述及了一种基于新闻的企业选址意愿识别方法,该方法针对目前企业招商选址意愿识别中存在的上述技术问题,兼顾考虑了企业与涉及该企业的新闻政策等各种影响因素,以及各因素之间的关联匹配,提高了企业选址意愿识别准确率,本发明方法可扩展性强,应用覆盖范围较广,可解释性较强,更有针对性,有利于项目的具体实际应用。
附图说明
图1为本发明实施例1中企业选址意愿识别方法的流程图。
图2为本发明实施例2中企业选址意愿识别方法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
实施例1
本实施例1述及了一种企业选址意愿识别方法,以解决目前企业选址方法中存在的上述技术问题。如图1所示,该方法包括如下步骤:
步骤1. 根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序。
本实施例中输入的词语可以是某个领域感兴趣的关键词,当然也可以是热门词汇。
本实施例中新闻文章是从公开的新闻网站获取的,并且存储在相应的生产数据库中,例如PostgreSQL数据库,以方便调用并进行匹配度计算。
根据输入的词语与新闻文章进行匹配度计算的过程如下:
步骤1.1. 首先根据文本字符串进行匹配,判断输入的词语word是否在新闻文章text中,若在,则该输入的词语与新闻文章的匹配度为1。
若输入的词语word不在新闻文章text中,则转到步骤1.2。
步骤1.2. 计算词语word的词向量word_vector与新闻文章text的文本向量text_ vector之间的语义相似分sim(word_vector, text_vector)。
若sim(word_vector, text_vector)大于或等于threshold_sim,则选择新闻。
词语与新闻文本的词初始向量,通过常见的文本语义向量方式得到,比如Bert等。
其中,threshold_sim为预设的选择新闻的阈值。
具体的,语义相似分sim(word_vector,text_vector)的计算过程如下:
定义word_vector=[word_vector(w 1), word_vector(w 2), …, word_vector(w N )]。
其中,word_vector(w j )表示词语word的词向量的第j个维度,N表示向量的维度,j∈[1,N]。
定义text_vector=[text_vector(w 1), text_vector(w 2), …, text_vector(w N )]。
其中,text_vector(w j )表示新闻文章text的文本向量text_vector的第j个维度。
text_vector(w j )的计算公式如下:
其中,word_i表示新闻文章text中第i个词语的词向量。
word_i = [word_i(w 1), word_i(w 2), …, word_i(w N )]。
其中,word_i(w j )表示新闻文章text中第i个词语的词向量的第j个维度。
L表示新闻文章text中词语的个数,i∈[1,L]。
则语义相似分sim(word_vector, text_vector)的计算公式如下:
保存词语word与新闻文章text的语义相似分sim(word_vector, text_vector),便于根据该语义相似分sim(word_vector, text_vector),来进行匹配度衡量排序。
排序的目的在于方便筛选出的新闻按照语义相似分的匹配度进行降序显示。
步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从步骤1筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章。
筛选有选址意愿的新闻文章的过程如下:
步骤2.1. 若新闻文章中包含企业选址意愿词库中的至少一个词语,则该新闻被筛选出,并作为有选址意愿的新闻文章;否则,转到步骤2.2。
步骤2.2. 计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector, word_pick_list_ vector)。
若语义相似分sim(text_vector, word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick,则该新闻被筛选,作为有选址意愿的新闻文章。
语义相似分sim(text_vector, word_pick_list_vector)的计算过程如下:
首先计算企业选址意愿词库的平均词向量word_pick_list_vector,word_pick_ list_vector= [word_pick_list_vector(w 1), word_pick_list_vector(w 2),…, word_ pick_list_vector(w N )]。
其中,word_pick_list_vector(w j )表示企业选址意愿词库的平均词向量的第j个维度。
N表示向量的维度,j∈[1,N]。
word_pick_list_vector(w j )的计算公式如下:
其中,word_pick _vector_q表示企业选址意愿词库第q个词语的词向量。
word_pick_vector_q=[word_pick_vector_q(w 1),word_pick_vector_q(w 2), …,word_pick_vector_q(w N )],word_pick_vector_q(w j )表示企业选址意愿词库中第q个词语的词向量的第j个维度;
Q表示企业选址意愿词库个数,q∈[1,Q]。
text_vector=[text_vector(w 1), text_vector(w 2), …, text_vector(w N )]。
其中,text_vector(w j )表示新闻文章text的文本向量text_vector的第j个维度。
text_vector(w j )的计算公式如下:
其中,word_i表示新闻文章text中第i个词语的词向量。
word_i = [word_i(w 1), word_i(w 2), …, word_i(w N )]。
其中,word_i(w j )表示新闻文章text中第i个词语的词向量的第j个维度。
L表示新闻文章text中词语的个数,i∈[1,L]。
则语义相似分sim(text_vector, word_pick_list_vector)的计算公式如下:
步骤3. 利用文本分类模型,例如Sequence Generation Model 标签分类模型等,对步骤2筛选出的有选址意愿的新闻文章进行行业分类。
步骤4. 利用实体识别模型,例如LSTM-CRF等,对步骤2筛选出的有选址意愿的新闻文章进行企业名称挖掘,即该新闻文章关联了哪些企业。
下面给出一则具体实例,对本发明实施例1中方法的各个步骤进行详细说明。
【新闻】:
2022年6月2日,A公司领导甲某一行来我县考察并举行洽谈会。县领导乙某,本县B
公司领导丙某等参加。乙某对甲某一行的到来表示欢迎和感谢,并简要介绍了本县县域经
济以及铁基新材料产业发展基本情况。他指出,A公司拥有先进的管理机制和人才、技术等
优势资源,欢迎A公司来我县投资兴业、共谋发展。乙某强调,从长远角度来看,铁基新材料
是支撑现代产业的重要基础,市场空间广阔,发展前景光明。要认真研究铁基新材料产业发
展规划,做到目标明确、思路清晰、措施有力。希望B公司和A公司进一步加强沟通对接,达成
合作共识,早日填补我县磁性材料领域空白,推动铁基新材料产业不断延伸发展,努力打造
全国知名的铁基新材料生产基地,为本县经济社会高质量发展注入新的活力。甲某指出,本
县铁矿资源丰富,品位高,发展铁基新材料产业有基础、有条件,前景广阔,相信本县的铁基
新材料产业一定会做大做强。希望双方在铁基新材料产业链的延链补链上加强合作,实现
互惠共赢。乙某分别就铁基新材料产业项目合作事宜,与客商进行了深入交流。座谈会上,A
公司负责人介绍了企业及铁基新材料产业发展情况;B公司负责人介绍了企业发展及相关
项目建设情况。
按照本发明中的企业选址意愿识别方法对上述新闻进行处理的过程如下:
步骤1. 输入关键词:招商选址。
根据输入的关键词与新闻文章进行匹配度计算,筛选出与关键词相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序。其中:
“招商选址”的词向量为:
[-0.7730622 1.5816785 -0.67013407 2.4637961 2.6229703 0.08886217
0.63833845 2.1632075 -0.01724743 -0.04255768 -4.0609555 4.98881
0.5200939 0.5543831 2.591651 -1.0421187 -0.04990637 0.30943966
0.24245524 0.9002553 0.9091487 2.0833755 -0.32941315 -2.7371206
2.0537972 -1.1303447 0.79255813 0.35600486 -3.3557322 -1.4236594
-0.19670759 1.0522336 ];
新闻文章text的文本向量为:
[-0.03648228 0.20077784 0.06824487 0.00648264 0.20888942 0.23486938
-0.05007073 0.10217311 -0.06588992 0.12428298 -0.12633322 0.3431268
-0.13314688 -0.01585783 0.15068533 -0.23226503 0.05574379 -0.1891795
0.03723579 -0.00474156 -0.00570916 0.02959956 0.03653357 -0.09029032
0.23390047 -0.34720838 0.10374002 -0.00593388 -0.0695777 -0.09244223
0.02595986 0.05961365]。
按照上面的公式计算关键词与新闻文章的语义相似分sim(word_vector, text_ vector)为:0.6532,该值大于threshold_sim(例如设置为0.3),则关键词匹配上新闻。
其它的新闻文章,同样按照该步骤1的方法先计算出新闻text的文本向量,然后计算关键词与新闻文章的语义相似分sim(word_vector, text_vector),判断是否匹配。
按照关键词与不同新闻的语义相似分进行匹配度衡量的排序。
步骤2. 筛选企业选址意愿的新闻。
假设企业选址意愿词库有:招商,选址,企业扩张,工厂扩建…
按照步骤2的方法计算企业选址意愿词库的平均词向量word_pick_list_vector:
[-4.2397833 -1.1242449 1.2838968 3.681074 3.074004 1.488448
-0.9682313 0.83118224 1.344069 0.698523 -3.3503435 2.0398426
-0.508675 -2.277403 4.09899 -1.2900741 4.0474753 1.4221872
0.4964785 -0.08818512 -0.5905914 -0.37064657 2.4657729 -3.3876297
2.9319339 -1.2323734 3.0871906 -2.040722 -2.67196 2.2493439
-0.26020688 0.7145899 ]。
同样按照步骤2的方法计算新闻text_vector与word_pick_list_vector语义相似分sim(text_vector, word_pick_list_vector)为0.5824。
假设预设的筛选新闻阈值threshold_sim_pick为0.3。
则sim(text_vector, word_pick_list_vector)≥threshold_sim_pick,则选择该新闻。
其他的新闻文章,同样按照上述步骤2进一步筛选。
通过该步骤2筛选出的新闻文章,为有选址意愿的新闻文章。
步骤3. 利用文本分类模型进行行业分类,对步骤2筛选出的有选址意愿的新闻文章进行行业分类,上述新闻文章的行业分类:新材料。
步骤4. 利用实体识别模型对步骤2筛选出的有选址意愿的新闻文章进行企业名称挖掘,即该新闻文章关联的企业名称:A公司。
由上述方法能够看出,本发明兼顾考虑了企业与涉及该企业的新闻政策等各种影响因素,以及各因素之间的关联匹配,因而提高了企业选址意愿识别准确率。
本发明方法综合考虑了企业与园区政策等多方涉及企业选址相关的影响因素,可解释性强,以便适用范围广,可扩展性强,有利于项目的具体实际应用。
实施例2
本实施例2述及了一种企业选址意愿识别方法,该方法除以下技术特征与上述实施例1不同之外,其余技术特征均可参照上述实施例1。
如图2所示,企业选址意愿识别方法,还包括如下步骤:
步骤5. 根据上述步骤4,列出有选址意愿的企业名称列表。
步骤6. 根据上述步骤3和步骤4,列出有选址意愿的企业所关联的新闻文章。
当筛选出的有选址意愿的新闻文章不限于上述新闻时,进一步进行如下处理:
步骤5. 根据步骤4,列出有选址意愿的企业名称列表,例如:
1. A公司;
2. ……
3. ……
步骤6. 根据步骤3和步骤4,列出有选址意愿的企业所关联的新闻文章,例如:
1. 选址意愿企业:A公司;
行业分类:新材料;
关联的新闻为:
2022年6月2日,A公司领导甲某一行来我县考察并举行洽谈会。县领导乙某,本县B
公司领导丙某等参加。乙某对甲某一行的到来表示欢迎和感谢,并简要介绍了本县县域经
济以及铁基新材料产业发展基本情况。他指出,A公司拥有先进的管理机制和人才、技术等
优势资源,欢迎A公司来我县投资兴业、共谋发展。乙某强调,从长远角度来看,铁基新材料
是支撑现代产业的重要基础,市场空间广阔,发展前景光明。要认真研究铁基新材料产业发
展规划,做到目标明确、思路清晰、措施有力。希望B公司和A公司进一步加强沟通对接,达成
合作共识,早日填补我县磁性材料领域空白,推动铁基新材料产业不断延伸发展,努力打造
全国知名的铁基新材料生产基地,为本县经济社会高质量发展注入新的活力。甲某指出,本
县铁矿资源丰富,品位高,发展铁基新材料产业有基础、有条件,前景广阔,相信本县的铁基
新材料产业一定会做大做强。希望双方在铁基新材料产业链的延链补链上加强合作,实现
互惠共赢。乙某分别就铁基新材料产业项目合作事宜,与客商进行了深入交流。座谈会上,A
公司负责人介绍了企业及铁基新材料产业发展情况;B公司负责人介绍了企业发展及相关
项目建设情况。
2. 选址意愿企业:……
行业分类:……
关联的新闻为……
3. 选址意愿企业:……
行业分类:……
关联的新闻为……
通过本实施例2中的方法,使得当面对多个有选址意愿的新闻文章时,能够清晰地给出有选址意愿的企业列表,并列出有选址意愿的企业所关联的新闻文章。
实施例3
本实施例3述及了一种企业选址意愿识别系统,该系统与上述实施例1述及的企业选址意愿识别方法基于相同发明构思。
具体的,企业选址意愿识别系统,包括:
第一匹配度计算模块,用于根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序;
第二匹配度计算模块,用于根据企业选址意愿词库以及与该企业选址意愿词库的语义关系从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
文本分类模块,用于对筛选出的有选址意愿的新闻文章进行行业分类;
实体识别模块,用于对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
需要说明的是,企业选址意愿识别系统中,各个功能模块的功能和作用的实现过程具体详见上述实施例1中方法中对应步骤的实现过程,在此不再赘述。
实施例4
本实施例4述及了一种计算机设备,该计算机设备用于实现上述实施例1或实施例2中述及的企业选址意愿识别方法的步骤。
该计算机设备包括存储器和一个或多个处理器。在存储器中存储有可执行代码,当处理器执行可执行代码时,用于实现上述企业选址意愿识别方法。
本实施例中计算机设备为任意具备数据数据处理能力的设备或装置,此处不再赘述。
实施例5
本实施例5述及了一种计算机可读存储介质,该计算机可读存储介质用于实现上述实施例1或实施例2中述及的企业选址意愿识别方法的步骤。
本实施例5中的计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述企业选址意愿识别方法。
该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元,例如硬盘或内存,也可以是任意具备数据处理能力的设备的外部存储设备,例如设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (10)
1.一种企业选址意愿识别方法,其特征在于,包括如下步骤:
步骤1. 根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;
步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
步骤3. 利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类;
步骤4. 利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
2.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤1中,根据输入的词语与新闻文章进行匹配度计算的过程如下:
步骤1.1. 首先根据文本字符串进行匹配,判断输入的词语word是否在新闻文章text中,若在,则该输入的词语与新闻文章的匹配度为1;
若输入的词语word不在新闻文章text中,则转到步骤1.2;
步骤1.2. 计算词语word的词向量word_vector与新闻文章text的文本向量text_ vector之间的语义相似分sim(word_vector, text_vector);
若sim(word_vector, text_vector)大于或等于threshold_sim,则选择新闻;
其中,threshold_sim为预设的选择新闻的阈值。
3.根据权利要求2所述的企业选址意愿识别方法,其特征在于,
所述步骤1.2中,语义相似分sim(word_vector, text_vector)的计算过程如下:
定义word_vector=[word_vector(w 1), word_vector(w 2), …, word_vector(w N )];
其中,word_vector(w j )表示词语word的词向量的第j个维度,N表示向量的维度,j∈[1,N];
定义text_vector=[text_vector(w 1), text_vector(w 2), …, text_vector(w N )];
其中,text_vector(w j )表示新闻文章text的文本向量text_vector的第j个维度;
text_vector(w j )的计算公式如下:
其中,word_i表示新闻文章text中第i个词语的词向量;
word_i= [word_i(w 1), word_i(w 2), …, word_i(w N )];
其中,word_i(w j )表示新闻文章text中第i个词语的词向量的第j个维度;
L表示新闻文章text中词语的个数,i∈[1,L];
则语义相似分sim(word_vector, text_vector)的计算公式如下:
4.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤2中,筛选有选址意愿的新闻文章的过程如下:
步骤2.1. 若新闻文章中包含企业选址意愿词库中的至少一个词语,则该新闻被筛选出,并作为有选址意愿的新闻文章;否则,转到步骤2.2;
步骤2.2. 计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector, word_pick_list_ vector);
若语义相似分sim(text_vector, word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick,则该新闻被筛选,并作为有选址意愿的新闻文章。
5.根据权利要求4所述的企业选址意愿识别方法,其特征在于,
所述步骤2.2中,语义相似分sim(text_vector, word_pick_list_vector)的计算过程如下:
首先计算企业选址意愿词库的平均词向量word_pick_list_vector = [word_pick_ list_vector(w 1), word_pick_list_vector(w 2),…, word_pick_list_vector(w N )];
其中,word_pick_list_vector(w j )表示企业选址意愿词库的平均词向量的第j个维度;
N表示向量的维度,j∈[1,N];
word_pick_list_vector(w j )的计算公式如下:
其中,word_pick _vector_q表示企业选址意愿词库中第q个词语的词向量;
word_pick_vector_q=[word_pick_vector_q(w 1),word_pick_vector_q(w 2), …,word_pick_vector_q(w N )],word_pick_vector_q(w j )表示企业选址意愿词库中第q个词语的词向量的第j个维度;
Q表示企业选址意愿词库个数,q∈[1,Q];
text_vector=[text_vector(w 1), text_vector(w 2), …, text_vector(w N )];
其中,text_vector(w j )表示新闻文章text的文本向量text_vector的第j个维度;
text_vector(w j )的计算公式如下:
其中,word_i表示新闻文章text中第i个词语的词向量;
word_i= [word_i(w 1), word_i(w 2), …, word_i(w N )];
其中,word_i(w j )表示新闻文章text中第i个词语的词向量的第j个维度;
L表示新闻文章text中词语的个数,i∈[1,L];
则语义相似分sim(text_vector, word_pick_list_vector)的计算公式如下:
6.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤1中,还进一步包括根据匹配度值对筛选出的新闻文章进行排序的步骤。
7.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤4之后还包括:
步骤5. 根据步骤4,列出有选址意愿的企业名称列表;
步骤6. 根据步骤3和步骤4,列出有选址意愿的企业所关联的新闻文章。
8.一种企业选址意愿识别系统,其特征在于,包括:
第一匹配度计算模块,用于根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;
第二匹配度计算模块,用于根据企业选址意愿词库以及与该企业选址意愿词库的语义关系从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
文本分类模块,用于对筛选出的有选址意愿的新闻文章进行行业分类;
实体识别模块,用于对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
9.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1至7任一项所述的企业选址意愿识别方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1至7任一项所述的企业选址意愿识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211404794.9A CN115496062B (zh) | 2022-11-10 | 2022-11-10 | 企业选址意愿识别方法、系统、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211404794.9A CN115496062B (zh) | 2022-11-10 | 2022-11-10 | 企业选址意愿识别方法、系统、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496062A true CN115496062A (zh) | 2022-12-20 |
CN115496062B CN115496062B (zh) | 2023-02-28 |
Family
ID=85115603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211404794.9A Active CN115496062B (zh) | 2022-11-10 | 2022-11-10 | 企业选址意愿识别方法、系统、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496062B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012374A1 (en) * | 2015-05-08 | 2019-01-10 | Thomson Reuters Global Resources Unlimited Company | Systems and methods for cross-media event detection and coreferencing |
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
CN110597981A (zh) * | 2019-09-16 | 2019-12-20 | 西华大学 | 一种采用多策略自动生成摘要的网络新闻概要系统 |
CN113536777A (zh) * | 2021-07-30 | 2021-10-22 | 深圳豹耳科技有限公司 | 新闻关键词的抽取方法、装置、设备及存储介质 |
WO2021246812A1 (ko) * | 2020-06-04 | 2021-12-09 | 주식회사 웨이커 | 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치 |
CN115017303A (zh) * | 2022-03-31 | 2022-09-06 | 胜斗士(上海)科技技术发展有限公司 | 基于新闻文本进行企业风险评估的方法、计算设备和介质 |
-
2022
- 2022-11-10 CN CN202211404794.9A patent/CN115496062B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012374A1 (en) * | 2015-05-08 | 2019-01-10 | Thomson Reuters Global Resources Unlimited Company | Systems and methods for cross-media event detection and coreferencing |
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
CN110597981A (zh) * | 2019-09-16 | 2019-12-20 | 西华大学 | 一种采用多策略自动生成摘要的网络新闻概要系统 |
WO2021246812A1 (ko) * | 2020-06-04 | 2021-12-09 | 주식회사 웨이커 | 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치 |
CN113536777A (zh) * | 2021-07-30 | 2021-10-22 | 深圳豹耳科技有限公司 | 新闻关键词的抽取方法、装置、设备及存储介质 |
CN115017303A (zh) * | 2022-03-31 | 2022-09-06 | 胜斗士(上海)科技技术发展有限公司 | 基于新闻文本进行企业风险评估的方法、计算设备和介质 |
Non-Patent Citations (3)
Title |
---|
SHOHE ITO; TAKUYA YOSHIDA; FUMIKO HARADA; HIROMITSU SHIMAKAWA: "Specific Touch Gesture on Mobile Devices to Find Attractive Phrases in News Browsing", 《2014 IEEE 38TH ANNUAL COMPUTER SOFTWARE AND APPLICATIONS CONFERENCE》 * |
刘奇飞等: "基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究", 《情报探索》 * |
李玉超: "新闻事件地名实体识别和地图链接技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115496062B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635117B (zh) | 一种基于知识图谱识别用户意图方法及装置 | |
CN108038234B (zh) | 一种问句模板自动生成方法及装置 | |
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
US11593671B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN111444342A (zh) | 一种基于多重弱监督集成的短文本分类方法 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN111291168A (zh) | 图书检索方法、装置及可读存储介质 | |
CN112417132B (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN114936277A (zh) | 相似问题匹配方法和户相似问题匹配系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN112446209A (zh) | 一种意图标签的设置方法、设备、装置及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
CN113177121A (zh) | 文本主题分类方法、装置、电子设备以及存储介质 | |
CN115496062B (zh) | 企业选址意愿识别方法、系统、计算机设备以及存储介质 | |
CN115952282A (zh) | 基于nlp技术的银行客户投诉智能分流处置方法和系统 | |
CN102207947A (zh) | 一种直接引语素材库的生成方法 | |
CN111191455A (zh) | 一种交通事故损害赔偿中法律条文预测方法 | |
Zhang et al. | Opinion analysis of product reviews | |
CN112133308A (zh) | 一种用于语音识别文本多标签分类的方法和装置 | |
CN113900995A (zh) | 一种税务智能搜索文件的方法 | |
CN102682042B (zh) | 概念识别设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310051 floor 7, block B, No. 482 Qianmo Road, Binjiang District, Hangzhou, Zhejiang Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 310051 floor 7, block B, No. 482 Qianmo Road, Binjiang District, Hangzhou, Zhejiang Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |