CN115496062B

CN115496062B - 企业选址意愿识别方法、系统、计算机设备以及存储介质

Info

Publication number: CN115496062B
Application number: CN202211404794.9A
Authority: CN
Inventors: 周泽伟; 金霞; 杨红飞
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-02-28
Anticipated expiration: 2042-11-10
Also published as: CN115496062A

Abstract

本发明属于企业选址技术领域，特别涉及一种企业选址意愿识别方法、系统、计算机设备以及存储介质。企业选址意愿识别方法包括如下步骤：根据输入的词语与新闻文章进行匹配度计算，筛选出与输入的词语相匹配的新闻文章，并根据匹配度对筛选出的新闻文章进行排序；根据企业选址意愿词库以及与该企业选址意愿词库的语义关系，从筛选出的新闻文章中，进一步筛选出有选址意愿的新闻文章；对筛选出的有选址意愿的新闻文章进行行业分类；对筛选出的有选址意愿的新闻文章进行企业名称挖掘。本发明兼顾考虑了企业与涉及该企业的新闻政策等因素，以及各因素之间的关联匹配，提高了企业选址意愿识别准确率。

Description

企业选址意愿识别方法、系统、计算机设备以及存储介质

技术领域

本发明属于企业选址技术领域，特别涉及一种企业选址意愿识别方法、系统、计算机设备以及存储介质。

背景技术

企业选址的技术背景主要是考虑企业以及各相关方等综合因素后计算的企业选址概率，已有公开的专利很多是基于选址要素打分方法。例如：

专利文献1公开了一种确定企业选址的方法、装置、电子设备及介质。

该文献中提供了一种利用地块选址打分模型对每个地块的预设指数进行打分，以使得企业根据每个地块的预设指数的分数进行选址的方法。

专利文献2公开了一种建设项目规划选址系统及方法。

该文献通过对规划和现状等各类信息对比分析，并根据建设项目的规划建设要求，能够快速过滤出满足条件的可建设地块，汇总计算意向地块的总分，自动生成选址报告。

然而，上述选址要素打分方法，在实际应用中多存在如下问题：

此类方法考虑要素与计算逻辑较简单，可扩展性差，在实际应用中准确率不高；而且一般常见的方法通常只考虑企业一方的因素，并没有考虑其它方的影响因素。

相关文献：

专利文献1 中国发明专利申请公开号：CN110110859A，公开日：2019.08.09；

专利文献2 中国发明专利申请公开号：CN105279711A，公开日：2016.01.27。

发明内容

本发明的目的在于提出一种企业选址意愿识别方法，通过兼顾考虑企业与涉及该企业的新闻政策等因素，以及各因素之间的关联匹配，以提高选址意愿识别准确率。

本发明为了实现上述目的，采用如下技术方案：

一种企业选址意愿识别方法，包括如下步骤：

步骤1. 根据输入的词语与新闻文章进行匹配度计算，筛选出与输入的词语相匹配的新闻文章；

步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系，从步骤1筛选出的新闻文章中，进一步筛选出有选址意愿的新闻文章；

步骤3. 利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类；

步骤4. 利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。

此外，在上述企业选址意愿识别方法的基础上，本发明还提出了一种与之相适应的企业选址意愿识别系统，其采用如下技术方案：

一种企业选址意愿识别系统，包括：

第一匹配度计算模块，用于根据输入的词语与新闻文章进行匹配度计算，筛选出与输入的词语相匹配的新闻文章；

第二匹配度计算模块，用于根据企业选址意愿词库以及与该企业选址意愿词库的语义关系从筛选出的新闻文章中，进一步筛选出有选址意愿的新闻文章；

文本分类模块，用于对筛选出的有选址意愿的新闻文章进行行业分类；

实体识别模块，用于对筛选出的有选址意愿的新闻文章进行企业名称挖掘。

此外，在上述企业选址意愿识别方法的基础上，本发明还提出了一种计算机设备，该计算机设备包括存储器和一个或多个处理器。

所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上面述及的企业选址意愿识别方法。

此外，在上述企业选址意愿识别方法的基础上，本发明还提出了一种计算机可读存储介质，其上存储有程序。

该程序被处理器执行时，用于实现上面述及的企业选址意愿识别方法。

本发明具有如下优点：

如上所述，本发明述及了一种基于新闻的企业选址意愿识别方法，该方法针对目前企业招商选址意愿识别中存在的上述技术问题，兼顾考虑了企业与涉及该企业的新闻政策等各种影响因素，以及各因素之间的关联匹配，提高了企业选址意愿识别准确率，本发明方法可扩展性强，应用覆盖范围较广，可解释性较强，更有针对性，有利于项目的具体实际应用。

附图说明

图1为本发明实施例1中企业选址意愿识别方法的流程图。

图2为本发明实施例2中企业选址意愿识别方法的流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

实施例1

本实施例1述及了一种企业选址意愿识别方法，以解决目前企业选址方法中存在的上述技术问题。如图1所示，该方法包括如下步骤：

步骤1. 根据输入的词语与新闻文章进行匹配度计算，筛选出与输入的词语相匹配的新闻文章，并根据匹配度对筛选出的新闻文章进行排序。

本实施例中输入的词语可以是某个领域感兴趣的关键词，当然也可以是热门词汇。

本实施例中新闻文章是从公开的新闻网站获取的，并且存储在相应的生产数据库中，例如PostgreSQL数据库，以方便调用并进行匹配度计算。

根据输入的词语与新闻文章进行匹配度计算的过程如下：

步骤1.1. 首先根据文本字符串进行匹配，判断输入的词语word是否在新闻文章text中，若在，则该输入的词语与新闻文章的匹配度为1。

若输入的词语word不在新闻文章text中，则转到步骤1.2。

步骤1.2. 计算词语word的词向量word_vector与新闻文章text的文本向量text_ vector之间的语义相似分sim(word_vector, text_vector)。

若sim(word_vector, text_vector)大于或等于threshold_sim，则选择新闻。

词语与新闻文本的词初始向量，通过常见的文本语义向量方式得到，比如Bert等。

其中，threshold_sim为预设的选择新闻的阈值。

具体的，语义相似分sim(word_vector,text_vector)的计算过程如下：

定义word_vector=[word_vector(w ₁), word_vector(w ₂), …, word_vector(w _N)]。

其中，word_vector(w _j)表示词语word的词向量的第j个维度，N表示向量的维度，j∈[1,N]。

定义text_vector=[text_vector(w ₁), text_vector(w ₂), …, text_vector(w _N)]。

其中，text_vector(w _j)表示新闻文章text的文本向量text_vector的第j个维度。

text_vector(w _j)的计算公式如下：

。

其中，word_i表示新闻文章text中第i个词语的词向量。

word_i = [word_i(w ₁), word_i(w ₂), …, word_i(w _N)]。

其中，word_i(w _j)表示新闻文章text中第i个词语的词向量的第j个维度。

L表示新闻文章text中词语的个数，i∈[1,L]。

则语义相似分sim(word_vector, text_vector)的计算公式如下：

。

保存词语word与新闻文章text的语义相似分sim(word_vector, text_vector)，便于根据该语义相似分sim(word_vector, text_vector)，来进行匹配度衡量排序。

排序的目的在于方便筛选出的新闻按照语义相似分的匹配度进行降序显示。

步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系，从步骤1筛选出的新闻文章中，进一步筛选出有选址意愿的新闻文章。

筛选有选址意愿的新闻文章的过程如下：

步骤2.1. 若新闻文章中包含企业选址意愿词库中的至少一个词语，则该新闻被筛选出，并作为有选址意愿的新闻文章；否则，转到步骤2.2。

步骤2.2. 计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector, word_pick_list_ vector)。

若语义相似分sim(text_vector, word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick，则该新闻被筛选，作为有选址意愿的新闻文章。

语义相似分sim(text_vector, word_pick_list_vector)的计算过程如下：

首先计算企业选址意愿词库的平均词向量word_pick_list_vector，word_pick_ list_vector= [word_pick_list_vector(w ₁), word_pick_list_vector(w ₂),…, word_ pick_list_vector(w _N)]。

其中，word_pick_list_vector(w _j)表示企业选址意愿词库的平均词向量的第j个维度。

N表示向量的维度，j∈[1,N]。

word_pick_list_vector(w _j)的计算公式如下：

。

其中，word_pick _vector_q表示企业选址意愿词库第q个词语的词向量。

word_pick_vector_q=[word_pick_vector_q(w ₁),word_pick_vector_q(w ₂), …,word_pick_vector_q(w _N)]，word_pick_vector_q(w _j)表示企业选址意愿词库中第q个词语的词向量的第j个维度；

Q表示企业选址意愿词库个数，q∈[1,Q]。

text_vector=[text_vector(w ₁), text_vector(w ₂), …, text_vector(w _N)]。

text_vector(w _j)的计算公式如下：

。

其中，word_i表示新闻文章text中第i个词语的词向量。

word_i = [word_i(w ₁), word_i(w ₂), …, word_i(w _N)]。

L表示新闻文章text中词语的个数，i∈[1,L]。

则语义相似分sim(text_vector, word_pick_list_vector)的计算公式如下：

。

步骤3. 利用文本分类模型，例如Sequence Generation Model 标签分类模型等，对步骤2筛选出的有选址意愿的新闻文章进行行业分类。

步骤4. 利用实体识别模型，例如LSTM-CRF等，对步骤2筛选出的有选址意愿的新闻文章进行企业名称挖掘，即该新闻文章关联了哪些企业。

下面给出一则具体实例，对本发明实施例1中方法的各个步骤进行详细说明。

【新闻】：

2022年6月2日，A公司领导甲某一行来我县考察并举行洽谈会。县领导乙某，本县B 公司领导丙某等参加。乙某对甲某一行的到来表示欢迎和感谢，并简要介绍了本县县域经 济以及铁基新材料产业发展基本情况。他指出，A公司拥有先进的管理机制和人才、技术等 优势资源，欢迎A公司来我县投资兴业、共谋发展。乙某强调，从长远角度来看，铁基新材料 是支撑现代产业的重要基础，市场空间广阔，发展前景光明。要认真研究铁基新材料产业发 展规划，做到目标明确、思路清晰、措施有力。希望B公司和A公司进一步加强沟通对接，达成 合作共识，早日填补我县磁性材料领域空白，推动铁基新材料产业不断延伸发展，努力打造 全国知名的铁基新材料生产基地，为本县经济社会高质量发展注入新的活力。甲某指出，本 县铁矿资源丰富，品位高，发展铁基新材料产业有基础、有条件，前景广阔，相信本县的铁基 新材料产业一定会做大做强。希望双方在铁基新材料产业链的延链补链上加强合作，实现 互惠共赢。乙某分别就铁基新材料产业项目合作事宜，与客商进行了深入交流。座谈会上，A 公司负责人介绍了企业及铁基新材料产业发展情况；B公司负责人介绍了企业发展及相关 项目建设情况。

按照本发明中的企业选址意愿识别方法对上述新闻进行处理的过程如下：

步骤1. 输入关键词：招商选址。

根据输入的关键词与新闻文章进行匹配度计算，筛选出与关键词相匹配的新闻文章，并根据匹配度对筛选出的新闻文章进行排序。其中：

“招商选址”的词向量为：

[-0.7730622 1.5816785 -0.67013407 2.4637961 2.6229703 0.08886217

0.63833845 2.1632075 -0.01724743 -0.04255768 -4.0609555 4.98881

0.5200939 0.5543831 2.591651 -1.0421187 -0.04990637 0.30943966

0.24245524 0.9002553 0.9091487 2.0833755 -0.32941315 -2.7371206

2.0537972 -1.1303447 0.79255813 0.35600486 -3.3557322 -1.4236594

-0.19670759 1.0522336 ]；

新闻文章text的文本向量为：

[-0.03648228 0.20077784 0.06824487 0.00648264 0.208889420.23486938

-0.05007073 0.10217311 -0.06588992 0.12428298 -0.126333220.3431268

-0.13314688 -0.01585783 0.15068533 -0.23226503 0.05574379 -0.1891795

0.03723579 -0.00474156 -0.00570916 0.02959956 0.03653357 -0.09029032

0.23390047 -0.34720838 0.10374002 -0.00593388 -0.0695777 -0.09244223

0.02595986 0.05961365]。

按照上面的公式计算关键词与新闻文章的语义相似分sim(word_vector, text_ vector)为：0.6532，该值大于threshold_sim（例如设置为0.3），则关键词匹配上新闻。

其它的新闻文章，同样按照该步骤1的方法先计算出新闻text的文本向量，然后计算关键词与新闻文章的语义相似分sim(word_vector, text_vector)，判断是否匹配。

按照关键词与不同新闻的语义相似分进行匹配度衡量的排序。

步骤2. 筛选企业选址意愿的新闻。

假设企业选址意愿词库有：招商，选址，企业扩张，工厂扩建…

按照步骤2的方法计算企业选址意愿词库的平均词向量word_pick_list_vector：

[-4.2397833 -1.1242449 1.2838968 3.681074 3.074004 1.488448

-0.9682313 0.83118224 1.344069 0.698523 -3.3503435 2.0398426

-0.508675 -2.277403 4.09899 -1.2900741 4.0474753 1.4221872

0.4964785 -0.08818512 -0.5905914 -0.37064657 2.4657729 -3.3876297

2.9319339 -1.2323734 3.0871906 -2.040722 -2.67196 2.2493439

-0.26020688 0.7145899 ]。

同样按照步骤2的方法计算新闻text_vector与word_pick_list_vector语义相似分sim(text_vector, word_pick_list_vector)为0.5824。

假设预设的筛选新闻阈值threshold_sim_pick为0.3。

则sim(text_vector, word_pick_list_vector)≥threshold_sim_pick，则选择该新闻。

其他的新闻文章，同样按照上述步骤2进一步筛选。

通过该步骤2筛选出的新闻文章，为有选址意愿的新闻文章。

步骤3. 利用文本分类模型进行行业分类，对步骤2筛选出的有选址意愿的新闻文章进行行业分类，上述新闻文章的行业分类：新材料。

步骤4. 利用实体识别模型对步骤2筛选出的有选址意愿的新闻文章进行企业名称挖掘，即该新闻文章关联的企业名称：A公司。

由上述方法能够看出，本发明兼顾考虑了企业与涉及该企业的新闻政策等各种影响因素，以及各因素之间的关联匹配，因而提高了企业选址意愿识别准确率。

本发明方法综合考虑了企业与园区政策等多方涉及企业选址相关的影响因素，可解释性强，以便适用范围广，可扩展性强，有利于项目的具体实际应用。

实施例2

本实施例2述及了一种企业选址意愿识别方法，该方法除以下技术特征与上述实施例1不同之外，其余技术特征均可参照上述实施例1。

如图2所示，企业选址意愿识别方法，还包括如下步骤：

步骤5. 根据上述步骤4，列出有选址意愿的企业名称列表。

步骤6. 根据上述步骤3和步骤4，列出有选址意愿的企业所关联的新闻文章。

当筛选出的有选址意愿的新闻文章不限于上述新闻时，进一步进行如下处理：

步骤5. 根据步骤4，列出有选址意愿的企业名称列表，例如：

1. A公司；

2. ……

3. ……

步骤6. 根据步骤3和步骤4，列出有选址意愿的企业所关联的新闻文章，例如：

1. 选址意愿企业：A公司；

行业分类：新材料；

关联的新闻为：

2. 选址意愿企业：……

行业分类：……

关联的新闻为……

3. 选址意愿企业：……

行业分类：……

关联的新闻为……

通过本实施例2中的方法，使得当面对多个有选址意愿的新闻文章时，能够清晰地给出有选址意愿的企业列表，并列出有选址意愿的企业所关联的新闻文章。

实施例3

本实施例3述及了一种企业选址意愿识别系统，该系统与上述实施例1述及的企业选址意愿识别方法基于相同发明构思。

具体的，企业选址意愿识别系统，包括：

第一匹配度计算模块，用于根据输入的词语与新闻文章进行匹配度计算，筛选出与输入的词语相匹配的新闻文章，并根据匹配度对筛选出的新闻文章进行排序；

需要说明的是，企业选址意愿识别系统中，各个功能模块的功能和作用的实现过程具体详见上述实施例1中方法中对应步骤的实现过程，在此不再赘述。

实施例4

本实施例4述及了一种计算机设备，该计算机设备用于实现上述实施例1或实施例2中述及的企业选址意愿识别方法的步骤。

该计算机设备包括存储器和一个或多个处理器。在存储器中存储有可执行代码，当处理器执行可执行代码时，用于实现上述企业选址意愿识别方法。

本实施例中计算机设备为任意具备数据数据处理能力的设备或装置，此处不再赘述。

实施例5

本实施例5述及了一种计算机可读存储介质，该计算机可读存储介质用于实现上述实施例1或实施例2中述及的企业选址意愿识别方法的步骤。

本实施例5中的计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述企业选址意愿识别方法。

该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元，例如硬盘或内存，也可以是任意具备数据处理能力的设备的外部存储设备，例如设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种企业选址意愿识别方法，其特征在于，包括如下步骤：

步骤1.根据输入的词语与新闻文章进行匹配度计算，筛选出与输入的词语相匹配的新闻文章；根据输入的词语与新闻文章进行匹配度计算的过程如下：

步骤1.1.首先根据文本字符串进行匹配，判断输入的词语word是否在新闻文章text中，若在，则该输入的词语与新闻文章的匹配度为1；

若输入的词语word不在新闻文章text中，则转到步骤1.2；

步骤1.2.计算词语word的词向量word_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(word_vector,text_vector)；

若sim(word_vector,text_vector)大于或等于threshold_sim，则选择新闻；

其中，threshold_sim为预设的选择新闻的阈值；

步骤2.根据企业选址意愿词库以及与该企业选址意愿词库的语义关系，从筛选出的新闻文章中，进一步筛选出有选址意愿的新闻文章，过程如下：

步骤2.1.若新闻文章中包含企业选址意愿词库中的至少一个词语，则该新闻被筛选出，并作为有选址意愿的新闻文章；否则，转到步骤2.2；

步骤2.2.计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector,word_pick_list_vector)；

若语义相似分sim(text_vector,word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick，则该新闻被筛选，并作为有选址意愿的新闻文章；

步骤3.利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类；

步骤4.利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。

2.根据权利要求1所述的企业选址意愿识别方法，其特征在于，

所述步骤1.2中，语义相似分sim(word_vector,text_vector)的计算过程如下：

定义word_vector＝[word_vector(w₁),word_vector(w₂),…,word_vector(w_N)]；

其中，word_vector(w_j)表示词语word的词向量的第j个维度，N表示向量的维度，j∈[1,N]；

定义text_vector＝[text_vector(w₁),text_vector(w₂),…,text_vector(w_N)]；

其中，text_vector(w_j)表示新闻文章text的文本向量text_vector的第j个维度；

text_vector(w_j)的计算公式如下：

其中，word_i表示新闻文章text中第i个词语的词向量；

word_i＝[word_i(w₁),word_i(w₂),…,word_i(w_N)]；

其中，word_i(w_j)表示新闻文章text中第i个词语的词向量的第j个维度；

L表示新闻文章text中词语的个数，i∈[1,L]；

则语义相似分sim(word_vector,text_vector)的计算公式如下：

3.根据权利要求1所述的企业选址意愿识别方法，其特征在于，

所述步骤2.2中，语义相似分sim(text_vector,word_pick_list_vector)的计算过程如下：

首先计算企业选址意愿词库的平均词向量word_pick_list_vector＝[word_pick_list_vector(w₁),word_pick_list_vector(w₂),…,word_pick_list_vector(w_N)]；

其中，word_pick_list_vector(w_j)表示企业选址意愿词库的平均词向量的第j个维度；

N表示向量的维度，j∈[1,N]；

word_pick_list_vector(w_j)的计算公式如下：

其中，word_pick_vector_q表示企业选址意愿词库中第q个词语的词向量；

word_pick_vector_q＝[word_pick_vector_q(w₁),word_pick_vector_q(w₂),…,word_pick_vector_q(w_N)]，word_pick_vector_q(w_j)表示企业选址意愿词库中第q个词语的词向量的第j个维度；

Q表示企业选址意愿词库个数，q∈[1,Q]；

text_vector＝[text_vector(w₁),text_vector(w₂),…,text_vector(w_N)]；

text_vector(w_j)的计算公式如下：

其中，word_i表示新闻文章text中第i个词语的词向量；

word_i＝[word_i(w₁),word_i(w₂),…,word_i(w_N)]；

L表示新闻文章text中词语的个数，i∈[1,L]；

则语义相似分sim(text_vector,word_pick_list_vector)的计算公式如下：

4.根据权利要求1所述的企业选址意愿识别方法，其特征在于，

所述步骤1中，还进一步包括根据匹配度值对筛选出的新闻文章进行排序的步骤。

5.根据权利要求1所述的企业选址意愿识别方法，其特征在于，

所述步骤4之后还包括：

步骤5.根据步骤4，列出有选址意愿的企业名称列表；

步骤6.根据步骤3和步骤4，列出有选址意愿的企业所关联的新闻文章。

6.一种企业选址意愿识别系统，其特征在于，包括：

第一匹配度计算模块，用于根据输入的词语与新闻文章进行匹配度计算，筛选出与输入的词语相匹配的新闻文章；根据输入的词语与新闻文章进行匹配度计算的过程如下：

首先根据文本字符串进行匹配，判断输入的词语word是否在新闻文章text中，若在，则该输入的词语与新闻文章的匹配度为1；

若输入的词语word不在新闻文章text中，则进行如下处理：

计算词语word的词向量word_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(word_vector,text_vector)；

其中，threshold_sim为预设的选择新闻的阈值；

筛选有选址意愿的新闻文章的过程如下：

若新闻文章中包含企业选址意愿词库中的至少一个词语，则该新闻被筛选出，并作为有选址意愿的新闻文章；否则，进行如下处理：

计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector,word_pick_list_vector)；

7.一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1至5任一项所述的企业选址意愿识别方法。

8.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，实现如权利要求1至5任一项所述的企业选址意愿识别方法。