CN115496062B - 企业选址意愿识别方法、系统、计算机设备以及存储介质 - Google Patents

企业选址意愿识别方法、系统、计算机设备以及存储介质 Download PDF

Info

Publication number
CN115496062B
CN115496062B CN202211404794.9A CN202211404794A CN115496062B CN 115496062 B CN115496062 B CN 115496062B CN 202211404794 A CN202211404794 A CN 202211404794A CN 115496062 B CN115496062 B CN 115496062B
Authority
CN
China
Prior art keywords
word
vector
text
news
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211404794.9A
Other languages
English (en)
Other versions
CN115496062A (zh
Inventor
周泽伟
金霞
杨红飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoshi Creation Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202211404794.9A priority Critical patent/CN115496062B/zh
Publication of CN115496062A publication Critical patent/CN115496062A/zh
Application granted granted Critical
Publication of CN115496062B publication Critical patent/CN115496062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于企业选址技术领域,特别涉及一种企业选址意愿识别方法、系统、计算机设备以及存储介质。企业选址意愿识别方法包括如下步骤:根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序;根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;对筛选出的有选址意愿的新闻文章进行行业分类;对筛选出的有选址意愿的新闻文章进行企业名称挖掘。本发明兼顾考虑了企业与涉及该企业的新闻政策等因素,以及各因素之间的关联匹配,提高了企业选址意愿识别准确率。

Description

企业选址意愿识别方法、系统、计算机设备以及存储介质
技术领域
本发明属于企业选址技术领域,特别涉及一种企业选址意愿识别方法、系统、计算机设备以及存储介质。
背景技术
企业选址的技术背景主要是考虑企业以及各相关方等综合因素后计算的企业选址概率,已有公开的专利很多是基于选址要素打分方法。例如:
专利文献1公开了一种确定企业选址的方法、装置、电子设备及介质。
该文献中提供了一种利用地块选址打分模型对每个地块的预设指数进行打分,以使得企业根据每个地块的预设指数的分数进行选址的方法。
专利文献2公开了一种建设项目规划选址系统及方法。
该文献通过对规划和现状等各类信息对比分析,并根据建设项目的规划建设要求,能够快速过滤出满足条件的可建设地块,汇总计算意向地块的总分,自动生成选址报告。
然而,上述选址要素打分方法,在实际应用中多存在如下问题:
此类方法考虑要素与计算逻辑较简单,可扩展性差,在实际应用中准确率不高;而且一般常见的方法通常只考虑企业一方的因素,并没有考虑其它方的影响因素。
相关文献:
专利文献1 中国发明专利申请公开号:CN110110859A,公开日:2019.08.09;
专利文献2 中国发明专利申请公开号:CN105279711A,公开日:2016.01.27。
发明内容
本发明的目的在于提出一种企业选址意愿识别方法,通过兼顾考虑企业与涉及该企业的新闻政策等因素,以及各因素之间的关联匹配,以提高选址意愿识别准确率。
本发明为了实现上述目的,采用如下技术方案:
一种企业选址意愿识别方法,包括如下步骤:
步骤1. 根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;
步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从步骤1筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
步骤3. 利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类;
步骤4. 利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
此外,在上述企业选址意愿识别方法的基础上,本发明还提出了一种与之相适应的企业选址意愿识别系统,其采用如下技术方案:
一种企业选址意愿识别系统,包括:
第一匹配度计算模块,用于根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;
第二匹配度计算模块,用于根据企业选址意愿词库以及与该企业选址意愿词库的语义关系从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
文本分类模块,用于对筛选出的有选址意愿的新闻文章进行行业分类;
实体识别模块,用于对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
此外,在上述企业选址意愿识别方法的基础上,本发明还提出了一种计算机设备,该计算机设备包括存储器和一个或多个处理器。
所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上面述及的企业选址意愿识别方法。
此外,在上述企业选址意愿识别方法的基础上,本发明还提出了一种计算机可读存储介质,其上存储有程序。
该程序被处理器执行时,用于实现上面述及的企业选址意愿识别方法。
本发明具有如下优点:
如上所述,本发明述及了一种基于新闻的企业选址意愿识别方法,该方法针对目前企业招商选址意愿识别中存在的上述技术问题,兼顾考虑了企业与涉及该企业的新闻政策等各种影响因素,以及各因素之间的关联匹配,提高了企业选址意愿识别准确率,本发明方法可扩展性强,应用覆盖范围较广,可解释性较强,更有针对性,有利于项目的具体实际应用。
附图说明
图1为本发明实施例1中企业选址意愿识别方法的流程图。
图2为本发明实施例2中企业选址意愿识别方法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
实施例1
本实施例1述及了一种企业选址意愿识别方法,以解决目前企业选址方法中存在的上述技术问题。如图1所示,该方法包括如下步骤:
步骤1. 根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序。
本实施例中输入的词语可以是某个领域感兴趣的关键词,当然也可以是热门词汇。
本实施例中新闻文章是从公开的新闻网站获取的,并且存储在相应的生产数据库中,例如PostgreSQL数据库,以方便调用并进行匹配度计算。
根据输入的词语与新闻文章进行匹配度计算的过程如下:
步骤1.1. 首先根据文本字符串进行匹配,判断输入的词语word是否在新闻文章text中,若在,则该输入的词语与新闻文章的匹配度为1。
若输入的词语word不在新闻文章text中,则转到步骤1.2。
步骤1.2. 计算词语word的词向量word_vector与新闻文章text的文本向量text_ vector之间的语义相似分sim(word_vector, text_vector)。
sim(word_vector, text_vector)大于或等于threshold_sim,则选择新闻。
词语与新闻文本的词初始向量,通过常见的文本语义向量方式得到,比如Bert等。
其中,threshold_sim为预设的选择新闻的阈值。
具体的,语义相似分sim(word_vector,text_vector)的计算过程如下:
定义word_vector=[word_vector(w 1), word_vector(w 2), …, word_vector(w N )]。
其中,word_vector(w j )表示词语word的词向量的第j个维度,N表示向量的维度,j∈[1,N]。
定义text_vector=[text_vector(w 1), text_vector(w 2), …, text_vector(w N )]。
其中,text_vector(w j )表示新闻文章text的文本向量text_vector的第j个维度。
text_vector(w j )的计算公式如下:
Figure RE-DEST_PATH_IMAGE001
其中,word_i表示新闻文章text中第i个词语的词向量。
word_i = [word_i(w 1), word_i(w 2), …, word_i(w N )]。
其中,word_i(w j )表示新闻文章text中第i个词语的词向量的第j个维度。
L表示新闻文章text中词语的个数,i∈[1,L]。
则语义相似分sim(word_vector, text_vector)的计算公式如下:
Figure RE-109974DEST_PATH_IMAGE002
保存词语word与新闻文章text的语义相似分sim(word_vector, text_vector),便于根据该语义相似分sim(word_vector, text_vector),来进行匹配度衡量排序。
排序的目的在于方便筛选出的新闻按照语义相似分的匹配度进行降序显示。
步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从步骤1筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章。
筛选有选址意愿的新闻文章的过程如下:
步骤2.1. 若新闻文章中包含企业选址意愿词库中的至少一个词语,则该新闻被筛选出,并作为有选址意愿的新闻文章;否则,转到步骤2.2。
步骤2.2. 计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector, word_pick_list_ vector)。
若语义相似分sim(text_vector, word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick,则该新闻被筛选,作为有选址意愿的新闻文章。
语义相似分sim(text_vector, word_pick_list_vector)的计算过程如下:
首先计算企业选址意愿词库的平均词向量word_pick_list_vectorword_pick_ list_vector= [word_pick_list_vector(w 1), word_pick_list_vector(w 2),…, word_ pick_list_vector(w N )]。
其中,word_pick_list_vector(w j )表示企业选址意愿词库的平均词向量的第j个维度。
N表示向量的维度,j∈[1,N]。
word_pick_list_vector(w j )的计算公式如下:
Figure RE-DEST_PATH_IMAGE003
其中,word_pick _vector_q表示企业选址意愿词库第q个词语的词向量。
word_pick_vector_q=[word_pick_vector_q(w 1),word_pick_vector_q(w 2), …,word_pick_vector_q(w N )],word_pick_vector_q(w j )表示企业选址意愿词库中第q个词语的词向量的第j个维度;
Q表示企业选址意愿词库个数,q∈[1,Q]。
text_vector=[text_vector(w 1), text_vector(w 2), …, text_vector(w N )]。
其中,text_vector(w j )表示新闻文章text的文本向量text_vector的第j个维度。
text_vector(w j )的计算公式如下:
Figure RE-253510DEST_PATH_IMAGE004
其中,word_i表示新闻文章text中第i个词语的词向量。
word_i = [word_i(w 1), word_i(w 2), …, word_i(w N )]。
其中,word_i(w j )表示新闻文章text中第i个词语的词向量的第j个维度。
L表示新闻文章text中词语的个数,i∈[1,L]。
则语义相似分sim(text_vector, word_pick_list_vector)的计算公式如下:
Figure RE-DEST_PATH_IMAGE005
步骤3. 利用文本分类模型,例如Sequence Generation Model 标签分类模型等,对步骤2筛选出的有选址意愿的新闻文章进行行业分类。
步骤4. 利用实体识别模型,例如LSTM-CRF等,对步骤2筛选出的有选址意愿的新闻文章进行企业名称挖掘,即该新闻文章关联了哪些企业。
下面给出一则具体实例,对本发明实施例1中方法的各个步骤进行详细说明。
【新闻】:
2022年6月2日,A公司领导甲某一行来我县考察并举行洽谈会。县领导乙某,本县B 公司领导丙某等参加。乙某对甲某一行的到来表示欢迎和感谢,并简要介绍了本县县域经 济以及铁基新材料产业发展基本情况。他指出,A公司拥有先进的管理机制和人才、技术等 优势资源,欢迎A公司来我县投资兴业、共谋发展。乙某强调,从长远角度来看,铁基新材料 是支撑现代产业的重要基础,市场空间广阔,发展前景光明。要认真研究铁基新材料产业发 展规划,做到目标明确、思路清晰、措施有力。希望B公司和A公司进一步加强沟通对接,达成 合作共识,早日填补我县磁性材料领域空白,推动铁基新材料产业不断延伸发展,努力打造 全国知名的铁基新材料生产基地,为本县经济社会高质量发展注入新的活力。甲某指出,本 县铁矿资源丰富,品位高,发展铁基新材料产业有基础、有条件,前景广阔,相信本县的铁基 新材料产业一定会做大做强。希望双方在铁基新材料产业链的延链补链上加强合作,实现 互惠共赢。乙某分别就铁基新材料产业项目合作事宜,与客商进行了深入交流。座谈会上,A 公司负责人介绍了企业及铁基新材料产业发展情况;B公司负责人介绍了企业发展及相关 项目建设情况。
按照本发明中的企业选址意愿识别方法对上述新闻进行处理的过程如下:
步骤1. 输入关键词:招商选址。
根据输入的关键词与新闻文章进行匹配度计算,筛选出与关键词相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序。其中:
“招商选址”的词向量为:
[-0.7730622 1.5816785 -0.67013407 2.4637961 2.6229703 0.08886217
0.63833845 2.1632075 -0.01724743 -0.04255768 -4.0609555 4.98881
0.5200939 0.5543831 2.591651 -1.0421187 -0.04990637 0.30943966
0.24245524 0.9002553 0.9091487 2.0833755 -0.32941315 -2.7371206
2.0537972 -1.1303447 0.79255813 0.35600486 -3.3557322 -1.4236594
-0.19670759 1.0522336 ];
新闻文章text的文本向量为:
[-0.03648228 0.20077784 0.06824487 0.00648264 0.208889420.23486938
-0.05007073 0.10217311 -0.06588992 0.12428298 -0.126333220.3431268
-0.13314688 -0.01585783 0.15068533 -0.23226503 0.05574379 -0.1891795
0.03723579 -0.00474156 -0.00570916 0.02959956 0.03653357 -0.09029032
0.23390047 -0.34720838 0.10374002 -0.00593388 -0.0695777 -0.09244223
0.02595986 0.05961365]。
按照上面的公式计算关键词与新闻文章的语义相似分sim(word_vector, text_ vector)为:0.6532,该值大于threshold_sim(例如设置为0.3),则关键词匹配上新闻。
其它的新闻文章,同样按照该步骤1的方法先计算出新闻text的文本向量,然后计算关键词与新闻文章的语义相似分sim(word_vector, text_vector),判断是否匹配。
按照关键词与不同新闻的语义相似分进行匹配度衡量的排序。
步骤2. 筛选企业选址意愿的新闻。
假设企业选址意愿词库有:招商,选址,企业扩张,工厂扩建…
按照步骤2的方法计算企业选址意愿词库的平均词向量word_pick_list_vector
[-4.2397833 -1.1242449 1.2838968 3.681074 3.074004 1.488448
-0.9682313 0.83118224 1.344069 0.698523 -3.3503435 2.0398426
-0.508675 -2.277403 4.09899 -1.2900741 4.0474753 1.4221872
0.4964785 -0.08818512 -0.5905914 -0.37064657 2.4657729 -3.3876297
2.9319339 -1.2323734 3.0871906 -2.040722 -2.67196 2.2493439
-0.26020688 0.7145899 ]。
同样按照步骤2的方法计算新闻text_vectorword_pick_list_vector语义相似分sim(text_vector, word_pick_list_vector)为0.5824。
假设预设的筛选新闻阈值threshold_sim_pick为0.3。
则sim(text_vector, word_pick_list_vector)≥threshold_sim_pick,则选择该新闻。
其他的新闻文章,同样按照上述步骤2进一步筛选。
通过该步骤2筛选出的新闻文章,为有选址意愿的新闻文章。
步骤3. 利用文本分类模型进行行业分类,对步骤2筛选出的有选址意愿的新闻文章进行行业分类,上述新闻文章的行业分类:新材料。
步骤4. 利用实体识别模型对步骤2筛选出的有选址意愿的新闻文章进行企业名称挖掘,即该新闻文章关联的企业名称:A公司。
由上述方法能够看出,本发明兼顾考虑了企业与涉及该企业的新闻政策等各种影响因素,以及各因素之间的关联匹配,因而提高了企业选址意愿识别准确率。
本发明方法综合考虑了企业与园区政策等多方涉及企业选址相关的影响因素,可解释性强,以便适用范围广,可扩展性强,有利于项目的具体实际应用。
实施例2
本实施例2述及了一种企业选址意愿识别方法,该方法除以下技术特征与上述实施例1不同之外,其余技术特征均可参照上述实施例1。
如图2所示,企业选址意愿识别方法,还包括如下步骤:
步骤5. 根据上述步骤4,列出有选址意愿的企业名称列表。
步骤6. 根据上述步骤3和步骤4,列出有选址意愿的企业所关联的新闻文章。
当筛选出的有选址意愿的新闻文章不限于上述新闻时,进一步进行如下处理:
步骤5. 根据步骤4,列出有选址意愿的企业名称列表,例如:
1. A公司;
2. ……
3. ……
步骤6. 根据步骤3和步骤4,列出有选址意愿的企业所关联的新闻文章,例如:
1. 选址意愿企业:A公司;
行业分类:新材料;
关联的新闻为:
2022年6月2日,A公司领导甲某一行来我县考察并举行洽谈会。县领导乙某,本县B 公司领导丙某等参加。乙某对甲某一行的到来表示欢迎和感谢,并简要介绍了本县县域经 济以及铁基新材料产业发展基本情况。他指出,A公司拥有先进的管理机制和人才、技术等 优势资源,欢迎A公司来我县投资兴业、共谋发展。乙某强调,从长远角度来看,铁基新材料 是支撑现代产业的重要基础,市场空间广阔,发展前景光明。要认真研究铁基新材料产业发 展规划,做到目标明确、思路清晰、措施有力。希望B公司和A公司进一步加强沟通对接,达成 合作共识,早日填补我县磁性材料领域空白,推动铁基新材料产业不断延伸发展,努力打造 全国知名的铁基新材料生产基地,为本县经济社会高质量发展注入新的活力。甲某指出,本 县铁矿资源丰富,品位高,发展铁基新材料产业有基础、有条件,前景广阔,相信本县的铁基 新材料产业一定会做大做强。希望双方在铁基新材料产业链的延链补链上加强合作,实现 互惠共赢。乙某分别就铁基新材料产业项目合作事宜,与客商进行了深入交流。座谈会上,A 公司负责人介绍了企业及铁基新材料产业发展情况;B公司负责人介绍了企业发展及相关 项目建设情况。
2. 选址意愿企业:……
行业分类:……
关联的新闻为……
3. 选址意愿企业:……
行业分类:……
关联的新闻为……
通过本实施例2中的方法,使得当面对多个有选址意愿的新闻文章时,能够清晰地给出有选址意愿的企业列表,并列出有选址意愿的企业所关联的新闻文章。
实施例3
本实施例3述及了一种企业选址意愿识别系统,该系统与上述实施例1述及的企业选址意愿识别方法基于相同发明构思。
具体的,企业选址意愿识别系统,包括:
第一匹配度计算模块,用于根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章,并根据匹配度对筛选出的新闻文章进行排序;
第二匹配度计算模块,用于根据企业选址意愿词库以及与该企业选址意愿词库的语义关系从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
文本分类模块,用于对筛选出的有选址意愿的新闻文章进行行业分类;
实体识别模块,用于对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
需要说明的是,企业选址意愿识别系统中,各个功能模块的功能和作用的实现过程具体详见上述实施例1中方法中对应步骤的实现过程,在此不再赘述。
实施例4
本实施例4述及了一种计算机设备,该计算机设备用于实现上述实施例1或实施例2中述及的企业选址意愿识别方法的步骤。
该计算机设备包括存储器和一个或多个处理器。在存储器中存储有可执行代码,当处理器执行可执行代码时,用于实现上述企业选址意愿识别方法。
本实施例中计算机设备为任意具备数据数据处理能力的设备或装置,此处不再赘述。
实施例5
本实施例5述及了一种计算机可读存储介质,该计算机可读存储介质用于实现上述实施例1或实施例2中述及的企业选址意愿识别方法的步骤。
本实施例5中的计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述企业选址意愿识别方法。
该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元,例如硬盘或内存,也可以是任意具备数据处理能力的设备的外部存储设备,例如设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。

Claims (8)

1.一种企业选址意愿识别方法,其特征在于,包括如下步骤:
步骤1.根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;根据输入的词语与新闻文章进行匹配度计算的过程如下:
步骤1.1.首先根据文本字符串进行匹配,判断输入的词语word是否在新闻文章text中,若在,则该输入的词语与新闻文章的匹配度为1;
若输入的词语word不在新闻文章text中,则转到步骤1.2;
步骤1.2.计算词语word的词向量word_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(word_vector,text_vector);
若sim(word_vector,text_vector)大于或等于threshold_sim,则选择新闻;
其中,threshold_sim为预设的选择新闻的阈值;
步骤2.根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章,过程如下:
步骤2.1.若新闻文章中包含企业选址意愿词库中的至少一个词语,则该新闻被筛选出,并作为有选址意愿的新闻文章;否则,转到步骤2.2;
步骤2.2.计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector,word_pick_list_vector);
若语义相似分sim(text_vector,word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick,则该新闻被筛选,并作为有选址意愿的新闻文章;
步骤3.利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类;
步骤4.利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
2.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤1.2中,语义相似分sim(word_vector,text_vector)的计算过程如下:
定义word_vector=[word_vector(w1),word_vector(w2),…,word_vector(wN)];
其中,word_vector(wj)表示词语word的词向量的第j个维度,N表示向量的维度,j∈[1,N];
定义text_vector=[text_vector(w1),text_vector(w2),…,text_vector(wN)];
其中,text_vector(wj)表示新闻文章text的文本向量text_vector的第j个维度;
text_vector(wj)的计算公式如下:
Figure FDA0004029312360000011
其中,word_i表示新闻文章text中第i个词语的词向量;
word_i=[word_i(w1),word_i(w2),…,word_i(wN)];
其中,word_i(wj)表示新闻文章text中第i个词语的词向量的第j个维度;
L表示新闻文章text中词语的个数,i∈[1,L];
则语义相似分sim(word_vector,text_vector)的计算公式如下:
Figure FDA0004029312360000021
3.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤2.2中,语义相似分sim(text_vector,word_pick_list_vector)的计算过程如下:
首先计算企业选址意愿词库的平均词向量word_pick_list_vector=[word_pick_list_vector(w1),word_pick_list_vector(w2),…,word_pick_list_vector(wN)];
其中,word_pick_list_vector(wj)表示企业选址意愿词库的平均词向量的第j个维度;
N表示向量的维度,j∈[1,N];
word_pick_list_vector(wj)的计算公式如下:
Figure FDA0004029312360000022
其中,word_pick_vector_q表示企业选址意愿词库中第q个词语的词向量;
word_pick_vector_q=[word_pick_vector_q(w1),word_pick_vector_q(w2),…,word_pick_vector_q(wN)],word_pick_vector_q(wj)表示企业选址意愿词库中第q个词语的词向量的第j个维度;
Q表示企业选址意愿词库个数,q∈[1,Q];
text_vector=[text_vector(w1),text_vector(w2),…,text_vector(wN)];
其中,text_vector(wj)表示新闻文章text的文本向量text_vector的第j个维度;
text_vector(wj)的计算公式如下:
Figure FDA0004029312360000023
其中,word_i表示新闻文章text中第i个词语的词向量;
word_i=[word_i(w1),word_i(w2),…,word_i(wN)];
其中,word_i(wj)表示新闻文章text中第i个词语的词向量的第j个维度;
L表示新闻文章text中词语的个数,i∈[1,L];
则语义相似分sim(text_vector,word_pick_list_vector)的计算公式如下:
Figure FDA0004029312360000031
4.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤1中,还进一步包括根据匹配度值对筛选出的新闻文章进行排序的步骤。
5.根据权利要求1所述的企业选址意愿识别方法,其特征在于,
所述步骤4之后还包括:
步骤5.根据步骤4,列出有选址意愿的企业名称列表;
步骤6.根据步骤3和步骤4,列出有选址意愿的企业所关联的新闻文章。
6.一种企业选址意愿识别系统,其特征在于,包括:
第一匹配度计算模块,用于根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;根据输入的词语与新闻文章进行匹配度计算的过程如下:
首先根据文本字符串进行匹配,判断输入的词语word是否在新闻文章text中,若在,则该输入的词语与新闻文章的匹配度为1;
若输入的词语word不在新闻文章text中,则进行如下处理:
计算词语word的词向量word_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(word_vector,text_vector);
若sim(word_vector,text_vector)大于或等于threshold_sim,则选择新闻;
其中,threshold_sim为预设的选择新闻的阈值;
第二匹配度计算模块,用于根据企业选址意愿词库以及与该企业选址意愿词库的语义关系从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;
筛选有选址意愿的新闻文章的过程如下:
若新闻文章中包含企业选址意愿词库中的至少一个词语,则该新闻被筛选出,并作为有选址意愿的新闻文章;否则,进行如下处理:
计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector,word_pick_list_vector);
若语义相似分sim(text_vector,word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick,则该新闻被筛选,并作为有选址意愿的新闻文章;
文本分类模块,用于对筛选出的有选址意愿的新闻文章进行行业分类;
实体识别模块,用于对筛选出的有选址意愿的新闻文章进行企业名称挖掘。
7.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1至5任一项所述的企业选址意愿识别方法。
8.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1至5任一项所述的企业选址意愿识别方法。
CN202211404794.9A 2022-11-10 2022-11-10 企业选址意愿识别方法、系统、计算机设备以及存储介质 Active CN115496062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211404794.9A CN115496062B (zh) 2022-11-10 2022-11-10 企业选址意愿识别方法、系统、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211404794.9A CN115496062B (zh) 2022-11-10 2022-11-10 企业选址意愿识别方法、系统、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN115496062A CN115496062A (zh) 2022-12-20
CN115496062B true CN115496062B (zh) 2023-02-28

Family

ID=85115603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211404794.9A Active CN115496062B (zh) 2022-11-10 2022-11-10 企业选址意愿识别方法、系统、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115496062B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918501A (zh) * 2019-01-18 2019-06-21 平安科技(深圳)有限公司 新闻文章分类的方法、装置、设备及存储介质
CN110597981A (zh) * 2019-09-16 2019-12-20 西华大学 一种采用多策略自动生成摘要的网络新闻概要系统
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
WO2021246812A1 (ko) * 2020-06-04 2021-12-09 주식회사 웨이커 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
CN115017303A (zh) * 2022-03-31 2022-09-06 胜斗士(上海)科技技术发展有限公司 基于新闻文本进行企业风险评估的方法、计算设备和介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11061946B2 (en) * 2015-05-08 2021-07-13 Refinitiv Us Organization Llc Systems and methods for cross-media event detection and coreferencing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918501A (zh) * 2019-01-18 2019-06-21 平安科技(深圳)有限公司 新闻文章分类的方法、装置、设备及存储介质
CN110597981A (zh) * 2019-09-16 2019-12-20 西华大学 一种采用多策略自动生成摘要的网络新闻概要系统
WO2021246812A1 (ko) * 2020-06-04 2021-12-09 주식회사 웨이커 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN115017303A (zh) * 2022-03-31 2022-09-06 胜斗士(上海)科技技术发展有限公司 基于新闻文本进行企业风险评估的方法、计算设备和介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Shohe Ito ; Takuya Yoshida ; Fumiko Harada ; Hiromitsu Shimakawa.Specific Touch Gesture on Mobile Devices to Find Attractive Phrases in News Browsing.《2014 IEEE 38th Annual Computer Software and Applications Conference》.2014,第519-528页. *
基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究;刘奇飞等;《情报探索》;20180615(第06期);全文 *
新闻事件地名实体识别和地图链接技术研究;李玉超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715;第I138-1390页 *

Also Published As

Publication number Publication date
CN115496062A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
US11593671B2 (en) Systems and methods for semantic analysis based on knowledge graph
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
WO2021051517A1 (zh) 基于卷积神经网络的信息检索方法、及其相关设备
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
Curtotti et al. Corpus based classification of text in Australian contracts
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111782793A (zh) 智能客服处理方法和系统及设备
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
Hossari et al. TEST: A terminology extraction system for technology related terms
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN115496062B (zh) 企业选址意愿识别方法、系统、计算机设备以及存储介质
CN111783424A (zh) 一种文本分句方法和装置
CN111126073A (zh) 语义检索方法和装置
CN113177121A (zh) 文本主题分类方法、装置、电子设备以及存储介质
CN114443842A (zh) 战略性新兴产业分类方法及装置、存储介质和电子设备
CN112133308A (zh) 一种用于语音识别文本多标签分类的方法和装置
CN113900995A (zh) 一种税务智能搜索文件的方法
Zhang et al. Opinion analysis of product reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310051 floor 7, block B, No. 482 Qianmo Road, Binjiang District, Hangzhou, Zhejiang

Patentee after: Huoshi Creation Technology Co.,Ltd.

Address before: 310051 floor 7, block B, No. 482 Qianmo Road, Binjiang District, Hangzhou, Zhejiang

Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd.