CN112434158A - 一种企业标签的获取方法、获取装置、存储介质和计算机设备 - Google Patents
一种企业标签的获取方法、获取装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN112434158A CN112434158A CN202011264990.1A CN202011264990A CN112434158A CN 112434158 A CN112434158 A CN 112434158A CN 202011264990 A CN202011264990 A CN 202011264990A CN 112434158 A CN112434158 A CN 112434158A
- Authority
- CN
- China
- Prior art keywords
- text
- candidate
- candidate keyword
- enterprise
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000005457 optimization Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 9
- 238000001816 cooling Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了一种企业标签的获取方法、获取装置、存储介质和计算机设备,所述企业标签的获取方法不仅基于用于描述企业的企业基本信息文本、企业投融资文本以及企业商业模式文本等待提取文本进行关键词提取,而且,还根据候选关键词的位置、词性、重复次数、独立表意能力和热度等对候选关键词进行了筛选,可以将投资人更为关注的候选关键词作为企业标签,使得投资人通过所述企业标签可以快速查找到目标企业。
Description
技术领域
本发明涉及金融行业企业分类技术领域,尤其涉及一种企业标签的获取方法、获取装置、存储介质和计算机设备。
背景技术
随着科学技术的进步和经济的飞速发展,一些企业为了扩大发展范围,需要引进投资人对其进行投资,对于投资人而言,选择企业时往往需要从海量的数据中获取感兴趣的内容,大大降低了投资人查找投资企业的效率。
发明内容
本发明所解决的技术问题是提供一种企业标签的获取方法、获取装置、存储介质和计算机设备,投资人利用对企业标签进行企业查找,提高了企业查找的效率。
本发明所采用的技术方案内容具体如下:
一种企业标签的获取方法,包括如下步骤:
获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;
获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;
获取每个所述候选关键词的热度值;
根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;
将权重优化值超过预设阈值的候选关键词确定为企业标签。
作为上述方案的优选,获取每个所述候选关键词的初始权重:
根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数ri1,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,ri1=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,ri1=1;
根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数ri3,且当所述候选关键词可以独立表意时,ri3=1;当所述候选关键词不能独立表意时,ri3=0;
根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数ri4,且当所述候选关键词为动词、形容词、数量词和代词时,ri4=0;当所述候选关键词为名词时,ri4=1;
作为上述方案的优选,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:
根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(ri1,ri2,ri3,ri4),其中:ri1,ri2,ri3,ri4分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;
根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(rj1,rj2,rj3,rj4),其中:rj1,rj2,rj3,rj4分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词;
作为上述方案的优选,获取每个所述候选关键词的热度值包括如下步骤:
将候选关键词作为统计项目统计候选关键词的词汇热度;
将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;
将所述词汇热度和所述集合热度相加,得到候选关键词的检索热度。
作为上述方案的优选,所述词汇热度和所述集合热度的统计方法相同,且该统计方法为:
设定统计起始时间,将统计起始时间与所述整体热度或所述词汇热度或所述集合热度的计算时间之间的时长划分为若干个时间段;
按照距离当前时间越远对热度值贡献程度越低的方式对所述整体热度或所述词汇热度或所述集合热度进行加权处理,即:其中:λj为第j个时间段对应的权重值,且越靠近热度值计算的时间段,其对应的权重值越大;βij为在第j个时间段内所述整体热度或所述词汇热度或所述集合热度的统计项目被采集到的次数。
作为上述方案的优选,根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值的计算公式为:
本发明还公开了一种企业标签的获取装置,包括第一获取模块、第二获取模块、第三获取模块、第四获取模块、计算模块和确定模块,其中:所述第一获取模块获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;所述第二获取模块对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;所述第三获取模块获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;所述第四获取模块获取每个所述候选关键词的热度值;所述计算模块根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;所述确定模块将权重优化值超过预设阈值的候选关键词确定为企业标签。
本发明还公开了一种计算机设备,包括存储器以及与所述存储器相连接的处理器,所述存储器存储计算机程序,所述计算机程序被所述处理器执行时实现实现所述的企业标签的获取方法的步骤。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的企业标签的获取方法的步骤。
与现有技术相比,本发明的有益效果在于:
本发明公开的企业标签的获取方法,其不仅基于用于描述企业的企业基本信息文本、企业投融资文本以及企业商业模式文本等待提取文本进行关键词提取,而且,还根据候选关键词的位置、词性、重复次数、独立表意能力和热度等对候选关键词进行了筛选,可以将投资人更为关注的候选关键词作为企业标签,使得投资人通过所述企业标签可以快速查找到目标企业。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为较优选实施例的企业标签的获取方法的应用环境图;
图2为较优选实施例的企业标签的获取方法的流程示意图;
图3为较优选实施例的企业标签的获取装置的结构框图;
图4为图3中第二获取模块的结构框图;
图5为图3中第三获取模块的结构框图;
图6为图3中第四获取模块的结构框图;
图7为较优选实施例的计算机设备的结构框图;
其中,各附图标记为:
1、终端;2、服务器;3、第一获取模块;4、第二获取模块;5、第三获取模块;6、第四获取模块;7、计算模块;8、确定模块;9、第一获取单元;10、第二获取单元;11、第三获取单元;12、第四获取单元;13、第一计算单元;14、第一构建单元;15、第二构建单元;16、第二计算单元;17、第一统计单元;18、第二统计单元;19、第三计算单元。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下:
实施例一
如图1所示是本发明的企业标签的获取方法的应用环境图,企业标签的获取方法应用于企业标签的获取系统,该企业标签的获取系统包括终端1和服务器2,所述终端1和所述服务器2通过网络连接,所述终端1具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑、便携式可穿戴设备等中的至少一种,所述服务器2可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,本发明提供了一种企业标签的获取方法,以该方法应用于图1中的服务器2为例进行说明,包括如下步骤:
获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重,由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;
获取每个所述候选关键词的热度值;
根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;
将权重优化值超过预设阈值的候选关键词确定为企业标签。
本发明公开的企业标签的获取方法,其不仅基于用于描述企业的企业基本信息文本、企业投融资文本以及企业商业模式文本等待提取文本进行关键词提取,而且,还根据候选关键词的位置、词性、重复次数、独立表意能力和热度等对候选关键词进行了筛选,可以将投资人更为关注的候选关键词作为企业标签,使得投资人通过所述企业标签可以快速查找到目标企业。
作为上述方案的优选,获取每个所述候选关键词的初始权重:
根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数ri1,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,ri1=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,ri1=1。
根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数ri3,且当所述候选关键词可以独立表意时,ri3=1;当所述候选关键词不能独立表意时,ri3=0。
根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数ri4,且当所述候选关键词为动词、形容词、数量词和代词时,ri4=0;当所述候选关键词为名词时,ri4=1。
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
作为上述方案的优选,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:
根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(ri1,ri2,ri3,ri4),其中:ri1,ri2,ri3,ri4分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数。
根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(rj1,rj2,rj3,rj4),其中:rj1,rj2,rj3,rj4分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同。
作为上述方案的优选,获取每个所述候选关键词的热度值包括如下步骤:
将候选关键词作为统计项目统计候选关键词的词汇热度,其可以反映出投资人对每个候选关键词的关注热度,使得投资人关注热度比较高的候选关键词能够得到累计统计。
将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度,其可以反映出投资人对多个候选关键词同时关注时的热度。
将所述词汇热度和所述集合热度相加,得到投资人对候选关键词的检索热度。
将所述词汇热度和所述集合热度相加,得到投资人对候选关键词的检索热度,通过对投资人在搜索引擎查找企业时输入的检索信息进行上述两个维度的统计,增强了统计的完整性,使得投资人输入候选关键词、以及候选关键词的集合都能够得到统计。
应该理解的是,所述候选关键词的热度值应为投资人利用搜索引擎查找企业或投融资项目时输入的词汇。
作为上述方案的优选,所述词汇热度和所述集合热度的统计方法相同,所述词汇热度和所述集合热度进行统计时引入了“时间降温”的概念,即距离当前时间越远则对热度值的贡献越低。因为现有的热点企业很多,热点企业在热点期后随时间推移可能很快地被其他热点企业取代,因此距离当前时间更近的热点企业对于投资人来说更有吸引力,因此,基于这一因素的考虑,该统计方法为:
设定统计起始时间,将统计起始时间与所述整体热度或所述词汇热度或所述集合热度的计算时间之间的时长划分为若干个时间段;
按照距离当前时间越远对热度值贡献程度越低的方式对所述整体热度或所述词汇热度或所述集合热度进行加权处理,即:其中:λj为第j个时间段对应的权重值,且越靠近热度值计算的时间段,其对应的权重值越大;βij为在第j个时间段内所述整体热度或所述词汇热度或所述集合热度的统计项目被采集到的次数。
基于“时间降温”的考虑对所述词汇热度和所述集合热度进行统计时,可以确保热点的候选关键词具有更高的热度值。
另外,λj的取值可以采用不同的取值方法,例如:各个时间段对应的权重值按等差分布的方式取值,则第i个时间段对应的权重值为:或者,各个时间段对应的权重值按比例分布的方式取值,第j个时间段对应的权重值为:或者,λj的取值还可以根据热点企业的更新速率确定。
作为上述方案的优选,根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值的计算公式为:
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
本发明还公开了一种企业标签的获取装置,包括第一获取模块3、第二获取模块4、第三获取模块5、第四获取模块6、计算模块7和确定模块8,其中:所述第一获取模块3获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;所述第二获取模块4对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;所述第三获取模块5获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;所述第四获取模块6获取每个所述候选关键词的热度值;所述计算模块7根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;所述确定模块8将权重优化值超过预设阈值的候选关键词确定为企业标签。
由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
作为进一步优选的方案,如图4所示,所述第二获取模块4包括第一获取单元9、第二获取单元10、第三获取单元11、第四获取单元12和第一计算单元13,其中:
所述第一获取单元9根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数ri1,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,ri1=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,ri1=1;
所述第三获取单元11根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数ri3,且当所述候选关键词可以独立表意时,ri3=1;当所述候选关键词不能独立表意时,ri3=0;
所述第四获取单元12根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数ri4,且当所述候选关键词为动词、形容词、数量词和代词时,ri4=0;当所述候选关键词为名词时,ri4=1;
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
作为进一步优选的方案,如图5所示,所述第三获取模块5包括第一构建单元14、第二构建单元15和第二计算单元16,其中:
所述第一构建单元14根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(ri1,ri2,ri3,ri4),其中:ri1,ri2,ri3,ri4分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;
所述第二构建单元15根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(rj1,rj2,rj3,rj4),其中:rj1,rj2,rj3,rj4分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同;
作为进一步优选的方案,如图6所示,所述第四获取模块6包括第一统计单元17、第二统计单元18和第三计算单元19,其中:
所述第一统计单元17将候选关键词作为统计项目统计候选关键词的词汇热度;
所述第二统计单元18将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;
所述第三计算单元19将所述词汇热度和所述集合热度相加,得到投资人对企业的检索热度。
需要说明的是,在本实施例中,所述词汇热度和所述集合热度的统计方法与实施例一相同。
作为进一步优选的方案,所述计算模块7根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值,且计算公式为:
需要说明的是,所述企业标签的获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例三
本发明还公开了一种计算机设备,所述计算机设备可以为服务器,如图7所示,所述计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储操作行为数据、商品信息数据等等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现所述企业标签的获取方法的步骤。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其他实施例中,提供了一种计算机设备,包括存储器以及与所述存储器相连接的处理器,所述存储器存储计算机程序,所述计算机程序被所述处理器执行时实现实现所述的企业标签的获取方法的步骤,具体包括如下步骤:获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;获取每个所述候选关键词的热度值;根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;将权重优化值超过预设阈值的候选关键词确定为企业标签。
由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
在其他一些实施例中,处理器执行计算机程序时实现获取每个所述候选关键词的初始权重的步骤时,具体包括如下步骤:(1)根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数ri1,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,ri1=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,ri1=1;(2)根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数ri2,且 其中:ai为第i个候选关键词的重复次数,n为所述候选关键词的个数;(3)根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数ri3,且当所述候选关键词可以独立表意时,ri3=1;当所述候选关键词不能独立表意时,ri3=0;(4)根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数ri4,且当所述候选关键词为动词、形容词、数量词和代词时,ri4=0;当所述候选关键词为名词时,ri4=1;(5)根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ωi0,则其中:n为所述候选关键词的个数。
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
在其他一些实施例中,处理器执行计算机程序时实现获取每个所述候选关键词和其他文本类型的候选关键词的相似度值的步骤时,具体包括如下步骤:(1)根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(ri1,ri2,ri3,ri4),其中:ri1,ri2,ri3,ri4分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;(2)根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(rj1,rj2,rj3,rj4),其中:rj1,rj2,rj3,rj4分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同;(3)利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
在其他一些实施例中,处理器执行计算机程序时实现获取每个所述候选关键词的热度值的步骤时,具体包括如下步骤:获取投资人检索企业时输入的检索信息;利用分词技术对检索信息进行分词处理以获取候选关键词,并将候选关键词作为统计项目统计候选关键词的词汇热度;将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;将所述整体热度、所述词汇热度和所述集合热度相加,得到投资人对企业的检索热度。
需要说明的是,在本实施例中,所述整体热度、所述词汇热度和所述集合热度的统计方法与实施例一相同。所述整体热度主要用于体现投资人对完整检索信息的关注程度。
实施例四
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;获取每个所述候选关键词的热度值;根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;将权重优化值超过预设阈值的候选关键词确定为企业标签。
由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
在其他一些实施例中,所述计算机程序被处理器执行时实现获取每个所述候选关键词的初始权重的步骤时,具体包括如下步骤:(1)根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数ri1,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,ri1=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,ri1=1;(2)根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数ri2,且其中:ai为第i个候选关键词的重复次数,n为所述候选关键词的个数;(3)根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数ri3,且当所述候选关键词可以独立表意时,ri3=1;当所述候选关键词不能独立表意时,ri3=0;(4)根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数ri4,且当所述候选关键词为动词、形容词、数量词和代词时,ri4=0;当所述候选关键词为名词时,ri4=1;(5)根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ωi0,则其中:n为所述候选关键词的个数。
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
在其他一些实施例中,所述计算机程序被处理器执行时实现获取每个所述候选关键词和其他文本类型的候选关键词的相似度值的步骤时,具体包括如下步骤:(1)根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(ri1,ri2,ri3,ri4),其中:ri1,ri2,ri3,ri4分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;(2)根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(rj1,rj2,rj3,rj4),其中:rj1,rj2,rj3,rj4分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同;(3)利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
在其他一些实施例中,所述计算机程序被处理器执行时实现获取每个所述候选关键词的热度值的步骤时,具体包括如下步骤:获取投资人检索企业时输入的检索信息;利用分词技术对检索信息进行分词处理以获取候选关键词,并将候选关键词作为统计项目统计候选关键词的词汇热度;将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;将所述整体热度、所述词汇热度和所述集合热度相加,得到投资人对企业的检索热度。
需要说明的是,在本实施例中,所述整体热度、所述词汇热度和所述集合热度的统计方法与实施例一相同。所述整体热度主要用于体现投资人对完整检索信息的关注程度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性存储器和/或易失性存储器,其中:(1)非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存;(2)易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (9)
1.一种企业标签的获取方法,其特征在于,包括如下步骤:
获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;
获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;
获取每个所述候选关键词的热度值;
根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;
将权重优化值超过预设阈值的候选关键词确定为企业标签。
2.根据权利要求1所述的企业标签的获取方法,其特征在于,获取每个所述候选关键词的初始权重:
根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数ri1,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,ri1=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,ri1=1;
根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数ri3,且当所述候选关键词可以独立表意时,ri3=1;当所述候选关键词不能独立表意时,ri3=0;
根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数ri4,且当所述候选关键词为动词、形容词、数量词和代词时,ri4=0;当所述候选关键词为名词时,ri4=1;
3.根据权利要求2所述的企业标签的获取方法,其特征在于,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:
根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(ri1,ri2,ri3,ri4),其中:ri1,ri2,ri3,ri4分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;
根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(rj1,rj2,rj3,rj4),其中:rj1,rj2,rj3,rj4分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词;
4.根据权利要求3所述的企业标签的获取方法,其特征在于,获取每个所述候选关键词的热度值包括如下步骤:
将候选关键词作为统计项目统计候选关键词的词汇热度;
将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;
将所述词汇热度和所述集合热度相加,得到候选关键词的检索热度。
7.一种企业标签的获取装置,其特征在于,包括第一获取模块、第二获取模块、第三获取模块、第四获取模块、计算模块和确定模块,其中:所述第一获取模块获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;所述第二获取模块对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;所述第三获取模块获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;所述第四获取模块获取每个所述候选关键词的热度值;所述计算模块根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;所述确定模块将权重优化值超过预设阈值的候选关键词确定为企业标签。
8.一种计算机设备,其特征在于:包括存储器以及与所述存储器相连接的处理器,所述存储器存储计算机程序,所述计算机程序被所述处理器执行时实现实现权利要求1-6任何一项所述的企业标签的获取方法的步骤。
9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任何一项所述的企业标签的获取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264990.1A CN112434158A (zh) | 2020-11-13 | 2020-11-13 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264990.1A CN112434158A (zh) | 2020-11-13 | 2020-11-13 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434158A true CN112434158A (zh) | 2021-03-02 |
Family
ID=74699951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011264990.1A Pending CN112434158A (zh) | 2020-11-13 | 2020-11-13 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434158A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282763A (zh) * | 2021-06-28 | 2021-08-20 | 深圳平安智汇企业信息管理有限公司 | 文本关键信息提取、装置、设备及存储介质 |
CN116069938A (zh) * | 2023-04-06 | 2023-05-05 | 中电科大数据研究院有限公司 | 一种文本关联性分析方法 |
CN116226213A (zh) * | 2023-02-22 | 2023-06-06 | 广州集联信息技术有限公司 | 一种基于大数据的信息推荐系统及方法 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608166A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种标签提取方法及装置 |
KR101662450B1 (ko) * | 2015-05-29 | 2016-10-05 | 포항공과대학교 산학협력단 | 다중 소스 하이브리드 질의응답 방법 및 시스템 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN107861948A (zh) * | 2017-11-16 | 2018-03-30 | 百度在线网络技术(北京)有限公司 | 一种标签提取方法、装置、设备和介质 |
CN108509569A (zh) * | 2018-03-26 | 2018-09-07 | 河北省科学院应用数学研究所 | 企业画像的生成方法、装置、电子设备以及存储介质 |
CN108874992A (zh) * | 2018-06-12 | 2018-11-23 | 深圳华讯网络科技有限公司 | 舆情分析方法、系统、计算机设备和存储介质 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
JP2019008476A (ja) * | 2017-06-22 | 2019-01-17 | 富士通株式会社 | 生成プログラム、生成装置及び生成方法 |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN109726905A (zh) * | 2018-12-20 | 2019-05-07 | 北交金科金融信息服务有限公司 | 一种企业价值画像评价的方法和系统 |
CN109961091A (zh) * | 2019-03-01 | 2019-07-02 | 杭州叙简科技股份有限公司 | 一种自学习的事故文字标签与摘要生成系统及其方法 |
CN109992646A (zh) * | 2019-03-29 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 文本标签的提取方法和装置 |
CN110147482A (zh) * | 2017-09-11 | 2019-08-20 | 百度在线网络技术(北京)有限公司 | 用于获取突发热点主题的方法和装置 |
CN110442704A (zh) * | 2019-08-13 | 2019-11-12 | 重庆誉存大数据科技有限公司 | 一种企业新闻筛选方法及系统 |
CN110674319A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 标签确定方法、装置、计算机设备及存储介质 |
US20200081977A1 (en) * | 2017-10-20 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN111353014A (zh) * | 2018-12-20 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 职位关键词提取、岗位需求更新的方法和装置 |
CN111611340A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 信息抽取方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-13 CN CN202011264990.1A patent/CN112434158A/zh active Pending
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
KR101662450B1 (ko) * | 2015-05-29 | 2016-10-05 | 포항공과대학교 산학협력단 | 다중 소스 하이브리드 질의응답 방법 및 시스템 |
CN105608166A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种标签提取方法及装置 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
JP2019008476A (ja) * | 2017-06-22 | 2019-01-17 | 富士通株式会社 | 生成プログラム、生成装置及び生成方法 |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN110147482A (zh) * | 2017-09-11 | 2019-08-20 | 百度在线网络技术(北京)有限公司 | 用于获取突发热点主题的方法和装置 |
US20200081977A1 (en) * | 2017-10-20 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN107861948A (zh) * | 2017-11-16 | 2018-03-30 | 百度在线网络技术(北京)有限公司 | 一种标签提取方法、装置、设备和介质 |
CN108509569A (zh) * | 2018-03-26 | 2018-09-07 | 河北省科学院应用数学研究所 | 企业画像的生成方法、装置、电子设备以及存储介质 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN108874992A (zh) * | 2018-06-12 | 2018-11-23 | 深圳华讯网络科技有限公司 | 舆情分析方法、系统、计算机设备和存储介质 |
CN109726905A (zh) * | 2018-12-20 | 2019-05-07 | 北交金科金融信息服务有限公司 | 一种企业价值画像评价的方法和系统 |
CN111353014A (zh) * | 2018-12-20 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 职位关键词提取、岗位需求更新的方法和装置 |
CN111611340A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 信息抽取方法、装置、计算机设备和存储介质 |
CN109961091A (zh) * | 2019-03-01 | 2019-07-02 | 杭州叙简科技股份有限公司 | 一种自学习的事故文字标签与摘要生成系统及其方法 |
CN109992646A (zh) * | 2019-03-29 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 文本标签的提取方法和装置 |
CN110442704A (zh) * | 2019-08-13 | 2019-11-12 | 重庆誉存大数据科技有限公司 | 一种企业新闻筛选方法及系统 |
CN110674319A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 标签确定方法、装置、计算机设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282763A (zh) * | 2021-06-28 | 2021-08-20 | 深圳平安智汇企业信息管理有限公司 | 文本关键信息提取、装置、设备及存储介质 |
CN116226213A (zh) * | 2023-02-22 | 2023-06-06 | 广州集联信息技术有限公司 | 一种基于大数据的信息推荐系统及方法 |
CN116226213B (zh) * | 2023-02-22 | 2023-11-10 | 广州集联信息技术有限公司 | 一种基于大数据的信息推荐系统及方法 |
CN116069938A (zh) * | 2023-04-06 | 2023-05-05 | 中电科大数据研究院有限公司 | 一种文本关联性分析方法 |
CN116069938B (zh) * | 2023-04-06 | 2023-06-20 | 中电科大数据研究院有限公司 | 一种文本关联性分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434158A (zh) | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 | |
WO2020019565A1 (zh) | 搜索排序方法、装置、电子设备和存储介质 | |
CN109062994A (zh) | 推荐方法、装置、计算机设备和存储介质 | |
CN108038096A (zh) | 知识库文档快速检索方法、应用服务器计算机可读存储介质 | |
CN109063108B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN108520041B (zh) | 文本的行业分类方法、系统、计算机设备和存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN110377725B (zh) | 数据生成方法、装置、计算机设备及存储介质 | |
CN112732883A (zh) | 基于知识图谱的模糊匹配方法、装置和计算机设备 | |
CN112434216B (zh) | 一种投资项目的智能推介方法、装置、存储介质和计算机设备 | |
CN108509424A (zh) | 制度信息处理方法、装置、计算机设备和存储介质 | |
CN112560444A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN112380344B (zh) | 文本分类的方法、话题生成的方法、装置、设备及介质 | |
CN113407785A (zh) | 一种基于分布式储存系统的数据处理方法和系统 | |
CN111651670A (zh) | 基于用户行为图谱的内容检索方法、装置终端和存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN112559895B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN112685639A (zh) | 活动推荐方法、装置、计算机设备和存储介质 | |
CN112732927A (zh) | 基于知识图谱的内容相似性分析方法和装置 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
US11709798B2 (en) | Hash suppression | |
CN113792131B (zh) | 一种关键词的提取方法、装置、电子设备及存储介质 | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN115422429A (zh) | 关联词的确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231024 Address after: 5th Floor, Block B, Building 1, No. 151 Huizhiqiao Road, High tech Zone, Qingdao, Shandong Province Applicant after: Haichuanghui Technology Entrepreneurship Development Co.,Ltd. Address before: 100022 unit 02, 10 / F, building 108, building a 108, building B 108, building 110, building 112, building 116, building 118, building a 118, building B 118 Applicant before: Beijing Chuangye Guangrong Information Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |