发明内容
本发明提供一种投融资信息挖掘方法、装置、电子设备和存储介质,用以解决现有技术中投融资信息的获取受限于企业或者投资机构,获取的投融资信息的并不完整和不可靠的问题。
本发明提供一种投融资信息挖掘方法,包括:
基于待挖掘的目标企业的企业工商数据的变更情况,确定所述目标企业的工商来源融资信息;
基于所述目标企业的融资资讯文本,确定所述目标企业的资讯来源融资信息;
基于所述工商来源融资信息和所述资讯来源融资信息在融资时间和投资机构上的相关性,合并所述工商来源融资信息和所述资讯来源融资信息,得到所述目标企业的企业融资信息。
根据本发明提供一种的投融资信息挖掘方法,所述工商来源融资信息包括若干轮次的工商融资事件信息,所述资讯来源融资信息包括若干轮次的资讯融资事件信息,融资事件信息包括融资时间和投资机构。
根据本发明提供一种的投融资信息挖掘方法,所述基于所述工商来源融资信息和所述资讯来源融资信息在融资时间和投资机构上的相关性,合并所述工商来源融资信息和所述资讯来源融资信息,得到所述目标企业的企业融资信息,包括:
若任一工商融资事件信息和任一资讯融资事件信息的融资时间之差在第一预设时长范围内,则合并所述任一工商融资事件信息和所述任一资讯融资事件信息,得到单一轮次的企业融资事件信息;
若任一工商融资事件信息和任一资讯融资事件信息的融资时间之差在第二预设时长范围内且不在所述第一预设时长范围内,则基于所述任一工商融资事件信息和所述任一资讯融资事件信息的投资机构上的相关性,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息,得到单一轮次的企业融资事件信息或者两个轮次的企业融资事件信息;
所述第一预设时长范围在所述第二预设时长范围内。
根据本发明提供一种的投融资信息挖掘方法,所述基于所述任一工商融资事件信息和所述任一资讯融资事件信息的投资机构上的相关性,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息,包括:
基于所述任一工商融资事件信息和所述任一资讯融资事件信息的投资机构,确定资方数量和共有资方数量,所述资方数量为所述任一工商融资事件信息的投资机构数量和所述任一资讯融资事件信息投资机构数量的最小值;
基于所述资方数量和共有资方数量,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息。
根据本发明提供一种的投融资信息挖掘方法,所述基于所述资方数量和共有资方数量,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息,包括:
若所述资方数量小于等于第一资方规模,且所述共有资方数量大于等于第一共有阈值,则合并所述任一工商融资事件信息和所述任一资讯融资事件信息;
若所述资方数量大于第一资方规模,且所述共有资方数量大于等于第二共有阈值,则合并所述任一工商融资事件信息和所述任一资讯融资事件信息;
否则,独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息;
所述第一共有阈值小于所述第二共有阈值。
根据本发明提供一种的投融资信息挖掘方法,所述企业融资信息包括若干轮次的企业融资事件信息,融资事件信息还包括融资轮次;
所述得到所述目标企业的企业融资信息,之后还包括:
基于融资时间,对企业融资信息中各企业融资事件信息进行排序;
基于融资轮次为字母轮次的企业融资事件信息在所述企业融资信息中的排序,更新所述企业融资信息中其余企业融资事件信息的融资轮次。
根据本发明提供一种的投融资信息挖掘方法,所述基于所述目标企业的融资资讯文本,确定所述目标企业的资讯来源融资信息,包括:
对所述融资资讯文本进行实体识别,得到所述融资资讯文本中包含的融资实体,对所述融资资讯文本进行融资轮次分析,得到所述融资资讯文本的融资轮次;
基于所述融资资讯文本中包含的融资实体和融资轮次,确定所述目标企业的资讯来源融资信息。
本发明还提供一种投融资信息挖掘装置,包括:工商信息挖掘单元,用于基于待挖掘目标企业的企业工商数据的变更情况,确定所述目标企业的工商来源融资信息;
资讯信息挖掘单元,用于基于所述目标企业的融资资讯文本,确定所述目标企业的资讯来源融资信息;
信息融合单元,用于基于所述工商来源融资信息和所述资讯来源融资信息在融资时间和投资机构上的相关性,合并所述工商来源融资信息和所述资讯来源融资信息,得到所述目标企业的企业融资信息。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述投融资信息挖掘方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述投融资信息挖掘方法的步骤。
本发明提供的投融资信息挖掘方法、装置、电子设备和存储介质,,通过企业的变更信息确定企业的工商来源融资信息;通过企业的融资资讯文本确定企业的融资信息;结合融资时间和投资机构对目标企业的工商来源融资信息和资讯来源融资信息进行相关性合并,得到目标企业的企业融资信息,解决了投融资信息的获取受限于企业或者投资机构的问题,提高了投融资信息获取的完整性和可靠性。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施例对本发明进行详细说明。
图1是本发明提供的投融资信息挖掘方法的流程示意图,如图1所示,该方法包括:
步骤110,基于待挖掘的目标企业的企业工商数据的变更情况,确定目标企业的工商来源融资信息。
此处,待挖掘的目标企业即需要进行投融资信息挖掘的企业主体,目标企业可以是一个也可以是多个,在目标企业为多个的情况下,步骤110之前需要对应的获取各个目标企业的企业工商数据。
其中,企业工商数据是企业经营的一种信息,例如企业名称、董事、股东、经营范围等。通常在发生企业融资事件的前后,企业会对其股东或者注册资本等工商数据进行变更,因此可以通过观察目标企业的企业工商数据的变更情况,定位目标企业的融资时间,从而得到目标企业的工商来源融资信息。
此处,企业工商数据的变更具体可以是注册资本变更、投资人变更等,相应地变更情况可以包含上述变更发生前后的具体信息比对、变更发生的时间等。通过变更发送前后的具体信息比对,例如相同投资人注册资本的增加,或者投资人的增加,分析确定此次变更对应融资事件的投资机构,通过变更发生的时间,确定此次变更对应融资事件的融资时间,由此得到包含若干个融资事件的投资机构和融资时间的融资信息,并根据其数据来源记为工商来源融资信息。
步骤120,基于目标企业的融资资讯文本,确定目标企业的资讯来源融资信息。
具体地,融资资讯文本即与目标企业的融资情况相关的资讯文本,融资资讯文本可以是每隔一段时间通过网络爬虫从各大资讯网站上采集得到的,也可以是以目标企业的企业名称作为关键词进行检索得到的。
目标企业的融资资讯文本中,通常包含有目标企业的融资信息,可以通过规则匹配、实体识别等技术手段获取融资资讯文本中包含的融资信息,例如融资事件的投资机构和融资时间等,此处的融资时间可以是融资资讯文本中直接记载的时间,也可以是融资资讯文本本身发布的时间,本发明实施例对此不作具体限定。
通过整合各个融资资讯文本中包含的各个融资事件的投资机构和融资时间,即可得到目标企业的融资信息,并根据其数据来源记为资讯来源融资信息。
需要说明的是,本发明实施例不对步骤110和步骤120的执行顺序作具体限定,步骤110可以在步骤120之前或者之后执行,也可以与步骤120同步执行。
步骤130,基于工商来源融资信息和资讯来源融资信息在融资时间和投资机构上的相关性,合并工商来源融资信息和资讯来源融资信息,得到目标企业的企业融资信息。
具体地,考虑到工商来源融资信息本身具有不受企业是否主动对外披露的限制,相对而言更加全面可靠,但是工商数据变更的发生时间相较于融资事件的发生提前或者延后,导致基于工商数据变更所得的融资时间本身可靠性较差,而相反地,资讯来源融资信息的获取虽然受限于企业是否主动对外披露,但是由于融资资讯文本的发布相对更加及时,由此得到的融资信息中各个融资事件的融资时间也更加可靠,因此本发明实施例中通过合并工商来源融资信息和资讯来源融资信息以获取完整可靠的企业融资信息。
在合并过程中,由于工商来源融资信息和资讯来源融资信息本身的数据来源不同,两者之间存在重合的信息,因此可以通过比较工商来源融资信息和资讯来源融资信息中各个融资事件在融资时间和投资机构两个方面的相关性,判断不同来源的融资事件是否为同一事件,从而确定是保留两个不同来源的融资事件,还是将两个不同来源的融资事件视为同个事件进行合并,进而得到完整且去除冗余重复信息的企业融资信息。
进一步地,融资时间的相关性可以表示为融资时间的差值,差值越小,则相关性越高;投资机构的相关性可以表示为相同投资机构在所有投资机构中的占比,或者相同投资机构的数量等,占比越高,或者数量越大,则相关性越高,两个来源的融资事件越可能是需要合并的同个事件。
本发明实施例提供的投融资信息挖掘方法,通过企业的变更信息确定企业的工商来源融资信息;通过企业的融资资讯文本确定企业的融资信息;结合融资时间和投资机构对目标企业的工商来源融资信息和资讯来源融资信息进行相关性合并,得到目标企业的企业融资信息,解决了投融资信息的获取受限于企业或者投资机构的问题,提高了投融资信息获取的完整性和可靠性。
在上述实施例的基础上,工商来源融资信息包括若干轮次的工商融资事件信息,资讯来源融资信息包括若干轮次的资讯融资事件信息,融资事件信息包括融资时间和投资机构。
具体地,企业的工商来源融资信息是通过企业工商数据的变更情况确定的。企业的工商来源融资信息中包括若干轮次的工商融资事件信息,工商融资事件信息是挖掘来源的企业工商数据的融资事件的相关信息。
企业的资讯来源融资信息是通过企业的融资资讯文本确定的。企业的资讯来源融资信息包括若干轮次的资讯融资事件信息,资讯融资事件信息是挖掘来源的融资资讯文本的融资事件的相关信息。
工商融资事件信息与资讯融资事件信息均表征融资事件的相关信息,具体可以包括融资事件的发生时间,即融资时间,还可以包括融资事件的投资方,即投资机构。此外,还可以包括融资事件的具体金额,即融资金额,或者还可以包括融资事件的具体轮次,即融资轮次。
而两者由于存在来源上的区别,对应地工商融资事件信息的融资时间可以是工商数据变更的时间,资讯融资事件信息的融资时间可以是融资资讯文本发布的时间,或者融资资讯文本中直接记载的时间;工商融资事件信息的投资机构可以是工商数据变更过程中增加的投资人对应的投资机构,资讯融资事件信息的投资机构可以是融资资讯文本中直接记载的机构实体;工商融资事件信息的融资金额可以是工商数据变更过程中增加的注册资本,资讯融资事件信息的融资金额可以是融资资讯文本中直接记载的金额数值;工商融资事件信息的融资轮次可以是根据工商数据变更的先后顺序直接排列的数字轮次,资讯融资事件信息的融资轮次可以是融资资讯文本中直接记载的轮次实体。
例如,通过企业工商数据的变更情况,获取的企业的工商来源融资信息具体可以表示为下表所示的形式:
又例如,通过企业的融资资讯文本,确定企业的资讯来源融资信息具体可以表示为下表所示的形式:
在上述实施例的基础上,步骤130包括:
若任一工商融资事件信息和任一资讯融资事件信息的融资时间之差在第一预设时长范围内,则合并所述任一工商融资事件信息和所述任一资讯融资事件信息,得到单一轮次的企业融资事件信息;
若任一工商融资事件信息和任一资讯融资事件信息的融资时间之差在第二预设时长范围内且不在所述第一预设时长范围内,则基于所述任一工商融资事件信息和所述任一资讯融资事件信息的投资机构上的相关性,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息,得到单一轮次的企业融资事件信息或者两个轮次的企业融资事件信息;
所述第一预设时长范围在所述第二预设时长范围内。
具体地,第一预设时长范围和第二预设时长范围均为预先设定的时长范围,用于衡量工商融资事件信息和资讯融资事件信息在融资时间上的相关性。
其中,第二预设时长范围较第一预设时间范围更大,第二预设时长范围划定了工商融资事件信息和资讯融资事件信息表征同一事件的融资时间之差的最大范围,第一预设时间范围则划定了工商融资事件信息和资讯融资事件信息表征同一事件时的融资时间之差大概率落入的范围。
在衡量工商融资事件信息和资讯融资事件信息是否表征同一事件时,可以首先衡量两者在融资时间上的相关性,假设融资时间之差在第一预设时间范围内,则可以确定此两者表征同一事件,直接将工商融资事件信息和资讯融资事件信息合并为单一轮次的企业融资事件信息。
假设融资时间之差不在第一预设时间范围内,则进一步判断融资时间之差是否在第二预设时间范围内:
假设融资时间之差不在第一预设时间范围内但在第二预设时间范围内,则可以进一步通过对两者在投资机构的相关性上作判断,如果相关则确定两者表征同一事件,将工商融资事件信息和资讯融资事件信息合并为单一轮次的企业融资事件信息;如果不相关,则确定此两者表征两个相互独立的融资事件,可以作为两个轮次的企业融资事件信息独立存储。
进一步地,在完成每两个工商融资事件信息和资讯融资事件信息的合并判断以后,可以将各个单一轮次的企业融资事件信息与新的工商融资信息和新的资讯融资事件信息在融资时间和投资机构上的相关性再次进行判断;如果相关,则将获得的单一轮次的企业融资事件信息与新的工商融资事件信息和新的资讯融资事件信息合并为新的单一轮次的企业融资事件信息;如果不相关,则将获得的单一轮次的企业融资事件信息与新的工商融资事件信息和新的资讯融资事件信息单独存储,从而使得最终得到的企业融资事件信息中不存在重复冗余的事件信息。进一步地,第一预设时长范围可以是一天内、两天内,也可以是其余时长范围,第二预设时长范围可以是两个月内,也可以是半年内或者是一区时长范围,本发明实施例对此不作具体限定。需要说明的是,第一预设时长范围和第二预设时长范围的确定可以是在收集大量同一融资事件变更工商数据的时间和发布资讯的时间的基础上,进行统计得到的。
例如,第一预设时长范围为一天内,当任一工商融资事件信息和任一资讯融资事件信息的融资时间为同一天时,可以合并该工商融资事件信息和该资讯融资事件信息,得到单一轮次的企业融资事件信息。
又例如,第二预设时长范围为六个月,当任一工商融资事件信息和任一资讯融资事件信息的融资时间不在同一天内,且融资时间之差在六个月内时,可以将资讯融资事件信息中的融资时间作为企业融资事件信息中的融资时间,合并该工商融资事件信息和该资讯融资事件信息,得到单一轮次的企业融资事件信息。
在上述实施例的基础上,步骤130中,基于任一工商融资事件信息和任一资讯融资事件信息的投资机构上的相关性,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息,包括:
基于任一工商融资事件信息和任一资讯融资事件信息的投资机构,确定资方数量和共有资方数量,资方数量为所述任一工商融资事件信息的投资机构数量和任一资讯融资事件信息投资机构数量的最小值;
基于资方数量和共有资方数量,合并或者独立存储任一工商融资事件信息和任一资讯融资事件信息。
具体地,在基于投资机构上的相关性衡量工商融资事件信息和资讯融资事件信息是否表征同一事件时,可以参考此两者的资方数量和共有资方数量。其中,可以以任一工商融资事件信息和任一资讯融资事件信息中投资机构数量较少的一方的投资机构数量作为资方数量,将工商融资事件信息和资讯融资事件信息中共有的投资机构的数量作为共有资方数量。
进一步地,在基于资方数量和共有资方数量判断工商融资事件信息和资讯融资事件信息是否表征同一事件时,可以计算共有资方数量在资方数量中的占比,并将占比与预先设定好的占比阈值进行比较,也可以根据资方数量确定对应的共有资方阈值,然后将共有资方数量与共有资方阈值进行比较,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过资方数量和共有资方数量衡量工商融资事件信息和资讯融资事件信息在投资机构上的相关性,从而保证不同来源数据进行合并时的可靠性。
在上述实施例的基础上,步骤130中,基于所述资方数量和共有资方数量,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息,包括:
若资方数量小于等于第一资方规模,且共有资方数量大于等于第一共有阈值,则合并任一工商融资事件信息和任一资讯融资事件信息;
若资方数量大于第一资方规模,且共有资方数量大于等于第二共有阈值,则合并任一工商融资事件信息和任一资讯融资事件信息;
否则,独立存储任一工商融资事件信息和任一资讯融资事件信息;
第一共有阈值小于第二共有阈值。
具体地,第一资方规模、第一共有阈值和第二共有阈值均为预先设定好的,用于衡量工商融资事件和资讯融资事件是否在投资机构方面具有相关性的阈值。
其中,第一共有阈值小于第二共有阈值,第一共有阈值划定了资方数量小于等于第一资方规模时,工商融资事件信息和资讯融资事件信息表征同一事件时的共有资方数量的范围,第二共有阈值划定了资方数量大于第一资方规模时,工商融资事件信息和资讯融资事件信息表征同一事件时的共有资方数量的范围。
可以通过衡量两者在资方数量和共有资方数量上的相关性,确定工商融资事件信息和资讯融资事件信息是否表征同一事件,假设资方数量小于等于第一资方规模,且共有资方数量大于等于第一共有阈值,则可以确定两者表征同一事件,直接将工商融资事件信息和资讯融资事件信息合并为单一轮次的企业融资事件信息。
假设资方数量大于第一资方规模,且共有资方数量大于等于第二共有阈值,则可以确定两者表征同一事件,直接将工商融资事件信息和资讯融资事件信息合并为单一轮次的企业融资事件信息。
假设资方数量小于等于第一资方规模,且共有资方数量小于第一共有阈值,或者资方数量大于第一资方规模,且共有资方数量小于第二共有阈值,此时可以确定此两者表征两个相互独立的融资事件,独立存储该工商融资事件信息和该资讯融资事件信息,得到两个轮次的企业融资事件信息。
进一步地,第一资方规模可以是两家、三家,也可以是其余数量,第一共有阈值可以是一个、两个,也可以是其余个数,第二共有阈值可以是两个、三个,也可以是其余个数,本发明实施例对此不作具体限定,第一共有阈值和第二共有阈值的设定需小于等于资方数量。需要说明的是,第一共有阈值和第二共有阈值的确定可以是在收集大量同一融资事件工商数据变更过程中增加的投资人对应的投资机构和融资资讯文本中记载的投资机构的基础上,进行统计得到的。
例如,第一资方规模为两家,第一共有阈值为一个,当资方数量小于等于两家,且共有资方数量大于等于一个时,可以合并该工商融资事件信息和该资讯融资事件信息,得到单一轮次的企业融资事件信息。
再例如,第一资方规模为两家,第二共有阈值为两个,当资方数量大于两家,且共有资方数量大于等于两个时,可以合并该工商融资事件信息和该资讯融资事件信息,得到单一轮次的企业融资事件信息。
又例如,第一资方规模为两家,第一共有阈值为一个,第二共有阈值为两个,当资方数量小于等于两家,且共有资方数量小于一家,以及资方数量大于两家,且共有资方数量小于两家,则独立存储该工商融资事件信息和该资讯融资事件信息,得到两个轮次的企业融资事件信息。
在上述任一实施例的基础上,企业融资信息包括若干轮次的企业融资事件信息,融资事件信息还包括融资轮次;
步骤130中,所述得到所述目标企业的企业融资信息,之后还包括:
基于融资时间,对企业融资信息中各企业融资事件信息进行排序;
基于融资轮次为字母轮次的企业融资事件信息在所述企业融资信息中的排序,更新所述企业融资信息中其余企业融资事件信息的融资轮次。
具体地,工商融资事件信息的融资轮次可以是根据工商数据变更的先后顺序直接排列的数字轮次,资讯融资事件信息的融资轮次可以是融资资讯文本中直接记载的轮次实体或者在未记载情况下的未披露的形式,在将此两类来源的融资信息合并之后,所得到的各企业融资事件信息的融资轮次可能存在多种形式,例如可以是数字轮次,可以是字母轮次,还可以是未披露的形式。
考虑到融资资讯文本中记载的融资轮次可靠性更优,对应在合并后的企业融资事件信息中,也可以以字母轮次为准,以更新其余形式的融资轮次。
具体在轮次更新时,可以首先按照各企业融资事件信息中融资时间的先后顺序,对各企业融资事件信息进行排序。排序完成后,即可以字母轮次作为基准,更新其前后的其余形式的融资轮次,此处所指的其余形式的融资轮次包括数字轮次以及未披露的情况。
例如,若在A轮之前,可以将A轮之前的两轮数字轮次或者未披露的轮次,分别判断并更改为Pre-A轮和天使轮;若数字轮次或者未披露的轮次在A轮与B轮中间,可以根据数字轮次或者未披露的轮次在A与B之间的位置判断,依次将融资轮次变更为A+轮、A2轮、A3轮等;若数字轮次或者未披露的轮次在媒体披露的字母轮次之后,再无资讯披露的字母轮次,则将后续的数字轮次或者未披露的轮次变更为战略投资。
由此得到完成融资时间排序和融资轮次更新后的企业融资信息如下表所示:
在上述任一实施例的基础上,步骤110包括:
基于所述企业工商数据的注册资本变更情况和投资人变更情况,确定所述目标企业的工商来源融资信息。
具体地,可以通过直接判断或语义分析的方式,得到注册资本变更情况,或者也可以通过比对变更前后金额数据的变化得到注册资本变更情况。此外,可以通过直接判断或变更前后投资机构变化识别得到投资人变更情况。
在此基础上,结合注册资本变更情况及投资人变更情况,与预设的投资机构库进行比较,即可得到对应的投资机构。随后,对变更日期相同的且同时具有注册资本变更及投资人变更的信息集与对应的投资机构进行信息拼接,得到目标企业的工商来源融资信息。
本发明实施例提供的方法,对目标企业变更信息进行处理,得到与企业投融资事件相关的目标企业变更信息,根据目标企业变更信息与预设的投资机构库进行比较得到对应的投资机构,进而确定符合投融资事件的企业变更信息集及对应的目标企业,并基于目标企业的企业变更信息集及其对应的投资机构进行信息拼接,得到目标企业的投融资记录信息,从而可以让用户直观、准确、及时的获取目标企业的融资情况,辅助用户更好地做出判断。
在上述任一实施例的基础上,步骤120包括:
对所述融资资讯文本进行实体识别,得到所述融资资讯文本中包含的融资实体,对所述融资资讯文本进行融资轮次分析,得到所述融资资讯文本的融资轮次;
基于所述融资资讯文本中包含的融资实体和融资轮次,确定所述目标企业的资讯来源融资信息。
具体地,融资信息可以包含融资方、融资金额和融资轮次等。而考虑到不同融资信息在融资资讯文本中存在的方式不同,可以对应采用不同的方式进行融资信息的提取。针对通常在融资资讯文本中以实体形式出现的投融资信息,即融资实体,可以采用实体识别的方式获取融资资讯文本中的融资实体,此处所指的融资实体可以是投资机构和/或融资金额。针对在融资资讯文本中不一定有直接清晰的文本表示,可能需要通过上下文推导得到的投融资信息,例如融资轮次,可以根据融资资讯文本内包含的语义进行识别分析,应用文本生成式算法得到融资轮次。
进一步地,针对融资资讯文本中存在多个融资信息语段,且各个融资信息语段对应的融资实体或者融资轮次存在不同的情况,可以结合各个融资信息语段对应的融资实体或者融资轮次分析融资资讯文本整体的投融资信息,并作为最终挖掘所得的资讯投融资信息。
例如,如果各个融资信息语段对应的融资轮次不相同,可以按照预先设定的融资轮次在时间上的先后顺序,对识别所得的各个融资轮次进行排序,并从中选取在时序上更靠近当前阶段的融资轮次作为融资资讯文本最终确定的融资轮次。此处,将融资轮次在时间进行降序排列可以是“并购”,“增发”,“IPO”,“Pre-IPO”,“R轮”,“I轮”等。
本发明实施例提供的方法,对融资资讯文本进行实体识别和融资轮次分析,得到融资资讯文本中包含的融资实体和融资轮次;针对不同类型的融资信息采取了不同类型的信息挖掘方式,能够有效提高投融资信息获取的准确性和可靠性,同时机器执行可以有效避免人为进行信息挖掘可能存在的操作错误或者主观意识的干扰,保证投融资信息挖掘的实时性和客观性。
在上述任一实施例的基础上,在步骤120之前还包括:
每天定时获取融资资讯文本,获取信息包括但不限于资讯标题、资讯所有语段、资讯发布时间、资讯发布方。
相应地,在执行步骤110之前,可以预先训练得到领域分类模型,领域分类模型的训练步骤可以具体包括:收集大量融资资讯文本,并标注融资资讯文本是否属于目标领域,作为融资资讯文本的领域分类结果。基于融资资讯文本以及融资资讯文本的领域分类结果对初始模型进行训练,从而得到领域分类模型。作为优选,此处的初始模型可以是可用于多语言的mBERT模型。
例如,当应用于医药领域的投融资信息挖掘时,融资资讯文本的领域分类结果可以是“医药”或“非医药”,其中“医药”表示属于医药领域,“非医药”表示属于其他领域。对融资资讯文本的领域分类结果为“医药”的融资资讯文本进行实体识别,得到目标企业的资讯来源融资信息,资讯来源融资信息包括但不限于投资机构、融资轮次、融资金额等信息,得到目标企业的融资信息。
基于上述任一实施例,步骤130中,所述对所述融资资讯文本进行实体识别,之前还包括:
分语段对所述融资资讯文本进行分类,删除与融资信息无关的语段。
具体地,融资资讯文本的正文部分,可以包含多个语段,其中一些语段可能包含了与融资信息相关的内容,而另一些语段则可能并不包含与融资信息相关的内容。考虑到这种情况的存在,为了减少计算量,可以对融资资讯文本中的每个语段分别进行分类判断,分析各个语段中是否包含有与融资信息相关的内容,进而选取出包含有与融资信息相关的内容的融资信息语段,剔除与融资信息无关的融资信息语段。基于由此处理得到的融资资讯文本进行投融资信息挖掘,可以降低投融资信息挖掘的计算量,提高挖掘效率。
下面对本发明提供的一种投融资信息挖掘装置进行描述,下文描述的投融资信息挖掘装置与上文描述的投融资信息挖掘方法可相互对应参照。
图2是本发明提供的投融资信息挖掘装置的结构示意图。如图2所示,该装置包括:
工商信息挖掘单元210,用于基于待挖掘目标企业的企业工商数据的变更情况,确定所述目标企业的工商来源融资信息;
资讯信息挖掘单元220,用于基于所述目标企业的融资资讯文本,确定所述目标企业的资讯来源融资信息;
信息融合单元230,用于基于所述工商来源融资信息和所述资讯来源融资信息在融资时间和投资机构上的相关性,合并所述工商来源融资信息和所述资讯来源融资信息,得到所述目标企业的企业融资信息。
本发明实施例提供的装置,通过企业的变更信息确定企业的工商来源融资信息;通过企业的融资资讯文本确定企业的融资信息;结合融资时间和投资机构对目标企业的工商来源融资信息和资讯来源融资信息进行相关性合并,得到目标企业的企业融资信息,解决了投融资信息的获取受限于企业或者投资机构的问题,提高了投融资信息获取的完整性和可靠性。
在上述任一实施例的基础上,所述工商来源融资信息包括若干轮次的工商融资事件信息,所述资讯来源融资信息包括若干轮次的资讯融资事件信息,融资事件信息包括融资时间和投资机构。
在上述任一实施例的基础上,信息融合单元230用于:
若任一工商融资事件信息和任一资讯融资事件信息的融资时间之差在第一预设时长范围内,则合并所述任一工商融资事件信息和所述任一资讯融资事件信息,得到单一轮次的企业融资事件信息;
若任一工商融资事件信息和任一资讯融资事件信息的融资时间之差在第二预设时长范围内且不在所述第一预设时长范围内,则基于所述任一工商融资事件信息和所述任一资讯融资事件信息的投资机构上的相关性,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息,得到单一轮次的企业融资事件信息或者两个轮次的企业融资事件信息;
所述第一预设时长范围在所述第二预设时长范围内。
在上述任一实施例的基础上,信息融合单元230用于:
基于所述任一工商融资事件信息和所述任一资讯融资事件信息的投资机构,确定资方数量和共有资方数量,所述资方数量为所述任一工商融资事件信息的投资机构数量和所述任一资讯融资事件信息投资机构数量的最小值;
基于所述资方数量和共有资方数量,合并或者独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息。
在上述任一实施例的基础上,信息融合单元230用于:
若所述资方数量小于等于第一资方规模,且所述共有资方数量大于等于第一共有阈值,则合并所述任一工商融资事件信息和所述任一资讯融资事件信息;
若所述资方数量大于第一资方规模,且所述共有资方数量大于等于第二共有阈值,则合并所述任一工商融资事件信息和所述任一资讯融资事件信息;
否则,独立存储所述任一工商融资事件信息和所述任一资讯融资事件信息;
所述第一共有阈值小于所述第二共有阈值。
在上述任一实施例的基础上,所述企业融资信息包括若干轮次的企业融资事件信息,融资事件信息还包括融资轮次;
所述装置还包括轮次更新单元,用于:
基于融资时间,对企业融资信息中各企业融资事件信息进行排序;
基于融资轮次为字母轮次的企业融资事件信息在所述企业融资信息中的排序,更新所述企业融资信息中其余企业融资事件信息的融资轮次。
在上述任一实施例的基础上,资讯信息挖掘单元220用于:
对所述融资资讯文本进行实体识别,得到所述融资资讯文本中包含的融资实体,对所述融资资讯文本进行融资轮次分析,得到所述融资资讯文本的融资轮次;
基于所述融资资讯文本中包含的融资实体和融资轮次,确定所述目标企业的资讯来源融资信息。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种投融资信息挖掘方法,该方法包括:基于待挖掘的目标企业的企业工商数据的变更情况,确定所述目标企业的工商来源融资信息;基于所述目标企业的融资资讯文本,确定所述目标企业的资讯来源融资信息;基于所述工商来源融资信息和所述资讯来源融资信息在融资时间和投资机构上的相关性,合并所述工商来源融资信息和所述资讯来源融资信息,得到所述目标企业的企业融资信息。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种投融资信息挖掘方法,该方法包括:基于待挖掘的目标企业的企业工商数据的变更情况,确定所述目标企业的工商来源融资信息;基于所述目标企业的融资资讯文本,确定所述目标企业的资讯来源融资信息;基于所述工商来源融资信息和所述资讯来源融资信息在融资时间和投资机构上的相关性,合并所述工商来源融资信息和所述资讯来源融资信息,得到所述目标企业的企业融资信息。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种投融资信息挖掘方法,该方法包括:基于待挖掘的目标企业的企业工商数据的变更情况,确定所述目标企业的工商来源融资信息;基于所述目标企业的融资资讯文本,确定所述目标企业的资讯来源融资信息;基于所述工商来源融资信息和所述资讯来源融资信息在融资时间和投资机构上的相关性,合并所述工商来源融资信息和所述资讯来源融资信息,得到所述目标企业的企业融资信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。