CN116541537A - 一种基于知识图谱的企业贸易信息可视化展示方法 - Google Patents

一种基于知识图谱的企业贸易信息可视化展示方法 Download PDF

Info

Publication number
CN116541537A
CN116541537A CN202310662934.0A CN202310662934A CN116541537A CN 116541537 A CN116541537 A CN 116541537A CN 202310662934 A CN202310662934 A CN 202310662934A CN 116541537 A CN116541537 A CN 116541537A
Authority
CN
China
Prior art keywords
intermediate output
knowledge
sample
input data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310662934.0A
Other languages
English (en)
Other versions
CN116541537B (zh
Inventor
钟鸿敏
苏俊铭
崔铁锁
王强
徐�明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Simple Information Technology Guangzhou Co ltd
Original Assignee
Simple Information Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Simple Information Technology Guangzhou Co ltd filed Critical Simple Information Technology Guangzhou Co ltd
Priority to CN202310662934.0A priority Critical patent/CN116541537B/zh
Publication of CN116541537A publication Critical patent/CN116541537A/zh
Application granted granted Critical
Publication of CN116541537B publication Critical patent/CN116541537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本发明公开了一种基于知识图谱的企业贸易信息可视化展示方法,包括以下步骤:获取企业贸易背景文本信息;采用语义识别模型对所述企业贸易背景文本信息进行处理,得到企业贸易背景关键信息并存储至MongoDB数据库;根据企业贸易背景关键信息构建节点和边,将节点和边、关系网络存入图数据库,得到企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱;通过检索任意企业节点,对与该企业节点相关联的关系网络进行可视化展示。本方法与传统技术相比,可以方便的查询该笔交易上游和下游的参与企业和企业间贸易背景关系,减少人工识别附件文本失误和提升审核贸易背景文本信息的效率,方便审核人员快速定位找到有效信息。

Description

一种基于知识图谱的企业贸易信息可视化展示方法
技术领域
本发明涉及金融数据处理技术领域,更具体地,涉及一种基于知识图谱的企业贸易信息可视化展示方法。
背景技术
一般而言,供应链金融平台需要为企业提供电子商业汇票等相关业务功能,在企业与企业、企业与银行机构进行业务交易或业务流转的时候需要用到企业的贸易背景。由于贸易背景在企业业务交易过程中的重要性,因此需要组建一个清晰的企业贸易背景关系链,以防范交易风险。
中国人民银行征信中心动产融资统一登记公示系统,简称中登网,主要提供应收账款质押、应收账款转让、融资租赁等动产担保的登记和查询服务。登记的目的是告知其他主体该动产上已存在担保权的事实。实践中,同一动产上可能存在多个担保权,登记系统通过登记公示可以使当事人便捷地了解动产上的权利负担情况。权利人或其代理人根据法律法规规定或出于保护自身权利的需要,在登记系统记载有关动产和权利担保的信息,并通过登记系统进行公示,登记系统通过互联网提供登记与查询服务。因此,供应链金融平台获取中登网信息后,通过主体名称、登记证明编号等途径在线对所有在公示期限内的登记进行查询,就能得到所需的贸易背景信息数据。
目前市场上常用的供应链金融平台存在以下的问题:1、没有对大量的、公开的企业贸易关系数据充分整合和利用。2、贸易背景数据复杂,一般信息包括发票和合同等文本信息,而核心的关键信息由于涉及内容复杂需要人工处理分类。3、企业间贸易关系网数据量大,常用的关系型数据库查询效率慢。
为此,结合以上需求和现有技术缺陷,本申请提出了一种基于知识图谱的企业贸易信息可视化展示方法。
发明内容
本发明提供了一种基于知识图谱的企业贸易信息可视化展示方法,能高效存储、利用数据的同时实现了数据之间的互联互通,将贯穿上下游链条的交易信息串联起来进行可视化展示,将企业贸易关系数据充分整合和利用,也进一步提升数据查询效率。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于知识图谱的企业贸易信息可视化展示方法,本方法包括以下步骤:
S1、获取企业贸易背景文本信息。
S2、通过语义识别模型对所述企业贸易背景文本信息进行处理,得到企业贸易背景关键信息,将企业贸易背景关键信息存储至MongoDB数据库。
S3、根据企业贸易背景关键信息构建节点和边,根据节点和边的关系构建关系网络,得到企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱,将节点和边及其关系网络存入图数据库。
S4、通过检索任意企业节点,对与该企业节点相关联的关系网络进行可视化展示。
进一步的,步骤S1所述的企业贸易背景文本信息从中登网查询获取,并存储在MySQL数据库中。
进一步的,步骤S2中通过语义识别模型对所述企业贸易背景文本信息进行处理的操作包括识别和预处理,其中,识别具体为利用语义识别模型对所述企业贸易背景文本信息进行识别,将企业贸易背景文本信息转换成字符串信息;利用关键字过滤、清洗和分析操作对字符串信息进行预处理,得到企业贸易背景关键信息并存储入MongoDB数据库,所述企业贸易背景关键信息包括企业信息、贸易财产信息和交易类型,所述语义识别模型为OCR。
进一步的,将所述企业贸易背景关键信息存储入MongoDB数据库,具体过程包括:将企业信息中的企业名称作为MongoDB数据库的集合,将贸易财产信息中与所述企业名称相关的交易信息作为MongoDB数据库的文档,通过定时同步,持续不断采集企业贸易背景文本信息并进行处理,完善MongoDB数据库;其中,与所述企业名称相关的贸易财产信息包括有:主持交易方企业信息、参与交易方企业信息、贸易相关合同信息、发票信息和相关附件,所述交易信息上标注有该笔交易信息是否已在图数据库中生成节点关系的标签。
进一步的,在获取企业贸易背景文本信息后,还包括对MongoDB数据库进行校验,针对获取的企业贸易背景文本信息,具体步骤如下:
S11、根据获取的企业贸易背景文本信息,查询MongoDB数据库中是否存在与所述企业贸易背景文本信息对应的企业信息和交易信息,若是,执行步骤S12;否则,执行步骤S2。
S12、根据每一笔交易信息上标注的标签,判断该笔交易信息是否已在图数据库中生成节点关系,若是,执行步骤S14;否则,执行步骤S13。
S13、根据交易信息生成节点关系,构建节点关系生成语句,存储至MongoDB数据库中,将交易信息的标签从未生成节点关系修改为已生成节点关系,执行节点关系生成语句;其中,执行所述节点关系生成语句则在图数据库中已有的知识图谱上生成新的节点关系。
S14、判断标签上是否带有更新标记,所述更新标记用于表示该节点关系是否需要更新,若是,则更新节点关系,将更新后的节点关系存储至图数据库,并去除更新标记,执行步骤S4。
进一步的,步骤S3的过程具体为:
S31、根据企业贸易背景关键信息,将企业信息作为企业节点,判断主持交易方企业节点和参与交易方企业节点是否均存在,若是,执行步骤S32;否则,新增缺失的企业节点,并执行步骤S32;其中企业节点的属性设置为对应企业的企业信息,企业节点的标签设置为该企业在供应链中的位置和与供应链中其余成员的关系。
S32、将贸易财产信息作为交易节点,所述贸易财产信息包括有贸易背景、交易类型和相关附件,其中所述贸易背景包括当前交易相关的合同信息和发票信息;所述交易节点的标签设置为合同编号或发票编号。
S33、将企业节点和交易节点存储至图数据库,根据贸易财产信息,得到节点的指向关系,并将该指向关系作为企业贸易背景知识图谱的边存储在图数据库中,所述边用于连接企业节点和交易节点;其中,所述节点的指向关系具体为:主持交易方企业节点指向交易节点,交易节点指向交易参与方企业节点,其中边的属性为交易类型。
进一步的,步骤S4具体为:根据图数据库中为企业节点设置的标签,在图数据库中查询得到企业与企业关系的关系网络,可视化得到企业与企业关系的知识图谱;根据图数据库中为交易节点设置的标签,在图数据库中仅查询交易节点得到贸易背景与贸易背景关系的关系网络,可视化得到贸易背景与贸易背景关系的知识图谱;根据图数据库中节点的指向关系,得到企业与企业,或是企业与贸易背景之间关联的交易路径,进而得到企业与贸易背景关系的关系网络,可视化得到企业与贸易背景关系的知识图谱。
本发明第二部分提供了一种基于知识图谱的企业贸易信息可视化展示系统,所述系统用于所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,包括:企业贸易信息获取模块、信息处理模块、构建模块和可视化模块。
所述企业贸易信息获取模块获取企业贸易背景文本信息并发送至信息处理模块;所述信息处理模块接收企业贸易背景文本信息后,通过语义识别模型对所述企业贸易背景文本信息进行处理,得到企业贸易背景关键信息,将企业贸易背景关键信息存储至MongoDB数据库;所述构建模块读取企业贸易背景关键信息,并根据企业贸易背景关键信息构建节点和边,再根据节点和边的关系构建关系网络,将节点和边及其关系网络存入图数据库,得到企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱;在用户输入任意节点内容后,所述可视化模块通过检索所述节点并对与该节点相关联的关系网络进行可视化展示。
进一步的,还包括有文件系统和MySQL数据库,所述可视化模块收到用户输入的任意节点内容后,向信息处理模块发出节点查询请求,所述信息处理模块执行以下步骤:
A1、校验本地MongoDB数据库,判断节点查询对象是否存在,若是,则执行步骤A2;否则,执行步骤A3。
A2、判断在图数据库中是否存在与该查询对象相关的关系网络,若是,执行步骤A8;否则,执行步骤A3。
A3、向企业贸易信息获取模块发出登记记录查询请求,并判断MySQL数据库中是否存在该登记记录,若是,则执行步骤A4;否则,则在MySQL数据库中插入该登记记录,并执行步骤A4。
A4、接收企业贸易信息获取模块通过外网接口下载的登记文件,将登记文件转存至文件系统中,接收文件系统返回的转存结果,解压登记文件并将文件信息存储至MySQL数据库中。
A5,读取登记文件主文件内容并记录至MongoDB数据库中,判断登记文件中是否存在其他附件,若是,则执行步骤A6;否则,执行步骤A7。
A6、判断所述其他附件是否需要语义识别,若是,则调用语义识别模型发起异步OCR识别任务,并将识别任务记录存储至MySQL数据库中,将识别得到的附件内容记录至MongoDB数据库中;否则,直接读取附件内容并记录至MongoDB数据库中。
A7、发送节点构建请求至所述构建模块,所述构建模块读取MongoDB数据库的数据,根据数据构建节点和边,并根据节点和边的关系构建关系网络,将节点、边和关系网络存储至图数据库中。
A8、返回节点查询请求至所述可视化模块,所述可视化模块通过检索所述节点并对与该节点相关联的关系网络进行可视化展示,得到与用户输入节点相关的知识图谱。
本发明第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有在处理器上运行的基于知识图谱的企业贸易信息可视化展示程序,所述基于知识图谱的企业贸易信息可视化展示程序被所述处理器执行时实现所述的一种基于知识图谱的企业贸易信息可视化展示方法。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于知识图谱的企业贸易信息可视化展示方法,通过语义识别模型对企业贸易背景文本信息进行预处理,把附件信息由文本信息转化为字符串信息存储至MongoDB数据库,并且根据这些信息构建节点和边并存入图数据库,根据节点和边的关系构建关系网络,得到知识图谱,能够根据节点或边进行快速检索并进行可视化,为业务开展提供决策思路和查询便利,能够减少人工识别失误和提升审核贸易背景文本信息的效率,方便审核人员快速定位找到有效信息。
附图说明
图1为本发明一种基于知识图谱的企业贸易信息可视化展示方法的流程图。
图2为本发明一种实施例中从中登网下载登记文件的流程图。
图3为本发明一种实施例中对中登登记文件附件进行OCR识别的流程图。
图4为本发明一种实施例中关联发票的流转轨迹的示意图。
图5为本发明一种实施例中企业和发票为节点,贸易关系为边的知识图谱。
图6为本发明另一种实施例中上下游企业的企业和贸易背景关系的知识图谱。
图7为本发明一种实施例中动产担保登记证明的文本信息清洗内容。
图8为本发明一种基于知识图谱的企业贸易信息可视化展示系统的示意图。
图9为本发明一种实施例中系统运行时的示意图。
图10为现有系统的流程示意图。
图11为本发明系统的一种实施例。
图12为本发明一种计算机设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明提供了一种基于知识图谱的企业贸易信息可视化展示方法,本方法包括以下步骤:
S1、获取企业贸易背景文本信息。
S2、通过语义识别模型对所述企业贸易背景文本信息进行处理,得到企业贸易背景关键信息,将企业贸易背景关键信息存储至MongoDB数据库。
S3、根据企业贸易背景关键信息构建节点和边,根据节点和边的关系构建关系网络,得到企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱,将节点和边、关系网络存入图数据库。
S4、通过检索任意企业节点,对与该企业节点相关联的关系网络进行可视化展示。
需要说明的是,本发明是针对现有技术中没有对大量的、公开的企业贸易关系数据充分整合和利用。具体举例说明如下:头部企业跟下游企业有贸易,下游和下下游有贸易,甚至更多下游企业,这是一个可以寻迹的贸易链条,可以拼接出来后做风险评估。而贸易背景有票据做融资的,根据大数据计算,那个地域对哪种融资业务敏感,能做数字化营销。
进一步的,步骤S1所述的企业贸易背景文本信息从中登网查询获取,并存储在MySQL数据库中,所述企业贸易背景文本信息包括有企业交易登记信息和文本附件信息。
其中,从中登网上获取的所述企业贸易背景文本信息包括有:企业的动产担保证明和转让财产信息及相关发票信息;所述企业关键贸易数据包括有:贸易双方企业的名称、相关发票编号、金额、合同信息和交易类型;所述知识图谱以企业和贸易财产信息为节点,相关交易类型为边;其中贸易财产信息包括有相关发票编号和合同信息。
进一步的,步骤S2中通过语义识别模型对所述企业贸易背景文本信息进行处理的操作包括识别和预处理,其中,识别具体为利用语义识别模型对所述企业贸易背景文本信息进行识别,将企业贸易背景文本信息转换成字符串信息;利用关键字过滤、清洗和分析操作对字符串信息进行预处理,得到企业贸易背景关键信息并存储入MongoDB数据库,所述企业贸易背景关键信息包括企业信息、贸易财产信息和交易类型,所述语义识别模型为OCR。
其中,OCR为文字识别模型,包括有:卷积层、递归层和解析层;其中卷积层用于识别文字内容区域,递归层用于从文字内容区域中抽取文字,解析层进行逻辑计算,用于分析文字语义并输出字符串信息。
在一个具体的实施例中,如图7所示,从文本附件的动产担保登记证明中,通过文字识别得到的字符串信息包括有:填表人名称、填表人住所、交易业务类型和登记到期日;出让人名称、组织机构代码、工商注册号、法定代表人或负责人和住所;受让人名称、组织机构代码、工商注册号、法定代表人或负责人和住所;转让合同号码、转让合同币种、转让财产价值和转让财产描述。
进一步的,将所述企业贸易背景关键信息存储入MongoDB数据库,具体过程包括:将企业信息中的企业名称作为MongoDB数据库的集合,将贸易财产信息中与所述企业名称相关的交易信息作为MongoDB数据库的文档,通过定时同步,持续不断采集企业贸易背景文本信息并进行处理,完善MongoDB数据库;其中,与所述企业名称相关的贸易财产信息包括有:主持交易方企业信息、参与交易方企业信息、贸易相关合同信息、发票信息和相关附件,所述交易信息上标注有该笔交易信息是否已在图数据库中生成节点关系的标签。
进一步的,在获取企业贸易背景文本信息后,还包括对MongoDB数据库进行校验,针对获取的企业贸易背景文本信息,具体步骤如下:
S11、根据获取的企业贸易背景文本信息,查询MongoDB数据库中是否存在与所述企业贸易背景文本信息对应的企业信息和交易信息,若是,执行步骤S12;否则,执行步骤S2。
S12、根据每一笔交易信息上标注的标签,判断该笔交易信息是否已在图数据库中生成节点关系,若是,执行步骤S14;否则,执行步骤S13。
S13、根据交易信息生成节点关系,构建节点关系生成语句,存储至MongoDB数据库中,将交易信息的标签从未生成节点关系修改为已生成节点关系,执行节点关系生成语句;其中,执行所述节点关系生成语句则在图数据库中已有的知识图谱上生成新的节点关系。
S14、判断标签上是否带有更新标记,所述更新标记用于表示该节点关系是否需要更新,若是,则更新节点关系,将更新后的节点关系存储至图数据库,并去除更新标记,执行步骤S4。
需要说明的是,可视化的企业间贸易背景知识图谱可以更加清晰方便的查询企业的真实贸易关系,由于发票是非常重要的贸易背景资料,因此如图4和图5所示,通过关联发票的流转轨迹,能够方便的查询该笔交易上游和下游的参与企业和企业间贸易背景关系,给业务的执行提供便利,方便审核、做出市场营销决策、防范交易风险等。
在一个具体的实施例中,如图6所示,发票E的上下游相关企业和贸易背景信息知识图谱十分清晰明了:有限公司M通过发票E为有限公司E和有限公司P之间、有限公司P和有限公司M之间的质押提供担保。
进一步的,步骤S3的过程具体为:
S31、根据企业贸易背景关键信息,将企业信息作为企业节点,判断主持交易方企业节点和参与交易方企业节点是否均存在,若是,执行步骤S32;否则,新增缺失的企业节点,并执行步骤S32;其中企业节点的属性设置为对应企业的企业信息,企业节点的标签设置为该企业在供应链中的位置和与供应链中其余成员的关系。
S32、将贸易财产信息作为交易节点,所述贸易财产信息包括有贸易背景、交易类型和相关附件,其中所述贸易背景包括当前交易相关的合同信息和发票信息;所述交易节点的标签设置为合同编号或发票编号。
S33、将企业节点和交易节点存储至图数据库,根据贸易财产信息,得到节点的指向关系,并将该指向关系作为企业贸易背景知识图谱的边存储在图数据库中,所述边用于连接企业节点和交易节点;其中,所述节点的指向关系具体为:主持交易方企业节点指向交易节点,交易节点指向交易参与方企业节点,其中边的属性为交易类型。
需要说明的是,利用MongoDB数据库库高性能、低延迟、高吞吐的特性,能够快速根据企业名称获取到每一笔交易及其企业贸易背景信息。在一个具体的实施例中,利用所述MongoDB数据库转换数据生成知识图谱的过程具体为:1、根据企业名称查出该企业对应的每一笔交易信息;2、遍历该企业每一笔交易,(1)如果该笔未生成过知识图谱则根据交易信息生成Cypher语句,执行后就会生成新的连接。(2)如果已生成,但是有更新标记则进行更新(3)如果已生成无更新标记,则跳过该笔交易。
进一步的,步骤S4具体为:根据图数据库中为企业节点设置的标签,在图数据库中查询得到企业与企业关系的关系网络,可视化得到企业与企业关系的知识图谱;根据图数据库中为交易节点设置的标签,在图数据库中仅查询交易节点得到贸易背景与贸易背景关系的关系网络,可视化得到贸易背景与贸易背景关系的知识图谱;根据图数据库中节点的指向关系,得到企业与企业,或是企业与贸易背景之间关联的交易路径,进而得到企业与贸易背景关系的关系网络,可视化得到企业与贸易背景关系的知识图谱。
需要说明的是,本发明采集中登网贸易背景PDF文件,通过OCR文字识别,让文本转成字符串信息,数据通过整理后存入MongoDB数据库中,在需要时直接从MongoDB数据库中调取信息,从图数据库中提取知识图谱,组建完成企业贸易关系知识图谱检索引擎。
实施例2
基于上述实施例1,结合图8-图11,本实施例详细阐述本发明的第二方面,一种基于知识图谱的企业贸易信息可视化展示系统,所述系统用于所述的一种基于知识图谱的企业贸易信息可视化展示系统,如图8所示,包括:企业贸易信息获取模块、信息处理模块、构建模块和可视化模块。
所述企业贸易信息获取模块获取企业贸易背景文本信息并发送至信息处理模块;所述信息处理模块接收企业贸易背景文本信息后,通过语义识别模型对所述企业贸易背景文本信息进行处理,得到企业贸易背景关键信息,将企业贸易背景关键信息存储至MongoDB数据库;所述构建模块读取企业贸易背景关键信息,并根据企业贸易背景关键信息构建节点和边,再根据节点和边的关系构建关系网络,将节点和边及其关系网络存入图数据库,得到企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱;在用户输入任意节点内容后,所述可视化模块通过检索所述节点并对与该节点相关联的关系网络进行可视化展示。
需要说明的是,现有技术的流程如图10所示,需要人工查验中登网返回的动产登记证明和发票编号等附件信息,最后记录下来并反馈给客户。
进一步的,还包括有文件系统和MySQL数据库,所述可视化模块收到用户输入的任意节点内容后,向信息处理模块发出节点查询请求,所述信息处理模块执行以下步骤:
A1、校验本地MongoDB数据库,判断节点查询对象是否存在,若是,则执行步骤A2;否则,执行步骤A3。
A2、判断在图数据库中是否存在与该查询对象相关的关系网络,若是,执行步骤A8;否则,执行步骤A3。
A3、向企业贸易信息获取模块发出登记记录查询请求,并判断MySQL数据库中是否存在该登记记录,若是,则执行步骤A4;否则,则在MySQL数据库中插入该登记记录,并执行步骤A4。
A4、接收企业贸易信息获取模块通过外网接口下载的登记文件,将登记文件转存至文件系统中,接收文件系统返回的转存结果,解压登记文件并将文件信息存储至MySQL数据库中。
A5,读取登记文件主文件内容并记录至MongoDB数据库中,判断登记文件中是否存在其他附件,若是,则执行步骤A6;否则,执行步骤A7。
A6、判断所述其他附件是否需要语义识别,若是,则调用语义识别模型发起异步OCR识别任务,并将识别任务记录存储至MySQL数据库中,将识别得到的附件内容记录至MongoDB数据库中;否则,直接读取附件内容并记录至MongoDB数据库中。
A7、发送节点构建请求至所述构建模块,所述构建模块读取MongoDB数据库的数据,根据数据构建节点和边,并根据节点和边的关系构建关系网络,将节点、边和关系网络存储至图数据库中。
A8、返回节点查询请求至所述可视化模块,所述可视化模块通过检索所述节点并对与该节点相关联的关系网络进行可视化展示,得到与用户输入节点相关的知识图谱。
在一个具体的实施例中,本发明采用的流程如图11所示,搭建了trade_background贸易背景服务、对接中登网网络接口、引用OCR文字识别、引用图数据库和引用MongoDB存储;具体的执行过程如下:
1.通过trade_background服务请求中登网获取贸易背景附件信息。
2.对获取的文件信息进行OCR文字识别,得到字符串中文信息。如此分别得到文本附件、字符串中文,并和企业关联即以企业为MongoDB的collection,文本附件、字符串中文为MongoDB的document存入MongoDB。通过定时同步和后续不断的增量拉取数据,以上完成企业贸易背景关系知识图谱的来源数据收集。
3.从MongoDB提取字符串数据,进行数据清洗,利用智能算法清洗分离出我们需要的关键数据放入图数据库,将如图7所示的动产担保登记证明的文本信息清洗出来后,通过出让人和受让人就能得到就能得到贸易企业的名称,通过转让财产信息就能得到相关发票编号、金额、合同等贸易财产信息即贸易背景。
4.根据分析和处理的数据存入图数据库。构建生成以企业和贸易财产信息(发票或者合同)为节点、其相关交易类型为边存入图数据库组建关系网络,形成企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱。
5.用户查询或者使用到贸易背景的时候,可直接将关系网络进行可视化展示,用户能够以知识图谱的方式直观掌握贸易背景的关系网络。
相对于现有技术,本发明合理利用中登网登记的真实贸易背景信息,在复杂贸易背景数据中,尤其贸易背景数据都是文本资料情况下,使用我们应用服务系统(trade_background),对企业贸易背景文本文件进行OCR文字识别、数据清洗和数据分析后放入图数据库存储并构建数据间的关系网络,让贸易背景数据能高效存储、利用和使用,并且对企业与企业、企业与贸易背景、贸易背景与贸易背景进行了可视化图文展示,把干燥的文本文件整理演化成高效可靠的知识图谱,也使得贯穿上下游的链条交易信息串联起来,给我们的业务执行提供便利,方便审核、做出市场营销决策、防范交易风险等。
在一个具体的实施例中,结合图2-图3,详细阐述本发明中下载中登网登记文件和对中登网文件附件进行OCR识别的过程。
在本实施例中,经校验校验本地MongoDB数据库后,判断数据库中不存在企业信息时,执行如图9所示过程,其中涉及下载中登网登记文件的内容如图2所示,具体内容如下:
1、贸易背景服务通过外网接口向中登网查询登记文件,并下载登记文件,同时转存至文件系统(OSS),OSS返回转存状态。
2、判断转存是否成功,若转存失败则记录失败-1,结束并返回重新执行,若转存成功则解压所有登记文件,计算所有附件的MD5码,记录至子文件表。
3、判断是否完成所有附件的MD5码计算工作,若失败则记录失败-2,结束并返回重新执行;若计算完成则判断是否存在需要OCR识别的附件。
4、若存在需要OCR识别的附件则发起异步OCR识别任务,解析登记文件内容并存储至MongoDB数据库中,若不存在需要OCR识别的附件,则直接读取登记文件内容并存储至MongoDB数据库中。
5、判断登记文件内容是否解析成功,若解析成功则记录子文件处理成功1,若解析失败则记录子文件处理失败-1,结束。
其中对中登网登记文件进行OCR文件识别的过程如图3所示,具体过程如下:
1、贸易背景服务从OSS下载登记文件原始文件,解压并计算所有附件的MD5码,记录至文件关系表中,保存在MongoDB数据库中。
2、判断是否解压并计算成功,若没有计算成功则记录子文件处理失败-1,若计算成功则从文件关系表中读取需要执行OCR识别任务的文件的MD5码,并根据MD5码依次逐个进行OCR识别。
3、判断单个登记文件是否处理完成,若未能处理完成则记录子文件处理失败-1,若已处理完成则将处理结果(解析后的登记文件内容)存储至MongoDB数据库中,记录子文件处理成功1,结束。
实施例3
基于上述实施例1,如图12所示,本发明第三部分提供了一种计算机设备,包括存储器和处理器,所述存储器存储有在处理器上运行的基于知识图谱的企业贸易信息可视化展示程序,所述基于知识图谱的企业贸易信息可视化展示程序被所述处理器执行时实现所述的一种基于知识图谱的企业贸易信息可视化展示方法。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现所述的一种基于知识图谱的企业贸易信息可视化展示方法的步骤。
在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,能够通过其它的方式实现。本领域普通技术人员能够理解:实现上述方法实施例的全部或部分步骤能够通过程序指令相关的硬件来完成,前述的程序能够存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种能够存储程序代码的介质。
或者,本发明上述实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也能够存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分能够以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种能够存储程序代码的介质。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。附图中描述结构位置关系的图标仅用于示例性说明,不能理解为对本专利的限制。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (31)

1.一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,包括以下步骤:
S1、获取企业贸易背景文本信息;
S2、通过语义识别模型对所述企业贸易背景文本信息进行处理,得到企业贸易背景关键信息,将企业贸易背景关键信息存储至MongoDB数据库;
S3、根据企业贸易背景关键信息构建节点和边,根据节点和边的关系构建关系网络,得到企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱,将节点和边、关系网络存入图数据库;
S4、通过检索任意企业节点,对与该企业节点相关联的关系网络进行可视化展示。
2.根据权利要求1所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,步骤S1所述的企业贸易背景文本信息从中登网查询获取,并存储在MySQL数据库中。
3.根据权利要求2所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,步骤S2中通过语义识别模型对所述企业贸易背景文本信息进行处理的操作包括识别和预处理,其中,识别具体为利用语义识别模型对所述企业贸易背景文本信息进行识别,将企业贸易背景文本信息转换成字符串信息;利用关键字过滤、清洗和分析操作对字符串信息进行预处理,得到企业贸易背景关键信息并存储入MongoDB数据库,所述企业贸易背景关键信息包括企业信息、贸易财产信息和交易类型,所述语义识别模型为OCR。
4.根据权利要求3所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,将所述企业贸易背景关键信息存储入MongoDB数据库,具体过程包括:
将企业信息中的企业名称作为MongoDB数据库的集合,将贸易财产信息中与所述企业名称相关的交易信息作为MongoDB数据库的文档,通过定时同步,持续不断采集企业贸易背景文本信息并进行处理,完善MongoDB数据库;其中,与所述企业名称相关的贸易财产信息包括有:主持交易方企业信息、参与交易方企业信息、贸易相关合同信息、发票信息和相关附件,所述交易信息上标注有该笔交易信息是否已在图数据库中生成节点关系的标签。
5.根据权利要求4所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,在获取企业贸易背景文本信息后,还包括对MongoDB数据库进行校验,针对获取的企业贸易背景文本信息,具体步骤如下:
S11、根据获取的企业贸易背景文本信息,查询MongoDB数据库中是否存在与所述企业贸易背景文本信息对应的企业信息和交易信息,若是,执行步骤S12;否则,执行步骤S2;
S12、根据每一笔交易信息上标注的标签,判断该笔交易信息是否已在图数据库中生成节点关系,若是,执行步骤S14;否则,执行步骤S13;
S13、根据交易信息生成节点关系,构建节点关系生成语句,存储至MongoDB数据库中,将交易信息的标签从未生成节点关系修改为已生成节点关系,执行节点关系生成语句;其中,执行所述节点关系生成语句则在图数据库中已有的知识图谱上生成新的节点关系;
S14、判断标签是否带有更新标记,所述更新标记用于表示该节点关系是否需要更新,若是,则更新节点关系,将更新后的节点关系存储至图数据库,并去除更新标记,执行步骤S4。
6.根据权利要求5所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,步骤S3的过程具体为:
S31、根据企业贸易背景关键信息,将企业信息作为企业节点,判断主持交易方企业节点和参与交易方企业节点是否均存在,若是,执行步骤S32;否则,新增缺失的企业节点,并执行步骤S32;其中企业节点的属性设置为对应企业的企业信息,企业节点的标签设置为该企业在供应链中的位置和与供应链中其余成员的关系;
S32、将贸易财产信息作为交易节点,所述贸易财产信息包括有贸易背景、交易类型和相关附件,其中所述贸易背景包括当前交易相关的合同信息和发票信息;所述交易节点的标签设置为合同编号或发票编号;
S33、将企业节点和交易节点存储至图数据库,根据贸易财产信息,得到节点的指向关系,并将该指向关系作为企业贸易背景知识图谱的边存储在图数据库中,所述边用于连接企业节点和交易节点;其中,所述节点的指向关系具体为:主持交易方企业节点指向交易节点,交易节点指向交易参与方企业节点,其中边的属性为交易类型。
7.根据权利要求6所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,步骤S4具体为:根据图数据库中为企业节点设置的标签,在图数据库中查询得到企业与企业关系的关系网络,可视化得到企业与企业关系的知识图谱;根据图数据库中为交易节点设置的标签,在图数据库中仅查询交易节点得到贸易背景与贸易背景关系的关系网络,可视化得到贸易背景与贸易背景关系的知识图谱;根据图数据库中节点的指向关系,得到企业与企业,或是企业与贸易背景之间关联的交易路径,进而得到企业与贸易背景关系的关系网络,可视化得到企业与贸易背景关系的知识图谱。
8.一种基于知识图谱的企业贸易信息可视化展示系统,所述系统用于权利要求1-7任一项所述的一种基于知识图谱的企业贸易信息可视化展示方法,其特征在于,包括:企业贸易信息获取模块、信息处理模块、构建模块和可视化模块;
所述企业贸易信息获取模块获取企业贸易背景文本信息并发送至信息处理模块;所述信息处理模块接收企业贸易背景文本信息后,通过语义识别模型对所述企业贸易背景文本信息进行处理,得到企业贸易背景关键信息,将企业贸易背景关键信息存储至MongoDB数据库;所述构建模块读取企业贸易背景关键信息,并根据企业贸易背景关键信息构建节点和边,再根据节点和边的关系构建关系网络,将节点和边及其关系网络存入图数据库,得到企业与企业、企业与贸易背景、贸易背景与贸易背景的知识图谱;在用户输入任意节点内容后,所述可视化模块通过检索所述节点并对与该节点相关联的关系网络进行可视化展示。
9.根据权利要求8所述的一种基于知识图谱的企业贸易信息可视化展示系统,其特征在于,还包括有文件系统和MySQL数据库,所述可视化模块收到用户输入的任意节点内容后,向信息处理模块发出节点查询请求,所述信息处理模块执行以下步骤:
A1、校验本地MongoDB数据库,判断节点查询对象是否存在,若是,则执行步骤A2;否则,执行步骤A3;
A2、判断在图数据库中是否存在与该查询对象相关的关系网络,若是,执行步骤A8;否则,执行步骤A3;
A3、向企业贸易信息获取模块发出登记记录查询请求,并判断MySQL数据库中是否存在该登记记录,若是,则执行步骤A4;否则,则在MySQL数据库中插入该登记记录,并执行步骤A4;
A4、接收企业贸易信息获取模块通过外网接口下载的登记文件,将登记文件转存至文件系统中,接收文件系统返回的转存结果,解压登记文件并将文件信息存储至MySQL数据库中;
A5,读取登记文件主文件内容并记录至MongoDB数据库中,判断登记文件中是否存在其他附件,若是,则执行步骤A6;否则,执行步骤A7;
A6、判断所述其他附件是否需要语义识别,若是,则调用语义识别模型发起异步OCR识别任务,并将识别任务记录存储至MySQL数据库中,将识别得到的附件内容记录至MongoDB数据库中;否则,直接读取附件内容并记录至MongoDB数据库中;
A7、发送节点构建请求至所述构建模块,所述构建模块读取MongoDB数据库的数据,根据数据构建节点和边,并根据节点和边的关系构建关系网络,将节点、边和关系网络存储至图数据库中;
A8、返回节点查询请求至所述可视化模块,所述可视化模块通过检索所述节点并对与该节点相关联的关系网络进行可视化展示,得到与用户输入节点相关的知识图谱。
10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有在处理器上运行的基于知识图谱的企业贸易信息可视化展示程序,所述基于知识图谱的企业贸易信息可视化展示程序被所述处理器执行时实现如权利要求1-7任一项所述的一种基于知识图谱的企业贸易信息可视化展示方法。
CN202310662934.0A 2023-06-06 2023-06-06 一种基于知识图谱的企业贸易信息可视化展示方法 Active CN116541537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310662934.0A CN116541537B (zh) 2023-06-06 2023-06-06 一种基于知识图谱的企业贸易信息可视化展示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310662934.0A CN116541537B (zh) 2023-06-06 2023-06-06 一种基于知识图谱的企业贸易信息可视化展示方法

Publications (2)

Publication Number Publication Date
CN116541537A true CN116541537A (zh) 2023-08-04
CN116541537B CN116541537B (zh) 2023-11-03

Family

ID=87448906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310662934.0A Active CN116541537B (zh) 2023-06-06 2023-06-06 一种基于知识图谱的企业贸易信息可视化展示方法

Country Status (1)

Country Link
CN (1) CN116541537B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187565A (zh) * 2015-10-14 2015-12-23 四川携创信息技术服务有限公司 一种利用网络存储数据的方法
CN111949903A (zh) * 2020-08-28 2020-11-17 杭州安恒信息技术股份有限公司 一种网页数据采集方法、装置、设备及可读存储介质
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
CN112308362A (zh) * 2020-07-06 2021-02-02 广东粤财金融云科技股份有限公司 一种企业贸易数据的处理方法、装置及业务应用系统
CN112364036A (zh) * 2020-10-23 2021-02-12 北京旷视科技有限公司 商品信息更新方法、装置、电子设备及可读存储介质
CN114254129A (zh) * 2021-12-31 2022-03-29 第四范式(北京)技术有限公司 更新知识图谱的方法、装置和可读存储介质
CN115129879A (zh) * 2021-03-24 2022-09-30 北京智数天下科技有限公司 一种基于知识图谱的企业关系知识库构建的方法
US20230016485A1 (en) * 2021-07-15 2023-01-19 Open Text Sa Ulc Systems and Methods for Intelligent Automatic Filing of Documents in a Content Management System
CN115934963A (zh) * 2022-12-26 2023-04-07 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱
CN116049420A (zh) * 2022-11-21 2023-05-02 长沙爱得自在信息技术有限公司 知识图谱生成任务构建方法、装置、电子设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187565A (zh) * 2015-10-14 2015-12-23 四川携创信息技术服务有限公司 一种利用网络存储数据的方法
CN112308362A (zh) * 2020-07-06 2021-02-02 广东粤财金融云科技股份有限公司 一种企业贸易数据的处理方法、装置及业务应用系统
CN111949903A (zh) * 2020-08-28 2020-11-17 杭州安恒信息技术股份有限公司 一种网页数据采集方法、装置、设备及可读存储介质
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
CN112364036A (zh) * 2020-10-23 2021-02-12 北京旷视科技有限公司 商品信息更新方法、装置、电子设备及可读存储介质
CN115129879A (zh) * 2021-03-24 2022-09-30 北京智数天下科技有限公司 一种基于知识图谱的企业关系知识库构建的方法
US20230016485A1 (en) * 2021-07-15 2023-01-19 Open Text Sa Ulc Systems and Methods for Intelligent Automatic Filing of Documents in a Content Management System
CN114254129A (zh) * 2021-12-31 2022-03-29 第四范式(北京)技术有限公司 更新知识图谱的方法、装置和可读存储介质
CN116049420A (zh) * 2022-11-21 2023-05-02 长沙爱得自在信息技术有限公司 知识图谱生成任务构建方法、装置、电子设备和存储介质
CN115934963A (zh) * 2022-12-26 2023-04-07 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱

Also Published As

Publication number Publication date
CN116541537B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN115952274B (zh) 基于深度学习模型的数据生成方法、训练方法和装置
CN116501960B (zh) 内容检索方法、装置、设备及介质
WO2023231350A1 (zh) 利用整数规划求解器实现的任务处理方法、设备和介质
US20240104154A1 (en) Ranking of recall data
WO2023142406A1 (zh) 排序方法、排序模型的训练方法、装置、电子设备及介质
CN116541536B (zh) 知识增强的内容生成系统、数据生成方法、设备和介质
CN116303962A (zh) 对话生成方法、深度学习模型的训练方法、装置和设备
CN114547244A (zh) 用于确定信息的方法和装置
CN115879469B (zh) 文本数据处理方法、模型训练方法、装置及介质
CN114219046B (zh) 模型训练方法、匹配方法、装置、系统、电子设备和介质
CN114547270B (zh) 文本处理方法、文本处理模型的训练方法、装置和设备
CN115964462A (zh) 对话内容处理方法、对话理解模型的训练方法和装置
CN116541537A (zh) 一种基于知识图谱的企业贸易信息可视化展示方法
CN115809364B (zh) 对象推荐方法和模型训练方法
CN116521841B (zh) 用于生成回复信息的方法、装置、设备及介质
CN114861658B (zh) 地址信息解析方法及装置、设备和介质
CN116841506B (zh) 程序代码生成方法及装置、模型训练方法及装置
CN116450917B (zh) 信息搜索方法及装置、电子设备和介质
CN116842156B (zh) 数据生成方法及装置、设备和介质
CN115879468B (zh) 基于自然语言理解的文本要素提取方法、装置和设备
CN115033782B (zh) 推荐对象的方法、机器学习模型的训练方法、装置和设备
CN117992675A (zh) 内容推荐方法、装置、电子设备及存储介质
CN116521841A (zh) 用于生成回复信息的方法、装置、设备及介质
CN116860328A (zh) 生成指令数据的方法、装置、设备和介质
CN117291191A (zh) 文本处理方法及装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant