CN118052205B - 基于技术情报数据的企业评估报告生成方法及装置 - Google Patents

基于技术情报数据的企业评估报告生成方法及装置 Download PDF

Info

Publication number
CN118052205B
CN118052205B CN202410424996.2A CN202410424996A CN118052205B CN 118052205 B CN118052205 B CN 118052205B CN 202410424996 A CN202410424996 A CN 202410424996A CN 118052205 B CN118052205 B CN 118052205B
Authority
CN
China
Prior art keywords
data
content
text
enterprise
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410424996.2A
Other languages
English (en)
Other versions
CN118052205A (zh
Inventor
张学和
王元地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202410424996.2A priority Critical patent/CN118052205B/zh
Publication of CN118052205A publication Critical patent/CN118052205A/zh
Application granted granted Critical
Publication of CN118052205B publication Critical patent/CN118052205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开一种基于技术情报数据的企业评估报告生成方法及装置、存储介质、电子设备,涉及互联网技术领域,该方法中,获取目标企业的技术情报数据,其中包括:文本类数据、图片类数据、视频类数据和音频类数据;通过识别图片类数据和音频类数据,获得图像文本数据和音频文本数据,然后对文本类数据、视频文本数据和音频文本数据的拼接文本数据,聚合其中关联相同内容属性的数据内容,分别获得对应的聚合结果,并基于各聚合结果,得到待整合数据,其中内容属性包括:专利属性、论文属性、产品属性、新闻属性、行业属性;再采用预训练的报告生成模型,将待整合数据按照预设的报告内容标签进行内容整合处理,生成目标企业的企业评估报告。

Description

基于技术情报数据的企业评估报告生成方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种基于技术情报数据的企业评估报告生成方法及装置、存储介质、电子设备。
背景技术
目前,金融机构在为企业提供融资、贷款、参保等金融业务之前,通常会基于企业的企业征信信息,实现对于企业的评估,从而为后续企业的融资、贷款、参保等金融业务,提供有力依据。
然而,在实际应用中,随科技发展衍生出对于融资、贷款、参保等金融业务具有更大的需求的中小型企业。虽然这些中小型企业掌握一些高新技术,但是,相较开设时间更长、开设规模更大的传统大型企业来说,其仍处于发展初期,相应地,中小型企业的企业征信信息也相对更少,导致基于少量的企业征信信息,难以实现对相应中小型企业的客观评估,从而难以满足中小型企业开展金融业务的需求。
发明内容
本申请提供一种基于技术情报数据的企业评估报告方法及装置、存储介质、电子设备,用以基于技术情报数据,自动生成相应的企业评估报告,以实现对于中小型企业的客观评估,从而满足中小型企业开展金融业务的需求。
第一方面,本申请提供了一种基于技术情报数据的企业评估报告生成方法,包括:
获取目标企业的技术情报数据;其中,所述技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据;
基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据;以及,基于音频识别技术,将所述音频类数据转换为音频文本数据;
针对所述文本类数据、所述图像文本数据和所述音频文本数据的拼接文本数据,聚合所述拼接文本数据中关联相同内容属性的数据内容,分别获得对应的聚合结果,并基于各聚合结果,得到待整合数据;其中,所述内容属性包括:企业属性、专利属性、论文属性、产品属性、新闻属性、行业属性;
采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告;其中,所述报告内容标签是针对不同内容类别而设置的。
第二方面,本申请提供了一种基于技术情报数据的企业评估报告生成装置,包括:
获取单元,获取目标企业的技术情报数据;其中,所述技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据;
处理单元,基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据;以及,基于音频识别技术,将所述音频类数据转换为音频文本数据;
聚合单元,针对所述文本类数据、所述图像文本数据和所述音频文本数据的拼接文本数据,聚合所述拼接文本数据中关联相同内容属性的数据内容,分别获得对应的聚合结果,并基于各聚合结果,得到待整合数据;其中,所述内容属性包括:企业属性、专利属性、论文属性、产品属性、新闻属性、行业属性;
生成单元,采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告;其中,所述报告内容标签是针对不同内容类别而设置的。
可选地,所述聚合单元用于基于各聚合结果,得到待整合数据,具体用于:针对各聚合结果,分别执行以下操作:采用预设的属性指示符,标识一个聚合结果中的各种内容属性的数据内容,并分别提取相应数据内容中的关键词;将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据。
可选地,所述聚合单元用于分别提取相应数据内容中的关键词,具体用于:针对每个数据内容,分别执行分词处理,获得相应的分词序列;分别对获得的每个分词序列,执行如下处理:确定一个分词序列中的各不相同的候选分词,分别获得每个候选分词在相应数据内容中所属句子的候选数目;分别基于获得的各个候选数目与所述相应数据内容的句子总数之间的差值,获得所述每个候选分词的出现频率;选取满足预设概率条件的出现频率对应的候选分词,作为相应数据内容中的关键词。
可选地,所述聚合单元用于将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据,具体用于:针对各聚合结果,分别执行以下操作:将所述各种内容属性的数据内容和对应的关键词,添加到内容树模板中,获得所述一个聚合结果对应的候选内容树;其中,所述候选内容树包含候选根节点及其直属的一级候选子节点、非直属的二级候选子节点,所述候选根节点表征所述一个聚合结果,每个一级候选子节点表征一种内容属性的一个关键词,每个二级候选子节点表征一个关键词所在的数据内容;对获得的各候选内容树进行合并,生成目标内容树,作为待整合数据;其中,在所述目标内容树中,目标根节点表征所述技术情报数据,所述目标根节点直属的每个一级目标子节点表征一个聚合结果。
可选地,所述聚合单元用于采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告,具体用于:获取预设的标签词库;其中,所述标签词库中的每个标签表征:企业是否满足金融业务要求的评估维度;基于所述待整合数据中的各个关键词,从所述标签词库中选取匹配的标签,作为报告内容标签;将所述报告内容标签添加到预设的候选提示模板中,获得相应的目标提示模板,并将所述目标提示模板拼接在所述待整合数据的尾部,获得目标文本数据;其中,所述候选提示模板为:提示生成所述企业评估报告的提示语模板;将所述目标文本数据输入预训练的报告生成模型中,基于目标文本数据的内部关联关系,对所述目标文本数据进行推理处理,获得所述目标企业的企业评估报告。
可选地,所述处理单元用于基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据,具体用于:针对所述图片类数据、所述视频类数据中的每张图像,分别执行如下操作:将一张图像转换为高斯热力图,在所述高斯热力图中,筛选满足预设文本像素范围的像素点;参考筛选的各个像素点在所述高斯热力图中的相对位置,确定所述一张图像中的文本区域;针对所述文本区域中的文本进行文本识别,获得图像文本数据。
可选地,所述视频类数据还包括字幕信息;则所述处理单元在用于针对所述图片类数据、所述视频类数据中的每张图像,分别执行如下操作之前,还用于:针对视频类数据中的每个视频,分别提取所述每个视频中的字幕信息;将提取的字幕信息,均作为图像文本数据。
第三方面,本申请提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任意一种基于技术情报数据的企业评估报告生成方法。
第四方面,本申请提供了一种计算机存储介质,所述计算机可读存储介质内存储有计算机程序指令,所述计算机程序指令被处理器执行上述第一方面中任意一种基于技术情报数据的企业评估报告生成方法。
本申请有益效果如下:
本申请实施例中,提供一种基于技术情报数据的企业评估报告生成方法及装置、存储介质、电子设备,用以基于技术情报数据,自动生成相应的企业评估报告,以实现对于中小型企业的客观评估,从而满足中小型企业开展金融业务的需求。
具体地,首先获取目标企业的技术情报数据,该技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据。如此,结合多种数据类型的技术情报数据,相较于企业征信信息,能够更加全面且客观描述目标企业的企业情况,解决由于企业征信信息不均衡,导致无法相对客观、精确地实现对于目标企业的评估问题。
其次,针对技术情报数据中的图片类数据、视频类数据,基于图像识别技术,分别针对图片类数据、视频类数据中的文本数据进行识别,获得图像文本数据;针对技术情报数据中的音频类数据,基于音频识别技术,将音频类数据转换为音频文本数据。如此,通过将图片类数据、视频类数据和音频类数据都转换为文本类数据,一方面能够结合其中的有效信息,另一方面转换为文本类数据能够提高后续生成企业评估报告的效率,
再次,针对文本类数据、图像文本数据和音频文本数据的拼接文本数据,聚合该拼接文本数据中关联相同内容属性的数据内容,分别获得对应的聚合结果,其中内容属性包括:企业属性、专利属性、论文属性、产品属性、新闻属性、行业属性。由此,基于本方案提出的多种内容属性,例如专利属性、论文属性、产品属性、新闻属性、行业属性,分别对拼接文本数据中的数据内容进行聚合,这样可相应获得多个聚合结果,例如专利信息聚合结果、论文信息聚合结果、产品信息聚合结果、新闻信息聚合结果、行业信息聚合结果,从而获得关于目标企业的多维度信息,以提高后续生成企业评估报告的全面性和客观性。
然后,基于各聚合结果,得到待整合数据,再采用预训练的报告生成模型,将待整合数据按照预设的报告内容标签进行内容整合处理,生成目标企业的企业评估报告,其中报告内容标签是针对不同内容类别而设置的。如此,基于各聚合结果,得到包含专利信息、论文信息、产品信息、新闻信息、行业信息的待整合数据,为了获得满足金融业务需求的企业评估报告,则获取针对企业报告内容的不同内容类别而设置的报告内容标签,这样,将待整合数据输入预训练的报告生成模型后,可按照预设的报告内容标签进行内容整合处理,从而生成满足金融业务需求的企业评估报告,实现对于中小型企业的客观评估。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中可选的应用场景的示意图;
图2为本申请实施例提供的基于技术情报数据的企业评估报告生成方法的流程示意图;
图3为本申请实施例中目标内容树的示意图;
图4为本申请实施例提供的基于技术情报数据的企业评估报告生成装置的结构示意图;
图5为本申请实施例提供的计算机设备的一种结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
本申请实施例涉及人工智能技术,主要涉及人工智能技术中的计算机视觉技术、语音技术、自然语言处理技术和机器学习。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革,WavLM, UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性,可以优秀完成各方向的语音处理任务。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及 计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
在本申请实施例中,将人工智能技术应用于智能评估领域,具体用于基于技术情报数据来自动生成企业评估报告,以提高企业评估报告的生成精度,实现对于中小型企业的客观评价,从而满足中小型企业开展金融业务的需求。
下面对本申请实施例的设计思想进行简要介绍。
在金融评估领域,通常基于企业的企业征信信息这种结构化数据,实现对于企业的评估。然而,对具有金融业务需求的中小型企业,当其企业征信信息较少时,很难获得客观的企业评估,从而无法满足相应的金融业务需求。
究其根本,上述问题产生的原因是,当前企业评估需依赖于如企业征信信息这样的结构化数据进行,而未挖掘非结构化数据(如:内容上呈现为新闻的数据,数据表现为图片、视频、音频类的数据等),实际场景下结构化数据是比较少的,而非结构数据较多,基于不均衡的数据进行企业评估,导致最终评估结果不准确。
鉴于此,本申请实施例提供了一种基于技术情报数据的企业评估报告生成方法,在该方法中,提供一种非结构化数据的结合方式,具体地,获取目标企业的技术情报数据,该技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据,以结合多种数据类型的技术情报数据,同时关注结构化数据和非结构化数据,以更加全面且客观描述目标企业的企业情况,解决由于评估数据不均衡,导致无法相对客观、精确地实现对于目标企业的评估问题。进一步,通过将图片类数据、视频类数据和音频类数据都转换为文本类数据,实现对于数据类型的统一转换,从而便于后续对于非结构化数据的深度挖掘和分析。
其次,在该方法中,提供一种技术情报数据的多维度挖掘方式,具体地,基于本方案提出的多种内容属性,例如专利属性、论文属性、产品属性、新闻属性、行业属性,分别对拼接文本数据中的数据内容进行聚合,这样可相应获得多个聚合结果,例如专利信息聚合结果、论文信息聚合结果、产品信息聚合结果、新闻信息聚合结果、行业信息聚合结果,从而获得关于目标企业的多维度信息,实现对于非结构化数据和结构化数据的结合内容的多维度挖掘。
此外,在该方法中,还提供一种企业评估报告的自动生成方式,具体地,基于各聚合结果,得到待整合数据,再采用预训练的报告生成模型,将待整合数据按照预设的报告内容标签进行内容整合处理,生成目标企业的企业评估报告,以实现对于中小型企业的客观评估,从而满足中小型企业开展金融业务的需求。
下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括终端设备110和服务器120。
终端设备110例如可以为机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备等任意涉及到企业评估报告生成需求的设备。
终端设备110可以安装有报告生成系统,报告生成系统具备报告生成功能或者发起生成报告请求的功能。本申请实施例涉及的报告生成系统可以是软件客户端,也可以是网页、小程序等客户端,服务器120则是与软件或是网页、小程序等相对应的服务器,不限制客户端的具体类型。服务器120例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云端服务器,但并不局限于此。
需要说明的是,本申请实施例中的基于技术情报数据的企业评估报告生成方法可以由终端设备110或者服务器120单独执行,也可以由服务器120和终端设备110共同执行。当由终端设备110或者服务器120单独执行时,则报告生成模型的训练和应用过程都可以由终端设备110或者服务器120单独实现,例如由终端设备110分段式训练报告生成模型后,通过报告生成模型对输入的待整合数据进行内容整合处理,生成相应的企业评估报告。当由服务器120和终端设备110共同执行时,则可以由服务器120对报告生成模型进行分段式训练之后,将训练好的报告生成模型部署至终端设备110中,由终端设备110实现报告生成模型的在线应用过程,或者,报告生成模型的训练或者应用过程的部分过程可以由终端设备110实现,部分过程可以由服务器120,二者合作实现报告生成模型的训练或者应用过程,在实际应用时可以根据情况进行具体的配置,本申请在此不做具体限定,在此不做赘述。
在实际应用时,当本申请实施例提供的基于技术情报数据的企业评估报告生成方法由服务器120和终端设备110共同执行时,服务器120和终端设备110也可以为同一个设备,即服务器120和终端设备110可以为同一设备的不同功能模块,或者由同一物理设备所虚拟出的虚拟设备。
其中,服务器120和终端设备110均可以包括一个或多个处理器、存储器以及与交互I/O接口等。此外,服务器120还可以配置数据库,可以用于存储训练得到的报告生成模型以及报告生成模型的模型参数等。其中,服务器120和终端设备110的存储器中还可以存储本申请实施例提供方法中各自所需执行的程序指令,这些程序指令被处理器执行时能够用以实现本申请实施例提供的报告生成模型的训练过程或者企业评估报告的生成过程。
此外,本申请实施例中,终端设备110和服务器120之间可以通过一个或者多个网络130进行直接或间接的通信连接。该网络130可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(Wireless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本申请实施例对此不做限制。需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
参见图2所示,为本申请实施例提供的基于技术情报数据的企业评估报告生成方法的流程示意图。
步骤201:获取目标企业的技术情报数据;其中,技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据。
在本申请实施例中,响应于对象针对目标企业的企业报告生成请求,针对目标企业,获取多种数据类型的技术情报数据。
作为一种可能的实现方式,技术情报数据的获取方式,可包括如下多种方式中的任意一种及结合,当然本方案不限定于此。
方式一,基于目标企业的企业名称(以及经目标企业同意公开的目标企业的员工信息),从专利数据库中,筛选相匹配的专利信息,将专利信息中的文字信息作为文本类数据,以及将专利信息中的附图信息作为图片类数据。
方式二,基于目标企业的企业名称(以及经目标企业同意公开的目标企业的员工信息),从论文数据库中,筛选相匹配的论文信息,将论文信息中的文字信息作为文本类数据,以及将论文信息中的附图信息作为图片类数据。
方式三,基于目标企业的企业名称(以及经目标企业同意公开的目标企业的员工信息),从目标企业的公开信息(如:企业官网、企业公众号、企业店铺等)中,提取目标企业的产品信息(如:产品名称、产品参数、产品介绍等),将产品信息中的文字信息作为文本类数据,将产品信息中的附图信息作为图片类数据,将产品信息中的视频信息作为视频类数据,以及将产品信息中的音频信息作为音频类数据。
方式四,基于目标企业的企业名称(以及经目标企业同意公开的目标企业的员工信息),从目标企业的公开信息(如:企业官网、企业公众号、企业店铺等)及其他互联网公开信息(如:媒体公开信息、搜索引擎公开信息等),提取目标企业的宣传信息,将宣传信息中的文字信息作为文本类数据,将宣传信息中的附图信息作为图片类数据,将宣传信息中的视频信息作为视频类数据,以及将宣传信息中的音频信息作为音频类数据。
方式五,基于目标企业的注册信息,从互联网公开信息(如:媒体公开信息、搜索引擎公开信息等)中,提取目标企业所在行业的行业信息,将行业信息中的文字信息作为文本类数据,将行业信息中的附图信息作为图片类数据,将行业信息中的视频信息作为视频类数据,以及将行业信息中的音频信息作为音频类数据。
如上方式,通过从目标企业公开的非结构化数据中,提取可用以评估目标企业的技术情报信息,相较于企业征信信息这种结构化数据来说,能够获得更加全面的评估数据,以解决由单一结构化数据导致企业评估不平衡的问题。
步骤202:基于图像识别技术,分别针对图片类数据、视频类数据中的文本数据进行识别,获得图像文本数据;以及,基于音频识别技术,将音频类数据转换为音频文本数据。
本申请实施例中,针对图片类数据、视频类数据中的每张图像,分别执行如下操作:将一张图像转换为高斯热力图,在高斯热力图中,筛选满足预设文本像素范围的像素点,然后参考筛选的各个像素点在高斯热力图中的相对位置,确定一张图像中的文本区域,再针对文本区域中的文本进行文本识别,获得图像文本数据。
具体地,高斯热力图中的每个像素点与转换前图像中的一个像素点依次对应,并且,高斯热力图中的每个像素点的像素值表征:相应像素点属于文本类数据的预估概率;则针对像素点的筛选,获取针对文本类数据的像素值预估概率的预设文本像素范围,然后基于预设文本像素范围的左端点和右端点,分别与高斯热力图中的每个像素点的像素值进行比对,筛选落入预设文本像素范围(也即像素值大于左端点且小于右端点)的像素值所对应的像素点;进一步,基于选取的像素点在转换前图像中的所处位置,划分相应的文本区域,再针对文本区域中的文本进行文本识别,获得图像文本数据。
如此,基于文本类数据在图像中表现出的共有特性,采用高斯热力图的转换方式,以筛选像素点,实现对于文本区域的划分,从而提高文本区域的划分精度和划分效率;进一步,针对划分的文本区域进行文本识别,相较于直接对图像进行文本识别,能够提升文本识别的精度,且使得图文转换的泛用性更强。
进一步,在一种可能的实现方式中,上述视频类数据还包括字幕信息,则在进行上述图文转换前,还可针对视频类数据中的每个视频,分别截取所述每个视频中的字幕信息,并将截取的字幕信息,均作为图像文本数据。这样,能够保证提取出的图像文本数据的上下文连贯性,且有效减少针对视频数据提取文本所需时间及算力,提高效率。
可选地,上述文本识别的方式,可参考计算机视觉技术,利用如图像识别、图像语义理解、OCR、视频处理、视频语义理解、视频内容识别等方式实现,本方案对此不作具体限制。
此外,本申请实施例中,针对音频类数据,基于音频识别技术,将音频类数据转换为音频文本数据。其中,音频类数据包括视频的音频文件、单独的音频文件等。
可选地,上述音频识别技术,可参考音频技术,利用如自动语音识别技术、亦或结合WavLM, UniSpeech等沿用Transformer架构的预训练音频识别模型等方式实现,本方案对此不作具体限制。
如上方式,通过挖掘多样化数据(如:图片类数据、视频类数据和音频类数据)中与目标企业相关的有效信息,将其转换为文本类数据,以实现非结构化的深度挖掘,提高后续生成企业评估报告的精度。
步骤203:针对文本类数据、视频文本数据和音频文本数据的拼接文本数据,聚合拼接文本数据中关联相同内容属性的数据内容,分别获得对应的聚合结果,并基于各聚合结果,得到待整合数据;其中,内容属性包括:专利属性、论文属性、产品属性、新闻属性、行业属性。
具体地,针对拼接文本数据的生成,通过串联拼接方式,将文本类数据、视频文本数据和音频文本数据拼接为拼接文本数据,其生成关系可参考如下;
X={x1,x2,x3},其中,X为拼接文本数据,x1为文本类数据,x2位视频文本数据,x3位音频文本类数据。
针对各聚合内容的获得,通过文本聚类的方式,分别基于专利属性的专利参考聚类中心、论文属性的论文参考聚类中心、产品属性的产品参考聚类中心、新闻属性的新闻参考聚类中心、行业属性的行业参考聚类中心,将拼接文本数据聚合为五个聚合类别,获得专利聚合结果、论文聚合结果、产品聚合结果、新闻聚合结果、行业聚合结果。其中,前述的每个参考聚类中心都可基于相应属性的历史文本数据进行聚类生成;例如,专利参考聚类中心,可基于历史专利文本数据进行聚类,获得聚类结果的聚类中心,作为专利参考聚类中心;论文参考聚类中心、产品参考聚类中心、新闻参考聚类中心、行业参考聚类中心同理可得,不再展开论述。
在一种可能的实施方式中,上述各聚合内容还可通过如下内容属性建模的方式获得:首先针对拼接文本数据进行预处理,包括去除停用词、标点符号等,并进行文本清洗,采用合适的分词算法将拼接文本数据分为词语,中文可采用jieba分词,英文可采用nltk等;然后,采用内容属性模型(例如Latent Dirichlet Allocation,LDA)来发现拼接文本数据中的内容属性,将拼接文本数据映射到内容属性空间,以识别文本中隐藏的内容属性,再基于内容属性模型的结果或其他特征,使用分类算法对拼接文本数据进行分类。例如,常见的分类算法包括朴素贝叶斯、支持向量机(SVM)、深度学习模型等。
可选地,在获得各聚合内容后,还可定期更新模型,以适应新的技术情报数据和变化,以及收集用户反馈并进行模型的调整和改进。但值得注意的是,具体的实施可能需要根据实际的数据和业务需求进行调整。此外,保护敏感信息和遵循隐私规定是非常重要的,特别是在处理企业敏感数据时。
其中,在内容属性建模中,“隐藏内容属性”是指在本文数据中存在但无法直接观察的概念性内容属性。这些内容属性是由内容属性模型(如Latent DirichletAllocation,LDA)通过分析文档集合中的词汇统计信息而隐含地学习到的。在此,当提及内容属性是“隐藏”的时候,意味着并没有事先手动标记文档中的内容属性,也没有直接观察到内容属性的存在。相反,内容属性模型通过对文档中的词语分布进行建模,推断出潜在的内容属性结构。
针对隐藏内容属性的推断,在内容属性模型的构建过程中,首先生成内容属性分布,也即整个文档集合的全局内容属性分布,作为先验假设;然后,生成文档的内容属性分布,也即对于每个文档,生成文档的内容属性分布;再次,生成内容属性的词分布,对于每个内容属性,生成与之相关的词分布;最后,生成文档的词,对于每个文档,根据文档的内容属性分布和内容属性的词分布生成文档的词。在这个生成的过程中,内容属性是一个潜在的变量,因为没有直接观察到文档中的内容属性。相反,能够被观察到的是文档中的词语,而模型正是通过统计这些词语的分布来推断隐藏的内容属性。也即在推断过程中,通过查看每个文档的内容属性分布以及每个内容属性的词分布来理解模型学到的内容属性结构。这些内容属性在文本数据中是隐含的,因为没有直接观察到它们,但它们帮助理解文档集合中的概念性内容。
具体地,上述内容属性分布(全局内容属性分布)可表征为:θm∼Dirichlet(α);上述生成文档的内容属性分布可表征为:ϕk∼Dirichlet(β);上述生成文档中的每个词:对于文档m中的每个词wmn,选择内容属性可表征为:zmn∼Multinomial(θm),选择词可表征为:wmn∼Multinomial(ϕzmn)。
其中,N为文档中的总词数,M为文档集中的文档数,K为内容属性数,V为词汇表中的词数,nmk为文档m中属于内容属性k的词的数量,ndk为文档m中属于内容属性k的总词数,nkv为内容属性k中词汇表中词v的数量,nk为内容属性k中的总词数,α、β是狄利克雷分布的参数。通过调整这些参数,我们可以控制内容属性分布的稀疏性,从而影响生成的文档结构。
上述内容属性分布θm应当符合如下概率分布函数:P(θmα)=∏k=1KΓ(αk)Γ(∑k=1Kαk)k=1∏K(θmk)αk−1。
其中,K为内容属性的数量,α为分布的参数向量(表示平滑参数),θmk是文档m中内容属性k的概率,Γ(⋅)表示伽玛函数。上述概率分布函数表征:在给定参数α的情况下,文档的内容属性分布θm的概率分布。在本申请实施例的内容属性模型中,可以假设所有的文档共享相同的内容属性分布的先验,即所有的θm都来自相同的狄利克雷分布。
需要说明的是,上述的公式描述了一个生成式的过程,其中文档通过从内容属性分布中选择内容属性,并从选择的内容属性对应的词分布中选择词来生成,实现在无监督的情况下推断文档中的内容属性结构。
可选地,针对给定文档,为推断文档的内容属性分布以及每个词所属的内容属性,可以采用变分推断或Gibbs采样等技术来近似计算这些分布,从观察到的文档中学习模型的参数。
示例性地,以文本段落为单个文档,对拼接文本数据进行划分,获得相应的文档集合,为便于理解在此以两个内容属性为例,如预设内容属性1的分布为60%、内容属性2的分布为40%,则采用内容属性模型生成每个文档的内容属性分布,如内容属性1的内容属性分布为70%、内容属性2的内容属性分布为30%,再针对每个内容属性生成与之相关的词分布,如内容属性1可能的词分布可以为:词A为20%、词B为30%、词C为50%,然后,根据每个文档的内容属性分布和内容属性的词分布生成文档的词,如对于文档A,可能的词生成过程如下:选择内容属性1(70%概率),从内容属性1的词分布中选择词C(50%的概率),如此获得的每个文档都有内容属性分布和词分布,在推断过程中,通过找到最有可能生成观察到的文档的内容属性和词分布,使得能够大程度在文档集合中发现隐藏的内容属性。
其中,上述全局内容属性可以是内容属性模型的预设参数,该参数表示整个文档集合的内容属性分布,即在整个语料库中内容属性的相对比例,具体可以包括:专利、论文、产品、新闻、行业及其他可能的满足业务需求的隐藏内容属性。
进一步,基于各聚合结果(如:专利整合结果、论文整合结果、产品整合结果、新闻整合结果、行业整合结果),得到待整合数据;其中,一个整合结果表征:对应同一内容属性的文本数据。
本申请实施例中,提供一种待整合数据的得到方式,该方式中,第一方面,针对各聚合结果,分别执行以下操作:采用预设的属性指示符,标识一个聚合结果中的各种内容属性的数据内容,并分别提取相应数据内容中的关键词,第二方面,将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据。
其中,上述属性标识符分别用于标识:专利属性、论文属性、产品属性、新闻属性和行业属性的数据内容,以提高计算设备对于数据的识别效率。
一种可能的实现方式,将基于一种属性指示符且针对一个聚合结果提取的关键词,作为处理后的聚合结果,则待整合数据为各个处理后的聚合结果的内容拼接结果,这样,在面对大量数据的场景下,能够最大程度保留其中的有效信息,且由于只保留关键词,因此还能够提升后续针对待整合数据进行推理生成企业评估报告的效率。
一种可能的实现方式,基于一种属性提示符,针对一个聚合结果提取关键词,且结合该聚合结果,获得处理后的聚合结果,也即处理后的聚合结果相较之前还多了关键词信息,则待整合数据为各个聚合结果及其关键词的内容拼接结果,这样,能够在保留全面信息的同时,重点关注其中的关键信息,以提升后续针对待整合数据进行推理生成企业评估报告的精度。
下面针对上述示出的两个方面,做如下详细阐述:
第一方面,针对上述任意实现方式中的关键词提取,可通过如下方式实现:
以一个聚合内容中的一种内容属性的数据内容为例,针对该数据内容,执行分词处理,获得相应的分词序列,然后再分别对获得的每个分词序列,执行如下处理:确定一个分词序列中的各不相同的候选分词,分别获得每个候选分词在相应数据内容中所属句子的候选数目,然后,分别基于获得的各个候选数目与相应数据内容的句子总数之间的差值,获得所述每个候选分词的出现频率,再选取满足预设概率条件的出现频率对应的候选分词,作为相应数据内容中的关键词。
具体地,上述一个分词序列V{v1, v2, … , vi , … , vm}中的每个候选分词与该分词序列之间的关联关系,可参考如下:
vi=Nvi / Nt;
其中,vi为一个分词序列V{v1, v2, … , vi , … , vm}中的第i个分词,Nvi为vi在一个分词序列V{v1, v2, … , vi , … , vm}中所属句子的候选数目,Nt为一个分词序列V{v1, v2, … , vi , … , vm}中的句子总数。
需要说明的是,上述预设概率条件可以根据结合实际金融业务需求进行设定,例如设定预设阈值为0.3等。
上述方式,通过挖掘分词与所属句子之间的关联关系,以提取每个数据内容中的关键词,通过评估每个分词对于句子的归属,从而评估每个分词对于相应数据内容的重要程度。当然,在上述分词提取方式的基础上,还可根据实际金融业务需求,设定关键词语料库,通过匹配关键词语料库中的预设关键词,来提取每个数据内容中的关键词,以保证提取的关键词更加满足相关金融业务的需求。
第二方面,针对上述处理后的各聚合结果进行内容拼接,得到对应的待整合数据,可通过如下方式实现:
针对各聚合结果,分别执行以下操作:将各种内容属性的数据内容和对应的关键词,添加到内容树模板中,获得一个聚合结果对应的候选内容树,然后对获得的各候选内容树进行合并,生成目标内容树,作为待整合数据。
其中,候选内容树包含候选根节点及其直属的一级候选子节点、非直属的二级候选子节点,候选根节点表征所述一个聚合结果,每个一级候选子节点表征一种内容属性的一个关键词,每个二级候选子节点表征一个关键词所在的数据内容;目标内容树包括目标根节点及其直属的一级目标子节点、每个一级目标子节点直属的二级目标子节点、每个二级目标子节点直属的三级目标子节点,目标根节点表征技术情报数据,每个一级目标子节点表征一个聚合结果,每个二级目标子节点表征一种内容属性的一个关键词,每个三级目标子节点表征一个关键词所在的数据内容。
需要说明的是,上述目标内容树包含的二级目标子节点和三级目标子节点并不是必须,可以根据实际情况进行删减。
示例性地,参见图3所示,为目标内容树的示意图,在目标内容树的生成过程中,首先构建新节点,并将各聚类结果对应的候选内容树各自的候选根节点直接连接在新节点的下方,实现对于目标内容树的构建;也即,前述新节点为目标内容树的目标根节点,其直属的各一级目标子节点分别是各聚类结果(也即:各候选内容树各自的候选根节点),一级目标子节点直属的各二级目标子节点分别是内容属性的关键词(也即:各候选内容树各自的一级候选子节点),二级目标子节点直属的各三级目标子节点分别是对应关键词所在的数据内容(也即:各候选内容树各自的二级候选子节点)。
可选地,将目标内容树保存至存储空间,以便于后续响应于对象的查询指令,基于目标内容树中的各目标节点实现对于相应内容的检索,提高检索效率。
上述方式,通过构建目标内容树,来实现聚合结果的内容拼接,以获得相应的待整合数据,能够提高后续的查找和处理效率。
步骤204:采用预训练的报告生成模型,将待整合数据按照预设的报告内容标签进行内容整合处理,生成目标企业的企业评估报告;其中,报告内容标签是针对不同内容类别而设置的。
其中,预训练的报告生成模型,可以是基于transformer架构的预训练模型,比如GPT、Bert等,本申请实施例对此不作具体限制。
在一种可能的实现方式中,报告生成模型还可通过多轮迭代训练获得;其中,在一轮迭代训练的过程中,获取样本数据集,其中每个样本数据为:针对样本企业的基础情报数据进行文本转换处理、聚合处理、关键词提取处理的样本待整合数据,将待整合数据输入待训练的报告生成模型,获得报告生成模型输出的企业评估报告;根据金融业务需求,对企业评估报告的内容进行数据调整,获得样本评估报告,再基于样本评估报告与模型输出的企业评估报告之间的差异,调整报告生成模型中的模型参数;直到当前迭代轮次满足预设迭代阈值,或,当前迭代轮次获得的差异满足预设差异阈值,获得训练好的报告生成模型。
需要说明的是,上述样本企业的基础情报数据包括文本类、图片类、视频类和音频类,上述文本转换处理涉及图文转换、语音文本转换等,上述聚合处理至少基于专利属性、论文属性、产品属性、新闻属性、行业属性,上述关键词提取并不是必要,且各处理的具体方式可参见前面描述的部分,在此不做重复赘述。
本申请实施例中,采用预训练的报告生成模型,将待整合数据按照预设的报告内容标签进行内容整合处理,生成目标企业的企业评估报告。换言之,将待整合数据输入训练好的报告生成模型,基于按金融业务需求针对不同内容类别而设置的报告内容标签,对待整合数据进行内容整合处理,通过推理待整合数据,生成目标企业的企业评估报告,该企业评估报告的内容排布符合金融业务需求。
进一步,在一种可能的实现方式中,为提高报告生成模型针对待整合数据的内容整合处理的精度,以提高企业评估报告的生成准确度,符合金融业务需求,还将获取预设的标签词库,该标签词库中的每个标签表征:相应企业是否满足金融业务要求的评估维度,然后基于各聚类结果中的各个关键词,从标签词库中选取匹配的标签,作为报告内容标签,再将报告内容标签添加到预设的候选提示模板中,获得相应的目标提示模板,以及将目标提示模板拼接在待整合数据的尾部,获得目标文本数据,其中候选提示模板为:提示生成企业评估报告的提示语模板。然后,将目标文本数据输入预训练的报告生成模型中,基于目标文本数据的内部关联关系,对目标文本数据进行推理处理,获得目标企业的企业评估报告。
需要说明的是,前面提及的推理处理,在每一次推理过程中,需针对待整合数据或者目标文本数据中的每个词元进行推理,以获得一个推理词元,并将获得的推理词元拼接在本次参与推理的数据尾部,作为下一次推理的数据,以此类推,直到获得推理结果,也即目标企业的企业评估报告。
上述方式,基于各聚合结果,得到包含专利信息、论文信息、产品信息、新闻信息、行业信息的待整合数据,为了获得满足金融业务需求的企业评估报告,则获取针对企业报告内容的不同内容类别而设置的报告内容标签,这样,将待整合数据输入预训练的报告生成模型后,可按照预设的报告内容标签进行内容整合处理,从而生成满足金融业务需求的企业评估报告,实现对于中小型企业的客观评估。进一步,基于标签词库,匹配提取的关键词,构建目标提示模板,并将其拼接在待整合数据的尾部,再输入预训练的报告生成模型,能够有效提高预训练的报告生成模型的模型推理精度。
综上所述,本申请实施例提供了一种基于技术情报数据的企业评估报告生成方法,在该方法中,提供一种非结构化数据的结合方式,具体地,获取目标企业的技术情报数据,该技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据,以结合多种数据类型的技术情报数据,同时关注结构化数据和非结构化数据,以更加全面且客观描述目标企业的企业情况,解决由于评估数据不均衡,导致无法相对客观、精确地实现对于目标企业的评估问题。进一步,通过将图片类数据、视频类数据和音频类数据都转换为文本类数据,实现对于数据类型的统一转换,从而便于后续对于非结构化数据的深度挖掘和分析。
其次,在该方法中,提供一种技术情报数据的多维度挖掘方式,具体地,基于本方案提出的多种内容属性,例如专利属性、论文属性、产品属性、新闻属性、行业属性,分别对拼接文本数据中的数据内容进行聚合,这样可相应获得多个聚合结果,例如专利信息聚合结果、论文信息聚合结果、产品信息聚合结果、新闻信息聚合结果、行业信息聚合结果,从而获得关于目标企业的多维度信息,实现对于非结构化数据和结构化数据的结合内容的多维度挖掘。
此外,在该方法中,还提供一种企业评估报告的自动生成方式,具体地,基于各聚合结果,得到待整合数据,再采用预训练的报告生成模型,将待整合数据按照预设的报告内容标签进行内容整合处理,生成目标企业的企业评估报告,以实现对于中小型企业的客观评估,从而满足中小型企业开展金融业务的需求。
参见图4所述,基于同一发明构思,本申请实施例还提供了一种基于技术情报数据的企业评估报告生成装置400,该装置包括:
获取单元401,获取目标企业的技术情报数据;其中,所述技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据;
处理单元402,基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据;以及,基于音频识别技术,将所述音频类数据转换为音频文本数据;
聚合单元403,针对所述文本类数据、所述图像文本数据和所述音频文本数据的拼接文本数据,聚合所述拼接文本数据中关联相同内容属性的数据内容,分别获得对应的聚合结果,并基于各聚合结果,得到待整合数据;其中,所述内容属性包括:企业属性、专利属性、论文属性、产品属性、新闻属性、行业属性;
生成单元404,采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告;其中,所述报告内容标签是针对不同内容类别而设置的。
可选地,所述聚合单元403用于基于各聚合结果,得到待整合数据,具体用于:针对各聚合结果,分别执行以下操作:采用预设的属性指示符,标识一个聚合结果中的各种内容属性的数据内容,并分别提取相应数据内容中的关键词;将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据。
可选地,所述聚合单元403用于分别提取相应数据内容中的关键词,具体用于:针对每个数据内容,分别执行分词处理,获得相应的分词序列;分别对获得的每个分词序列,执行如下处理:确定一个分词序列中的各不相同的候选分词,分别获得每个候选分词在相应数据内容中所属句子的候选数目;分别基于获得的各个候选数目与所述相应数据内容的句子总数之间的差值,获得所述每个候选分词的出现频率;选取满足预设概率条件的出现频率对应的候选分词,作为相应数据内容中的关键词。
可选地,所述聚合单元403用于将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据,具体用于:针对各聚合结果,分别执行以下操作:将所述各种内容属性的数据内容和对应的关键词,添加到内容树模板中,获得所述一个聚合结果对应的候选内容树;其中,所述候选内容树包含候选根节点及其直属的一级候选子节点、非直属的二级候选子节点,所述候选根节点表征所述一个聚合结果,每个一级候选子节点表征一种内容属性的一个关键词,每个二级候选子节点表征一个关键词所在的数据内容;对获得的各候选内容树进行合并,生成目标内容树,作为待整合数据;其中,在所述目标内容树中,目标根节点表征所述技术情报数据,所述目标根节点直属的每个一级目标子节点表征一个聚合结果。
可选地,所述聚合单元403用于采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告,具体用于:获取预设的标签词库;其中,所述标签词库中的每个标签表征:企业是否满足金融业务要求的评估维度;基于所述待整合数据中的各个关键词,从所述标签词库中选取匹配的标签,作为报告内容标签;将所述报告内容标签添加到预设的候选提示模板中,获得相应的目标提示模板,并将所述目标提示模板拼接在所述待整合数据的尾部,获得目标文本数据;其中,所述候选提示模板为:提示生成所述企业评估报告的提示语模板;将所述目标文本数据输入预训练的报告生成模型中,基于目标文本数据的内部关联关系,对所述目标文本数据进行推理处理,获得所述目标企业的企业评估报告。
可选地,所述处理单元402用于基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据,具体用于:针对所述图片类数据、所述视频类数据中的每张图像,分别执行如下操作:将一张图像转换为高斯热力图,在所述高斯热力图中,筛选满足预设文本像素范围的像素点;参考筛选的各个像素点在所述高斯热力图中的相对位置,确定所述一张图像中的文本区域;针对所述文本区域中的文本进行文本识别,获得图像文本数据。
可选地,所述视频类数据还包括字幕信息;则所述处理单元402在用于针对所述图片类数据、所述视频类数据中的每张图像,分别执行如下操作之前,还用于:针对视频类数据中的每个视频,分别提取所述每个视频中的字幕信息;将提取的字幕信息,均作为图像文本数据。
该装置可以用于执行本申请各实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述,不多赘述。
请参见图5所示,基于同一技术构思,本申请实施例还提供了一种计算机设备500,该计算机设备500可以为图1所示的终端设备或服务器,该计算机设备500可以包括存储器501和处理器502。
所述存储器501,用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器502,可以是一个中央处理单元(central processing unit, CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器501和处理器502之间的具体连接介质。本申请实施例在图5中以存储器501和处理器502之间通过总线503连接,总线503在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器501可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器501也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器501可以是上述存储器的组合。
处理器502,用于调用所述存储器501中存储的计算机程序时执行本申请各实施例中设备所执行的方法。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本申请各实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种基于技术情报数据的企业评估报告生成方法,其特征在于,包括:
获取目标企业的技术情报数据;其中,所述技术情报数据包括:文本类数据、图片类数据、视频类数据和音频类数据;
基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据;以及,基于音频识别技术,将所述音频类数据转换为音频文本数据;
针对所述文本类数据、所述图像文本数据和所述音频文本数据的拼接文本数据,聚合所述拼接文本数据中关联相同内容属性的数据内容,分别获得对应的聚合结果,并针对各聚合结果,分别执行以下操作:采用预设的属性指示符,标识一个聚合结果中的各种内容属性的数据内容,并分别提取相应数据内容中的关键词,其中所述内容属性包括:专利属性、论文属性、产品属性、新闻属性、行业属性;将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据;
采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告;其中,所述报告内容标签是针对不同内容类别而设置的。
2.如权利要求1所述的方法,其特征在于,所述分别提取相应数据内容中的关键词,包括:
针对每个数据内容,分别执行分词处理,获得相应的分词序列;
分别对获得的每个分词序列,执行如下处理:
确定一个分词序列中的各不相同的候选分词,分别获得每个候选分词在相应数据内容中所属句子的候选数目;
分别基于获得的各个候选数目与所述相应数据内容的句子总数之间的差值,获得所述每个候选分词的出现频率;
选取满足预设概率条件的出现频率对应的候选分词,作为相应数据内容中的关键词。
3.如权利要求1所述的方法,其特征在于,所述将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据,包括:
针对各聚合结果,分别执行以下操作:将所述各种内容属性的数据内容和对应的关键词,添加到内容树模板中,获得所述一个聚合结果对应的候选内容树;其中,所述候选内容树包含候选根节点及其直属的一级候选子节点、非直属的二级候选子节点,所述候选根节点表征所述一个聚合结果,每个一级候选子节点表征一种内容属性的一个关键词,每个二级候选子节点表征一个关键词所在的数据内容;
对获得的各候选内容树进行合并,生成目标内容树,作为待整合数据;其中,在所述目标内容树中,目标根节点表征所述技术情报数据,所述目标根节点直属的每个一级目标子节点表征一个聚合结果。
4.如权利要求1所述的方法,其特征在于,所述采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告,包括:
获取预设的标签词库;其中,所述标签词库中的每个标签表征:企业是否满足金融业务要求的评估维度;
基于所述待整合数据中的各个关键词,从所述标签词库中选取匹配的标签,作为报告内容标签;
将所述报告内容标签添加到预设的候选提示模板中,获得相应的目标提示模板,并将所述目标提示模板拼接在所述待整合数据的尾部,获得目标文本数据;其中,所述候选提示模板为:提示生成所述企业评估报告的提示语模板;
将所述目标文本数据输入预训练的报告生成模型中,基于目标文本数据的内部关联关系,对所述目标文本数据进行推理处理,获得所述目标企业的企业评估报告。
5.如权利要求1~4任一项所述的方法,其特征在于,所述基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据,包括:
针对所述图片类数据、所述视频类数据中的每张图像,分别执行如下操作:
将一张图像转换为高斯热力图,在所述高斯热力图中,筛选满足预设文本像素范围的像素点;
参考筛选的各个像素点在所述高斯热力图中的相对位置,确定所述一张图像中的文本区域;
针对所述文本区域中的文本进行文本识别,获得图像文本数据。
6.如权利要求5所述的方法,其特征在于,所述视频类数据还包括字幕信息;则在所述针对所述图片类数据、所述视频类数据中的每张图像,分别执行如下操作之前,还包括:
针对视频类数据中的每个视频,分别截取所述每个视频中的字幕信息;
将截取的字幕信息,均作为图像文本数据。
7.一种基于技术情报数据的企业评估报告生成装置,其特征在于,包括:
获取单元,获取目标企业的技术情报数据;其中,所述技术情报数据的数据类型包括:文本类数据、图片类数据、视频类数据和音频类数据;
处理单元,基于图像识别技术,分别针对所述图片类数据、所述视频类数据中的文本数据进行识别,获得图像文本数据;以及,基于音频识别技术,将所述音频类数据转换为音频文本数据;
聚合单元,针对所述文本类数据、所述图像文本数据和所述音频文本数据的拼接文本数据,聚合所述拼接文本数据中关联相同内容属性的数据内容,分别获得对应的聚合结果,并针对各聚合结果,分别执行以下操作:采用预设的属性指示符,标识一个聚合结果中的各种内容属性的数据内容,并分别提取相应数据内容中的关键词,其中所述内容属性包括:企业属性、专利属性、论文属性、产品属性、新闻属性、行业属性;将处理后的所述各聚合结果进行内容拼接,得到对应的待整合数据;
生成单元,采用预训练的报告生成模型,将所述待整合数据按照预设的报告内容标签进行内容整合处理,生成所述目标企业的企业评估报告;其中,所述报告内容标签是针对不同内容类别而设置的。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
9.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,
所述计算机程序指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202410424996.2A 2024-04-10 2024-04-10 基于技术情报数据的企业评估报告生成方法及装置 Active CN118052205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410424996.2A CN118052205B (zh) 2024-04-10 2024-04-10 基于技术情报数据的企业评估报告生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410424996.2A CN118052205B (zh) 2024-04-10 2024-04-10 基于技术情报数据的企业评估报告生成方法及装置

Publications (2)

Publication Number Publication Date
CN118052205A CN118052205A (zh) 2024-05-17
CN118052205B true CN118052205B (zh) 2024-07-12

Family

ID=91045165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410424996.2A Active CN118052205B (zh) 2024-04-10 2024-04-10 基于技术情报数据的企业评估报告生成方法及装置

Country Status (1)

Country Link
CN (1) CN118052205B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648581A (zh) * 2023-11-14 2024-03-05 广州市城市规划勘测设计研究院有限公司 一种企业相似度评估方法、装置、终端及介质
WO2024065776A1 (en) * 2022-09-30 2024-04-04 Siemens Aktiengesellschaft Method for data processing, apparatus for data processing, electronic device, and storage medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966160A (zh) * 2015-06-11 2015-10-07 安徽融信金模信息技术有限公司 一种中小企业风险评估系统
US9552548B1 (en) * 2016-07-01 2017-01-24 Intraspexion Inc. Using classified text and deep learning algorithms to identify risk and provide early warning
CN107993143A (zh) * 2017-11-23 2018-05-04 深圳大管加软件与技术服务有限公司 一种信贷风险评估方法及系统
WO2022269504A1 (en) * 2021-06-23 2022-12-29 Abilash Soundararajan System and method for privacy risk assessment and mitigatory recommendation
KR102472800B1 (ko) * 2022-05-02 2022-12-01 김종우 인공지능 기반 기업 등급 평가 방법, 장치 및 시스템
CN116992850A (zh) * 2023-08-05 2023-11-03 企知道科技有限公司 一种企业报告文本的生成方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024065776A1 (en) * 2022-09-30 2024-04-04 Siemens Aktiengesellschaft Method for data processing, apparatus for data processing, electronic device, and storage medium
CN117648581A (zh) * 2023-11-14 2024-03-05 广州市城市规划勘测设计研究院有限公司 一种企业相似度评估方法、装置、终端及介质

Also Published As

Publication number Publication date
CN118052205A (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
Kim et al. Transparency and accountability in AI decision support: Explaining and visualizing convolutional neural networks for text information
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
RU2701995C2 (ru) Автоматическое определение набора категорий для классификации документа
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN107679039B (zh) 用于确定语句意图的方法和装置
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
Stein et al. Intrinsic plagiarism analysis
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN111444387A (zh) 视频分类方法、装置、计算机设备和存储介质
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN117251551B (zh) 一种基于大语言模型的自然语言处理系统及方法
CN110765256A (zh) 一种在线法律咨询自动回复的生成方法与设备
Salur et al. A soft voting ensemble learning-based approach for multimodal sentiment analysis
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
US11501071B2 (en) Word and image relationships in combined vector space
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN113569018A (zh) 问答对挖掘方法及装置
CN118052205B (zh) 基于技术情报数据的企业评估报告生成方法及装置
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant