CN115062141A - 信息结构化和检索方法及装置 - Google Patents
信息结构化和检索方法及装置 Download PDFInfo
- Publication number
- CN115062141A CN115062141A CN202210204838.7A CN202210204838A CN115062141A CN 115062141 A CN115062141 A CN 115062141A CN 202210204838 A CN202210204838 A CN 202210204838A CN 115062141 A CN115062141 A CN 115062141A
- Authority
- CN
- China
- Prior art keywords
- support
- text
- target
- policy text
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种信息结构化和检索方法及装置,其中信息结构化方法包括:获取针对企业的扶持政策文本;对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。本发明提供的信息结构化和检索方法及装置,可靠准确地实现了扶持政策文本的信息结构化,由此得到的结构化信息对于信息查找定位和信息匹配提供了便利。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息结构化和检索方法及装置。
背景技术
与企业扶持政策相关的政策文件会不定期发布在网络上,源头非常分散,而且政策文件通常为长篇文本格式,企业难以快速、精准的获取政策分析。目前,仍需要人工跟踪和查阅发布的政策文件,费时费力,且极易出现遗漏或者查阅出错的情况,导致符合引导方向的企业不一定能得到相应政策的支持。
如何实现企业支持政策或项目计划的自动监测,快捷获得相应文件,成为了目前亟待解决的问题。
发明内容
本发明提供一种信息结构化和检索方法及装置,用以解决现有技术中企业支持政策或项目计划监测费时费力、查找困难的缺陷。
本发明提供一种信息结构化方法,包括:
获取针对企业的扶持政策文本;
对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;
对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;
基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
根据本发明提供的信息结构化方法,所述对所述各语段的语段内容进行分类,得到所述各语段的内容类型,之后还包括:
在任一语段的内容类型为申报条件的情况下,提取所述任一语段的语段关键词,并基于所述语段关键词,对所述任一语段所指示申报条件的限制对象进行分类,得到所述任一语段的限制对象类型,并将所述限制对象类型加入所述任一语段的内容类型。
根据本发明提供的信息结构化方法,所述获取针对企业的扶持政策文本,包括:
获取候选政策文本;
基于文本分类器,以扶持政策文本中存在申请条件和申请程序的相关内容为分类依据,对所述候选政策文本进行文本分类;
将文本分类结果为扶持政策的候选政策文本确定为针对企业的扶持政策文本。
本发明还提供一种检索方法,包括:
接收用户终端发送的目标支持方向;
从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,所述结构化信息是基于所述的信息结构化方法确定的。
根据本发明提供的检索方法,所述从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,包括:
基于语义模型,对所述目标支持方向进行语义编码,得到目标支持方向特征;
将所述目标支持方向特征与各扶持政策文本的支持方向特征进行匹配,得到支持方向特征与所述目标支持方向特征匹配的扶持政策文本;
所述各扶持政策文本的支持方向特征是基于所述语义模型,对所述各扶持政策文本中内容类型为支持方向的语段进行语义编码得到的。
根据本发明提供的检索方法,所述语义模型是基于正例样本和反例样本,对初始语义模型进行无监督训练得到的;
所述正例样本包括第一支持方向语段和第二支持方向语段,所述第二支持方向语段是对所述第一支持方向语段进行微调得到的;
所述反例样本包括所述第一支持方向语段和第三支持方向语段,所述第三支持方向语段与所述第一支持方向语段表征不同的支持方向。
根据本发明提供的检索方法,所述接收用户终端发送的目标支持方向,包括:
接收用户终端发送的目标支持方向和目标申报条件;
所述从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,包括:
基于所述目标申报条件,所述目标扶持政策文本的申报条件公式和申报条件限制类型,确定所述目标扶持政策文本的匹配度;
将所述目标扶持政策文本以及所述匹配度返回至所述用户终端;
其中,所述申报条件公式是对所述目标扶持政策文本中内容类型为申报条件的语段进行分句,并基于预设模板将分句所得的子句进行公式转换得到的;
所述申报条件限制类型基于所述目标扶持政策文本中内容类型为申报条件的段落中的关键词确定。
本发明还提供一种信息结构化装置,包括:
文本获取单元,用于获取针对企业的扶持政策文本;
结构化单元,用于对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;
分类单元,用于对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;
信息确定单元,用于基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
本发明还提供一种检索装置,包括:
方向接收单元,用于接收用户终端发送的目标支持方向;
文本确定单元,用于从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,所述结构化信息是基于所述的信息结构化方法确定的。
根据本发明提供的检索装置,所述方向接收单元包括条件接收子单元,用于:
接收用户终端发送的目标支持方向和目标申报条件;
相应地,文本确定单元包括匹配度确定子单元,用于:
基于所述目标申报条件,所述目标扶持政策文本的申报条件公式和申报条件限制类型,确定所述目标扶持政策文本的匹配度;
将所述目标扶持政策文本以及所述匹配度返回至所述用户终端;
其中,所述申报条件公式是对所述目标扶持政策文本中内容类型为申报条件的语段进行分句,并基于预设模板将分句所得的子句进行公式转换得到的;
所述申报条件限制类型基于所述目标扶持政策文本中内容类型为申报条件的段落中的关键词确定。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述信息结构化方法和检索方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述信息结构化方法和检索方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述信息结构化方法和检索方法。
本发明提供的信息结构化和检索方法及装置,对扶持政策文本进行结构化,并从支持方式、支持方向、申报条件、政策方和申请时间等维度进行内容分类,基于分类所得的结构类型和内容类型,确定扶持政策文本的结构化信息。从而可靠准确地实现了扶持政策文本的信息结构化,由此得到的结构化信息对于信息查找定位和信息匹配提供了便利。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的信息结构化方法的流程示意图;
图2是本发明提供的结构化信息的示意图;
图3是本发明提供的检索方法的流程示意图;
图4是本发明提供的检索方法的流程示意图之二;
图5是本发明提供的信息结构化装置的结构示意图;
图6是本发明提供的检索装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
与企业扶持政策相关的政策文件会不定期发布在网络上,源头非常分散,而且政策文件通常为长篇文本格式,企业若未安排专人每天跟踪这些网站,很容易错过项目申报。但由于这些项目的发布日期差异很大,非常低频,每天人力检查一遍各种相关网站,特别低效而并不划算。
因此,对企业支持政策或项目计划进行监测,快捷获得相应文件,成为了目前亟待解决的问题。
本发明实施例提供了一种信息结构化方法,通过对扶持政策文本进行结构化的信息提取和分类,内容复杂的扶持政策文本转换为结构化的信息,以便于信息查找和项目申报。
图1是本发明提供的信息结构化方法的流程示意图,如图1所示,该方法包括:
步骤110,获取针对企业的扶持政策文本。
此处,针对企业的扶持政策文本即需要进行信息结构化的政策文件中的部分文本或者全部文本,扶持政策文本可以是应用网络爬虫从相关网站上爬取得到的,也可以是对纸质版本的扶持政策文本进行图像拍摄或者扫描等得到的,本发明实施例对此不作具体限定。
扶持政策文本的获取可以是定时获取,也可以是实时监控扶持政策发布网站,并在出现新的扶持政策后获取相应的扶持政策文本。
步骤120,对扶持政策文本进行结构化,得到扶持政策文本中各语段的结构类型。
具体地,由于扶持政策文本以文本的形式描述了扶持政策相关的信息,不便于查阅,对扶持政策文本进行结构化,可以得到扶持政策文本中各层级之间的对应关系,比如各级标题的归属关系,以及各级标题与正文的归属关系,从而能够快速的定位到需要查阅的文本内容。
可以基于扶持政策文本中各语段的语义,或者基于各语段在扶持政策文本中的位置、字体、字号、是否加粗等特征,实现对扶持政策文本的结构化分类,由此得到的各语段的结构类型可以是主标题、次级标题、三级标题或者正文等。
具体进行结构化分类时,可以是根据预先设定好的规则进行规则匹配得到,也可以是输入到预先训练好的结构化分类模型中得到各语段的结构类型,本发明实施例对此不作具体限定。
在一个实施例中,可以通过层级模板对扶持政策文本进行结构化分类,层级模板可以包含常见的层级标签,例如(第一,第二...)、(1.,2....)、(一,二...)、((1),(2)...)等。通过层级模板可以将扶持政策文本抽象成树结构。
步骤130,对各语段的语段内容进行分类,得到各语段的内容类型,内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种。
具体地,扶持政策文本中通常包含了支持方式、支持方向、申报条件、政策方和申请时间这几种相关信息中的至少一种。
其中,支持方式可以包括:资金支持、人才支持、荣誉支持、土地支持、融资支持中至少一个;主要用于为符合申报条件的企业或项目提供资金、人才、办公场地等支持或奖励。
支持方向可以包括扶持政策面向的产业方向,可依据国民经济产业分类划分,例如新兴信息产业、生物产业、新能源、高端装备制造业、新材料等。
申报条件可以包括:公司基本信息指标、经济指标、知识产权指标中至少一个,更进一步的,公司基本信息指标可以包括人员规模、成立年限等,经济指标可以包括研发投入、融资金额、净利润、营业收入、资产负债率等,知识产权指标可以包括发明专利、外观设计专利、实用新型专利、商标、软著等。
政策方可以包括具体的省、市、出台机关等。
申请时间可以包括历年具体申请时间。
可以对扶持政策文本中各语段的语段内容进行分类,得到各语段的内容类型。根据扶持政策文本常见的排版方式,通常一级标题,即主标题的语段用于说明该段落的内容类型,或者携带有内容类型的关键字。基于上述排版方式,在得到各语段的结构类型之后,还可从中筛选出结构类型为主标题的语段,并对筛选得到各语段的语段内容进行分类。
具体进行内容分类,可以是根据预先设定好的规则进行规则匹配得到,也可以是输入到预先训练好的文本分类模型中得到各语段的内容类型,本发明实施例对此不作具体限定。
步骤140,基于各语段的结构类型和内容类型,确定扶持政策文本的结构化信息。
具体地,在完成扶持政策文本的结构化分类和内容分类后,即可将分类所得的各语段的结构类型和内容类型,以预先设置好的形式进行结构化构建,从而得到扶持政策文本的结构化信息。此处的结构化信息可以是树状结构,其中每个节点均为该结构类型下的文本内容,父节点对应的结构类型相较子节点对应的结构类型高一级。
本发明实施例提供的方法,对扶持政策文本进行结构化,并从支持方式、支持方向、申报条件、政策方和申请时间等多个维度进行内容分类,基于分类所得的结构类型和内容类型,确定扶持政策文本的结构化信息。从而可靠准确地实现了扶持政策文本的信息结构化,由此得到的结构化信息对于信息查找定位和信息匹配提供了便利。
基于上述实施例,步骤130之后还包括:
在任一语段的内容类型为申报条件的情况下,提取该语段的语段关键词,并基于语段关键词,对该语段所指示申报条件的限制对象进行分类,得到该语段的限制对象类型,并将限制对象类型加入该语段的内容类型。
具体地,由于扶持政策文本中申报条件的内容相对而言比较复杂,为了让符合申报条件的企业精准查询到相应的扶持政策,有必要对申报条件的内容进行进一步分类。因此,在扶持政策文本中该语段的内容类型为申报条件的情况下,可以对该语段所指示申报条件的限制对象进行进一步分类。
此处,该语段所指示申报条件的限制对象可以包括公司基本信息指标、经济指标、知识产权指标中的至少一个;进一步地,公司基本信息指标所指示的申报条件可以是一条,也可以是多条,相应的,其所指示的申报条件的限制对象也可以是一个,或者多个。例如,以公司基本信息指标为例,限制对象可以包括人员规模、成立年限等;经济指标中,限制对象可以包括研发投入、融资金额、净利润、营业收入、资产负债率等;知识产权指标中,限制对象可以包括发明专利、外观设计专利、实用新型专利、商标、软著等。
具体进行限制对象分类,可以首先提取内容类型为申报条件的语段的关键词,获取该语段的语段关键词,并基于此确定该语段的限制对象类型。此处,进行关键词提取可以通过mBert模型实现。
在完成该语段的限制对象分类后,将由此得到的限制对象类型加入到该语段的内容类型,得到扶持政策文本中与申报条件内容相关的精细化结构化信息。图2是本发明提供的结构化信息的示意图,针对扶持政策文本确定的结构化信息可展示为如图2所示的树状结构。
本发明实施例提供的方法,对内容类型为申报条件的语段进行限制对象分类,得到该语段的限制对象类型,并将限制对象类型加入任一语段的内容类型。由此得到扶持政策文本中与申报条件内容相关的精细化结构化信息,进一步对于信息查找定位和信息匹配提供了便利。
基于上述任一实施例,步骤110具体包括:
获取候选政策文本;
基于文本分类器,以扶持政策文本中存在申请条件和申请程序的相关内容为分类依据,对候选政策文本进行文本分类;
将文本分类结果为扶持政策的候选政策文本确定为针对企业的扶持政策文本。
具体地,为了精准获取针对企业的扶持政策文本,可以首先获取大量候选政策文本,候选政策文本为在指定时间内各个部门或网站发布的政策文件信息,可以通过传入参数的方式,抓取指定时间内指定网址的全部政策信息。
接着,可以通过文本分类器对候选政策文本进行文本分类,将文本分类结果为扶持政策的候选政策文本确定为针对企业的扶持政策文本。具体以扶持政策文本中是否存在申请条件和申请程序的相关内容为分类依据,来确定文本分类结果是否为扶持政策。
若政策文本中存在申请条件和申请程序的相关内容,则文本分类结果为扶持政策;若不存在申请条件和申请程序的相关内容,则文本分类结果为不是扶持政策文本。
如果政策文本中直接包含与“申请条件”、“申请程序”相匹配的关键词,则可判断存在与申请条件和申请程序的相关内容;但是在不同政策文本可能描述上有区别,如“征集和推荐条件”、“申请和认定条件”,“申报方式”、“申请及认定程序”这些相关的关键词,也可判断存在与申请条件和申请程序的相关内容。
本发明实施例提供的方法,以扶持政策文本中存在申请条件和申请程序的相关内容为分类依据,对候选政策文本进行文本分类,并将文本分类结果为扶持政策的候选政策文本确定为针对企业的扶持政策文本,由此得到的扶持政策文本更具有针对性,从而能够实现更加精准的结构化信息。
图3是本发明提供的检索方法的流程示意图,如图3所示,该方法包括:
步骤310,接收用户终端发送的目标支持方向;
步骤330,从各扶持政策文本的结构化信息中,确定出支持方向与目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将目标扶持政策文本的结构化信息返回至用户终端,结构化信息是基于信息结构化方法确定的。
具体地,各种来源的扶持政策文本可以通过上述实施例进行信息结构化,从而实现扶持政策文本向结构化信息的转化。扶持政策文本的结构化信息,为进行信息查找定位和项目申报匹配提供了便利。并且,在此基础上,可以构建检索系统,以便于目标信息的快速查找和匹配。
用户可以通过智能手机、电脑、平板电脑等形式的用户终端输入目标支持方向,并且将目标支持方向发送到用于检索的服务端。此处的目标支持方向即期望从扶持政策文本中查找到相关信息的支持方向。
在接收到目标支持方向之后,即可在各扶持政策文本的结构化信息中,定位目标支持方向对应的扶持政策文本,作为目标扶持政策文本,并将目标扶持政策文本返回到用户终端,以供用户终端查看。
作为优选,还可以为目标扶持政策文本提供匹配度相关信息。
本发明实施例提供的方法,通过结构化信息实现目标支持方向的扶持政策文本的快速检索,有助于提高信息查询效率和项目申报的匹配效率,能够辅助项目申报企业快速、精准地查询扶持政策文本的信息。
基于上述实施例,步骤320中从各扶持政策文本的结构化信息中,确定出支持方向与目标支持方向匹配的扶持政策文本,包括:
步骤321,基于语义模型,对目标支持方向进行语义编码,得到目标支持方向特征;
步骤322,将目标支持方向特征与各扶持政策文本的支持方向特征进行匹配,得到支持方向特征与目标支持方向特征匹配的扶持政策文本;
各扶持政策文本的支持方向特征是基于语义模型,对各扶持政策文本中内容类型为支持方向的语段进行语义编码得到的。
具体地,语义模型用于提取各扶持政策文本中内容类型为支持方向的语段的语义特征,语义模型可以包括编码层,用于对各语段进行语义编码,从而得到能够表征该语段的支持方向表征向量,即各扶持政策文本的支持方向特征。支持方向特征可以以向量表示作为结果输出。
将接收到的目标支持方向输入语义模型,经语义模型的编码层对目标支持方向进行语义编码,由此得到可以表征目标支持方向语义的目标支持方向特征。接着,将目标支持方向特征与各扶持政策文本的支持方向特征进行匹配,从而得到支持方向特征与目标支持方向特征匹配的扶持政策文本。
进一步地,还可以得到扶持政策文本的匹配度,根据预设的匹配度阈值对扶持政策文本进行过滤,将匹配度高于匹配度阈值的政策文本发送至用户终端,将匹配度低于匹配度阈值的政策文本进行过滤。
本发明实施例提供的方法,基于语义模型,对目标支持方向进行语义编码,将编码得到的目标支持方向特征与各扶持政策文本的支持方向特征进行匹配,得到支持方向特征与目标支持方向特征匹配的扶持政策文本,进一步提高了目标信息查询的效率和准确性。
基于上述任一实施例,语义模型是基于正例样本和反例样本,对初始语义模型进行无监督训练得到的;
正例样本包括第一支持方向语段和第二支持方向语段,第二支持方向语段是对第一支持方向语段进行微调得到的;
反例样本包括第一支持方向语段和第三支持方向语段,第三支持方向语段与第一支持方向语段表征不同的支持方向。
具体地,在执行步骤321之前,还可以预先对初始语义模型进行无监督训练,无监督训练可以减少标注成本,并将训练后的初始语义模型作为语义模型。具体可以通过如下方法进行模型训练:
首先,采集大量包含内容类型为支持方向的样本语段,从中选取任意一个第一支持方向语段作为基准语段,在此基础上,对第一支持方向语段进行微调得到第二支持方向语段,并基于第一支持方向语段和第二支持方向语段构造正例样本。此外,将与第一支持方向语段表征不同的支持方向的语段作为第三支持方向语段,并基于第一支持方向语段和第三支持方向语段构造反例样本。其中,正例样本和反例样本的样本数量可以相同,也可以存在一定的比例关系,本发明实施例对此不作具体限定。
可以理解的是,正例样本之间的支持方向特征相似度越高,则正例样本对应的支持方向特征越能够反映第一支持方向语段和第二支持方向语段的支持方向特征的共性特征。
反例样本之间的支持方向特征相似度越低,则反例样本对应的支持方向特征越能够反映第一支持方向语段和第三支持方向语段的支持方向特征的差异性特征。
随即,将正例样本和反例样本输入至初始语义模型进行训练,初始语义模型在训练过程中,可以放大并学习正例样本,即第一支持方向语段和第二支持方向语段的支持方向特征的共性特征;同时放大并学习反例样本,即第一支持方向语段和第三支持方向语段的支持方向特征的差异性特征。由此训练得到的语义模型能够更好的区分支持方向特征之间的差异。
本发明实施例提供的方法,基于构建的正例样本和反例样本对初始语义模型进行无监督训练,由此训练得到的语义模型能够更好的区分支持方向特征之间的差异,从而提高了目标信息查询的效率和准确性。
基于上述任一实施例,步骤310具体包括:
接收用户终端发送的目标支持方向和目标申报条件;
相应地,步骤320具体包括:
基于目标申报条件,目标扶持政策文本的申报条件公式和申报条件限制类型,确定目标扶持政策文本的匹配度;
将目标扶持政策文本以及匹配度返回至用户终端;
其中,申报条件公式是对目标扶持政策文本中内容类型为申报条件的语段进行分句,并基于预设模板将分句所得的子句进行公式转换得到的;
申报条件限制类型基于目标扶持政策文本中内容类型为申报条件的段落中的关键词确定。
具体地,除了用户仅输入目标支持方向的情况,还可以通过用户终端同时输入目标支持方向和目标申报条件,此处的目标申报条件可以是一个或者多个。
在接收到用户输入的目标支持方向和目标申报条件之后,可以根据上述实施例的方法确定出扶持政策文本,在此基础上,根据目标申报条件,确定目标扶持政策文本的匹配度。
首先可以对目标扶持政策文本中内容类型为申报条件的语段进行分句,并基于预设模板将分句所得的子句进行公式转换,得到申报条件公式。预设模板的形式可以为X opY,其中X通过关键词和常见别名简称匹配财务报表中条目;op模板包含大于,小于,不超过,不低于等常见运算符;Y为具体数字,可以是具体金额也可以是比例或是区间。
例如,用户输入了申报条件中的经济指标,可以预先对结构化信息中的政策-申报条件-经济指标中的子项进行分句,然后通过模板将子句转换成公式。如果用户输入财报条目信息,就可以自动通过申报条件公式计算是否符合条件。当用户输入一个或多个目标申报条件时,即可由此计算每一个目标申报条件是否符合。
进一步地,申报条件限制类型是指目标扶持政策文本中的申报条件是否属于(满足以下一个,全部满足,以下无法申报)中的一个。由于目标扶持政策文本中通常会包含多个申报条件,并且会在段落中明确指出申报条件的限制类型,因此,根据内容类型为申报条件的段落中的关键词可以判断申报条件限制类型。
接着,可以根据每条目标申报条件的匹配结果,以及申报条件限制类型对所有目标申报条件进行与、或、补等逻辑运算,得到目标扶持政策文本的匹配结果。通过匹配结果除以目标扶持政策的申报条件数量既可以得到目标扶持政策文本的匹配度。可以按照匹配度从高到低的顺序,将目标扶持政策文本以及匹配度返回至用户终端。
本发明实施例提供的方法,使得用户能够快速获取到目标扶持政策文本的匹配度,同时能够更加便利的查找到匹配度更高的目标扶持政策文本。
基于上述任一实施例,在对扶持政策文本进行信息结构化时,还可将申请时间转化成月份数据,便于在用户检索时,将检索所得的目标扶持政策文本按照申请月份进行排序。
基于上述任一实施例,图4是本发明提供的扶持政策文本检索方法的流程示意图,如图4所示,该方法包括:
(1)获取针对企业的扶持政策文本,首先从各数据源获取发布的政策文件信息,再从中筛选出针对企业的扶持政策文本。
(2)对企业扶持政策文本进行信息结构化,得到结构化信息。
可以按支持方向、申报条件、支持方式、政策方和申请时间五个维度进行信息结构化。
(3)基于结构化信息,构建检索平台,用于信息查找定位和项目申报匹配。
用户输入目标支持方向和目标申报条件后,自动匹配出与目标支持方向和目标申报条件相匹配的目标扶持政策文本和目标扶持政策文本的匹配度,并将目标扶持政策文本以及匹配度返回至用户终端。
下面对本发明提供的信息结构化装置进行描述,下文描述的信息结构化装置与上文描述的信息结构化方法可相互对应参照。
图5是本发明提供的信息结构化装置的结构示意图,如图5所示,该装置包括:
文本获取单元510,用于获取针对企业的扶持政策文本;
结构化单元520,用于对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;
分类单元530,用于对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;
信息确定单元540,用于基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
本发明实施例提供的信息结构化装置,对扶持政策文本进行结构化,并从支持方式、支持方向、申报条件、政策方和申请时间等多个维度进行内容分类,基于分类所得的结构类型和内容类型,确定扶持政策文本的结构化信息。从而可靠准确地实现了扶持政策文本的信息结构化,由此得到的结构化信息对于信息查找定位和信息匹配提供了便利。
基于上述任一实施例,该装置还包括对象分类模块,用于:
在任一语段的内容类型为申报条件的情况下,提取所述任一语段的语段关键词,并基于所述语段关键词,对所述任一语段所指示申报条件的限制对象进行分类,得到所述任一语段的限制对象类型,并将所述限制对象类型加入所述任一语段的内容类型。
基于上述任一实施例,文本获取单元510进一步用于:
获取候选政策文本;
基于文本分类器,以扶持政策文本中存在申请条件和申请程序的相关内容为分类依据,对所述候选政策文本进行文本分类;
将文本分类结果为扶持政策的候选政策文本确定为针对企业的扶持政策文本。
基于上述任一实施例,图6是本发明提供的检索装置的结构示意图,如图6所示,该装置包括:
方向接收单元610,用于接收用户终端发送的目标支持方向;
文本确定单元620,用于从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,所述结构化信息是基于如上所述的信息结构化方法确定的。
本发明实施例提供的装置,通过结构化信息实现目标支持方向的扶持政策文本的快速检索,有助于提高信息查询效率和项目申报的匹配效率,能够辅助项目申报企业快速、精准地查询扶持政策文本的信息。
基于上述任一实施例,文本确定单元620进一步用于:
基于语义模型,对所述目标支持方向进行语义编码,得到目标支持方向特征;
将所述目标支持方向特征与各扶持政策文本的支持方向特征进行匹配,得到支持方向特征与所述目标支持方向特征匹配的扶持政策文本;
所述各扶持政策文本的支持方向特征是基于所述语义模型,对所述各扶持政策文本中内容类型为支持方向的语段进行语义编码得到的。
基于上述任一实施例,该装置还包括模型训练单元,用于基于正例样本和反例样本,对初始语义模型进行无监督训练;
所述正例样本包括第一支持方向语段和第二支持方向语段,所述第二支持方向语段是对所述第一支持方向语段进行微调得到的;
所述反例样本包括所述第一支持方向语段和第三支持方向语段,所述第三支持方向语段与所述第一支持方向语段表征不同的支持方向。
基于上述任一实施例,方向接收单元610进一步用于:
接收用户终端发送的目标支持方向和目标申报条件;
相应地,文本确定单元620进一步用于:
基于所述目标申报条件,所述目标扶持政策文本的申报条件公式和申报条件限制类型,确定所述目标扶持政策文本的匹配度;
将所述目标扶持政策文本以及所述匹配度返回至所述用户终端;
其中,所述申报条件公式是对所述目标扶持政策文本中内容类型为申报条件的语段进行分句,并基于预设模板将分句所得的子句进行公式转换得到的;
所述申报条件限制类型基于所述目标扶持政策文本中内容类型为申报条件的段落中的关键词确定。
图7示例了一种电子设备的实体结构示意图,如图7所示,该存储介质
可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行信息结构化方法,该方法包括:获取针对企业的扶持政策文本;对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
处理器710还可以调用存储器730中的逻辑指令,以执行检索方法,该方法包括:接收用户终端发送的目标支持方向;从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,所述结构化信息是基于所述的信息结构化方法确定的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的信息结构化方法,该方法包括:获取针对企业的扶持政策文本;对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
此外,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的检索方法,该方法包括:接收用户终端发送的目标支持方向;从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,所述结构化信息是基于所述的信息结构化方法确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的信息结构化方法,该方法包括:获取针对企业的扶持政策文本;对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
此外,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的检索方法,该方法包括:接收用户终端发送的目标支持方向;从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,所述结构化信息是基于所述的信息结构化方法确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种信息结构化方法,其特征在于,包括:
获取针对企业的扶持政策文本;
对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;
对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;
基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
2.根据权利要求1所述的信息结构化方法,其特征在于,所述对所述各语段的语段内容进行分类,得到所述各语段的内容类型,之后还包括:
在任一语段的内容类型为申报条件的情况下,提取所述任一语段的语段关键词,并基于所述语段关键词,对所述任一语段所指示申报条件的限制对象进行分类,得到所述任一语段的限制对象类型,并将所述限制对象类型加入所述任一语段的内容类型。
3.根据权利要求1所述的信息结构化方法,其特征在于,所述获取针对企业的扶持政策文本,包括:
获取候选政策文本;
基于文本分类器,以扶持政策文本中存在申请条件和申请程序的相关内容为分类依据,对所述候选政策文本进行文本分类;
将文本分类结果为扶持政策的候选政策文本确定为针对企业的扶持政策文本。
4.一种检索方法,其特征在于,包括:
接收用户终端发送的目标支持方向;
从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端;
所述结构化信息是基于如权利要求1至3中任一项所述的信息结构化方法确定的。
5.根据权利要求4所述的检索方法,其特征在于,所述从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,包括:
基于语义模型,对所述目标支持方向进行语义编码,得到目标支持方向特征;
将所述目标支持方向特征与各扶持政策文本的支持方向特征进行匹配,得到支持方向特征与所述目标支持方向特征匹配的扶持政策文本;
所述各扶持政策文本的支持方向特征是基于所述语义模型,对所述各扶持政策文本中内容类型为支持方向的语段进行语义编码得到的。
6.根据权利要求5所述的检索方法,其特征在于,所述语义模型是基于正例样本和反例样本,对初始语义模型进行无监督训练得到的;
所述正例样本包括第一支持方向语段和第二支持方向语段,所述第二支持方向语段是对所述第一支持方向语段进行微调得到的;
所述反例样本包括所述第一支持方向语段和第三支持方向语段,所述第三支持方向语段与所述第一支持方向语段表征不同的支持方向。
7.根据权利要求4至6中任一项所述的检索方法,其特征在于,所述接收用户终端发送的目标支持方向,包括:
接收用户终端发送的目标支持方向和目标申报条件;
所述从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,包括:
基于所述目标申报条件,所述目标扶持政策文本的申报条件公式和申报条件限制类型,确定所述目标扶持政策文本的匹配度;
将所述目标扶持政策文本以及所述匹配度返回至所述用户终端;
其中,所述申报条件公式是对所述目标扶持政策文本中内容类型为申报条件的语段进行分句,并基于预设模板将分句所得的子句进行公式转换得到的;
所述申报条件限制类型基于所述目标扶持政策文本中内容类型为申报条件的段落中的关键词确定。
8.一种信息结构化装置,其特征在于,包括:
文本获取单元,用于获取针对企业的扶持政策文本;
结构化单元,用于对所述扶持政策文本进行结构化,得到所述扶持政策文本中各语段的结构类型;
分类单元,用于对所述各语段的语段内容进行分类,得到所述各语段的内容类型,所述内容类型包括支持方式、支持方向、申报条件、政策方和申请时间中的至少一种;
信息确定单元,用于基于所述各语段的结构类型和内容类型,确定所述扶持政策文本的结构化信息。
9.一种检索装置,其特征在于,包括:
方向接收单元,用于接收用户终端发送的目标支持方向;
文本确定单元,用于从各扶持政策文本的结构化信息中,确定出支持方向与所述目标支持方向匹配的扶持政策文本,作为目标扶持政策文本,并将所述目标扶持政策文本的结构化信息返回至所述用户终端,所述结构化信息是基于如权利要求1至3中任一项所述的信息结构化方法确定的。
10.根据权利要求9所述的检索装置,其特征在于,所述方向接收单元包括条件接收子单元,用于:
接收用户终端发送的目标支持方向和目标申报条件;
相应地,文本确定单元包括匹配度确定子单元,用于:
基于所述目标申报条件,所述目标扶持政策文本的申报条件公式和申报条件限制类型,确定所述目标扶持政策文本的匹配度;
将所述目标扶持政策文本以及所述匹配度返回至所述用户终端;
其中,所述申报条件公式是对所述目标扶持政策文本中内容类型为申报条件的语段进行分句,并基于预设模板将分句所得的子句进行公式转换得到的;
所述申报条件限制类型基于所述目标扶持政策文本中内容类型为申报条件的段落中的关键词确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210204838.7A CN115062141A (zh) | 2022-03-03 | 2022-03-03 | 信息结构化和检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210204838.7A CN115062141A (zh) | 2022-03-03 | 2022-03-03 | 信息结构化和检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062141A true CN115062141A (zh) | 2022-09-16 |
Family
ID=83196738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210204838.7A Pending CN115062141A (zh) | 2022-03-03 | 2022-03-03 | 信息结构化和检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062141A (zh) |
-
2022
- 2022-03-03 CN CN202210204838.7A patent/CN115062141A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11687827B2 (en) | Artificial intelligence (AI)-based regulatory data processing system | |
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
Johann et al. | Safe: A simple approach for feature extraction from app descriptions and app reviews | |
CA3098802C (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
CN112035653B (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
US8266148B2 (en) | Method and system for business intelligence analytics on unstructured data | |
US10410136B2 (en) | Model-based classification of content items | |
US20170075978A1 (en) | Model-based identification of relevant content | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN112231494A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN116384889A (zh) | 基于自然语言处理技术的情报大数据智能分析方法 | |
US20210232615A1 (en) | Systems and method for generating a structured report from unstructured data | |
CN112699245A (zh) | 预算管理知识图谱的构建方法、装置及应用方法、装置 | |
Zhang et al. | A text mining based method for policy recommendation | |
CN115062141A (zh) | 信息结构化和检索方法及装置 | |
CN113095078A (zh) | 关联资产确定方法、装置和电子设备 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN115619443A (zh) | 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN112445955A (zh) | 商机信息管理方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |