CN114547087B - 提案自动识别并生成报告的方法、装置、设备和介质 - Google Patents
提案自动识别并生成报告的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN114547087B CN114547087B CN202210450048.7A CN202210450048A CN114547087B CN 114547087 B CN114547087 B CN 114547087B CN 202210450048 A CN202210450048 A CN 202210450048A CN 114547087 B CN114547087 B CN 114547087B
- Authority
- CN
- China
- Prior art keywords
- statistical
- recognized
- weight
- matching
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2445—Data retrieval commands; View definitions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Probability & Statistics with Applications (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及提案自动识别并生成报告的方法、装置、设备和介质。方法包括:提取统计语义样本,设置统计语义样本中每个关键词的第一位置向量;第一位置向量用于描述关键词在统计语义样本中的第一位置信息、第一词频信息和第一权重信息;从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;第二位置向量用于描述识别词在待识别语句中的第二位置信息、第二词频信息和第二权重信息;将待识别语句和统计语义样本进行匹配,得到关联权重;当关联权重的值大于预先设置的权重阈值,则将待识别语句并入统计语义样本;根据统计语义样本,生成待识别提案的报告。采用本方法能够自动识别并生成报告。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及提案自动识别并生成报告的方法、装置、设备和介质。
背景技术
随着计算机技术的发展,传统人工作业逐渐被计算机替代,在各类会议开展时,会议参与者一般而言会提交大量的提案,为了提高会议的进展,需要对所提交的提案进行分析,生成报告。
传统技术中,自动生成统计报告都需要事先预定义统计模板,统计指标固定,后台根据固定的统计指标自动填充数据。但是,一旦提案的文字内容与统计指标发生变化,就需要重新生成代码,无法高效实时生成报告。
发明内容
基于此,有必要针对上述技术问题,提供一种提案自动识别并生成报告的方法、装置、设备和介质,能够自动识别并生成报告。
提案自动识别并生成报告的方法,包括:
从历史提案库中提取关联统计数据的统计语义样本,设置所述统计语义样本中每个关键词的第一位置向量;所述第一位置向量用于描述所述关键词在所述统计语义样本中的第一位置信息、第一词频信息和第一权重信息;
从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;所述第二位置向量用于描述所述识别词在所述待识别语句中的第二位置信息、第二词频信息和第二权重信息;
将所述待识别语句和所述统计语义样本进行匹配,根据所述第一词频信息和所述第二词频信息,得到与所述识别词匹配的关键词和匹配数;根据所述识别词的第二位置信息和所述关键词的第一位置信息,计算距离差;根据所述匹配数、所述距离差、所述第一权重信息以及所述第二权重信息,得到所述待识别语句和所述统计语义样本的关联权重;
当所述关联权重的值大于预先设置的权重阈值,则将所述待识别语句并入所述统计语义样本;
根据所述统计语义样本,生成所述待识别提案的报告。
在其中一个实施例中,还包括:
建立统计语义样本的关联关系;根据关联关系,将所述待识别语句和所述统计语义样本进行指标关联匹配;当匹配结果为匹配失败时,根据所述待识别语句更新统计语义样本。
在其中一个实施例中,从历史提案库中提取关联统计数据的统计语义样本包括:
获取历史提案库,得到历史提案,从所述历史提案中提取统计语句以及与所述统计语句相对应的统计数据,对所述统计语句和所述统计数据做规范化处理,生成所述统计语义样本。
在其中一个实施例中,每个统计语义样本均包括多个统计语句,每个统计语句均包括多个关键词。
在其中一个实施例中,每个统计语句均对应一个查询语法,执行所述查询语法即可得到所述统计语句对应的具体数据。
在其中一个实施例中,所述第一权重信息和所述第二权重信息是采用TFIDF算法计算得到的。
提案自动识别并生成报告的装置,包括:
统计语义样本处理模块,用于从历史提案库中提取关联统计数据的统计语义样本,设置所述统计语义样本中每个关键词的第一位置向量;所述第一位置向量用于描述所述关键词在所述统计语义样本中的第一位置信息、第一词频信息以及第一权重信息;
待识别语句处理模块,用于从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;所述第二位置向量用于描述所述识别词在所述待识别语句中的第二位置信息、第二词频信息和第二权重信息;
匹配模块,用于将所述待识别语句和所述统计语义样本进行匹配,根据所述第一词频信息和所述第二词频信息,得到与所述识别词匹配的关键词和匹配数;根据所述识别词的第二位置信息和所述关键词的第一位置信息,计算距离差;根据所述匹配数、所述距离差、所述第一权重信息以及所述第二权重信息,得到所述待识别语句和所述统计语义样本的关联权重;
判断模块,用于当所述关联权重的值大于预先设置的权重阈值,则将所述待识别语句并入所述统计语义样本;
报告生成模块,用于根据所述统计语义样本,生成所述待识别提案的报告。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从历史提案库中提取关联统计数据的统计语义样本,设置所述统计语义样本中每个关键词的第一位置向量;所述第一位置向量用于描述所述关键词在所述统计语义样本中的第一位置信息、第一词频信息和第一权重信息;
从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;所述第二位置向量用于描述所述识别词在所述待识别语句中的第二位置信息、第二词频信息和第二权重信息;
将所述待识别语句和所述统计语义样本进行匹配,根据所述第一词频信息和所述第二词频信息,得到与所述识别词匹配的关键词和匹配数;根据所述识别词的第二位置信息和所述关键词的第一位置信息,计算距离差;根据所述匹配数、所述距离差、所述第一权重信息以及所述第二权重信息,得到所述待识别语句和所述统计语义样本的关联权重;
当所述关联权重的值大于预先设置的权重阈值,则将所述待识别语句并入所述统计语义样本;
根据所述统计语义样本,生成所述待识别提案的报告。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从历史提案库中提取关联统计数据的统计语义样本,设置所述统计语义样本中每个关键词的第一位置向量;所述第一位置向量用于描述所述关键词在所述统计语义样本中的第一位置信息、第一词频信息和第一权重信息;
从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;所述第二位置向量用于描述所述识别词在所述待识别语句中的第二位置信息、第二词频信息和第二权重信息;
将所述待识别语句和所述统计语义样本进行匹配,根据所述第一词频信息和所述第二词频信息,得到与所述识别词匹配的关键词和匹配数;根据所述识别词的第二位置信息和所述关键词的第一位置信息,计算距离差;根据所述匹配数、所述距离差、所述第一权重信息以及所述第二权重信息,得到所述待识别语句和所述统计语义样本的关联权重;
当所述关联权重的值大于预先设置的权重阈值,则将所述待识别语句并入所述统计语义样本;
根据所述统计语义样本,生成所述待识别提案的报告。
上述提案自动识别并生成报告的方法、装置、设备和介质,通过统计语义样本与待识别提案的匹配,将不在统计语义样本中但可以生成报告的语句识别出来,并更新统计语义样本。本申请可以识别各种类型的提案,作为识别标准的统计语义样本是动态可更新的,从而可以准确地生成报告。
附图说明
图1为一个实施例中提案自动识别并生成报告的方法的应用场景图;
图2为一个实施例中提案自动识别并生成报告的方法的流程示意图;
图3为一个实施例中提案自动识别并生成报告的装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的提案自动识别并生成报告的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是各类门户网站、工作系统后台对应的服务器等。
如图2所示,在一个实施例中,提供了一种提案自动识别并生成报告的方法,以该方法应用于图1中的终端为例进行说明,包括:
步骤202,从历史提案库中提取关联统计数据的统计语义样本,设置统计语义样本中每个关键词的第一位置向量;第一位置向量用于描述所述关键词在统计语义样本中的第一位置信息、第一词频信息以及第一权重信息。
步骤204,从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;第二位置向量用于描述识别词在待识别语句中的第二位置信息、第二词频信息和第二权重信息。
步骤206,将待识别语句和统计语义样本进行匹配,根据第一词频信息和第二词频信息,得到与识别词匹配的关键词和匹配数;根据识别词的第二位置信息和关键词的第一位置信息,计算距离差;根据匹配数、距离差、第一权重信息以及第二权重信息,得到待识别语句和统计语义样本的关联权重。
步骤208,当关联权重的值大于预先设置的权重阈值,则将待识别语句并入统计语义样本。
步骤210,根据统计语义样本,生成待识别提案的报告。
在本实施例中,从历史提案库中提取关联统计数据的统计语义样本包括:
获取历史提案库,得到历史提案,从所述历史提案中提取统计语句以及与所述统计语句相对应的统计数据,对所述统计语句和所述统计数据做规范化处理,生成所述统计语义样本。
所有统计语义样本构成统计语料库。
每个统计语义样本均包括多个统计语句,每个统计语句均包括多个关键词。
每个统计语句均对应一个查询语法,执行所述查询语法即可得到所述统计语句对应的具体数据。
第一位置信息是指关键词在统计语句中的位置,第二位置信息是指识别词在待识别语句中的位置。
第一词频信息是指关键词在统计语义样本中的次数,第二词频信息是指识别词在待识别语句中的次数。
第一权重信息和第二权重信息可以体现一个词对于整个语句语义的影响程度,均可以采用TFIDF算法计算得到。
具体的,举例说明如下:
对于统计语义样本“共提交多少提案数”,其对应的统计语句有:
1、本次会议一共提交了提案;
2、本次会议共接收委员提案;
3、委员共提交提案。
那么该统计语义样本中关键词及其第一位置向量(第一位置信息包括“排在第几个单词”、“开始位置”和“结束位置”,第一词频信息包括“第一次数”,第一权重信息包括“第一权重”)如下:
本次:position(排在第几个单词):1,start(开始位置):0,end(结束位置):2,freq(第一次数):2,第一权重:0.23;
会议:position(排在第几个单词):2,start(开始位置):2,end(结束位置):4,freq(第一次数):2,第一权重:0.85;
一共:position(排在第几个单词):3,start(开始位置):4,end(结束位置):6,freq(第一次数):1,第一权重:0.13;
共:position(排在第几个单词):2和3,start(开始位置):2和4,end(结束位置):3和5,freq(第一次数):2,第一权重:0.11;
提交:position(排在第几个单词):3和4,start(开始位置):3和6,end(结束位置):5和8,freq(第一次数):2,第一权重:0.54;
接收:position(排在第几个单词):4,start(开始位置):5,end(结束位置):7,freq(第一次数):1,第一权重:0.71;
提案:position(排在第几个单词):4和6,start(开始位置):5和9,end(结束位置):7和11,freq(第一次数):3,第一权重:1.22;
委员:position(排在第几个单词):1,start(开始位置):0,end(结束位置):2,freq(第一次数):1,第一权重:1.23。
对于待识别提案,假设其描述语句为“这次会议委员共提交提案”,那么该句中识别词及其第二位置向量(第二位置信息包括“排在第几个单词”、“开始位置”和“结束位置”,第二词频信息包括“第二次数”,第二权重信息包括“第二权重”)如下:
这次:position(排在第几个单词):1,start(开始位置):0,end(结束位置):2,freq(第二次数):1,第二权重:0.25;
会议:position(排在第几个单词):2,start(开始位置):2,end(结束位置):4,freq(第二次数):1,第二权重:0.85;
委员:position(排在第几个单词):3,start(开始位置):4,end(结束位置):6,freq(第二次数):1,第二权重:1.23;
共:position(排在第几个单词):4,start(开始位置):6,end(结束位置):7,freq(第二次数):1,第二权重:0.11;
提交:position(排在第几个单词):5,start(开始位置):7,end(结束位置):9,freq(第二次数):1,第二权重:0.54;
提案:position(排在第几个单词):6,start(开始位置):9,end(结束位置):1,freq(第二次数):1,第二权重:1.22。
将“这次会议委员共提交提案”与“共提交多少提案数”对应的统计语句依次进行关联匹配。关联关系如下:
这次:匹配数:0
会议:匹配数:1,距离差:min(pos-post[i])=0
委员:匹配数:1 ,距离差:min(pos-post[i])=4
共:匹配数:1 ,距离差:min(pos-post[i])=2
提交:匹配数:1,距离差:min(pos-post[i])=1
提案:匹配数:1,距离差:min(pos-post[i])=0
需要说明:
1)对于关键词或识别词来说,其结束位置与开始位置之差等于关键词或识别词的字数。
2)第一次数即第一词频信息,第二次数即第二词频信息。
3)对于相同的词来说,第一权重与第二权重相等。
4)匹配数是指识别词匹配到关键词的次数,匹配到也就是在统计语义样本中存在与识别词相同的关键词,匹配数大于零,则表示匹配成功,匹配数的值在第一次数与第二次数之中取小;否则,匹配数等于零,识别词未匹配到相同的关键词,匹配失败。
5)当识别词匹配到相同的关键词时,识别词与关键词存在距离差,距离差是指统计语句和待识别语句中相同词的位置差距,即识别词与关键词的开始位置之差或结束位置之差。
计算当前描述语句“这次会议委员共提交提案”与统计语义样本“共提交多少提案数”之间的关联权重:
式中,W表示关联权重;i表示第i次匹配到,n表示匹配数大于零的识别词的个数,freqi表示匹配成功的识别词的匹配数,weighti表示匹配成功的识别词的第二权重,gapi表示距离差,j表示第j次未匹配到,m表示匹配数等于零的识别词的个数,freqj表示匹配失败的识别词的匹配数, weightj表示匹配失败的识别词的第二权重。
可以看出,分子表示匹配成功的值,分母表示的是匹配失败的值。
按同样的方法,依次计算当前描述语句(即待识别语句)与其他的统计语义样本之间的关联权重,关联权重越大,表明越相关。取最大关联权重的统计语义样本作为本次识别出来的指标。
权重阈值是对关联权重进行判断的标准值,可以取所有关联权重的最大值,也可以按照具体情况进行设置。
至于如何根据统计语义样本生成报告,可以使用现有技术中的方法,在此不再赘述。
本申请根据各地的历史提案报告,提炼出所有的统计语义样本后,利用计算机学习算法进行训练,将同一类型的统计语义样本进行归类后,最终得到一批标准的统计语义样本,如:提案总数、各性别委员提交数量、与上次会议总数对比等。根据计算机学习训练的结果,建立各统计语义样本的关键词的第一位置向量,并且每一个统计语句,对应后台数据库的一个查询语法,执行该语法,即得到该统计语句的具体数据(即统计数据)。当识别新的提案时,可以自动识别提案内容中的语句,并将其与统计语义样本进行关联匹配,最相关的即为当前语句要统计的语义样本。
上述提案自动识别并生成报告的方法、装置、设备和介质,通过统计语义样本与待识别提案的匹配,将不在统计语义样本中但可以生成报告的语句识别出来,并更新统计语义样本。本申请可以识别各种类型的提案,作为识别标准的统计语义样本是动态可更新的,从而可以准确地生成报告。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,还包括:
建立统计语义样本的关联关系;根据关联关系,将所述待识别语句和所述统计语义样本进行指标关联匹配;当匹配结果为匹配失败时,根据所述待识别语句更新统计语义样本。
具体的:
建立统计语义样本中各统计语句之间的关联关系;根据各统计语句之间是否存在关联关系,提取统计语义样本中的关联集或候选集,将所述待识别语句和所述关联集或候选集进行指标关联匹配,得到匹配结果;当匹配结果为匹配失败时,根据所述待识别语句建立新的统计语句并更新统计语义样本。
指标关联匹配是指:比较进行匹配的两者之间的相似度,可以通过现有技术得到。
更进一步的:
1)建立统计语义样本中各统计语句之间的关联关系;
2)当统计语句之间存在关联关系时,将存在关联关系的统计语句整合生成关联集;将所述待识别语句与所述关联集进行指标关联匹配;
按照关联集中任一统计语句对应的查询语法执行,得到第一结果;待识别语句中包含识别结果,比较第一结果与识别结果,当第一结果与识别结果相同时,则识别正确,匹配成功,该待识别语句即为所述任一统计语句;
当第一结果与识别结果不相同时,则识别错误,按照关联集中剩余统计语句对应的查询语法执行,得到第二结果;按照关联关系,得到第二结果的预测结果;比较预测结果与识别结果,当预测结果与识别结果相同时,则该待识别语句实际与所述任一统计语句对应,匹配成功,将该待识别语句加入所述关联集所在的统计语义样本,更新统计语义样本;
当预测结果与识别结果不相同时,则待识别语句与该关联集不匹配,匹配结果为匹配失败,根据待识别语句生成新的统计语句,更新统计语义样本。
需要说明:关联集可以有多个,在进行指标关联匹配时,是与所有关联集逐一进行,直至遍历所有关联集。
3)当统计语句之间不存在关联关系时,计算待识别语句与统计语义样本中各统计语句之间的语义距离(语义距离可以根据现有技术得到);将语义距离满足预设关联阈值的统计语句整合生成候选集;将所述待识别语句与所述候选集进行指标关联匹配;
按照候选集中任一统计语句对应的查询语法执行,得到预识别数;待识别语句中包含识别数,比较预识别数与识别数,当预识别数与识别数完全一致时,则识别正确,匹配成功,该待识别语句即为所述任一统计语句;
当预识别数与识别数存在不同时,则识别错误,按照候选集中下一统计语句对应的查询语法执行,直至遍历候选集中的所有统计语句;当得到的某个预识别数与识别数相同时,则识别正确,匹配成功,该待识别语句即为对应的统计语句;
当得到的所有预识别数与识别数均存在不同时,则待识别语句与该候选集不匹配,匹配结果为匹配失败,根据待识别语句生成新的统计语句,更新统计语义样本。
需要说明:候选集仅有一个,在进行指标关联匹配时,是与候选集中所有统计语句逐一进行,直至遍历候选集中的所有统计语句。
也就是说,在做指标关联匹配的时候,利用的是待识别提案的待识别语句与统计语料库(包含若干统计语义样本)做关联计算,即计算相似度,一般相似度最大,则关系最紧密,即认为属于该统计语义样本。而实际情况中可能会出现正确的统计语义样本A与当前的待识别语句的相似度比统计语义样本B与待识别语句小的问题。为了保证自动识别的统计语义样本正确,本申请还发明了一种自动校验的方法。以下举例说明,例中的指标即为统计语句。
1、通过建立的关联关系,利用其他指标来验证当前指标的正确性。比如,今年总提交提案1200篇提案,男委员提交800篇,女委员400篇。这三个统计指标存在一个关联关系:A(总提交提案)=B(男委员提交)+C(女委员),因此,可以通过另外两个统计指标,来验证当前指标(总共递交提案)的正确性。比如将A指标识别成了D指标(提交提案时间),并且根据D指标算出来的值与当前审查报告上的值不相同,则说明指标识别错误,则可以根据B和C指标(需要B和C的指标值与实际的值相同,即认为B和C识别正确)的值(第二结果包括:B指标的值为800,C指标的值为400;根据关联关系,得到预测结果为1200)来验证当前指标的值是否相同。如果相同,说明当前的指标应该是A而非D,所以自动将报告上统计指标修复为A,同时将提案上当前指标的描述语句加入到A指标的统计语义样本,以提高后续识别的准确率。
2、如果某指标没有与其他指标的关联关系,假设将A指标识别成了D指标,并且根据D指标算出来的值与当前审查报告上的值不相同,则说明指标识别错误,因此根据语义距离预设一个关联阈值,满足关联阈值的统统进入识别到的候选集。将候选集中的候选指标对应的语法逐一执行,当发现第一个指标值与实际的指标统计值不匹配时,从指标候选集挑出排在第二位的统计指标进行计算,如果与当前指标的值相同则匹配成功,否则继续下一个候选指标,直至遍历所有指标。例如:待识别语句是在本次会议中委员们共提交837篇提案,其中男委员提交631篇,女委员提交206篇,而没有标明这段语句对应哪一个统计语义样本以及对应的sql语法,所以采用语义距离,识别这个待识别语句与统计语义样本中哪一个统计语句最接近,然后就拿对应的sql执行。当语义距离小于某一个关联阈值的,就都挑出来作为候选集,比如上面这段话可能匹配到语义样本中的“总共提交多少篇,男委员提交多少篇,女委员提交多少篇”,也有可能匹配到“总共提交多少篇,50岁以下的提交多少篇,50岁以上的提交多少篇”,只要匹配到的这两句与原文的语义距离小于某个关联阈值,就均挑出来作为候选集。然后再根据原文中的数字,比如837,631,206,与按匹配到的统计语句对应的sql语法执行后得到的值进行判断,如果不匹配,则将排在第二位的统计语句拿出来,执行它对应的sql语法。依次执行候选集中每个统计语句对应的语法,直到找到按sql执行的值与原文中的值相同为止,否则说明该候选集中不存在合适的统计语句和语法,这时需要把当前待识别语句作为一个新的统计语句加入到统计语义样本,并人工匹配它对应的sql查询语法来完善我们的统计语料库。
本发明提出一种提案自动识别并生成报告的方法,能够根据以往的提案报告进行训练,自动识别新的提案报告内容,并生成报告;而且能够自动进行数据校验,提高识别的准确度;还能在自动进行数据校验的同时,更新统计语义样本以完善统计语料库,从而可以实现更一步的动态精确识别。
在一个实施例中,如图3所示,提供了一种提案自动识别并生成报告的装置,包括:统计语义样本处理模块302、待识别语句处理模块304、匹配模块306、判断模块308和报告生成模块310,其中:
统计语义样本处理模块302,用于从历史提案库中提取关联统计数据的统计语义样本,设置所述统计语义样本中每个关键词的第一位置向量;所述第一位置向量用于描述所述关键词在所述统计语义样本中的第一位置信息、词频信息以及第一权重信息;
待识别语句处理模块304,用于从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;所述第二位置向量用于描述所述识别词在所述待识别语句中的第二位置信息和第二权重信息;
匹配模块306,用于将所述待识别语句和所述统计语义样本进行匹配,根据所述第一词频信息和所述第二词频信息,得到与所述识别词匹配的关键词和匹配数;根据所述识别词的第二位置信息和所述关键词的第一位置信息,计算距离差;根据所述匹配数、所述距离差、所述第一权重信息以及所述第二权重信息,得到所述待识别语句和所述统计语义样本的关联权重;
判断模块308,用于当所述关联权重的值大于预先设置的权重阈值,则将所述待识别语句并入所述统计语义样本;
报告生成模块310,用于根据所述统计语义样本,生成所述待识别提案的报告。
在一个实施例中,判断模块308还用于建立统计语义样本的关联关系;根据关联关系,将所述待识别语句和所述统计语义样本进行指标关联匹配;当匹配结果为匹配失败时,根据所述待识别语句更新统计语义样本。
在一个实施例中,统计语义样本处理模块302还用于获取历史提案库,得到历史提案,从所述历史提案中提取统计语句以及与所述统计语句相对应的统计数据,对所述统计语句和所述统计数据做规范化处理,生成所述统计语义样本。
在一个实施例中,统计语义样本处理模块302还用于每个统计语义样本均包括多个统计语句,每个统计语句均包括多个关键词。
在一个实施例中,统计语义样本处理模块302还用于每个统计语句均对应一个查询语法,执行所述查询语法即可得到所述统计语句对应的具体数据。
在一个实施例中,统计语义样本处理模块302和待识别语句处理模块304还用于所述第一权重信息和所述第二权重信息是采用TFIDF算法计算得到的。
关于提案自动识别并生成报告的装置的具体限定可以参见上文中对于提案自动识别并生成报告的方法的限定,在此不再赘述。上述提案自动识别并生成报告的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提案自动识别并生成报告的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.提案自动识别并生成报告的方法,其特征在于,包括:
从历史提案库中提取关联统计数据的统计语义样本,设置所述统计语义样本中每个关键词的第一位置向量;所述第一位置向量用于描述所述关键词在所述统计语义样本中的第一位置信息、第一词频信息和第一权重信息;
从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;所述第二位置向量用于描述所述识别词在所述待识别语句中的第二位置信息、第二词频信息和第二权重信息;
将所述待识别语句和所述统计语义样本进行匹配,根据所述第一词频信息和所述第二词频信息,得到与所述识别词匹配的关键词和匹配数;根据所述识别词的第二位置信息和所述关键词的第一位置信息,计算距离差;根据所述匹配数、所述距离差、所述第一权重信息以及所述第二权重信息,得到所述待识别语句和所述统计语义样本的关联权重:
式中,W表示关联权重;i表示第i次匹配到,n表示匹配数大于零的识别词的个数,freqi表示匹配成功的识别词的匹配数,weighti表示匹配成功的识别词的第二权重,gapi表示距离差,j表示第j次未匹配到,m表示匹配数等于零的识别词的个数,freqj表示匹配失败的识别词的匹配数,weightj表示匹配失败的识别词的第二权重;
当所述关联权重的值大于预先设置的权重阈值,则将所述待识别语句并入所述统计语义样本;
根据所述统计语义样本,生成所述待识别提案的报告。
2.根据权利要求1所述的方法,其特征在于,还包括:
建立统计语义样本的关联关系;根据关联关系,将所述待识别语句和所述统计语义样本进行指标关联匹配;当匹配结果为匹配失败时,根据所述待识别语句更新统计语义样本。
3.根据权利要求2所述的方法,其特征在于,从历史提案库中提取关联统计数据的统计语义样本包括:
获取历史提案库,得到历史提案,从所述历史提案中提取统计语句以及与所述统计语句相对应的统计数据,对所述统计语句和所述统计数据做规范化处理,生成所述统计语义样本。
4.根据权利要求3所述的方法,其特征在于,每个统计语义样本均包括多个统计语句,每个统计语句均包括多个关键词。
5.根据权利要求4所述的方法,其特征在于,每个统计语句均对应一个查询语法,执行所述查询语法即可得到所述统计语句对应的具体数据。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述第一权重信息和所述第二权重信息是采用TFIDF算法计算得到的。
7.提案自动识别并生成报告的装置,其特征在于,包括:
统计语义样本处理模块,用于从历史提案库中提取关联统计数据的统计语义样本,设置所述统计语义样本中每个关键词的第一位置向量;所述第一位置向量用于描述所述关键词在所述统计语义样本中的第一位置信息、第一词频信息以及第一权重信息;
待识别语句处理模块,用于从待识别提案中提取待识别语句,并设置待识别语句中每个识别词的第二位置向量;所述第二位置向量用于描述所述识别词在所述待识别语句中的第二位置信息、第二词频信息和第二权重信息;
匹配模块,用于将所述待识别语句和所述统计语义样本进行匹配,根据所述第一词频信息和所述第二词频信息,得到与所述识别词匹配的关键词和匹配数;根据所述识别词的第二位置信息和所述关键词的第一位置信息,计算距离差;根据所述匹配数、所述距离差、所述第一权重信息以及所述第二权重信息,得到所述待识别语句和所述统计语义样本的关联权重:
式中,W表示关联权重;i表示第i次匹配到,n表示匹配数大于零的识别词的个数,freqi表示匹配成功的识别词的匹配数,weighti表示匹配成功的识别词的第二权重,gapi表示距离差,j表示第j次未匹配到,m表示匹配数等于零的识别词的个数,freqj表示匹配失败的识别词的匹配数,weightj表示匹配失败的识别词的第二权重;
判断模块,用于当所述关联权重的值大于预先设置的权重阈值,则将所述待识别语句并入所述统计语义样本;
报告生成模块,用于根据所述统计语义样本,生成所述待识别提案的报告。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450048.7A CN114547087B (zh) | 2022-04-27 | 2022-04-27 | 提案自动识别并生成报告的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450048.7A CN114547087B (zh) | 2022-04-27 | 2022-04-27 | 提案自动识别并生成报告的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547087A CN114547087A (zh) | 2022-05-27 |
CN114547087B true CN114547087B (zh) | 2022-07-26 |
Family
ID=81667189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210450048.7A Active CN114547087B (zh) | 2022-04-27 | 2022-04-27 | 提案自动识别并生成报告的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547087B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471187B (zh) * | 2022-09-05 | 2023-06-16 | 漱玉平民大药房连锁股份有限公司 | 一种确认线下会议参会人员的方法、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110674378A (zh) * | 2019-09-26 | 2020-01-10 | 科大国创软件股份有限公司 | 基于余弦相似度和最小编辑距离的中文语义识别方法 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN114328800A (zh) * | 2021-11-16 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备和计算机可读存储介质 |
-
2022
- 2022-04-27 CN CN202210450048.7A patent/CN114547087B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110674378A (zh) * | 2019-09-26 | 2020-01-10 | 科大国创软件股份有限公司 | 基于余弦相似度和最小编辑距离的中文语义识别方法 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN114328800A (zh) * | 2021-11-16 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114547087A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765763B (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
CN109473093B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN111832294B (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
CN109087205B (zh) | 舆情指数的预测方法及装置、计算机设备和可读存储介质 | |
CN112836484B (zh) | 一种文本对齐方法、装置、电子设备、计算机可读存储介质 | |
CN109800346B (zh) | 文本匹配方法、装置、计算机设备和存储介质 | |
CN111178064B (zh) | 基于字段分词处理的信息推送方法、装置和计算机设备 | |
CN110674131A (zh) | 财务报表数据处理方法、装置、计算机设备和存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN111859916B (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN111723870A (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN112395391B (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN114547087B (zh) | 提案自动识别并生成报告的方法、装置、设备和介质 | |
CN111783460A (zh) | 一种企业简称提取方法、装置、计算机设备及存储介质 | |
CN111797217B (zh) | 基于faq匹配模型的信息查询方法、及其相关设备 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN112507073A (zh) | 配电网作业文件的内容校验方法及相关设备 | |
CN113177405A (zh) | 基于bert的数据纠错方法、装置、设备及存储介质 | |
CN110362592B (zh) | 裁决指引信息推送方法、装置、计算机设备和存储介质 | |
CN113312258A (zh) | 一种接口测试方法、装置、设备及存储介质 | |
CN109344385B (zh) | 自然语言处理方法、装置、计算机设备和存储介质 | |
CN112363929B (zh) | 系统上线方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |