CN115019915A - 基于语义识别的流调报告生成方法、装置、设备及介质 - Google Patents

基于语义识别的流调报告生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN115019915A
CN115019915A CN202210613062.4A CN202210613062A CN115019915A CN 115019915 A CN115019915 A CN 115019915A CN 202210613062 A CN202210613062 A CN 202210613062A CN 115019915 A CN115019915 A CN 115019915A
Authority
CN
China
Prior art keywords
document
vector
syntactic
documents
semantic recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210613062.4A
Other languages
English (en)
Inventor
廖晨
蒋志燕
程刚
寇晓丽
张星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Raisound Technology Co ltd
Original Assignee
Shenzhen Raisound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Raisound Technology Co ltd filed Critical Shenzhen Raisound Technology Co ltd
Priority to CN202210613062.4A priority Critical patent/CN115019915A/zh
Publication of CN115019915A publication Critical patent/CN115019915A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种基于语义识别的流调报告生成方法、装置、设备及存储介质。所述方法包括:对原始流调统计数据执行缺失值填充操作得到目标流调统计数据,基于目标流调统计数据及对应的文档生成复合文档,计算复合文档中每个文档之间的文本相似度后执行去重操作得到目标复合文档,将每个文档执行句法分析得到每个文档的句法分析向量后输入语义识别模型,得到每个文档的语义识别结果,汇总目标流调统计数据及语义识别结果后填充至模板文件生成目标流调报告。本申请可以得到具有流调文档相关语义信息的目标流调报告供相关决策人员参考,且目标流调报告内容简洁。

Description

基于语义识别的流调报告生成方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于语义识别的流调报告生成方法、装置、设备及存储介质。
背景技术
流调是流行病学调查的简称,流调是控制流行病的关键,流调的目的是为了知晓相关人群在过去的某个时间段里所到过的地方及接触得到的人等等,从而确定该人群是否有传播疾病的可能或被传染疾病的风险。
目前,流调员对相关的被调查人群进行流调时会填写相关的流调统计数据及流调文档,之后需要根据流调统计数据及流调文档生成流调报告供疾病防控的决策人提供决策参考,现有技术中虽然存在相关的自动生成报告的方案,但这些方案大多仅是将内容直接填充至空白模板,这样无法体现报告中关于流调文档的相关语义。此外,由于被调查人的人数通常较多且被调查人员的出现过的地方也较多,不同的区域的流调员可能对同一个被调查人进行流调生成了多份流调文档,这些方案生成的流调报告内容过于繁杂。
发明内容
鉴于以上内容,本申请提供一种基于语义识别的流调报告生成方法、装置、设备及存储介质,其目的在于解决上述技术问题。
第一方面,本申请提供一种基于语义识别的流调报告生成方法,该方法包括:
从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
优选的,所述对所述原始流调统计数据执行缺失值填充操作,包括:
利用如下公式对所述原始流调统计数据中数值格式的数据执行缺失值填充操作:
Figure BDA0003672542900000021
其中,K表示填充的值,i表示变量的数量,Xit表示变量在一个时间点的取值,Xil表示变量在另一时间点的取值,
Figure BDA0003672542900000022
表示根据第i个变量的观测数据确定的标准差。
优选的,所述计算所述复合文档中的每个文档之间的文本相似度,包括:
对所述复合文档中的每个文档进行分段,得到每个文档对应的至少一个文本段;
对每个文本段执行分词操作得到每个文本段的至少一个分词,并将每个分词转换成词向量;
基于每个文本段之间各个词向量的相似度,确定每个文本段之间的相似度;
基于每个文本段之间的相似度,计算得到所述复合文档中的每个文档之间的文本相似度。
优选的,所述基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档,包括:
选取所述复合文档中文本相似度大于预设阈值的至少两个文档;
读取所述至少两个文档的标识信息,判断所述至少两个文档中是否存在标识信息相同的文档;
当判断所述至少两个文档中存在标识信息相同的文档时,保留所述标识信息相同的文档中的任一文档。
优选的,所述将所述目标复合文档中的每个文档执行句法分析得到句法分析向量,包括:
对所述目标复合文档中的每个文档执行分句操作,得到每个文档对应的至少一个语句;
将所述至少一个语句执行句法内容分析,得到所述至少一个语句对应的句法内容向量;
对所述至少一个语句执行依存句法分析,得到所述至少一个语句对应的句法依存向量;
对所述至少一个语句执行句法结构分析,得到所述至少一个语句对应的句法结构向量;
融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,基于每个语句的句法分析向量得到每个文档的句法分析向量。
优选的,所述融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,包括:
利用下述公式得到每个语句的句法分析向量:
Vsum=aV1+bV2+(1-a-b)V3
其中,Vsum表示所述句法分析向量,V1表示所述所述句法依存向量,V2表示所述句法结构向量,V3表示所述句法内容向量,a和b分别表示预设权重。
优选的,在生成目标流调报告之后,所述方法还包括:
将所述目标流调报告发送至预设终端并存储至预设模板库。
第二方面,本申请提供一种基于语义识别的流调报告生成装置,该基于语义识别的流调报告生成装置包括:
预处理模块:用于从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
第一生成模块:用于基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
去重模块:用于计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
识别模块:用于将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
第二生成模块:用于汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
第三方面,本申请提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于语义识别的流调报告生成方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于语义识别的流调报告生成方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请提出的基于语义识别的流调报告生成方法、装置、设备及存储介质,通过对原始流调统计数据执行缺失值填充操作,可以得到更准确地目标流调统计数据,基于目标流调统计数据及目标流调数据对应的文档创建的复合文档,在识别流调文档语义时可以提升流调报告的适应性,通过计算每个文档之间的文本相似度可以对复合文档执行去重操作得到目标复合文档,删除了重复的流调文档使得后续生成的流调报告内容更清晰与简洁。将目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,由于句法分析向量可以更准确地表征文档所表达的语义,将句法分析向量输入预先训练的语义识别模型,可以准确得到每个文档的语义识别结果,汇总目标流调统计数据及语义识别结果后填充至预设模板文件,得到具有流调文档相关语义信息的目标流调报告,目标流调报告可以供相关决策人员参考。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于语义识别的流调报告生成方法较佳实施例的流程图示意图;
图2为本申请基于语义识别的流调报告生成装置较佳实施例的模块示意图;
图3为本申请电子设备较佳实施例的示意图;
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种基于语义识别的流调报告生成方法。参照图1所示,为本申请基于语义识别的流调报告生成方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。基于语义识别的流调报告生成方法包括:
步骤S10:从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
步骤S20:基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
步骤S30:计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
步骤S40:将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
步骤S50:汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
本实施例中,预设流调数据库可以是存储有流调数据的数据库,流调数据包括流调员对被调查人员进行流调过程中采集的原始流调统计数据、流调文档、流调语音数据、流调视频数据等,流调文档记录有流调员在流调过程中得知的对疾病防控有用的文本信息。
由于预设流调数据库的数据是来源于不同的应用程序,从预设流调数据库读取的原始流调统计数据可能存在缺失的数据,因此还需要对原始流调统计数据执行数据填充操作,将执行数据填充操作后的流调统计数据作为目标流调统计数据。缺失值填充操作可以是全局常量自动填充、中心度量自动填充及同组均值自动填充中的至少一种。进一步地,还可以对原始流调统计数据进行数据一致性检测、错误数据检测等数据清洗操作。
得到填充了缺失值得目标流调统计数据之后,获取目标流调统计数据对应的流调文档,例如,目标流调统计数据涉及的被调查人员有30个,则获取这30个被调查人员对应的流调文档,根据目标流调统计数据及目标流调数据对应的流调文档生成复合文档。复合文档可以包含文本、图形、电子表格数据、声音、视频等数据,复合文档改变了用户组织文档及与网络上其他用户协同工作的方法,建立复合文档的趋势是使用面向对象技术,非标准信息如图像和声音可以作为独立的、自包含式对象包含在文档中。
得到复合文档后可以计算复合文档中的每个流调文档之间的文本相似度,例如,对两个文档进行进行分段后再进行分句,计算分句之间的余弦相似度距离或者欧式距离来确定分句之间的相似度,两个文档的分句之间的相似度进行求和作为文档的文本相似度,或者通过比较两个文档的simhash值的海明距离来获取两个文档之间的文本相似度。得到文档之间的文本相似度后,根据文本相似度对复合文档执行去重操作得到目标复合文档,将复合文档中相似度大于预设阈值(例如,95%)的文档只保留一份文档,例如,存在三个文档两两之间的相似度大于95%,则删除两个文档,仅保留一个文档。
将目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,句法分析有句法结构分析和句法依存关系分析两种,句法分析可以消除文档语句中词法和结构等方面的歧义,可以分析语句的内部结构,例如,成分构成、上下文关系等。执行句法结构分析可以利用基于规则的分析方法或基于统计的分析方法,执行句法依存关系分析可以利用生成式依存分析方法、判别式依存分析方法或决策性依存分析方法。
得到的句法分析向量可以准确地表征文档所表达的语义,将句法分析向量输入预先训练的语义识别模型得到每个文档的语义识别结果。其中,预先训练的语义识别模型可以是根据隐性马尔可夫模型训练得到的,模型训练为较成熟的技术,在此不在赘述。
从模板库读取相关的模板文件,模板文件是根据相关报告的标准格式预先配置的,汇总目标流调统计数据及文档的语义识别结果填充至预设模板文件的,可以生成目标流调报告。目标流调报告可以为相关人员提供流调的详细报告,例如,哪些场所是较多疾病的密切接触人员出现过的地方,近期内有多少人从疾病的风险地区到达过本区域等,从而为疾病防控提供决策参考。
进一步地,在生成目标流调报告之后,还可以将目标流调报告发送至预设终端并存储至预设模板库。预设终端可以是具有接收目标流调报告的相关决策人员对应的终端。
本申请通过对原始流调统计数据执行缺失值填充操作,可以得到更准确地目标流调统计数据,基于目标流调统计数据及目标流调数据对应的文档创建的复合文档,在识别流调文档语义时可以提升流调报告的适应性,通过计算每个文档之间的文本相似度可以对复合文档执行去重操作得到目标复合文档,删除了重复的流调文档使得后续生成的流调报告内容更清晰与简洁。将目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,由于句法分析向量可以更准确地表征文档所表达的语义,将句法分析向量输入预先训练的语义识别模型,可以准确得到每个文档的语义识别结果,汇总目标流调统计数据及语义识别结果后填充至预设模板文件,得到具有流调文档相关语义信息的目标流调报告,目标流调报告可以供相关决策人员参考。
在一个实施例中,所述对所述原始流调统计数据执行缺失值填充操作,包括:
利用如下公式对所述原始流调统计数据中数值格式的数据执行缺失值填充操作:
Figure BDA0003672542900000081
其中,K表示填充的值,i表示变量的数量,Xit表示变量在一个时间点的取值,Xil表示变量在另一时间点的取值,
Figure BDA0003672542900000082
表示根据第i个变量的观测数据确定的标准差。不同时间点下变量的差值除以
Figure BDA0003672542900000083
的目的是消除不同变量的量纲差别。
由于流调统计数据在管理过程中不同变量之间具有一定的相关性,考虑到原始流调统计数据的纵向数据集的变量特点,因此利用上述公式实施填充缺失值,即在包含完整数据的时间点记录内,确定与缺失数据时间点记录内未缺失变量取值得分匹配度最高的时间点记录,基于该完整时间点记录内的对应变量值,可以结合实际变量完成数据借补。
在一个实施例中,所述计算所述复合文档中的每个文档之间的文本相似度,包括:
对所述复合文档中的每个文档进行分段,得到每个文档对应的至少一个文本段;
对每个文本段执行分词操作得到每个文本段的至少一个分词,并将每个分词转换成词向量;
基于每个文本段之间各个词向量的相似度,确定每个文本段之间的相似度;
基于每个文本段之间的相似度,计算得到所述复合文档中的每个文档之间的文本相似度。
将复合文档中的每个文档进行分段后可以得到每个文档对应的文本段,利用分词算法对每个文本段执行分词操作得到每个文本段的分词,分词算法可以是最大正向匹配算法或最大逆向匹配算法,也可以是双向最大匹配算法。之后采用词向量模型word2vec模型将各个分词转换为词向量,word2vec模型可以将分词处理为向量空间中的向量运算,可以用于计算分词之间的相似度。
由于每个文本段有多个分词对应的词向量,将每个文本段对应的词向量进行拼接后得到的向量作为该文本段的向量,利用余弦相似度算法可以计算两个文本段之间的相似度,得到文本段两两之间的相似度之后,计算两个文档对应的文本段之间的相似度的均值,作为该两个文档之间的文本相似度,例如,例如,文档D有文本段d1、d2和d3,文档E有文本段e1、e2和e3,将d1和e1的相似度、d2和e2的相似度,以及d3和e3的相似度三者相似度的均值作为文档D和文档E的相似度。
在一个实施例中,所述基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档,包括:
选取所述复合文档中文本相似度大于预设阈值的至少两个文档;
读取所述至少两个文档的标识信息,判断所述至少两个文档中是否存在标识信息相同的文档;
当判断所述至少两个文档中存在标识信息相同的文档时,保留所述标识信息相同的文档中的任一文档。
根据文档之间的文本相似度,选取出文本相似度大于预设阈值(例如,95%)的至少两个文档,读取至少两个文档的标识信息,标识信息可以是文档对应的被调查人员的姓名或手机号码,判断相似度大于预设阈值的至少两个文档中是否存在标识信息相同的文档,即当存在相似度较高的文档时,判断相似度较高的文档是否为相同的被调查人员对应的文档,由于流调数据库中的流调文档来源于不同的应用程序,因此需要对相同的被调查人员的文档进行去重。当判断存在标识信息相同的文档时(即存在相同被调查人员的文档时),保留标识信息相同的文档中的任意一个文档。
在一个实施例中,所述将所述目标复合文档中的每个文档执行句法分析得到句法分析向量,包括:
对所述目标复合文档中的每个文档执行分句操作,得到每个文档对应的至少一个语句;
将所述至少一个语句执行句法内容分析,得到所述至少一个语句对应的句法内容向量;
对所述至少一个语句执行依存句法分析,得到所述至少一个语句对应的句法依存向量;
对所述至少一个语句执行句法结构分析,得到所述至少一个语句对应的句法结构向量;
融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,基于每个语句的句法分析向量得到每个文档的句法分析向量。
对目标复合文档中的每个文档执行分句操作,可以得到每个文档对应的至少一个语句,分别获取语句的句法内容向量、句法依存向量及句法结构向量,将句法内容向量、句法依存向量及句法结构向量融合得到每个语句的句法分析向量,将每个语句的句法分析向量拼接可以得到每个文档的句法分析向量。具体地,获取语句的句法内容向量可以是将语句的分词输入Bert模型得到每个分词的词向量,对每个分词对应的词向量求平均得到语句的句法内容向量,利用下述公式计算得到语句的句法内容向量:
V3=(p1+p2+p3+…+pm)/m
其中,V3表示句法内容向量,pm表示语句的第m个分词的词向量,m表示语句的分词的总数量。
句法结构向量可以是根据句法结构分析得到的,句法结构分析是指对语句中的词语语法功能进行分析,通过分析能够发现句子中所具有的句法结构和句子各组成部分间的关系。例如,对于语句“我是谁”,对其进行句法结构分析例如可以得到该语句中的“我”是主语,“是”是谓语,“谁”是宾语。句法结构分析可以是基于概率上下文无关模型的句法分析、基于中心词驱动的句法分析等,在此不做限定。
句法依存向量可以是利用基于图模型的依存句法分析或基于转移的依存句法分析,两种分析方法均可以提取出句法依存向量。
在一个实施例中,所述融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,包括:
利用下述公式得到每个语句的句法分析向量:
Vsum=aV1+bV2+(1-a-b)V3
其中,Vsum表示所述句法分析向量,V1表示所述所述句法依存向量,V2表示所述句法结构向量,V3表示所述句法内容向量,a和b分别表示预设权重。
由于语句的句法内容向量、句法依存向量及句法结构向量均影响着语句的语义,通过对语句的句法内容向量、句法依存向量及句法结构向量分别分配相关的权重,再进行拼接融合得到的语句的句法分析向量,可以更准确地表征语句所表达的语义。a和b可以是取相同的值,也可以取不同的值,例如,a和b的取值均为0.3,或者a取值为0.2,b取值为0.3,a和b的取值通常均小于0.4。
参照图2所示,为本申请基于语义识别的流调报告生成装置100的功能模块示意图。
本申请所述基于语义识别的流调报告生成装置100可以安装于电子设备中。根据实现的功能,所述基于语义识别的流调报告生成装置100可以包括预处理模块110、第一生成模块120、去重模块130、识别模块140及第二生成模块150。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
预处理模块110:用于从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
第一生成模块120:用于基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
去重模块130:用于计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
识别模块140:用于将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
第二生成模块150:用于汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
在一个实施例中,所述对所述原始流调统计数据执行缺失值填充操作,包括:
利用如下公式对所述原始流调统计数据中数值格式的数据执行缺失值填充操作:
Figure BDA0003672542900000111
其中,K表示填充的值,i表示变量的数量,Xit表示变量在一个时间点的取值,Xil表示变量在另一时间点的取值,
Figure BDA0003672542900000112
表示根据第i个变量的观测数据确定的标准差。
在一个实施例中,所述计算所述复合文档中的每个文档之间的文本相似度,包括:
对所述复合文档中的每个文档进行分段,得到每个文档对应的至少一个文本段;
对每个文本段执行分词操作得到每个文本段的至少一个分词,并将每个分词转换成词向量;
基于每个文本段之间各个词向量的相似度,确定每个文本段之间的相似度;
基于每个文本段之间的相似度,计算得到所述复合文档中的每个文档之间的文本相似度。
在一个实施例中,所述基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档,包括:
选取所述复合文档中文本相似度大于预设阈值的至少两个文档;
读取所述至少两个文档的标识信息,判断所述至少两个文档中是否存在标识信息相同的文档;
当判断所述至少两个文档中存在标识信息相同的文档时,保留所述标识信息相同的文档中的任一文档。
在一个实施例中,所述将所述目标复合文档中的每个文档执行句法分析得到句法分析向量,包括:
对所述目标复合文档中的每个文档执行分句操作,得到每个文档对应的至少一个语句;
将所述至少一个语句执行句法内容分析,得到所述至少一个语句对应的句法内容向量;
对所述至少一个语句执行依存句法分析,得到所述至少一个语句对应的句法依存向量;
对所述至少一个语句执行句法结构分析,得到所述至少一个语句对应的句法结构向量;
融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,基于每个语句的句法分析向量得到每个文档的句法分析向量。
在一个实施例中,所述融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,包括:
利用下述公式得到每个语句的句法分析向量:
Vsum=aV1+bV2+(1-a-b)V3
其中,Vsum表示所述句法分析向量,V1表示所述所述句法依存向量,V2表示所述句法结构向量,V3表示所述句法内容向量,a和b分别表示预设权重。
在一个实施例中,基于语义识别的流调报告生成装置100还包括发送模块160,发送模块160用于将所述目标流调报告发送至预设终端并存储至预设模板库。
参照图3所示,为本申请电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及通信接口14。所述电子设备1通过通信接口14连接网络。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如基于语义识别的流调报告生成程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行基于语义识别的流调报告生成程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面。
通信接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该通信接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图3仅示出了具有组件11-14以及基于语义识别的流调报告生成程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的基于语义识别的流调报告生成程序10时可以实现如下步骤:
从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照上述图2关于基于语义识别的流调报告生成装置100实施例的功能模块图以及图1关于基于语义识别的流调报告生成方法实施例的流程图的说明。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性的,也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储程序区存储有基于语义识别的流调报告生成程序10,所述基于语义识别的流调报告生成程序10被处理器执行时实现如下操作:
从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
本申请之计算机可读存储介质的具体实施方式与上述基于语义识别的流调报告生成方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于语义识别的流调报告生成方法,其特征在于,所述方法包括:
从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
2.如权利要求1所述的基于语义识别的流调报告生成方法,其特征在于,所述对所述原始流调统计数据执行缺失值填充操作,包括:
利用如下公式对所述原始流调统计数据中数值格式的数据执行缺失值填充操作:
Figure FDA0003672542890000011
其中,K表示填充的值,i表示变量的数量,Xit表示变量在一个时间点的取值,Xil表示变量在另一时间点的取值,
Figure FDA0003672542890000012
表示根据第i个变量的观测数据确定的标准差。
3.如权利要求1所述的基于语义识别的流调报告生成方法,其特征在于,所述计算所述复合文档中的每个文档之间的文本相似度,包括:
对所述复合文档中的每个文档进行分段,得到每个文档对应的至少一个文本段;
对每个文本段执行分词操作得到每个文本段的至少一个分词,并将每个分词转换成词向量;
基于每个文本段之间各个词向量的相似度,确定每个文本段之间的相似度;
基于每个文本段之间的相似度,计算得到所述复合文档中的每个文档之间的文本相似度。
4.如权利要求1或3所述的基于语义识别的流调报告生成方法,其特征在于,所述基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档,包括:
选取所述复合文档中文本相似度大于预设阈值的至少两个文档;
读取所述至少两个文档的标识信息,判断所述至少两个文档中是否存在标识信息相同的文档;
当判断所述至少两个文档中存在标识信息相同的文档时,保留所述标识信息相同的文档中的任一文档。
5.如权利要求1所述的基于语义识别的流调报告生成方法,其特征在于,所述将所述目标复合文档中的每个文档执行句法分析得到句法分析向量,包括:
对所述目标复合文档中的每个文档执行分句操作,得到每个文档对应的至少一个语句;
将所述至少一个语句执行句法内容分析,得到所述至少一个语句对应的句法内容向量;
对所述至少一个语句执行依存句法分析,得到所述至少一个语句对应的句法依存向量;
对所述至少一个语句执行句法结构分析,得到所述至少一个语句对应的句法结构向量;
融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,基于每个语句的句法分析向量得到每个文档的句法分析向量。
6.如权利要求5所述的基于语义识别的流调报告生成方法,其特征在于,所述融合所述句法内容向量、所述句法依存向量及所述句法结构向量,得到每个语句的句法分析向量,包括:
利用下述公式得到每个语句的句法分析向量:
Vsum=aV1+bV2+(1-a-b)V3
其中,Vsum表示所述句法分析向量,V1表示所述所述句法依存向量,V2表示所述句法结构向量,V3表示所述句法内容向量,a和b分别表示预设权重。
7.如权利要求1所述的基于语义识别的流调报告生成方法,其特征在于,在生成目标流调报告之后,所述方法还包括:
将所述目标流调报告发送至预设终端并存储至预设模板库。
8.一种基于语义识别的流调报告生成装置,其特征在于,所述装置包括:
预处理模块:用于从预设流调数据库读取原始流调统计数据,对所述原始流调统计数据执行缺失值填充操作,得到目标流调统计数据;
第一生成模块:用于基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档;
去重模块:用于计算所述复合文档中的每个文档之间的文本相似度,基于所述文本相似度对所述复合文档执行去重操作得到目标复合文档;
识别模块:用于将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量,将所述句法分析向量输入预先训练的语义识别模型,得到每个文档的语义识别结果;
第二生成模块:用于汇总所述目标流调统计数据及所述语义识别结果后填充至预设模板文件,生成目标流调报告。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7中任一项所述的基于语义识别的流调报告生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于语义识别的流调报告生成方法的步骤。
CN202210613062.4A 2022-05-31 2022-05-31 基于语义识别的流调报告生成方法、装置、设备及介质 Pending CN115019915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210613062.4A CN115019915A (zh) 2022-05-31 2022-05-31 基于语义识别的流调报告生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210613062.4A CN115019915A (zh) 2022-05-31 2022-05-31 基于语义识别的流调报告生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115019915A true CN115019915A (zh) 2022-09-06

Family

ID=83071653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210613062.4A Pending CN115019915A (zh) 2022-05-31 2022-05-31 基于语义识别的流调报告生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115019915A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345152A (zh) * 2022-10-19 2022-11-15 北方健康医疗大数据科技有限公司 模板库更新方法、报告解析方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345152A (zh) * 2022-10-19 2022-11-15 北方健康医疗大数据科技有限公司 模板库更新方法、报告解析方法、装置、设备及介质
CN115345152B (zh) * 2022-10-19 2023-03-14 北方健康医疗大数据科技有限公司 模板库更新方法、报告解析方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111695439B (zh) 图像结构化数据提取方法、电子装置及存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
US10922346B2 (en) Generating a summary based on readability
US9202255B2 (en) Identifying multimedia objects based on multimedia fingerprint
CN112380825B (zh) Pdf文档跨页表格合并方法、装置、电子设备及存储介质
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN114241499A (zh) 表格图片识别方法、装置、设备和可读存储介质
CN113868419A (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN115019915A (zh) 基于语义识别的流调报告生成方法、装置、设备及介质
CN111552865A (zh) 用户兴趣画像方法及相关设备
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN117709317A (zh) 报表文件的处理方法、装置及电子设备
CN117932009A (zh) 基于ChatGLM模型的保险客服对话生成方法、装置、设备及介质
CN113269179A (zh) 数据处理方法、装置、设备及存储介质
CN116303922B (zh) 咨询消息应答方法、装置、计算机设备、存储介质和产品
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN114996360B (zh) 数据分析方法、系统、可读存储介质及计算机设备
CN115237859A (zh) 需求文档质量检测方法、装置、设备及存储介质
CN112926373B (zh) 字符的视觉感知编码
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理系统
CN112989820A (zh) 法律文书定位方法、装置、设备及存储介质
CN110750976A (zh) 语言模型构建方法、系统、计算机设备及可读存储介质
CN116561540B (zh) 业务数据校正方法、装置及ai数字人的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination