CN116069832B - 数据挖掘方法、装置及电子设备 - Google Patents

数据挖掘方法、装置及电子设备 Download PDF

Info

Publication number
CN116069832B
CN116069832B CN202310365610.0A CN202310365610A CN116069832B CN 116069832 B CN116069832 B CN 116069832B CN 202310365610 A CN202310365610 A CN 202310365610A CN 116069832 B CN116069832 B CN 116069832B
Authority
CN
China
Prior art keywords
feedback
event
opinion
feedback opinion
knowledge representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310365610.0A
Other languages
English (en)
Other versions
CN116069832A (zh
Inventor
黄春生
田忠
付文兵
周猛
黄鹏
刘李云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microgrid Union Technology Chengdu Co ltd
Original Assignee
Microgrid Union Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microgrid Union Technology Chengdu Co ltd filed Critical Microgrid Union Technology Chengdu Co ltd
Priority to CN202310365610.0A priority Critical patent/CN116069832B/zh
Publication of CN116069832A publication Critical patent/CN116069832A/zh
Application granted granted Critical
Publication of CN116069832B publication Critical patent/CN116069832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供的数据挖掘方法、装置及电子设备,通过对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到各个反馈意见的事件表征向量,基于各个反馈意见的事件表征向量,生成至少一个代表反馈意见。对各个代表反馈意见进行事件描述识别,得到各个代表反馈意见的事件描述和所处的反馈段落,获取各个代表反馈意见的事件描述的描述详情,基于各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对各个代表反馈意见的事件描述进行融合得到融合反馈事件集,将其确定为拟处理反馈意见集的反馈事件集。本申请可缓解对各个反馈意见都进行事件描述识别所产生的资源投入,提高反馈意见处理的效率,同时保证事件描述的精确性。

Description

数据挖掘方法、装置及电子设备
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据挖掘方法、装置及电子设备。
背景技术
在智慧城市建设中,居民的居住体验是需要关注的重要环节。例如城市违规建设投诉、不良行为监督举报、地铁线路站点征集等。目前,可以通过设立居民留言板、调查问卷、线下走访等方式进行居民反馈意见收集,然后通过整理居民的反馈意见中涉及的事件信息,便于针对相关问题进行处理。然而,在实际情况中,对于大量的反馈意见,其中不乏重复内容,多人针对同一事件进行反馈的情况时有发生。工作人员通过人工对大量反馈意见进行信息整理,本就需要消耗大量的时间,很显然,重复的反馈意见内容会增加无谓的工作量。如何提高该情景下反馈意见信息提取整理的效率是需要考虑解决的技术问题。
发明内容
本申请的目的在于提供一种数据挖掘方法、装置及电子设备。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种数据挖掘方法,应用于电子设备,所述方法包括:响应于反馈意见整理指令,调取拟处理反馈意见集;对所述拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到所述各个反馈意见的事件表征向量;基于所述各个反馈意见的事件表征向量,生成至少一个代表反馈意见;其中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值;对各个代表反馈意见进行事件描述识别,得到所述各个代表反馈意见的事件描述和所处的反馈段落;获取所述各个代表反馈意见的事件描述的描述详情,并基于所述各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对所述各个代表反馈意见的事件描述进行融合,得到融合反馈事件集;将所述融合反馈事件集确定为所述拟处理反馈意见集的反馈事件集。
作为一种实施方式,所述各个反馈意见依据在所述拟处理反馈意见集中对应的反馈时间节点按序排布;所述基于所述各个反馈意见的事件表征向量,生成任意一个代表反馈意见包括:基于所述各个反馈意见的排布顺次和任两个连续的反馈意见的事件表征向量之间的共性度量值,在所述各个反馈意见中确定出相关反馈意见集;所述相关反馈意见集包含两个及以上的对应事件表征向量之间的共性度量值不小于第二预设共性度量值的反馈意见;对所述相关反馈意见集中的各个反馈意见进行融合操作,得到所述一个代表反馈意见。
作为一种实施方式,所述对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到所述各个反馈意见的事件表征向量,包括:对于所述各个反馈意见中的任意一个反馈意见,对所述任意一个反馈意见进行文本分词操作,得到所述任意一个反馈意见的多个文本分词;对所述任意一个反馈意见的多个文本分词进行词向量提取,得到所述任意一个反馈意见的原始词向量集合;基于所述原始词向量集合对所述任意一个反馈意见的各个文本分词进行反馈事件推理,并基于反馈事件推理结果和所述原始词向量集合生成所述任意一个反馈意见的事件表征向量。
作为一种实施方式,所述原始词向量集合的个数大于或等于两个;所述基于所述原始词向量集合对所述任意一个反馈意见的各个文本分词进行反馈事件推理,并基于反馈事件推理结果和所述原始词向量集合生成所述任意一个反馈意见的事件表征向量,包括:对多个原始词向量集合进行融合操作,得到对比词向量集合;基于所述对比词向量集合表征的语义特征,推理所述任意一个反馈意见的各个文本分词中具有事件描述的反馈事件推理置信度;其中,所述反馈事件推理置信度被确定为所述反馈事件推理结果;基于所述反馈事件推理置信度,分别对各个原始词向量集合进行事件描述锁定操作,得到所述任意一个反馈意见的事件表征向量;其中,所述对多个原始词向量集合进行融合操作,得到对比词向量集合,包括:基于显著性特征分析策略确定对于任意一个原始词向量集合的显著系数,并将所述显著系数确定为所述任意一个原始词向量集合的向量影响系数;依据所述向量影响系数对相应的原始词向量集合进行加权求和操作,得到所述对比词向量集合;其中,所述基于所述反馈事件推理置信度,分别对各个原始词向量集合进行事件描述锁定操作,得到所述任意一个反馈意见的事件表征向量,包括:将所述各个文本分词中,对应反馈事件推理置信度不大于预设置信度的文本分词确定为屏蔽对象;对于任意一个原始词向量集合,将所述任意一个原始词向量集合中的所述屏蔽对象对应的文本进行屏蔽操作,得到所述任意一个原始词向量集合对应的目标词向量集合;将所述各个原始词向量集合对应的目标词向量集合作为所述任意一个反馈意见的事件表征向量。
作为一种实施方式,所述各个反馈意见的事件表征向量是依据调试完成的事件屏蔽连体模型获取得到,所述事件屏蔽连体模型的调试过程包括:获取调试模板集合;其中,所述调试模板集合包括两个反馈意见模板、每个反馈意见模板的模板注释信息和所述两个反馈意见模板的事件表征向量之间的共性度量值指示结果,所述模板注释信息表明相应反馈意见模板中是否具有事件描述;将所述每个反馈意见模板加载到事件屏蔽连体模型,得到所述每个反馈意见模板的推理注释信息以及所述每个反馈意见模板的事件表征向量,并基于所述每个反馈意见模板的事件表征向量得到所述两个反馈意见模板的事件表征向量之间的推理共性度量值;所述推理注释信息表明相应反馈意见模板中是否具有事件描述的推理结果;基于所述每个反馈意见模板的模板注释信息、所述每个反馈意见模板的推理注释信息、所述共性度量值指示结果以及所述推理共性度量值,对所述事件屏蔽连体模型进行调试,得到所述调试完成的事件屏蔽连体模型。
作为一种实施方式,所述对各个代表反馈意见进行事件描述识别,得到所述各个代表反馈意见的事件描述和所处的反馈段落,包括:对于任意一个代表反馈意见,对所述任意一个代表反馈意见进行事件描述检测处理,得到所述任意一个代表反馈意见中的事件描述所在的事件描述检测段落;选取所述事件描述检测段落,并对所述事件描述检测段落进行事件描述抽取操作,得到已抽取事件描述;将所述已抽取事件描述确定为所述任意一个代表反馈意见的事件描述,以及将所述事件描述检测段落确定为所述任意一个代表反馈意见的事件描述所在的反馈段落;其中,所述对所述任意一个代表反馈意见进行事件描述检测处理,得到所述任意一个代表反馈意见中的事件描述所在的事件描述检测段落,包括:基于所述任意一个代表反馈意见中的各个分词的分词特征,推理所述各个分词的分词词性是否为用于组成事件描述的事件分词;对于所述各个分词中的任意一个分词,基于所述任意一个分词的分词词性,以及与所述任意一个分词的各相邻分词的分词词性,推理所述任意一个分词与所述各个相邻分词之间的组合是否为积极组合;所述积极组合表征相应组合的两个分词的分词词性均为事件分词,或相应组合的两个分词中,一个分词的分词词性为事件分词,一个分词的分词词性为不用于组成事件描述的常性分词;基于所述各个分词中,分词词性为事件分词且相应组合为积极组合的多个分词组成的连续文本,确定所述任意一个代表反馈意见中的事件描述所在的事件描述检测段落。
作为一种实施方式,所述方法还包括:针对所述反馈事件集中的任一个反馈事件描述,挖掘所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,对所述第一基础文本知识表征和所述第二基础文本知识表征进行知识交互,得到事件描述交互知识表征;其中,所述第一基础文本知识表征的知识维度低于所述第二基础文本知识表征的知识维度;对所述事件描述交互知识表征进行特征提炼,得到所述反馈事件描述对应的目标文本知识表征,根据所述事件描述交互知识表征及所述目标文本知识表征,确定所述反馈事件描述对应的目标情绪知识表征;依据所述目标情绪知识表征对所述目标文本知识表征进行知识表征转换,得到转换文本知识表征,将所述转换文本知识表征转换为所述反馈事件描述对应的调整文本。
作为一种实施方式,所述挖掘所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,包括:将所述反馈事件描述加载到知识表征挖掘模型,基于所述知识表征挖掘模型中的M个知识表征挖掘滤波矩阵,挖掘所述反馈事件描述在每个知识表征挖掘滤波矩阵中对应的滤波知识表征;其中,所述M≥1;对M个滤波知识表征进行特征提炼,得到所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征;其中,所述对M个滤波知识表征进行特征提炼,得到所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,包括:将所述M个知识表征挖掘滤波矩阵拆解成第一滤波算子及第二滤波算子;所述第一滤波算子在所述知识表征挖掘模型中的层级小于所述第二滤波算子在所述知识表征挖掘模型中的层级;对所述第一滤波算子所对应的滤波知识表征进行特征提炼,得到所述反馈事件描述的第一基础文本知识表征;对所述第二滤波算子所对应的滤波知识表征进行特征提炼,得到所述反馈事件描述的第二基础文本知识表征;所述对所述第一基础文本知识表征和所述第二基础文本知识表征进行知识交互,得到事件描述交互知识表征,包括:对所述第一基础文本知识表征进行反卷积尺度变换,得到所述第一基础文本知识表征对应的第一尺度变换知识表征;对所述第二基础文本知识表征进行反卷积尺度变换,得到所述第二基础文本知识表征对应的第二尺度变换知识表征;其中,所述第一尺度变换知识表征与所述第二尺度变换知识表征的知识维度一致;对所述第一尺度变换知识表征与所述第二尺度变换知识表征进行知识表征组合,得到组合知识表征;依据知识交互滤波算子对所述组合知识表征进行知识整合,得到所述组合知识表征对应的事件描述交互知识表征。
根据本申请实施例的一个方面,提供一种数据挖掘装置,包括:反馈意见调取模块,用于响应于反馈意见整理指令,调取拟处理反馈意见集;表征向量挖掘模块,用于对所述拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到所述各个反馈意见的事件表征向量;代表意见生成模块,用于基于所述各个反馈意见的事件表征向量,生成至少一个代表反馈意见;其中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值;事件描述识别模块,用于对各个代表反馈意见进行事件描述识别,得到所述各个代表反馈意见的事件描述和所处的反馈段落;事件描述融合模块,用于获取所述各个代表反馈意见的事件描述的描述详情,并基于所述各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对所述各个代表反馈意见的事件描述进行融合,得到融合反馈事件集;反馈事件集确定模块,用于将所述融合反馈事件集确定为所述拟处理反馈意见集的反馈事件集。
根据本申请实施例的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行上述的方法。
本申请至少包括如下有益效果:
本申请实施例提供的数据挖掘方法、装置及电子设备,通过对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到各个反馈意见的事件表征向量,基于各个反馈意见的事件表征向量,生成至少一个代表反馈意见,其中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值。对各个代表反馈意见进行事件描述识别,得到各个代表反馈意见的事件描述和所处的反馈段落,获取各个代表反馈意见的事件描述的描述详情,并基于各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对各个代表反馈意见的事件描述进行融合,得到融合反馈事件集,将融合反馈事件集确定为拟处理反馈意见集的反馈事件集。基于拟处理反馈意见集中的各个反馈意见的事件表征向量,生成至少一个代表反馈意见,然后通过对各个代表反馈意见进行的事件描述识别,得到拟处理反馈意见集的反馈事件集,缓解对拟处理反馈意见集中的各个反馈意见都进行事件描述识别所产生的资源投入,提高反馈意见处理的效率,同时保证事件描述的精确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据挖掘方法的流程图。
图2是本申请实施例提供的数据挖掘装置的功能模块架构示意图。
图3是本申请实施例提供的一种电子设备的组成示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供的方法可以依据调试完成的事件屏蔽连体模型执行,该调试完成的事件屏蔽连体模型可确定任两个反馈意见的事件表征向量共性度量值,调试完成的事件屏蔽连体模型包括两个表征向量挖掘网络和共性度量值确定网络,其中,两个表征向量挖掘网络为连体网络,具有相同的结构和网络参变量。两个表征向量挖掘网络分别对任两个反馈意见进行事件表征向量挖掘,获得任两个反馈意见的事件表征向量,共性度量值确定网络用于确定任两个反馈意见的事件表征向量之间的共性度量值。
本申请实施例对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,获得各反馈意见的事件表征向量的过程为基于调试完成的事件屏蔽连体模型中的表征向量挖掘网络执行。例如,仅留存调试完成的事件屏蔽连体模型中两个表征向量挖掘网络中的一个,则在确定任两个反馈意见的事件表征向量的共性度量值时,依据一个表征向量挖掘网络对任两个反馈意见分别进行事件表征向量挖掘,从而获取任两个反馈意见的事件表征向量,再依据共性度量值确定网络确定任两个反馈意见的事件表征向量之间的共性度量值。
本申请实施例中,可选地,调试完成的事件屏蔽连体模型中包括两个表征向量挖掘网络和共性度量值确定网络。表征向量挖掘网络可包括CNN(卷积神经网络,例如为残差网络)和事件段落确定网络(用于确定事件描述的文本段落)。
作为一种实施方式,可基于调试完成的事件屏蔽连体模型中的表征向量挖掘网络对拟处理反馈意见集中各个反馈意见进行事件表征向量挖掘,获得各个反馈意见的事件表征向量,通过调试完成的事件屏蔽连体模型中的共性度量值确定网络,确定各反馈意见中任两个相邻反馈意见的事件表征向量之间的共性度量值,并依据确定的任两个相邻反馈意见的事件表征向量之间的共性度量值,生成至少一个代表反馈意见,再对各代表反馈意见进行事件描述识别,得到各代表反馈意见的事件描述和对应的反馈段落,获取各个代表反馈意见的事件描述的描述详情,并基于各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对各个代表反馈意见的事件描述进行融合,得到融合反馈事件集,将融合反馈事件集确定为所述拟处理反馈意见集的反馈事件集。
请参照图1,本申请实施例提供的数据挖掘方法具体可以包括如下步骤:
101:响应于反馈意见整理指令,调取拟处理反馈意见集。
本申请实施例中,反馈意见整理指令可以是用户进行操作发起的,或者电子设备在收集完所有的反馈意见后自动生成的。拟处理反馈意见集中包含多个反馈意见,这些反馈意见例如是通过线上调查问卷、公共留言板、人工线下采集整理等途径得到,可以理解,每一反馈意见中包含文本信息。作为一种实施方式,本申请提供的数据挖掘方法可应用于智慧城市,反馈意见集可以是收集的城市居民对于城市建设、设施配套、民生等相关事件的反馈意见,由于多个居民可能对相同的事件进行反馈,则收集的反馈意见中可能包含大量重复的内容,通过人力进行一一阅读辨别整理,显然影响处理效率。
102:对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到各个反馈意见的事件表征向量。
作为一种实施方式,拟处理反馈意见集中的反馈意见是经过去重和匿名化处理后的反馈意见。反馈事件集挖掘模块对拟处理反馈意见集中的一个反馈意见进行事件表征向量挖掘,即挖掘反馈意见中涵盖的事件描述的特征矢量信息。如果反馈意见中具有事件描述,该事件描述位于反馈意见中的一些文本段落,则对该反馈意见进行事件表征向量挖掘,目的是挖掘反馈意见中涵盖的事件描述所处文本段落中的特征信息。另外,可对反馈意见进行文本分词操作,得到反馈意见的多个文本分词,在对反馈意见进行事件表征向量挖掘时,目的可以是挖掘反馈意见中涵盖的事件描述所在文本分词的特征,换言之,挖掘各个文本分词中具有事件描述的文本分词的特征。
103:基于各个反馈意见的事件表征向量,生成至少一个代表反馈意见。
本申请中,任两个代表反馈意见的事件表征向量之间的共性度量值(又称相似性度量结果,反映二者的相似程度,例如基于余弦距离确定两向量间的距离,距离越小,共性度量值越高,越相似)小于第一预设共性度量值,第一预设共性度量值的具体值可以基于实际情况选择配置。作为一种实施方式,反馈事件集挖掘模块基于各个反馈意见的事件表征向量,生成至少一个代表反馈意见,同时任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值,目的是将拟处理反馈意见集的各个反馈意见中具有相同事件反馈的反馈意见融合成一个代表反馈意见,从而获得具有不同事件反馈(即事件描述)的代表反馈意见,例如,将对应事件表征向量之间的共性度量值符合预设要求时的反馈意见视为具有相同事件反馈的反馈意见,则将其融合成一个代表反馈意见。
104:对各个代表反馈意见进行事件描述识别,得到各个代表反馈意见的事件描述和所处的反馈段落。
105:获取各个代表反馈意见的事件描述的描述详情,并基于各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对各个代表反馈意见的事件描述进行融合,得到融合反馈事件集。
本申请实施例中,融合反馈事件集即被确定为拟处理反馈意见集的反馈事件集。
作为一种实施方式,反馈事件集挖掘模块基于各个代表反馈意见的事件描述的描述详情和对应的反馈段落,对各个代表反馈意见的事件描述进行融合,得到融合反馈事件集,具体包括:将各个代表反馈意见的事件描述中,反馈段落相同,同时描述详情相同的事件描述融合成一个事件描述,然后将余下的事件描述进行留存,获得融合反馈事件集。其中,反馈段落相同例如是反馈段落所在反馈意见模板中规定格式的位置一致。
本申请实施例通过对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到各个反馈意见的事件表征向量,基于各个反馈意见的事件表征向量,生成至少一个代表反馈意见,其中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值。对各个代表反馈意见进行事件描述识别,得到各个代表反馈意见的事件描述和所处的反馈段落,获取各个代表反馈意见的事件描述的描述详情,并基于各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对各个代表反馈意见的事件描述进行融合,得到融合反馈事件集,其中,融合反馈事件集确定为拟处理反馈意见集的反馈事件集。基于拟处理反馈意见集中的各个反馈意见的事件表征向量,生成至少一个代表反馈意见,然后通过对各个代表反馈意见进行的事件描述识别,得到拟处理反馈意见集的反馈事件集,缓解对拟处理反馈意见集中的各个反馈意见都进行事件描述识别所产生的资源投入,提高反馈意见处理的效率,同时保证事件描述的精确性。
下面对本申请实施例提供的数据挖掘方法的另一实施例进行介绍,本申请实施例提供的数据挖掘方法可通过反馈事件集挖掘模块执行,该数据挖掘方法包括:
201:对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到各个反馈意见的事件表征向量。
作为一种实施方式,反馈事件集挖掘模块对拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到各个反馈意见的事件表征向量的过程中,可对于各反馈意见中的任意一个反馈意见,对该任意一个反馈意见进行文本分词操作,得到任意一个反馈意见的多个文本分词,对任意一个反馈意见的多个文本分词进行词向量提取,例如基于word2vec、Glove实现文本到向量的转换,再基于卷积神经网络进行文本向量地提取,得到任意一个反馈意见的原始词向量集合(可认为是反馈意见的原始特征图),基于原始词向量集合对任意一个反馈意见的各个文本分词进行反馈事件推理,并基于反馈事件推理结果和原始词向量集合生成任意一个反馈意见的事件表征向量。
作为一种实施方式,可以基于实际情况对任意一个反馈意见进行文本分词操作,得到任意一个反馈意见的文本分词的数量。反馈事件集挖掘模块对任意一个反馈意见的多个文本分词进行词向量提取,得到任意一个反馈意见的原始词向量集合,获取的任意一个反馈意见的原始词向量集合的数量和卷积神经网络的组成关联,例如基于残差神经网络得到的反馈意见的原始词向量集合的数量可以为256个。反馈事件集挖掘模块基于原始词向量集合对任意一个反馈意见的各个文本分词进行反馈事件推理,并基于反馈事件推理结果和原始词向量集合生成任意一个反馈意见的事件表征向量,可以是通过表征向量挖掘网络中的事件段落确定网络执行。
作为一种实施方式,反馈事件集挖掘模块基于原始词向量集合对任意一个反馈意见的各个文本分词进行反馈事件推理,并基于反馈事件推理结果和原始词向量集合生成任意一个反馈意见的事件表征向量,具体包括:对多个原始词向量集合进行融合操作,得到对比词向量集合,基于对比词向量集合表征的语义特征,推理任意一个反馈意见的各个文本分词中具有事件描述的反馈事件推理置信度。其中,反馈事件推理置信度被确定为反馈事件推理结果。基于反馈事件推理置信度,分别对各个原始词向量集合进行事件描述锁定操作,得到任意一个反馈意见的事件表征向量。
实际应用时,反馈事件集挖掘模块对多个原始词向量集合进行融合操作,得到对比词向量集合,具体包括:基于显著性特征分析策略(例如采用注意力机制)确定对于任意一个原始词向量集合的显著系数(或称聚焦度),并将显著系数确定为任意一个原始词向量集合的向量影响系数(表征向量对应的权值),依据向量影响系数对相应的原始词向量集合进行加权求和操作,得到对比词向量集合,具体地,可以在事件段落确定网络中增添注意力网络进行执行。
可选地,将各个原始词向量集合映射为一维数组,将其确定为原始数组,对各个原始数组进行嵌入映射,完成编码,得到各原始数组对应的嵌入数组,对各个原始数组对应的嵌入数组进行标准化(例如softmax),得到对于各个原始数组的显著系数(对于各原始词向量集合的显著系数),将对于各个原始数组的显著系数确定为各个原始数组的向量影响系数,依据向量影响系数对相应的原始数组进行加权求和操作,得到对比数组,将对比数组映射为词向量集合,将其作为对比词向量集合。
设原始词向量集合的个数为M,其中第m个原始词向量集合对应的原始数组为Am,对第m个原始数组进行嵌入映射得到第m个原始数组对应的嵌入数组可以基于如下方式进行:
Em=Tm×Am+um
其中,Em为第m个原始数组对应的嵌入数组,Tm和um为注意力网络中对各原始数组进行嵌入映射的变量。
另外,反馈事件集挖掘模块可以通过表征向量挖掘网络中的事件段落确定网络,依据对比词向量集合表征的语义特征推理任意一个反馈意见的各个文本分词中具有事件描述的反馈事件推理置信度(即对应的可能性),基于反馈事件推理置信度,分别对各个原始词向量集合进行事件描述锁定操作,得到任意一个反馈意见的事件表征向量。当反馈事件集挖掘模块基于反馈事件推理置信度分别对各个原始词向量集合进行事件描述锁定操作,得到任意一个反馈意见的事件表征向量时,具体包括:将各个文本分词中,对应反馈事件推理置信度不大于预设置信度的文本分词确定为屏蔽对象,对于任意一个原始词向量集合,将任意一个原始词向量集合中的屏蔽对象对应的文本进行屏蔽操作,得到任意一个原始词向量集合对应的目标词向量集合,将各个原始词向量集合对应的目标词向量集合作为任意一个反馈意见的事件表征向量,预设置信度的具体大小根据实际大小确定。
202:基于各个反馈意见的事件表征向量,生成至少一个代表反馈意见。
本申请实施例中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值。作为一种实施方式,通过生成一个代表反馈意见作为示例进行介绍,反馈事件集挖掘模块基于各个反馈意见的事件表征向量,生成一个代表反馈意见,具体包括:基于任两个反馈意见的事件表征向量之间的共性度量值,在各个反馈意见中确定出相关反馈意见集,该相关反馈意见集包含两个及以上的对应事件表征向量之间的共性度量值不小于第二预设共性度量值的反馈意见,对相关反馈意见集中的各个反馈意见进行融合操作,得到一个代表反馈意见。此外,可以将拟处理反馈意见集的各个反馈意见中,没有被融合的反馈意见确定为代表反馈意见。第二预设共性度量值的具体取值根据实际情况进行选择配置,本申请实施例对此不做限定,第二预设共性度量值与第一预设共性度量值的数值可以相同或不同。实际应用时,反馈事件集挖掘模块可以先通过共性度量值确定网络,确定拟处理反馈意见集的各个反馈意见中任两个反馈意见的事件表征向量之间的共性度量值,将各个反馈意见中对应事件表征向量之间的共性度量值不小于第二预设共性度量值的反馈意见融合到相关反馈意见集中,对相关反馈意见集中的各个反馈意见进行融合操作,以获得一个代表反馈意见,将拟处理反馈意见集的各个反馈意见中,没有被融合的反馈意见作为代表反馈意见。可选地,反馈事件集挖掘模块对相关反馈意见集中的各个反馈意见进行融合操作,得到一个代表反馈意见时,将相关反馈意见集中的任意一个反馈意见作为代表反馈意见。
具体而言,本申请实施例在基于调试完成的事件屏蔽连体模型确定两个反馈意见的事件表征向量之间的共性度量值时,调试完成的事件屏蔽连体模型包括表征向量挖掘网络和共性度量值确定网络,表征向量挖掘网络包括卷积神经网络、事件段落确定网络,事件段落确定网络包括注意力网络,共性度量值确定网络包括卷积神经网络、最大下采样网络(Max pooling)和分类映射网络(例如Full Connection,FC)。对于两个反馈意见中的任意一个反馈意见,将该反馈意见进行文本分词操作,得到反馈意见的多个文本分词。通过卷积神经网络对反馈意见的多个文本分词进行词向量提取(具体地过程中,可以是先基于W2V将反馈意见的文本转换为词向量后再基于卷积神经网络对词向量进行词向量特征提取),得到反馈意见的多个原始词向量集合。将反馈意见的多个原始词向量集合加载到事件段落确定网络中的注意力网络,基于显著性特征分析策略(如注意力机制,Attention)确定对于任意一个原始词向量集合的显著系数,将显著系数确定为任意一个原始词向量集合的向量影响系数。依据向量影响系数对相应的原始词向量集合进行加权求和操作,得到对比词向量集合。依据对比词向量集合表征的语义特征,推理反馈意见的各个文本分词中具有事件描述的反馈事件推理置信度,并将各个文本分词中对应反馈事件推理置信度不大于预设置信度的文本分词确定为屏蔽对象,对于任意一个原始词向量集合,将任意一个原始词向量集合中的屏蔽对象对应的文本进行屏蔽操作,得到任意一个原始词向量集合对应的目标词向量集合,将各个原始词向量集合对应的目标词向量集合作为该反馈意见的事件表征向量。接着,将两个反馈意见的事件表征向量进行融合,将融合后的事件表征向量加载到至共性度量值确定网络中,得到两个反馈意见的事件表征向量之间的共性度量值。
作为一种实施方式,拟处理反馈意见集的各个反馈意见可以依据在拟处理反馈意见集中对应的反馈时间节点按序排布。具体而言,通过生成一个代表反馈意见进行说明,反馈事件集挖掘模块基于各个反馈意见的事件表征向量,生成一个代表反馈意见,具体包括:基于各个反馈意见的排布顺次和任两个连续的反馈意见的事件表征向量之间的共性度量值,在各个反馈意见中确定出至少一个相关反馈意见集,任一相关反馈意见集包含两个及以上的对应事件表征向量之间的共性度量值不小于第二预设共性度量值的反馈意见,对各个相关反馈意见集中的各个反馈意见进行融合操作,得到至少一个临时代表反馈意见,将拟处理反馈意见集的各个反馈意见中没有被融合的反馈意见作为临时代表反馈意见,将各个临时代表反馈意见中对应事件表征向量之间的共性度量值不小于第二预设共性度量值的多个临时代表反馈意见合并为一个代表反馈意见,并将各个临时代表反馈意见中没有被融合的临时代表反馈意见作为代表反馈意见。第二预设共性度量值的具体数值可以据实配置,例如第二预设共性度量值可以设置的比第一预设共性度量值更大。可选地,反馈事件集挖掘模块将各个临时代表反馈意见中对应事件表征向量之间的共性度量值不小于第二预设共性度量值的多个临时代表反馈意见融合成一个代表反馈意见时,将对应事件表征向量之间的共性度量值不小于第二预设共性度量值的多个临时代表反馈意见中的任一临时代表反馈意见确定为代表反馈意见。
作为一种实施方式,在拟处理反馈意见集的各个反馈意见依据在拟处理反馈意见集中对应的反馈时间节点按序排布时,可以将获取到的各临时代表反馈意见确定为代表反馈意见。通过生成一个代表反馈意见进行说明,反馈事件集挖掘模块基于各个反馈意见的事件表征向量生成一个代表反馈意见,具体包括:基于各个反馈意见的排布顺次和任两个连续的反馈意见的事件表征向量之间的共性度量值,在各个反馈意见中确定出相关反馈意见集,相关反馈意见集包含两个及以上的对应事件表征向量之间的共性度量值不小于第二预设共性度量值的反馈意见,对相关反馈意见集中的各个反馈意见进行融合操作,得到一个代表反馈意见。此外,将拟处理反馈意见集的各个反馈意见中没有被融合的反馈意见确定为代表反馈意见。第二预设共性度量值的具体数值根据实际情况进行配置,例如,设置第二预设共性度量值比第一预设共性度量值更大。实际应用时,反馈事件集挖掘模块可以先通过共性度量值确定网络确定拟处理反馈意见集的各个反馈意见中任两个连续的反馈意见的事件表征向量之间的共性度量值,将各个反馈意见中对应事件表征向量之间的共性度量值不小于第二预设共性度量值的相邻反馈意见融合到相关反馈意见集,对相关反馈意见集中的各个反馈意见进行融合操作,得到一个代表反馈意见,以及将拟处理反馈意见集的各个反馈意见中没有被融合的反馈意见作为代表反馈意见。可选地,反馈事件集挖掘模块对相关反馈意见集中的各个反馈意见进行融合操作,得到一个代表反馈意见时,将相关反馈意见集中的任意一个反馈意见作为代表反馈意见。
作为一种实施方式,当依据调试完成的事件屏蔽连体模型通过相邻反馈意见获取相邻反馈意见的事件表征向量,同时依据相邻反馈意见的事件表征向量生成至少一个代表反馈意见时,通过生成一个代表反馈意见进行说明,反馈事件集挖掘模块基于各个反馈意见的事件表征向量,生成一个代表反馈意见,具体包括:将两个相邻反馈意见分别加载到至调试完成的事件屏蔽连体模型中的两个表征向量挖掘网络,挖掘两个相邻反馈意见的事件表征向量,然后基于调试完成的事件屏蔽连体模型中的共性度量值确定网络确定相邻的两反馈意见的事件表征向量的共性度量值。其中,如果两个相邻反馈意见的事件表征向量的共性度量值不小于第二预设共性度量值,那么,将两个相邻反馈意见中排布顺次靠后的反馈意见作为代表反馈意见。基于此,再对排布顺次靠后的反馈意见和排布顺次靠后的反馈意见的后一反馈意见构成的连续两个反馈意见进行处理的过程中,可以视作是对融合获取的一个代表反馈意见和后一反馈意见判断是否需要融合,以确定出拟处理反馈意见集的代表反馈意见。
例如,如果拟处理反馈意见集的各个反馈意见中,反馈意见A、反馈意见B、反馈意见C以及反馈意见D的排布顺次为:反馈意见A、反馈意见B、反馈意见C、反馈意见D,则将反馈意见A、反馈意见B加载到至调试完成的事件屏蔽连体模型,得到反馈意见A与反馈意见B的事件表征向量的共性度量值,如果共性度量值大于第二预设共性度量值,则将反馈意见B确定为一个代表反馈意见。接着将反馈意见B、反馈意见C加载到到调试完成的事件屏蔽连体模型,得到反馈意见B与反馈意见C的事件表征向量之间的共性度量值,如果共性度量值小于第二预设共性度量值,则将反馈意见C、反馈意见D加载到至调试完成的事件屏蔽连体模型,得到反馈意见C与反馈意见D的事件表征向量之间的共性度量值,如果共性度量值大于第二预设共性度量值,则将反馈意见D确定为一个代表反馈意见,依照上述思路进行延续知道对拟处理反馈意见集的各个反馈意见都进行处理得到拟处理反馈意见集的代表反馈意见。
203:对于任意一个代表反馈意见,对任意一个代表反馈意见进行事件描述检测处理,得到任意一个代表反馈意见中的事件描述所在的事件描述检测段落。
作为一种实施方式,反馈事件集挖掘模块对任意一个代表反馈意见进行事件描述检测处理,得到任意一个代表反馈意见中的事件描述所在的事件描述检测段落,具体包括:基于任意一个代表反馈意见中的各个分词的分词特征,推理各个分词的分词词性是否为用于组成事件描述的事件分词,对于各个分词中的任意一个分词,基于任意一个分词的分词词性,以及与任意一个分词的各相邻分词的分词词性,推理任意一个分词与各个相邻分词之间的组合是否为积极组合,其中,积极组合表征相应组合的两个分词的分词词性都是事件分词(描述事件的词汇,例如特定领域词汇,如反馈违规搭建时,事件分词可以包括建筑物、违规词汇),或相应组合的两个分词中,一个分词的分词词性为事件分词,一个分词的分词词性为不用于组成事件描述的常性分词(即相对无意义的词汇,如情绪词、承接连词等),基于各个分词中,分词词性为事件分词且相应组合为积极组合的多个分词组成的连续文本,确定任意一个代表反馈意见中的事件描述所在的事件描述检测段落。其中,与任意一个分词的各相邻分词例如为与任意一个分词的相邻分词,确定事件描述检测段落的过程可以通过CNN执行。
可选地,反馈事件集挖掘模块确定任意一个代表反馈意见中的事件描述所在的事件描述检测段落时,可以通过各个分词中,分词词性为事件分词且相应组合为积极组合的多个分词组成的连续文本,确定任意一个代表反馈意见中的事件描述位于的事件描述检测段落。此外,反馈事件集挖掘模块确定任意一个代表反馈意见中的事件描述所在的事件描述检测段落时,可以将各个分词中,分词词性为事件分词且相应组合为积极组合的多个分词组成的连续文本确定为事件描述检测段落,或者将各个分词中,分词词性为事件分词且相应组合为积极组合的多个分词组成的连续文本的外接段落确定为事件描述检测段落,或者将确定出的任意一个代表反馈意见中的事件描述所在的原始事件描述检测段落确定为事件描述检测段落。
204:选取事件描述检测段落,并对事件描述检测段落进行事件描述抽取操作,得到已抽取事件描述。
作为一种实施方式,反馈事件集挖掘模块对事件描述检测段落进行事件描述抽取操作,得到已抽取事件描述时,可以基于通用的注意力文本挖掘实现,此处不做赘述。
205:将已抽取事件描述确定为任意一个代表反馈意见的事件描述,以及将事件描述检测段落确定为任意一个代表反馈意见的事件描述所在的反馈段落。
206:获取各个代表反馈意见的事件描述的描述详情,并基于各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对各个代表反馈意见的事件描述进行融合,得到融合反馈事件集。其中,融合反馈事件集确定为拟处理反馈意见集的反馈事件集。
本申请实施例中,对于拟处理反馈意见集的各个反馈意见中的任意一个反馈意见时,对任意一个反馈意见进行文本分词操作,得到任意一个反馈意见的多个文本分词,对任意一个反馈意见的多个文本分词进行词向量提取,得到任意一个反馈意见的原始词向量集合,并基于原始词向量集合对任意一个反馈意见的各个文本分词进行反馈事件推理,同时基于反馈事件推理结果和原始词向量集合生成任意一个反馈意见的事件表征向量,如此可以基于各个反馈意见的事件表征向量生成至少一个代表反馈意见,对各个代表反馈意见进行事件描述识别,得到各个代表反馈意见的事件描述和所处的反馈段落,基于各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对各个代表反馈意见的事件描述进行融合,得到融合反馈事件集。其中,融合反馈事件集确定为拟处理反馈意见集的反馈事件集,基于对各个反馈意见的各个文本分词进行反馈事件推理的反馈事件推理结果,加强对各个反馈意见的各个文本分词中,包括反馈意见的文本分词的显著系数,以提升基于拟处理反馈意见集中的各个反馈意见的事件表征向量生成至少一个代表反馈意见的精确性,在通过对各代表反馈意见进行的事件描述识别,得到拟处理反馈意见集的反馈事件集时,缓解对拟处理反馈意见集中的各个反馈意见都进行事件描述识别时的无谓资源浪费,提高工作效率。
本申请实施例中,提供的数据挖掘方法可以通过调试完成的事件屏蔽连体模型进行执行,该调试完成的事件屏蔽连体模型是通过对事件屏蔽连体模型进行调试获取的,事件屏蔽连体模型与调试完成的事件屏蔽连体模型的组成架构一致,但是据欧不同的模型变量。
本申请实施例还提供了一种事件屏蔽连体模型的调试方法,具体可以包括:
(1)获取调试模板集合。
其中,调试模板集合包括两个反馈意见模板,每个反馈意见模板的模板注释信息、两个反馈意见模板的事件表征向量之间的共性度量值指示结果,模板注释信息可以通过标记信息实现。作为一种实施方式,模板注释信息可以表征相应反馈意见模板中是否具有事件描述;如果将反馈意见模板进行分词得到多个文本分词时,模板注释信息可以表征相应反馈意见模板的各个文本分词中是否具有事件描述,两个反馈意见模板的事件表征向量之间的共性度量值指示结果表征两个反馈意见模板是否是相似的。
(2)将每个反馈意见模板加载到事件屏蔽连体模型,得到每个反馈意见模板的推理注释信息以及每个反馈意见模板的事件表征向量,并基于每个反馈意见模板的事件表征向量得到两个反馈意见模板的事件表征向量之间的推理共性度量值。
其中,推理注释信息可以表征相应反馈意见模板中是否具有事件描述的推理结果,如果将反馈意见模板进行分词得到多个文本分词时,推理注释信息可以表征相应反馈意见模板的各个文本分词中是否具有事件描述的推理结果,即相应反馈意见模板的各个文本分词中具有事件描述的反馈事件推理置信度。
实际应用时,反馈事件集挖掘模块将每个反馈意见模板加载到事件屏蔽连体模型,得到每个反馈意见模板的推理注释信息以及每个反馈意见模板的事件表征向量,以及依据每个反馈意见模板的事件表征向量得到两个反馈意见模板的事件表征向量之间的推理共性度量值时,通过任一反馈意见模板进行说明,对任一反馈意见模板进行文本分词操作,得到任一反馈意见模板的多个文本分词,通过事件屏蔽连体模型中的表征向量挖掘网络对任一反馈意见模板的多个文本分词进行词向量提取,得到任一反馈意见模板的多个原始词向量集合,对任一反馈意见模板的多个原始词向量集合进行融合操作,得到任一反馈意见模板的对比词向量集合,依据任一反馈意见模板的对比词向量集合表征的语义特征,推理任一反馈意见模板的各个文本分词中具有事件描述的反馈事件推理置信度,其中,反馈事件推理置信度被确定为任一反馈意见模板的推理注释信息,依据任一反馈意见模板的推理注释信息,分别对任一反馈意见模板的各个原始词向量集合进行事件描述锁定操作,得到任一反馈意见模板的事件表征向量。进一步的,可以通过事件屏蔽连体模型中的共性度量值确定网络确定两个反馈意见模板的事件表征向量之间的推理共性度量值。
(3)基于每个反馈意见模板的模板注释信息、每个反馈意见模板的推理注释信息、共性度量值指示结果以及推理共性度量值,对事件屏蔽连体模型进行调试,得到调试完成的事件屏蔽连体模型。
作为一种实施方式,将每个反馈意见模板的模板注释信息、每个反馈意见模板的推理注释信息、共性度量值指示结果以及推理共性度量值,作为事件屏蔽连体模型的代价算法的算法参数,得到代价值。通过代价值对事件屏蔽连体模型的参数进行调试,得到调试完成的事件屏蔽连体模型。事件屏蔽连体模型的代价算法可以通过多个代价算法组合得到,其具体可以由两个反馈意见模板中的一个反馈意见模板的模板注释信息和相应的推理注释信息组建的第一代价算法、由两个反馈意见模板中的另一反馈意见模板的模板注释信息和相应的推理注释信息组建的第二代价算法、由共性度量值指示结果和推理共性度量值组建的第三代价算法组合。每一个代价算法可以配置不同的权重进行调节其重要性,再进行加权求和得到事件屏蔽连体模型的代价算法,第一代价算法和第二代价算法可以为均方误差MSE代价算法,第三代价算法可以为交叉熵代价算法。
本申请实施例可通过涵盖两个反馈意见模板、每个反馈意见模板的模板注释信息以及两个反馈意见模板的事件表征向量之间的共性度量值指示结果的调试模板集合,对事件屏蔽连体模型进行调试,同时基于均方误差MSE对反馈意见模板的模板注释信息和通过事件屏蔽连体模型获取得到相应的推理注释信息进行限制,依据交叉熵代价算法对两个反馈意见模板的事件表征向量之间的共性度量值指示结果,和通过事件屏蔽连体模型获取得到两个反馈意见模板的事件表征向量之间的推理共性度量值进行限制,基于多任务协同调试,以对事件屏蔽连体模型进行调试,如此帮助调试获得的事件屏蔽连体模型可以精确挖掘到反馈意见的事件表征向量,同时精确地推理任两个反馈意见的事件表征向量之间的共性度量值。
在一些可独立实施的方案中,针对特殊应用场景,例如反馈意见中的事件描述包含较多情绪化描述,其会影响意见审核人员的审核,因此,在该实施方案中,对包含情绪化描述的内容进行变换,例如转换为掩码或直接删除。那么,如何高效准确地识别其中的情绪化描述是该实施方案的重点,其具体可以包括如下步骤:
100:获取反馈事件描述,挖掘反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,对第一基础文本知识表征和第二基础文本知识表征进行知识交互,得到事件描述交互知识表征。
其中,第一基础文本知识表征的知识维度低于第二基础文本知识表征的知识维度,第一基础文本知识表征包含反馈事件描述中的细节知识,代表反馈事件描述的局部知识,而第二基础文本知识表征代表反馈事件描述的整体知识,第一基础文本知识表征经过的滤波算子(con)的个数少于第二基础文本知识表征经过的滤波算子的个数。
例如,将反馈事件描述加载到知识表征挖掘模型,基于知识表征挖掘模型中的M个知识表征挖掘滤波矩阵,挖掘反馈事件描述在每个知识表征挖掘滤波矩阵中对应的滤波知识表征,M≥1。将反馈事件描述加载到知识表征挖掘模型,逐一经过M个知识表征挖掘滤波矩阵,挖掘每一个知识表征挖掘滤波矩阵中对应的滤波知识表征,以获得反馈事件描述在每个知识表征挖掘滤波矩阵中对应的滤波知识表征。对M个滤波知识表征进行卷积,即完成特征提炼,得到反馈事件描述的第一基础文本知识表征和第二基础文本知识表征。
具体而言,将M个知识表征挖掘滤波矩阵拆解成第一滤波算子及第二滤波算子,其中,第一滤波算子在知识表征挖掘模型中的层级小于第二滤波算子在知识表征挖掘模型中的层级。对第一滤波算子所对应的滤波知识表征进行特征提炼,得到反馈事件描述的第一基础文本知识表征,对第二滤波算子所对应的滤波知识表征进行特征提炼,得到反馈事件描述的第二基础文本知识表征。
例如,知识表征挖掘模型包括M个知识表征挖掘滤波矩阵,将M个知识表征挖掘滤波矩阵拆解成第一滤波算子A和后备候选滤波算子B,其中,后备候选滤波算子B为M个知识表征挖掘滤波矩阵中除第一滤波算子A外的知识表征挖掘滤波矩阵,可以将后备候选滤波算子B确定为第二滤波算子,或者将第一滤波算子A及后备候选滤波算子B共同确定为第二滤波算子,也就是将M个知识表征挖掘滤波矩阵确定为第二滤波算子,换言之,第一滤波算子A在知识表征挖掘模型中的层级小于第二滤波算子在知识表征挖掘模型中的层级。如果第一滤波算子A包括知识表征挖掘滤波矩阵A、知识表征挖掘滤波矩阵B、…及知识表征挖掘滤波矩阵M1,第二滤波算子包括知识表征挖掘滤波矩阵M2、…及知识表征挖掘滤波矩阵M,或者第二滤波算子包括知识表征挖掘滤波矩阵A、知识表征挖掘滤波矩阵B、…及知识表征挖掘滤波矩阵M等,其中,M1≤M,M>M2>M1。对第一滤波算子对应的滤波知识表征进行特征提炼,得到反馈事件描述的第一基础文本知识表征。对第二滤波算子对应的滤波知识表征进行特征提炼,得到反馈事件描述的第二基础文本知识表征。
此外,可以对第一基础文本知识表征和第二基础文本知识表征进行知识交互,得到事件描述交互知识表征。例如,对第一基础文本知识表征进行尺度转换,得到第一基础文本知识表征对应的第一尺度变换知识表征,对第二基础文本知识表征进行尺度转换,得到第二基础文本知识表征对应的第二尺度变换知识表征,对第一尺度变换知识表征及第二尺度变换知识表征进行知识交互,得到事件描述交互知识表征,尺度转换例如是反卷积尺度变换。
例如,可以对第一基础文本知识表征进行反卷积尺度变换,得到第一基础文本知识表征对应的第一尺度变换知识表征,对第二基础文本知识表征进行反卷积尺度变换,得到第二基础文本知识表征对应的第二尺度变换知识表征,第一尺度变换知识表征与第二尺度变换知识表征的知识维度一致。其中,获取第一基础文本知识表征的第一知识维度和第二基础文本知识表征的第二知识维度,基于第一知识维度和第二知识维度确定知识维度,可基于知识维度对第一基础文本知识表征进行反卷积尺度变换,基于知识维度对第二基础文本知识表征进行反卷积尺度变换。例如,将第一知识维度与第二知识维度中较大的知识维度作为知识维度。对第一尺度变换知识表征与第二尺度变换知识表征进行知识表征组合,得到组合知识表征,例如依据滤波核对第一尺度变换知识表征及第二尺度变换知识表征进行知识表征组合,得到组合知识表征,即对第一尺度变换知识表征的通道与第二尺度变换知识表征的通道组合得到组合知识表征。依据知识交互滤波算子对组合知识表征进行知识整合,得到组合知识表征对应的事件描述交互知识表征,具体而言,依据知识交互滤波算子对组合知识表征进行特征提炼完成对组合知识表征的知识整合,以得到组合知识表征对应的事件描述交互知识表征。其中,事件描述交互知识表征包含反馈事件描述的语义与局部知识,换言之整合了反馈事件描述的深层和浅层的知识。
200:对事件描述交互知识表征进行特征提炼,得到反馈事件描述对应的目标文本知识表征,根据事件描述交互知识表征及目标文本知识表征,确定反馈事件描述对应的目标情绪知识表征。
例如,基于知识表征分解滤波算子对事件描述交互知识表征进行特征提炼,得到事件描述分解知识表征,对事件描述分解知识表征进行非线性变换激活,得到知识表征分布集合,其中,知识表征分布集合的知识维度与事件描述交互知识表征的知识维度相同。基于知识表征分布集合对事件描述交互知识表征进行偏心计算(通过器对应的权值进行乘法计算,完成加权),得到反馈事件描述对应的目标文本知识表征,然后将事件描述交互知识表征与目标文本知识表征之间的知识误差确定为初始情绪知识表征,换言之,可以将事件描述交互知识表征与目标文本知识表征作差,获得初始情绪知识表征。
之后,对初始情绪知识表征进行通道整合,获得唯一通道的目标情绪知识表征。例如获取初始情绪知识表征包括的P个情绪知识表征滤波核,将P个情绪知识表征滤波核分别对应的Q个子情绪知识表征中处于相同知识表征分布的子情绪知识表征进行知识表征整合,得到反馈事件描述对应的目标情绪知识表征;所述P≥1,Q≥1。
300:依据目标情绪知识表征对目标文本知识表征进行知识表征转换,得到转换文本知识表征,将转换文本知识表征转换为反馈事件描述对应的调整文本。
例如,可依据目标情绪知识表征确定情绪散布结果,基于情绪散布结果对目标文本知识表征进行知识表征转换,得到转换文本知识表征。
具体而言,获取目标情绪知识表征对应的情绪散布结果,根据情绪散布结果确定目标文本知识表征中的拟变换知识表征,目标情绪知识表征中的情绪知识表征越大,则情绪知识表征对应的文本段落的情绪极性越高,需要对情绪知识表征在目标文本知识表征中所对应的文本段落的知识表征进行转换(掩码或删除),换言之,基于目标情绪知识表征确定情绪散布结果,依据情绪散布结果确定目标文本知识表征中需进行知识表征转换的拟变换知识表征,对拟变换知识表征进行知识表征转换,得到转换文本知识表征,对转换文本知识表征进行解析,得到反馈事件描述对应的调整文本。
该实施方案中,通过获取反馈事件描述,挖掘反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,对第一基础文本知识表征和第二基础文本知识表征进行知识交互,得到事件描述交互知识表征,第一基础文本知识表征的知识维度低于第二基础文本知识表征的知识维度,对事件描述交互知识表征进行特征提炼,得到反馈事件描述对应的目标文本知识表征,根据事件描述交互知识表征和目标文本知识表征,确定反馈事件描述对应的目标情绪知识表征,依据目标情绪知识表征对目标文本知识表征进行知识表征转换,得到转换文本知识表征,将转换文本知识表征转换为反馈事件描述对应的调整文本。基于此,对反馈事件描述的第一基础文本知识表征和第二基础文本知识表征进行挖掘(即中间型知识),并非直接获取反馈事件描述的最终知识,如此能获取反馈事件描述在不同维度的知识,获得反馈事件描述从局部到整体的综合知识,此外,基于挖掘到的第一基础文本知识表征和第二基础文本知识表征,对反馈事件描述进行初步转换,同时依据得到的目标情绪知识表征对初步转换获得的目标文本知识表征进行调整,完成对反馈事件描述的优化,效率更高。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的数据挖掘方法。图2示意性地示出了本申请实施例提供的数据挖掘装置的结构框图。如图2所示,数据挖掘装置200包括:
反馈意见调取模块210,用于响应于反馈意见整理指令,调取拟处理反馈意见集;
表征向量挖掘模块220,用于对所述拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到所述各个反馈意见的事件表征向量;
代表意见生成模块230,用于基于所述各个反馈意见的事件表征向量,生成至少一个代表反馈意见;其中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值;
事件描述识别模块240,用于对各个代表反馈意见进行事件描述识别,得到所述各个代表反馈意见的事件描述和所处的反馈段落;
事件描述融合模块250,用于获取所述各个代表反馈意见的事件描述的描述详情,并基于所述各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对所述各个代表反馈意见的事件描述进行融合,得到融合反馈事件集;
反馈事件集确定模块260,用于将所述融合反馈事件集确定为所述拟处理反馈意见集的反馈事件集。
本申请各实施例中提供的数据挖掘装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图3示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图3示出的电子设备的计算机系统300仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统300包括中央处理器301(Central Processing Unit,CPU),其可以根据存储在只读存储器302(Read-Only Memory,ROM)中的程序或者从存储部分308加载到随机访问存储器303(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器303中,还存储有系统操作所需的各种程序和数据。中央处理器301、在只读存储器302以及随机访问存储器303通过总线304彼此相连。输入/输出接口305(Input/Output接口,即I/O接口)也连接至总线304。
以下部件连接至输入/输出接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至输入/输出接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理器301执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据挖掘方法,其特征在于,应用于电子设备,所述方法包括:
响应于反馈意见整理指令,调取拟处理反馈意见集;
对所述拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到所述各个反馈意见的事件表征向量;
基于所述各个反馈意见的事件表征向量,生成至少一个代表反馈意见;其中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值;
对各个代表反馈意见进行事件描述识别,得到所述各个代表反馈意见的事件描述和所处的反馈段落;
获取所述各个代表反馈意见的事件描述的描述详情,并基于所述各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对所述各个代表反馈意见的事件描述进行融合,得到融合反馈事件集;
将所述融合反馈事件集确定为所述拟处理反馈意见集的反馈事件集。
2.根据权利要求1所述的方法,其特征在于,所述各个反馈意见依据在所述拟处理反馈意见集中对应的反馈时间节点按序排布;所述基于所述各个反馈意见的事件表征向量,生成任意一个代表反馈意见包括:
基于所述各个反馈意见的排布顺次和任两个连续的反馈意见的事件表征向量之间的共性度量值,在所述各个反馈意见中确定出相关反馈意见集;所述相关反馈意见集包含两个及以上的对应事件表征向量之间的共性度量值不小于第二预设共性度量值的反馈意见;
对所述相关反馈意见集中的各个反馈意见进行融合操作,得到所述一个代表反馈意见。
3.根据权利要求1所述的方法,其特征在于,所述对所述拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到所述各个反馈意见的事件表征向量,包括:
对于所述各个反馈意见中的任意一个反馈意见,对所述任意一个反馈意见进行文本分词操作,得到所述任意一个反馈意见的多个文本分词;
对所述任意一个反馈意见的多个文本分词进行词向量提取,得到所述任意一个反馈意见的原始词向量集合;
基于所述原始词向量集合对所述任意一个反馈意见的各个文本分词进行反馈事件推理,并基于反馈事件推理结果和所述原始词向量集合生成所述任意一个反馈意见的事件表征向量。
4.根据权利要求3所述的方法,其特征在于,所述原始词向量集合的个数大于或等于两个;所述基于所述原始词向量集合对所述任意一个反馈意见的各个文本分词进行反馈事件推理,并基于反馈事件推理结果和所述原始词向量集合生成所述任意一个反馈意见的事件表征向量,包括:
对多个原始词向量集合进行融合操作,得到对比词向量集合;
基于所述对比词向量集合表征的语义特征,推理所述任意一个反馈意见的各个文本分词中具有事件描述的反馈事件推理置信度;其中,所述反馈事件推理置信度被确定为所述反馈事件推理结果;
基于所述反馈事件推理置信度,分别对各个原始词向量集合进行事件描述锁定操作,得到所述任意一个反馈意见的事件表征向量;
其中,所述对多个原始词向量集合进行融合操作,得到对比词向量集合,包括:
基于显著性特征分析策略确定对于任意一个原始词向量集合的显著系数,并将所述显著系数确定为所述任意一个原始词向量集合的向量影响系数;
依据所述向量影响系数对相应的原始词向量集合进行加权求和操作,得到所述对比词向量集合;
其中,所述基于所述反馈事件推理置信度,分别对各个原始词向量集合进行事件描述锁定操作,得到所述任意一个反馈意见的事件表征向量,包括:
将所述各个文本分词中,对应反馈事件推理置信度不大于预设置信度的文本分词确定为屏蔽对象;
对于任意一个原始词向量集合,将所述任意一个原始词向量集合中的所述屏蔽对象对应的文本进行屏蔽操作,得到所述任意一个原始词向量集合对应的目标词向量集合;
将所述各个原始词向量集合对应的目标词向量集合作为所述任意一个反馈意见的事件表征向量。
5.根据权利要求1所述的方法,其特征在于,所述各个反馈意见的事件表征向量是依据调试完成的事件屏蔽连体模型获取得到,所述事件屏蔽连体模型的调试过程包括:
获取调试模板集合;其中,所述调试模板集合包括两个反馈意见模板、每个反馈意见模板的模板注释信息和所述两个反馈意见模板的事件表征向量之间的共性度量值指示结果,所述模板注释信息表明相应反馈意见模板中是否具有事件描述;
将所述每个反馈意见模板加载到事件屏蔽连体模型,得到所述每个反馈意见模板的推理注释信息以及所述每个反馈意见模板的事件表征向量,并基于所述每个反馈意见模板的事件表征向量得到所述两个反馈意见模板的事件表征向量之间的推理共性度量值;所述推理注释信息表明相应反馈意见模板中是否具有事件描述的推理结果;
基于所述每个反馈意见模板的模板注释信息、所述每个反馈意见模板的推理注释信息、所述共性度量值指示结果以及所述推理共性度量值,对所述事件屏蔽连体模型进行调试,得到所述调试完成的事件屏蔽连体模型。
6.根据权利要求1所述的方法,其特征在于,所述对各个代表反馈意见进行事件描述识别,得到所述各个代表反馈意见的事件描述和所处的反馈段落,包括:
对于任意一个代表反馈意见,对所述任意一个代表反馈意见进行事件描述检测处理,得到所述任意一个代表反馈意见中的事件描述所在的事件描述检测段落;
选取所述事件描述检测段落,并对所述事件描述检测段落进行事件描述抽取操作,得到已抽取事件描述;
将所述已抽取事件描述确定为所述任意一个代表反馈意见的事件描述,以及将所述事件描述检测段落确定为所述任意一个代表反馈意见的事件描述所在的反馈段落;
其中,所述对所述任意一个代表反馈意见进行事件描述检测处理,得到所述任意一个代表反馈意见中的事件描述所在的事件描述检测段落,包括:
基于所述任意一个代表反馈意见中的各个分词的分词特征,推理所述各个分词的分词词性是否为用于组成事件描述的事件分词;
对于所述各个分词中的任意一个分词,基于所述任意一个分词的分词词性,以及与所述任意一个分词的各相邻分词的分词词性,推理所述任意一个分词与所述各个相邻分词之间的组合是否为积极组合;所述积极组合表征相应组合的两个分词的分词词性均为事件分词,或相应组合的两个分词中,一个分词的分词词性为事件分词,一个分词的分词词性为不用于组成事件描述的常性分词;
基于所述各个分词中,分词词性为事件分词且相应组合为积极组合的多个分词组成的连续文本,确定所述任意一个代表反馈意见中的事件描述所在的事件描述检测段落。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述反馈事件集中的任一个反馈事件描述,挖掘所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,对所述第一基础文本知识表征和所述第二基础文本知识表征进行知识交互,得到事件描述交互知识表征;其中,所述第一基础文本知识表征的知识维度低于所述第二基础文本知识表征的知识维度;
对所述事件描述交互知识表征进行特征提炼,得到所述反馈事件描述对应的目标文本知识表征,根据所述事件描述交互知识表征及所述目标文本知识表征,确定所述反馈事件描述对应的目标情绪知识表征;
依据所述目标情绪知识表征对所述目标文本知识表征进行知识表征转换,得到转换文本知识表征,将所述转换文本知识表征转换为所述反馈事件描述对应的调整文本。
8.根据权利要求7所述的方法,其特征在于,所述挖掘所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,包括:
将所述反馈事件描述加载到知识表征挖掘模型,基于所述知识表征挖掘模型中的M个知识表征挖掘滤波矩阵,挖掘所述反馈事件描述在每个知识表征挖掘滤波矩阵中对应的滤波知识表征;其中,所述M≥1;
对M个滤波知识表征进行特征提炼,得到所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征;
其中,所述对M个滤波知识表征进行特征提炼,得到所述反馈事件描述的第一基础文本知识表征和第二基础文本知识表征,包括:
将所述M个知识表征挖掘滤波矩阵拆解成第一滤波算子及第二滤波算子;所述第一滤波算子在所述知识表征挖掘模型中的层级小于所述第二滤波算子在所述知识表征挖掘模型中的层级;
对所述第一滤波算子所对应的滤波知识表征进行特征提炼,得到所述反馈事件描述的第一基础文本知识表征;
对所述第二滤波算子所对应的滤波知识表征进行特征提炼,得到所述反馈事件描述的第二基础文本知识表征;
所述对所述第一基础文本知识表征和所述第二基础文本知识表征进行知识交互,得到事件描述交互知识表征,包括:
对所述第一基础文本知识表征进行反卷积尺度变换,得到所述第一基础文本知识表征对应的第一尺度变换知识表征;
对所述第二基础文本知识表征进行反卷积尺度变换,得到所述第二基础文本知识表征对应的第二尺度变换知识表征;
其中,所述第一尺度变换知识表征与所述第二尺度变换知识表征的知识维度一致;
对所述第一尺度变换知识表征与所述第二尺度变换知识表征进行知识表征组合,得到组合知识表征;
依据知识交互滤波算子对所述组合知识表征进行知识整合,得到所述组合知识表征对应的事件描述交互知识表征。
9.一种数据挖掘装置,其特征在于,包括:
反馈意见调取模块,用于响应于反馈意见整理指令,调取拟处理反馈意见集;
表征向量挖掘模块,用于对所述拟处理反馈意见集中的各个反馈意见进行事件表征向量挖掘,得到所述各个反馈意见的事件表征向量;
代表意见生成模块,用于基于所述各个反馈意见的事件表征向量,生成至少一个代表反馈意见;其中,任两个代表反馈意见的事件表征向量之间的共性度量值小于第一预设共性度量值;
事件描述识别模块,用于对各个代表反馈意见进行事件描述识别,得到所述各个代表反馈意见的事件描述和所处的反馈段落;
事件描述融合模块,用于获取所述各个代表反馈意见的事件描述的描述详情,并基于所述各个代表反馈意见的事件描述的描述详情以及对应的反馈段落,对所述各个代表反馈意见的事件描述进行融合,得到融合反馈事件集;
反馈事件集确定模块,用于将所述融合反馈事件集确定为所述拟处理反馈意见集的反馈事件集。
10.一种电子设备,其特征在于,包括:
处理器;
以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1~8中任一项所述的方法。
CN202310365610.0A 2023-04-07 2023-04-07 数据挖掘方法、装置及电子设备 Active CN116069832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310365610.0A CN116069832B (zh) 2023-04-07 2023-04-07 数据挖掘方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310365610.0A CN116069832B (zh) 2023-04-07 2023-04-07 数据挖掘方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN116069832A CN116069832A (zh) 2023-05-05
CN116069832B true CN116069832B (zh) 2023-06-06

Family

ID=86177142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310365610.0A Active CN116069832B (zh) 2023-04-07 2023-04-07 数据挖掘方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116069832B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN107578092A (zh) * 2017-09-01 2018-01-12 广州智慧城市发展研究院 一种基于情绪和意见挖掘的情感复合分析方法及系统
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
WO2020199600A1 (zh) * 2019-04-03 2020-10-08 平安科技(深圳)有限公司 情感极性分析方法及相关装置
CN113378565A (zh) * 2021-05-18 2021-09-10 北京邮电大学 多源数据融合的事件分析方法、装置、设备及存储介质
CN114398484A (zh) * 2021-12-24 2022-04-26 科大讯飞股份有限公司 一种舆情分析方法、装置、设备及存储介质
CA3138730A1 (en) * 2020-11-12 2022-05-12 10353744 Canada Ltd. Public-opinion analysis method and system for providing early warning of enterprise risks

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154698A1 (en) * 2006-12-20 2008-06-26 Microsoft Corporation Dyanmic product classification for opinion aggregation
CN107220352B (zh) * 2017-05-31 2020-12-08 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN107578092A (zh) * 2017-09-01 2018-01-12 广州智慧城市发展研究院 一种基于情绪和意见挖掘的情感复合分析方法及系统
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
WO2020199600A1 (zh) * 2019-04-03 2020-10-08 平安科技(深圳)有限公司 情感极性分析方法及相关装置
CA3138730A1 (en) * 2020-11-12 2022-05-12 10353744 Canada Ltd. Public-opinion analysis method and system for providing early warning of enterprise risks
CN113378565A (zh) * 2021-05-18 2021-09-10 北京邮电大学 多源数据融合的事件分析方法、装置、设备及存储介质
CN114398484A (zh) * 2021-12-24 2022-04-26 科大讯飞股份有限公司 一种舆情分析方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sentiment Analysis of Course Evaluation Data Based on SVM Model;Junyan Zhao 等;2020 IEEE International Conference on Progress in Informatics and Computing (PIC);375-379 *
基于统计分析和知识挖掘的网络舆情管理决策平台研究;李杰 等;中国教育信息化(第15期);4-7 *

Also Published As

Publication number Publication date
CN116069832A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110210024B (zh) 一种信息处理方法、装置及存储介质
CN110675023B (zh) 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置
CN112348660A (zh) 生成风险警示信息的方法、装置及电子设备
CN112507628B (zh) 基于深度双向语言模型的风险预测方法、装置和电子设备
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN114841669A (zh) 基于机器学习的企业政策匹配方法、装置、电子设备及存储介质
CN117251559B (zh) 基于自然语言大模型的工程标准规范获取方法及系统
CN116069832B (zh) 数据挖掘方法、装置及电子设备
CN110704614B (zh) 对应用中的用户群类型进行预测的信息处理方法及装置
CN110782128B (zh) 一种用户职业标签生成方法、装置和电子设备
CN111784506A (zh) 逾期风险控制方法、设备及可读存储介质
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN111582649A (zh) 基于用户app独热编码的风险评估方法、装置和电子设备
CN112069807A (zh) 文本数据的主题提取方法、装置、计算机设备及存储介质
CN117172632B (zh) 一种企业异常行为检测方法、装置、设备及存储介质
CN113239194B (zh) 专利评议方法、系统、存储介质和电子设备
CN115545578B (zh) 一种电力调度操作指令信息抽取方法及系统
CN112836654B (zh) 一种基于融合的表情识别方法、装置和电子设备
CN112465657A (zh) 一种基于树模型特征衍生的风险评估方法、装置和电子设备
CN116523662A (zh) 基于人工智能的预测方法、装置、计算机设备及存储介质
CN117787723A (zh) 基于人工智能的数据预测方法、装置、设备及存储介质
CN117875320A (zh) 基于人工智能的数据处理方法、装置、设备及存储介质
CN115935173A (zh) 用户行为的表示学习方法、装置、电子设备及存储介质
Ranichandra GREY DEEP NEURAL NETWORK-BASED DATA ANALYSIS FOR FINANCIAL REPORTS IN TEXT MINING APPLICATIONS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant