CN114417001A - 基于多模态模式的中文写作智能分析方法、系统及介质 - Google Patents

基于多模态模式的中文写作智能分析方法、系统及介质 Download PDF

Info

Publication number
CN114417001A
CN114417001A CN202210314409.5A CN202210314409A CN114417001A CN 114417001 A CN114417001 A CN 114417001A CN 202210314409 A CN202210314409 A CN 202210314409A CN 114417001 A CN114417001 A CN 114417001A
Authority
CN
China
Prior art keywords
original text
chinese writing
modal
writing
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210314409.5A
Other languages
English (en)
Other versions
CN114417001B (zh
Inventor
王兰忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210314409.5A priority Critical patent/CN114417001B/zh
Publication of CN114417001A publication Critical patent/CN114417001A/zh
Application granted granted Critical
Publication of CN114417001B publication Critical patent/CN114417001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态模式的中文写作智能分析方法、系统及介质,涉及智能文本分析技术领域,包括:获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;获取所述中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;根据所述匹配程度及流畅程度生成中文写作原文的分析结果。本发明通过对中文写作中的多模态资源及多模态特征进行提取及评价并识别判断文章中的语法错误,提高了多模态模式下中文写作的分析效率及准确度。

Description

基于多模态模式的中文写作智能分析方法、系统及介质
技术领域
本发明涉及智能文本分析技术领域,更具体的,涉及一种基于多模态模式的中文写作智能分析方法、系统及可读存储介质。
背景技术
IT技术的产生及迅猛发展, 改变了人们生活、工作和交流方式, 这些变化正潜移默化地影响着人们的读写方式,以图片、颜色、声音、音乐、动画等形式存在的符号已经不再是交流的形式,更是表意的手段,如同文字的表意作用,而目前的中文写作也摆脱了单一文字模态资源,逐渐向多模态模式发展,多模态的模式下的写作作品也更符合人们认识获取只是行为及能力的特定。现有的写作分析方法大多是针对于单一文字模态,因为多模态模式下各模态资源的表示方法和逻辑存在差异,这类写作分析方法并不适用于多模态模式下的中文写作分析,因此有必要对多模态文本中的多模态资源的分析与评估展开深入的研究。
为了能够基于中文写作中的多模态资源及多模态特征对中文写作进行分析评估,需要开发一款系统与之配合进行实现,该系统获取中文写作原文中的模态资源信息,并提取中文写作原文的多模态特征;获取中文写作原文中的中心思想及所述类别,根据模态资源信息与中心思想及所述类别的匹配程度对中文写作原文进行分析评估;构建写作评估模型,通过写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;根据匹配程度及流畅程度生成中文写作原文的的分析结果,并将分析结果按照预设方式进行显示。在该系统实现过程中,如何通过模态资源信息与中文写作中的中心思想及所述类别的匹配程度对中文写作原文进行分析评估是需要解决的问题。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于多模态模式的中文写作智能分析方法、系统及可读存储介质。
本发明第一方面提供了一种基于多模态模式的中文写作智能分析方法,包括:
获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;
获取中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;
构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;
根据所述匹配程度及流畅程度生成中文写作原文的分析结果,并将所述分析结果按照预设方式进行显示。
本方案中,所述的获取中文写作原文中的中心思想及分类结果,具体为:
对文本模态资源进行预处理,将预处理后的文本模态资源通过Word2vec模型进行提取词向量,根据所述词向量进行加权平均构建句向量表达,根据所述词向量及句向量表达作为语义特征;
计算所述句向量之间的相似度,若任意两个句向量之间的相似度大于预设相似度阈值,则获取每个句向量在中文写作原文中的出现频率及分布广度,根据所述出现频率及分布广度计算句向量在中文写作原文中的贡献值;
根据所述贡献值进行排序,根据贡献值最高的句向量在中文写作原文中进行抽取生成主题句集合,并提取主题句集合的语义特征,根据所述语义特征获取中文写作原文的中心思想;
基于双向长短期记忆神经网络模型建立文本分类模型,将所述句向量输入到所述文本分类模型,并结合注意力机制配置差异化权重获取中文写作原文的最终语义特征,根据所述最终语义特征输出中文写作原文所属类别的概率;
选取所述概率最高的类别信息作为中文写作原文的所属类别。
本方案中,所述的根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估,具体为:
提取中文写作原文的中心思想及所属类别,获取中文写作原文中图像模态资源及表格模态资源的位置信息,根据所述位置信息的上下文信息捕捉局部语义;
根据所述局部语义获取所述图像模态资源及表格模态资源的相关性,生成第一相关性得分;
根据所述中心思想及所属类别判断中文写作原文中的图像模态资源和表格模态资源的第二相关性得分;
根据所述第一相关性得分及第二相关性得分通过预设权重计算生成最终匹配程度得分。
本方案中,所述的构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度,具体为:
获取中文写作原文中的多模态特征,所述多模态特征包括但不限于语义特征、排版特征及图表特征;
构建写作评估模型,通过所述写作评估模型获取中文写作原文中的连接性关键词信息及总结性关键词信息;
提取连接性关键词的上下文信息,结合上下文的多模态特征获取能够正确衔接上文与下文并保持语义一致的连接性关键词个数,并进行标注;
根据所述能够正确衔接上文与下文并保持语义一致的连接性关键词个数判断中文写作原文的流畅程度。
本方案中,根据所述匹配程度及流畅程度生成中文写作原文的分析结果,具体为:
根据匹配程度得分及流畅程度得分按照预设权重信息获取中文写作原文的综合得分,根据预设阈值构建综合得分阈值区间;
根据所述综合得分所落在的阈值区间确定中文写作原文的质量等级,同时将中文写作原文中与中心思想不匹配的图表及中文写作原文中不连贯位置进行标注,并根据标注位置分析语法错误;
根据质量等级及标注信息获取中文写作原文的分析结果。
本方案中,还包括:
构建中文写作分析数据库,将用户的身份信息与历史写作原文及写作分析结果存入所述中文写作分析数据库;
将目标用户当前待分析中写作原文的分析结果导入所述中文写作分析数据库中进行相似度对比,获取历史写作分析结果中与当前写作分析的同类型写作分析标注;
将所述同类型写作分析按照预设时间生成目标用户中文写作的阶段性分析结果;
同时,根据所述阶段性分析结果及大数据生成目标用户当前中文写作的建议及注意事项。
本发明第二方面还提供了一种基于多模态模式的中文写作智能分析系统,该系统包括:存储器、处理器,所述存储器中包括一种基于多模态模式的中文写作智能分析方法程序,所述一种基于多模态模式的中文写作智能分析方法程序被所述处理器执行时实现如下步骤:
获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;
获取中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;
构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;
根据所述匹配程度及流畅程度生成中文写作原文的分析结果,并将所述分析结果按照预设方式进行显示。
本方案中,所述的获取中文写作原文中的中心思想及分类结果,具体为:
对文本模态资源进行预处理,将预处理后的文本模态资源通过Word2vec模型进行提取词向量,根据所述词向量进行加权平均构建句向量表达,根据所述词向量及句向量表达作为语义特征;
计算所述句向量之间的相似度,若任意两个句向量之间的相似度大于预设相似度阈值,则获取每个句向量在中文写作原文中的出现频率及分布广度,根据所述出现频率及分布广度计算句向量在中文写作原文中的贡献值;
根据所述贡献值进行排序,根据贡献值最高的句向量在中文写作原文中进行抽取生成主题句集合,并提取主题句集合的语义特征,根据所述语义特征获取中文写作原文的中心思想;
基于双向长短期记忆神经网络模型建立文本分类模型,将所述句向量输入到所述文本分类模型,并结合注意力机制配置差异化权重获取中文写作原文的最终语义特征,根据所述最终语义特征输出中文写作原文所属类别的概率;
选取所述概率最高的类别信息作为中文写作原文的所属类别。
本方案中,所述的根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估,具体为:
提取中文写作原文的中心思想及所属类别,获取中文写作原文中图像模态资源及表格模态资源的位置信息,根据所述位置信息的上下文信息捕捉局部语义;
根据所述局部语义获取所述图像模态资源及表格模态资源的相关性,生成第一相关性得分;
根据所述中心思想及所属类别判断中文写作原文中的图像模态资源和表格模态资源的第二相关性得分;
根据所述第一相关性得分及第二相关性得分通过预设权重计算生成最终匹配程度得分。
本方案中,所述的构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度,具体为:
获取中文写作原文中的多模态特征,所述多模态特征包括但不限于语义特征、排版特征及图表特征;
构建写作评估模型,通过所述写作评估模型获取中文写作原文中的连接性关键词信息及总结性关键词信息;
提取连接性关键词的上下文信息,结合上下文的多模态特征获取能够正确衔接上文与下文并保持语义一致的连接性关键词个数,并进行标注;
根据所述能够正确衔接上文与下文并保持语义一致的连接性关键词个数判断中文写作原文的流畅程度。
本方案中,根据所述匹配程度及流畅程度生成中文写作原文的分析结果,具体为:
根据匹配程度得分及流畅程度得分按照预设权重信息获取中文写作原文的综合得分,根据预设阈值构建综合得分阈值区间;
根据所述综合得分所落在的阈值区间确定中文写作原文的质量等级,同时将中文写作原文中与中心思想不匹配的图表及中文写作原文中不连贯位置进行标注,并根据标注位置分析语法错误;
根据质量等级及标注信息获取中文写作原文的分析结果。
本方案中,还包括:
构建中文写作分析数据库,将用户的身份信息与历史写作原文及写作分析结果存入所述中文写作分析数据库;
将目标用户当前待分析中写作原文的分析结果导入所述中文写作分析数据库中进行相似度对比,获取历史写作分析结果中与当前写作分析的同类型写作分析标注;
将所述同类型写作分析按照预设时间生成目标用户中文写作的阶段性分析结果;
根据所述阶段性分析结果及大数据生成目标用户当前中文写作的建议及注意事项。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于多模态模式的中文写作智能分析方法程序,所述一种基于多模态模式的中文写作智能分析方法程序被处理器执行时,实现如上述任一项所述的一种基于多模态模式的中文写作智能分析方法的步骤。
本发明的有益效果在于公开了一种基于多模态模式的中文写作智能分析方法、系统及介质,涉及智能文本分析技术领域,包括:获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;获取所述中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;根据所述匹配程度及流畅程度生成中文写作原文的分析结果。本发明通过对中文写作中的多模态资源及多模态特征进行提取及评价并识别判断文章中的语法错误,提高了多模态模式下中文写作的分析效率及准确度。
附图说明
图1示出了本发明一种基于多模态模式的中文写作智能分析方法的流程图;
图2示出了本发明一种基于多模态模式的中文写作智能分析系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于多模态模式的中文写作智能分析方法的流程图。
如图1所示,本发明第一方面提供了一种基于多模态模式的中文写作智能分析方法,包括:
S102,获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;
S104,获取中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;
S106,构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;
S108,根据所述匹配程度及流畅程度生成中文写作原文的分析结果,并将所述分析结果按照预设方式进行显示。
需要说明的是,所述的获取中文写作原文中的中心思想及分类结果,具体为:
对文本模态资源进行预处理,将预处理后的文本模态资源通过Word2vec模型进行提取词向量,根据所述词向量进行加权平均构建句向量表达,根据所述词向量及句向量表达作为语义特征;所述对文本模态资源进行预处理主要包括数据清洗、分词、去除停用词等,过滤掉中文写作原文中无实际意义、对结果分析无影响的词以及大量停用词,同时利用自然语言处理分词库进行分词;
计算所述句向量之间的相似度,若任意两个句向量之间的相似度大于预设相似度阈值,则获取每个句向量在中文写作原文中的出现频率及分布广度,根据所述出现频率及分布广度计算句向量在中文写作原文中的贡献值;
根据所述贡献值进行排序,根据贡献值最高的句向量在中文写作原文中进行抽取生成主题句集合,并提取主题句集合的语义特征,根据所述语义特征获取中文写作原文的中心思想;
基于双向长短期记忆神经网络模型建立文本分类模型,将所述句向量输入到所述文本分类模型,并结合注意力机制配置差异化权重获取中文写作原文的最终语义特征,根据所述最终语义特征输出中文写作原文所属类别的概率,选取所述概率最高的类别信息作为中文写作原文的所属类别。
基于双向长短期记忆神经网络模型整合中文写作原文中的上下文特征,保证中文写作原文中文本模态资源的语义完整性,通过中文文本分类数据集获取数据集,将所述数据集分为训练集与验证集,将训练数据集进行词向量表示,输入结合注意力机制的双向长短期记忆神经网络中进行训练,通过训练后的模型进行中文写作原文的分类。
需要说明的是,所述的根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估,具体为:
提取中文写作原文的中心思想及所属类别,获取中文写作原文中图像模态资源及表格模态资源的位置信息,根据所述位置信息的上下文信息捕捉局部语义;
根据所述局部语义获取所述图像模态资源及表格模态资源的相关性,生成第一相关性得分;
根据所述中心思想及所属类别判断中文写作原文中的图像模态资源和表格模态资源的第二相关性得分;
根据所述第一相关性得分及第二相关性得分通过预设权重计算生成最终匹配程度得分。
所述局部语义与中文写作原文中图像模态资源及表格模态资源的相关性可以通过深度学习的方式进行实现,将图像模态资源及表格模态资源进行向量化表示,并计算与中文写作原文词向量的余弦距离。图文相关性模型基于神经网络通过文字训练集图表训练两部分构建,两部分训练后可将两个模型中的一部分组合到最终的图文相关性模型,通过在不断迭代的过程中根据损失函数来更新网络参数,使得图表对应的向量化表示能与其真实标签的文本向量尽量接近。
需要说明的是,所述的构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度,具体为:
获取中文写作原文中的多模态特征,所述多模态特征包括但不限于语义特征、排版特征及图表特征;
构建写作评估模型,通过所述写作评估模型获取中文写作原文中的连接性关键词信息及总结性关键词信息;
提取连接性关键词的上下文信息,结合上下文的多模态特征获取能够正确衔接上文与下文并保持语义一致的连接性关键词个数,并进行标注;
根据所述能够正确衔接上文与下文并保持语义一致的连接性关键词个数判断中文写作原文的流畅程度。
需要说明的是,根据所述匹配程度及流畅程度生成中文写作原文的分析结果,具体为:
根据匹配程度得分及流畅程度得分按照预设权重信息获取中文写作原文的综合得分,根据预设阈值构建综合得分阈值区间;
根据所述综合得分所落在的阈值区间确定中文写作原文的质量等级,同时将中文写作原文中与中心思想不匹配的图表及中文写作原文中不连贯位置进行标注,并根据标注位置分析语法错误;
根据质量等级及标注信息获取中文写作原文的分析结果。
需要说明的是,本发明还包括:构建中文写作分析数据库,将用户的身份信息与历史写作原文及写作分析结果存入所述中文写作分析数据库;将目标用户当前待分析中写作原文的分析结果导入所述中文写作分析数据库中进行相似度对比,获取历史写作分析结果中与当前写作分析的同类型写作分析标注;将所述同类型写作分析按照预设时间生成目标用户中文写作的阶段性分析结果;根据所述阶段性分析结果及大数据生成目标用户当前中文写作的建议及注意事项,在所述阶段性中文写作分析结果中将目标用户在预设时间内同类型分析标注及原文进行对比分析,并统计同类型分析标注次数信息,对目标用户后续中文写作的建议信息生成提供依据。
根据本发明实施例,本发明还包括,根据目标用户的中文写作原文的分析结果制定中文写作教学计划,具体为:
获取目标用户的中文写作原文分析结果,根据分析结果中的标记信息制定针对性学习及训练内容,根据所述学习及训练内容获取不同模态的教学资源;
根据所述针对性学习及训练内容通过不同模态教学方式及对应的教学资源对目标用户的教学,根据目标用户的感兴趣程度反馈结果确定目标用户适用的模态教学方式;
通过所述目标用户适用的模态教学方式根据学习周期制定专属性多模态教学模式及教学计划,并定期获取教学周期内目标用户的中文写作阶段性分析结果;
同时根据目标用户的中文写作阶段性分析结果对教学计划进行动态调整。
图2示出了本发明一种基于多模态模式的中文写作智能分析系统的框图。
本发明第二方面还提供了一种基于多模态模式的中文写作智能分析系统2,该系统包括:存储器21、处理器22,所述存储器中包括一种基于多模态模式的中文写作智能分析方法程序,所述一种基于多模态模式的中文写作智能分析方法程序被所述处理器执行时实现如下步骤:
获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;
获取中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;
构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;
根据所述匹配程度及流畅程度生成中文写作原文的分析结果,并将所述分析结果按照预设方式进行显示。
需要说明的是,所述的获取中文写作原文中的中心思想及分类结果,具体为:
对文本模态资源进行预处理,将预处理后的文本模态资源通过Word2vec模型进行提取词向量,根据所述词向量进行加权平均构建句向量表达,根据所述词向量及句向量表达作为语义特征;所述对文本模态资源进行预处理主要包括数据清洗、分词、去除停用词等,过滤掉中文写作原文中无实际意义、对结果分析无影响的词以及大量停用词,同时利用自然语言处理分词库进行分词;
计算所述句向量之间的相似度,若任意两个句向量之间的相似度大于预设相似度阈值,则获取每个句向量在中文写作原文中的出现频率及分布广度,根据所述出现频率及分布广度计算句向量在中文写作原文中的贡献值;
根据所述贡献值进行排序,根据贡献值最高的句向量在中文写作原文中进行抽取生成主题句集合,并提取主题句集合的语义特征,根据所述语义特征获取中文写作原文的中心思想;
基于双向长短期记忆神经网络模型建立文本分类模型,将所述句向量输入到所述文本分类模型,并结合注意力机制配置差异化权重获取中文写作原文的最终语义特征,根据所述最终语义特征输出中文写作原文所属类别的概率,选取所述概率最高的类别信息作为中文写作原文的所属类别。
基于双向长短期记忆神经网络模型整合中文写作原文中的上下文特征,保证中文写作原文中文本模态资源的语义完整性,通过中文文本分类数据集获取数据集,将所述数据集分为训练集与验证集,将训练数据集进行词向量表示,输入结合注意力机制的双向长短期记忆神经网络中进行训练,通过训练后的模型进行中文写作原文的分类。
需要说明的是,所述的根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估,具体为:
提取中文写作原文的中心思想及所属类别,获取中文写作原文中图像模态资源及表格模态资源的位置信息,根据所述位置信息的上下文信息捕捉局部语义;
根据所述局部语义获取所述图像模态资源及表格模态资源的相关性,生成第一相关性得分;
根据所述中心思想及所属类别判断中文写作原文中的图像模态资源和表格模态资源的第二相关性得分;
根据所述第一相关性得分及第二相关性得分通过预设权重计算生成最终匹配程度得分。
所述局部语义与中文写作原文中图像模态资源及表格模态资源的相关性可以通过深度学习的方式进行实现,将图像模态资源及表格模态资源进行向量化表示,并计算与中文写作原文词向量的余弦距离。图文相关性模型基于神经网络通过文字训练集图表训练两部分构建,两部分训练后可将两个模型中的一部分组合到最终的图文相关性模型,通过在不断迭代的过程中根据损失函数来更新网络参数,使得图表对应的向量化表示能与其真实标签的文本向量尽量接近。
需要说明的是,所述的构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度,具体为:
获取中文写作原文中的多模态特征,所述多模态特征包括但不限于语义特征、排版特征及图表特征;
构建写作评估模型,通过所述写作评估模型获取中文写作原文中的连接性关键词信息及总结性关键词信息;
提取连接性关键词的上下文信息,结合上下文的多模态特征获取能够正确衔接上文与下文并保持语义一致的连接性关键词个数,并进行标注;
根据所述能够正确衔接上文与下文并保持语义一致的连接性关键词个数判断中文写作原文的流畅程度。
需要说明的是,根据所述匹配程度及流畅程度生成中文写作原文的分析结果,具体为:
根据匹配程度得分及流畅程度得分按照预设权重信息获取中文写作原文的综合得分,根据预设阈值构建综合得分阈值区间;
根据所述综合得分所落在的阈值区间确定中文写作原文的质量等级,同时将中文写作原文中与中心思想不匹配的图表及中文写作原文中不连贯位置进行标注,并根据标注位置分析语法错误;
根据质量等级及标注信息获取中文写作原文的分析结果。
需要说明的是,本发明还包括:构建中文写作分析数据库,将用户的身份信息与历史写作原文及写作分析结果存入所述中文写作分析数据库;将目标用户当前待分析中写作原文的分析结果导入所述中文写作分析数据库中进行相似度对比,获取历史写作分析结果中与当前写作分析的同类型写作分析标注;将所述同类型写作分析按照预设时间生成目标用户中文写作的阶段性分析结果;同时,根据所述阶段性分析结果及大数据生成目标用户当前中文写作的建议及注意事项,在所述阶段性中文写作分析结果中将目标用户在预设时间内同类型分析标注及原文进行对比分析,并统计同类型分析标注次数信息,对目标用户后续中文写作的建议信息生成提供依据。
根据本发明实施例,本发明还包括,根据目标用户的中文写作原文的分析结果制定中文写作教学计划,具体为:
获取目标用户的中文写作原文分析结果,根据分析结果中的标记信息制定针对性学习及训练内容,根据所述学习及训练内容获取不同模态的教学资源;
根据所述针对性学习及训练内容通过不同模态教学方式及对应的教学资源对目标用户的教学,根据目标用户的感兴趣程度反馈结果确定目标用户适用的模态教学方式;
通过所述目标用户适用的模态教学方式根据学习周期制定专属性多模态教学模式及教学计划,并定期获取教学周期内目标用户的中文写作阶段性分析结果;
同时根据目标用户的中文写作阶段性分析结果对教学计划进行动态调整。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于多模态模式的中文写作智能分析方法程序,所述一种基于多模态模式的中文写作智能分析方法程序被处理器执行时,实现如上述任一项所述的一种基于多模态模式的中文写作智能分析方法的步骤。
本发明公开了一种基于多模态模式的中文写作智能分析方法、系统及介质,涉及智能文本分析技术领域,包括:获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;获取所述中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;根据所述匹配程度及流畅程度生成中文写作原文的分析结果。本发明通过对中文写作中的多模态资源及多模态特征进行提取及评价并识别判断文章中的语法错误,提高了多模态模式下中文写作的分析效率及准确度。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于多模态模式的中文写作智能分析方法,其特征在于,包括以下步骤:
获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;
获取中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;
构建写作评估模型,通过所述写作评估模型及所述多模态特征判断所述中文写作原文的流畅程度;
根据所述匹配程度及流畅程度生成中文写作原文的分析结果,并将所述分析结果按照预设方式进行显示。
2.根据权利要求1所述的一种基于多模态模式的中文写作智能分析方法,其特征在于,所述的获取中文写作原文中的中心思想及分类结果,具体为:
对文本模态资源进行预处理,将预处理后的文本模态资源通过Word2vec模型进行提取词向量,根据所述词向量进行加权平均构建句向量表达,根据所述词向量及句向量表达作为语义特征;
计算所述句向量之间的相似度,若任意两个句向量之间的相似度大于预设相似度阈值,则获取每个句向量在中文写作原文中的出现频率及分布广度,根据所述出现频率及分布广度计算句向量在中文写作原文中的贡献值;
根据所述贡献值进行排序,根据贡献值最高的句向量在中文写作原文中进行抽取生成主题句集合,并提取主题句集合的语义特征,根据所述语义特征获取中文写作原文的中心思想;
基于双向长短期记忆神经网络模型建立文本分类模型,将所述句向量输入到所述文本分类模型,并结合注意力机制配置差异化权重获取中文写作原文的最终语义特征,根据所述最终语义特征输出中文写作原文所属类别的概率;
选取所述概率最高的类别信息作为中文写作原文的所属类别。
3.根据权利要求1所述的一种基于多模态模式的中文写作智能分析方法,其特征在于,所述的根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估,具体为:
提取中文写作原文的中心思想及所属类别,获取中文写作原文中图像模态资源及表格模态资源的位置信息,根据所述位置信息的上下文信息捕捉局部语义;
根据所述局部语义获取所述图像模态资源及表格模态资源的相关性,生成第一相关性得分;
根据所述中心思想及所属类别判断中文写作原文中的图像模态资源和表格模态资源的第二相关性得分;
根据所述第一相关性得分及第二相关性得分通过预设权重计算生成最终匹配程度得分。
4.根据权利要求1所述的一种基于多模态模式的中文写作智能分析方法,其特征在于,所述的构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度,具体为:
获取中文写作原文中的多模态特征,所述多模态特征包括但不限于语义特征、排版特征及图表特征;
构建写作评估模型,通过所述写作评估模型获取中文写作原文中的连接性关键词信息及总结性关键词信息;
提取连接性关键词的上下文信息,结合上下文的多模态特征获取能够正确衔接上文与下文并保持语义一致的连接性关键词个数,并进行标注;
根据所述能够正确衔接上文与下文并保持语义一致的连接性关键词个数判断中文写作原文的流畅程度。
5.根据权利要求1所述的一种基于多模态模式的中文写作智能分析方法,其特征在于,根据所述匹配程度及流畅程度生成中文写作原文的分析结果,具体为:
根据匹配程度得分及流畅程度得分按照预设权重信息获取中文写作原文的综合得分,根据预设阈值构建综合得分阈值区间;
根据所述综合得分所落在的阈值区间确定中文写作原文的质量等级,同时将中文写作原文中与中心思想不匹配的图表及中文写作原文中不连贯位置进行标注,并根据标注位置分析语法错误;
根据质量等级及标注信息获取中文写作原文的分析结果。
6.根据权利要求1所述的一种基于多模态模式的中文写作智能分析方法,其特征在于,还包括:
构建中文写作分析数据库,将用户的身份信息与历史写作原文及写作分析结果存入所述中文写作分析数据库;
将目标用户当前待分析中写作原文的分析结果导入所述中文写作分析数据库中进行相似度对比,获取历史写作分析结果中与当前写作分析的同类型写作分析标注;
将所述同类型写作分析按照预设时间生成目标用户中文写作的阶段性分析结果;
根据所述阶段性分析结果及大数据生成目标用户当前中文写作的建议及注意事项。
7.一种基于多模态模式的中文写作智能分析系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于多模态模式的中文写作智能分析方法程序,所述一种基于多模态模式的中文写作智能分析的方法程序被所述处理器执行时实现如下步骤:
获取中文写作原文中的模态资源信息,并提取所述中文写作原文的多模态特征;
获取中文写作原文中的中心思想及分类结果,根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估;
构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度;
根据所述匹配程度及流畅程度生成中文写作原文的分析结果,并将所述分析结果按照预设方式进行显示。
8.根据权利要求7所述的一种基于多模态模式的中文写作智能分析系统,其特征在于,所述的根据所述模态资源信息与所述中心思想及分类结果的匹配程度对中文写作原文进行分析评估,具体为:
提取中文写作原文的中心思想及所属类别,获取中文写作原文中图像模态资源及表格模态资源的位置信息,根据所述位置信息的上下文信息捕捉局部语义;
根据所述局部语义获取所述图像模态资源及表格模态资源的相关性,生成第一相关性得分;
根据所述中心思想及所属类别判断中文写作原文中的图像模态资源和表格模态资源的第二相关性得分;
根据所述第一相关性得分及第二相关性得分通过预设权重计算生成最终匹配程度得分。
9.根据权利要求7所述的一种基于多模态模式的中文写作智能分析系统,其特征在于,所述的构建写作评估模型,通过所述写作评估模型根据所述多模态特征判断中文写作原文的流畅程度,具体为:
获取中文写作原文中的多模态特征,所述多模态特征包括但不限于语义特征、排版特征及图表特征;
构建写作评估模型,通过所述写作评估模型获取中文写作原文中的连接性关键词信息及总结性关键词信息;
提取连接性关键词的上下文信息,结合上下文的多模态特征获取能够正确衔接上文与下文并保持语义一致的连接性关键词个数,并进行标注;
根据所述能够正确衔接上文与下文并保持语义一致的连接性关键词个数判断中文写作原文的流畅程度。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中包括一种基于多模态模式的中文写作智能分析方法程序,所述一种基于多模态模式的中文写作智能分析方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种基于多模态模式的中文写作智能分析方法的步骤。
CN202210314409.5A 2022-03-29 2022-03-29 基于多模态模式的中文写作智能分析方法、系统及介质 Active CN114417001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210314409.5A CN114417001B (zh) 2022-03-29 2022-03-29 基于多模态模式的中文写作智能分析方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210314409.5A CN114417001B (zh) 2022-03-29 2022-03-29 基于多模态模式的中文写作智能分析方法、系统及介质

Publications (2)

Publication Number Publication Date
CN114417001A true CN114417001A (zh) 2022-04-29
CN114417001B CN114417001B (zh) 2022-07-01

Family

ID=81263511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210314409.5A Active CN114417001B (zh) 2022-03-29 2022-03-29 基于多模态模式的中文写作智能分析方法、系统及介质

Country Status (1)

Country Link
CN (1) CN114417001B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012789A1 (en) * 2006-10-18 2009-01-08 Teresa Ruth Gaudet Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
US20180349781A1 (en) * 2017-06-02 2018-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for judging news quality and storage medium
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
US10885274B1 (en) * 2017-06-22 2021-01-05 Educational Testing Service Platform for administering and evaluating narrative essay examinations
CN112231485A (zh) * 2020-12-14 2021-01-15 平安科技(深圳)有限公司 文本推荐方法、装置、计算机设备及存储介质
CN113326348A (zh) * 2021-05-28 2021-08-31 南京大学 一种博客质量评估方法及工具
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113836894A (zh) * 2021-09-26 2021-12-24 武汉天喻信息产业股份有限公司 多维度英语作文评分方法、装置及可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012789A1 (en) * 2006-10-18 2009-01-08 Teresa Ruth Gaudet Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
US20180349781A1 (en) * 2017-06-02 2018-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for judging news quality and storage medium
US10885274B1 (en) * 2017-06-22 2021-01-05 Educational Testing Service Platform for administering and evaluating narrative essay examinations
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN112231485A (zh) * 2020-12-14 2021-01-15 平安科技(深圳)有限公司 文本推荐方法、装置、计算机设备及存储介质
CN113326348A (zh) * 2021-05-28 2021-08-31 南京大学 一种博客质量评估方法及工具
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113836894A (zh) * 2021-09-26 2021-12-24 武汉天喻信息产业股份有限公司 多维度英语作文评分方法、装置及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUAJIE SHAO 等: "《Truth Discovery With Multi-Modal Data in Social Sensing》", 《IEEE》 *
雷晓东: "英语作文自动评价系统技术的国内研究与应用", 《科技视界》 *
韩林倩: "《高中生英语写作语篇衔接手段与作文质量的相关性研究》", 《《中国优秀硕士学位论文全文数据库 (社会科学Ⅱ辑)》》 *

Also Published As

Publication number Publication date
CN114417001B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN109977416A (zh) 一种多层次自然语言反垃圾文本方法及系统
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN112380349A (zh) 商品性别分类方法、装置及电子设备
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN114648392B (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112988963A (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN113887930A (zh) 问答机器人健康度评估方法、装置、设备及存储介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115309864A (zh) 评论文本的情感智能分类方法、装置、电子设备及介质
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN117351336A (zh) 图像审核方法和相关设备
CN114417001B (zh) 基于多模态模式的中文写作智能分析方法、系统及介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
Tannert et al. FlowchartQA: the first large-scale benchmark for reasoning over flowcharts
CN115357711A (zh) 一种方面级情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant