CN113536769A - 文本简洁明晰程度评价方法及相关设备 - Google Patents

文本简洁明晰程度评价方法及相关设备 Download PDF

Info

Publication number
CN113536769A
CN113536769A CN202110824976.0A CN202110824976A CN113536769A CN 113536769 A CN113536769 A CN 113536769A CN 202110824976 A CN202110824976 A CN 202110824976A CN 113536769 A CN113536769 A CN 113536769A
Authority
CN
China
Prior art keywords
text
visual
content
training
scoring model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110824976.0A
Other languages
English (en)
Inventor
毛瑞彬
朱菁
杨雯雯
邓永翠
潘斌强
张大千
尚东东
孙德旺
张俊
杨建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN SECURITIES INFORMATION CO Ltd
Original Assignee
SHENZHEN SECURITIES INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN SECURITIES INFORMATION CO Ltd filed Critical SHENZHEN SECURITIES INFORMATION CO Ltd
Priority to CN202110824976.0A priority Critical patent/CN113536769A/zh
Publication of CN113536769A publication Critical patent/CN113536769A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本简洁明晰程度评价方法及相关设备,将待评价文本分别输入至预先训练完成的目标文本内容评分模型以及目标文本视觉评分模型,从而目标文本内容评分模型对待评价文本的文本内容进行识别和计算,得到待评价文本的内容评分,目标文本视觉评分模型对待评价文本的文本图像进行识别和计算,得到待评价文本的视觉评分,综合内容评分和视觉评分确定待评价文本的简洁明晰程度,实现了基于内容维度和视觉维度对文本的简洁明晰程度的综合评价,实现了对文本简洁明晰程度的量化,使得文本简洁明晰程度的评价不会受到人员知识水平和阅读习惯等主观因素的影响,使得文本简洁明晰程度的评价标准实现统一,评价结果更加客观。

Description

文本简洁明晰程度评价方法及相关设备
技术领域
本申请实施例涉及数据处理领域,具体涉及一种文本简洁明晰程度评价方法及相关设备。
背景技术
在金融证券领域,信息披露是进行交易决策的基础,信息披露文本是否简洁明晰是可读性的重要指标之一。在国内资本市场中,有很多学者研究认为信息披露的质量影响着股票发行、交易、上市公司经营等各个方面。同时,《证券法》也要求信息披露的信息应当真实、准确、完整,简明清晰,通俗易懂。文本是否简洁明晰的判定可以应用于商业领域,为投资交易、上市审核以及公司经营提供判断依据,具有良好的社会效益和商业用途。
然而,目前对文本是否简洁明晰的判定是由人员执行的,在判定过程中难免受到人员的主观因素影响,例如人员的知识水平、人员的主观看法、阅读习惯等等,这可能导致不同人员对同一文本的简洁明晰程度有不同的评价,评价结论各有不同,文本简洁明晰程度的评价标准也会因人而异,无法统一,难以客观地评价文本的简洁明晰程度。
发明内容
本申请实施例提供了一种文本简洁明晰程度评价方法及相关设备,用于评价文本的简洁明晰程度。
本申请实施例第一方面提供了一种文本简洁明晰程度评价方法,所述方法包括:
获得预先训练完成的目标文本内容评分模型,所述目标文本内容评分模型由机器学习算法对多组第一训练样本训练得到,且每组所述第一训练样本包括第一训练文本以及所述第一训练文本的标准内容评分;
获得预先训练完成的目标文本视觉评分模型,所述目标文本视觉评分模型由机器学习算法对多组第二训练样本训练得到,且每组所述第二训练样本包括训练文本图像以及所述训练文本图像的标准视觉评分;
将待评价文本输入至所述目标文本内容评分模型,以得到所述目标文本内容评分模型输出的所述待评价文本的内容评分;
将所述待评价文本的文本图像输入至所述目标文本视觉评分模型,以得到所述目标文本视觉评分模型输出的所述待评价文本的视觉评分;
根据所述待评价文本的内容评分和视觉评分确定所述待评价文本的简洁明晰程度。
本申请实施例第二方面提供了一种计算机设备,所述计算机设备包括:
获取单元,用于获得预先训练完成的目标文本内容评分模型,所述目标文本内容评分模型由机器学习算法对多组第一训练样本训练得到,且每组所述第一训练样本包括第一训练文本以及所述第一训练文本的标准内容评分;
所述获取单元还用于获得预先训练完成的目标文本视觉评分模型,所述目标文本视觉评分模型由机器学习算法对多组第二训练样本训练得到,且每组所述第二训练样本包括训练文本图像以及所述训练文本图像的标准视觉评分;
内容评分单元,用于将待评价文本输入至所述目标文本内容评分模型,以得到所述目标文本内容评分模型输出的所述待评价文本的内容评分;
视觉评分单元,用于将所述待评价文本的文本图像输入至所述目标文本视觉评分模型,以得到所述目标文本视觉评分模型输出的所述待评价文本的视觉评分;
评价单元,用于根据所述待评价文本的内容评分和视觉评分确定所述待评价文本的简洁明晰程度。
本申请实施例第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述第一方面的方法。
本申请实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,计算机设备将待评价文本分别输入至预先训练完成的目标文本内容评分模型以及目标文本视觉评分模型,从而目标文本内容评分模型对待评价文本的文本内容进行识别和计算,得到待评价文本的内容评分,目标文本视觉评分模型对待评价文本的文本图像进行识别和计算,得到待评价文本的视觉评分,综合内容评分和视觉评分确定待评价文本的简洁明晰程度,实现了基于内容维度和视觉维度对文本的简洁明晰程度的综合评价,实现了对文本简洁明晰程度的量化,采用预先训练完成的评分模型对文本简洁明晰程度进行计算和识别,使得文本简洁明晰程度的评价不会掺杂人员的主观因素,不会受到人员知识水平和阅读习惯等主观因素的影响,使得文本简洁明晰程度的评价标准实现统一,评价结果更加客观。
附图说明
图1为本申请实施例中文本简洁明晰程度评价方法一个流程示意图;
图2为本申请实施例中文本简洁明晰程度评价方法另一流程示意图;
图3为本申请实施例中训练目标文本内容评分模型一个流程示意图;
图4为本申请实施例中训练目标文本视觉评分模型一个流程示意图;
图5为本申请实施例中计算机设备一个结构示意图;
图6为本申请实施例中计算机设备另一结构示意图。
具体实施方式
本申请实施例提供了一种文本简洁明晰程度评价方法及相关设备,用于评价文本的简洁明晰程度。
请参阅图1,本申请实施例中文本简洁明晰程度评价方法一个实施例包括:
101、获得预先训练完成的目标文本内容评分模型;
本实施例的方法可应用于任意的具有数据处理能力的计算机设备,计算机设备可部署预先训练完成的目标文本内容评分模型,该目标文本内容评分模型由机器学习算法对多组第一训练样本训练得到,且每组第一训练样本包括第一训练文本以及第一训练文本的标准内容评分。标准内容评分表示文本内容在简洁明晰程度上的评分,其可以是由人工标注的,也可以是由算法自动计算得到的。其中文本内容可包括文字、表格、图片等能够记载于载体上的任意信息。
102、获得预先训练完成的目标文本视觉评分模型;
计算机设备部署预先训练完成的目标文本视觉评分模型,该目标文本视觉评分模型由机器学习算法对多组第二训练样本训练得到,且每组第二训练样本包括训练文本图像以及训练文本图像的标准视觉评分,该训练文本图像可以是第二训练文本的文本图像,第二训练文本可与上述第一训练文本属于同一文本,也可以是与第一训练文本不同的文本。获得第二训练文本的文本图像的方式可以是对第二训练文本进行截图、扫描或者拍照,只要是任意的将文本生成对应的文本图像的方式即可。
标准视觉评分表示文本在视觉上的简洁明晰程度的评分,其可以是由人工标注的,也可以是由算法自动计算得到的。
103、将待评价文本输入至目标文本内容评分模型,以得到目标文本内容评分模型输出的待评价文本的内容评分;
为评价文本的简洁明晰程度,计算机设备可将待评价文本输入至目标文本内容评分模型,目标文本内容评分模型对该待评价文本的文本内容进行识别和计算,输出识别和计算的结果,即待评价文本的内容评分。待评价文本的内容评分表示待评价文本在文本内容上的简洁明晰程度的评分。
104、将待评价文本的文本图像输入至目标文本视觉评分模型,以得到目标文本视觉评分模型输出的待评价文本的视觉评分;
同样的,还可以对待评价文本在视觉上的简洁明晰程度进行评分,则计算机设备将待评价文本的文本图像输入至目标文本视觉评分模型,目标文本视觉评分模型对待评价文本的文本图像进行识别和计算,输出待评价文本在视觉上的简洁明晰程度的评分。
105、根据待评价文本的内容评分和视觉评分确定待评价文本的简洁明晰程度;
在计算得到待评价文本的内容评分和视觉评分之后,计算机设备综合这两种维度的评分,确定待评价文本的简洁明晰程度。
本实施例中,计算机设备将待评价文本分别输入至预先训练完成的目标文本内容评分模型以及目标文本视觉评分模型,从而目标文本内容评分模型对待评价文本的文本内容进行识别和计算,得到待评价文本的内容评分,目标文本视觉评分模型对待评价文本的文本图像进行识别和计算,得到待评价文本的视觉评分,综合内容评分和视觉评分确定待评价文本的简洁明晰程度,实现了基于内容维度和视觉维度对文本的简洁明晰程度的综合评价,实现了对文本简洁明晰程度的量化,采用预先训练完成的评分模型对文本简洁明晰程度进行计算和识别,使得文本简洁明晰程度的评价不会掺杂人员的主观因素,不会受到人员知识水平和阅读习惯等主观因素的影响,使得文本简洁明晰程度的评价标准实现统一,评价结果更加客观。
下面将在前述图1所示实施例的基础上,进一步详细地描述本申请实施例。请参阅图2,本申请实施例中文本简洁明晰程度评价方法另一实施例包括:
201、执行目标文本内容评分模型的训练步骤;
本实施例中,计算机设备可预先执行目标文本内容评分模型的训练步骤,请参阅图3,其训练步骤包括:
2011、获得初始文本内容评分模型,将多组第一训练样本输入初始文本内容评分模型;
初始文本内容评分模型可以是任意的具备文本特征提取能力的自然语言处理模型,例如可以是循环神经网络模型(recurrent neural network,RNN)、词袋模型、词频-逆文档频度模型(term frequency-inverse document frequency,TF-IDF)、N-gram模型、长短期记忆网络(long-short term memory,LSTM)等语言模型。初始文本内容评分模型的初始模型参数可以是模型自带的参数,也可以是人员根据经验预先定义得到,具体此处不作限定。
2012、从上述多组第一训练样本中确定出第一批次的第一训练文本,并提取第一批次的第一训练文本的文本内容特征;
第一批次的第一训练文本可以是上述多组第一训练样本中的任意一组或者多组第一训练样本中的第一训练文本,初始文本内容评分模型基于其模型结构对第一批次的第一训练文本的文本内容特征进行特征提取,例如卷积神经网络语言模型可基于其卷积层结构对文本的文本内容特征进行提取。
在人们的阅读过程中,文本的逗号太多意味着短句多,容易引起歧义,让人难以理解,而如果句号占比高,则意味着句子简洁清晰,因此,句号数量在文本的标点符号总数中的占比可以作为评价文本简洁明晰程度的一项重要指标。
在文本中,定量描述比定性描述能够更有效地表述世界的本质,因此,数值型字符数量在文本的总字数中的占比也可以作为一项重要的评价指标来评价文本的简洁明晰程度。
文本使用多层目录,能够清晰地展现内容的层次和段落的主题,合适的目录标题数量能够让读者清晰地理解章节的内容范畴,因此,目录层次与目录标题计数可以用来评价文本的简洁明晰程度。
表格是一种会计语言,可以清晰明了地展示各个项目的值以及项目之间的关系,能够更加高效地传递信息,因此,表格数也可以作为文本简洁明晰程度的评价指标。
在文本中,形容词越多,主观的表述越多,越难以让读者理解事物的本质,因此,形容词数量在文本的实词总数中的占比可用于评价文本简洁明晰程度,该占比越高,文本的简洁明晰程度越低。
在文本中,定语从句越多,越容易引起歧义,越难以理解,因此定语从句数量也可以作为评价指标,定语从句占比越高,文本的简洁明晰程度越低。
主语省略是指句子没有显式的主语,当前句子继承前句的主语或宾语而省略主语,因此,读者在阅读文本时,需要读者自己去判断句子的主语,给读者带来困扰,则文本中省略的主语数量可以作为一项评价指标,省略主语的占比越高,文本的简洁明晰程度越低。
简单句为只含有一个主谓结构且句子各成分只由单词或短语构成的独立句子或分句,简单句对于读者来说容易理解,因此,简单句数量可以评价文本是否简洁明晰,简单句的占比越高,文本的简洁明晰程度越高。具体的,可以根据句法依存分析算法来确定文本中的简单句。
因此,基于上述列举的多个指标,在提取文本内容特征时,可以对第一训练文本提取出句号数量在文本的标点符号总数中的占比、数值型字符数量在文本的总字数中的占比、目录层次与目录标题计数、表格数、形容词数量在文本的实词总数中的占比、定语从句数量、省略的主语数量、简单句数量等一项或多项文本内容特征,便于在后续的模型训练步骤中确定上述文本内容特征与内容评分之间的关系,从而可以根据上述文本内容特征来评价文本的简洁明晰程度。
2013、根据第一训练文本的文本内容特征输出预测内容评分,根据预测内容评分与标准内容评分之间的差值调整初始文本内容评分模型的模型参数;
文本内容特征与文本的内容评分相关,则初始文本内容评分模型可基于预先设定的初始模型参数计算第一训练文本的文本内容特征对应的预测内容评分,即预测性地输出内容评分,并根据预测内容评分与标准内容评分之间的差值调整初始文本内容评分模型的模型参数。
调整模型参数的目标是使得下一次计算的预测内容评分更接近于标准内容评分,最终实现对模型参数的优化。其中,根据预测内容评分与标准内容评分之间的差值调整模型参数的方法,可以是交叉验证、网格搜索、遗传算法、粒子群优化、模拟退火算法、梯度下降法、最小二乘法等模型参数优化方法。
2014、若预测内容评分与标准内容评分之间的差值未满足收敛条件,则返回执行提取下一批次的第一训练文本的文本内容特征,直至差值满足收敛条件时停止训练,得到目标文本内容评分模型;
当基于第一批次的第一训练文本的训练过程结束之后,可进入下一批次的第一训练文本的训练过程,以验证上一次训练过程调整之后的模型参数是否满足收敛条件以及进一步优化模型参数,因此,若预测内容评分与标准内容评分之间的差值未满足收敛条件,则返回执行提取下一批次的第一训练文本的文本内容特征,并继续执行步骤2013中预测内容评分的操作以及调整模型参数的操作,如此循环操作,执行多个批次的第一训练文本的训练过程,直至预测内容评分与标准内容评分之间的差值满足收敛条件时停止训练,可得到目标文本内容评分模型。
其中,预测内容评分与标准内容评分之间的差值满足收敛条件,可以是该差值处在预设数值范围之内,也可以是该差值的变化幅度在预设范围之内,例如多次训练该差值保持不变或者变化很小,具体的收敛条件不作限定。
202、获得预先训练完成的目标文本内容评分模型;
本实施例中,计算机设备获得目标文本内容评分模型,可以是计算机设备执行目标文本内容评分模型的训练步骤而获得该模型,也可以是目标文本内容评分模型的训练步骤由该计算机设备之外的其它装置执行,并在目标文本内容评分模型训练完成之后将目标文本内容评分模型部署至该计算机设备,本实施例对计算机设备获得目标文本内容评分模型的方式不作限定。
203、执行目标文本视觉评分模型的训练步骤;
本实施例中,计算机设备可预先执行目标文本视觉评分模型的训练步骤,请参阅图4,其训练步骤包括:
2031、获得初始文本视觉评分模型,将多组第二训练样本输入初始文本视觉评分模型;
初始文本视觉评分模型可以是任意的具备图像特征提取能力的视觉处理模型,例如可以是卷积神经网络模型、长短期记忆网络(long-short termmemory,LSTM)等视觉处理模型。初始文本视觉评分模型的初始模型参数可以是模型自带的参数,也可以是人员根据经验预先定义得到,具体此处不作限定。
2032、从上述多组第二训练样本中确定出第一批次的训练文本图像,并提取第一批次的训练文本图像的文本视觉特征;
第一批次的训练文本图像可以是上述多组第二训练样本中的任意一组或者多组第二训练样本中的训练文本图像,初始文本视觉评分模型基于其模型结构对第一批次的训练文本图像的文本视觉特征进行特征提取,例如卷积神经网络模型可基于其卷积层结构对文本图像的文本视觉特征进行提取。
本实施例中,文本视觉特征可包括段落文字长度、是否设置项目编号、粗体字数量在文本的总字数中的占比、行距和字号、扫描文件数量、文字阅读方向中的一项或多项。其中,段落文字长度如果过长,在视觉上会给读者造成文本冗长的观感,一般段落文字长度在6~10行之间,文本的阅读和理解都会比较轻松,因此段落文字长度可以作为文本在视觉上是否简洁明晰的一项评判指标。
文本设置项目编号,相比于全文不设项目编号或者全文仅包括段落文字,可以让文本内容更具有逻辑性和条理性,在视觉上更显得结构清晰、主次分明,因此,是否设置项目编号,可用来评价文本在视觉上是否简洁明晰。
粗体字可以提示读者文本中的重点,适当应用,可以提高文本的简洁明晰程度,因此,可设置粗体字数量在文本的总字数中的占比标准,若某一文本的粗体字数量占比未达到该占比标准,则该文本在视觉上的简洁明晰程度会因此减弱。其中,该占比标准可以是一个数值范围。
适当行距和字号可以让阅读更为轻松,合适的行距可以提高文本的简洁明晰程度,因此,可设置行距标准和字号标准,并基于该标准评判文本的行距是否符合行距标准、字号是否符合字号标准,若符合,则文本的简洁明晰程度会因此而加强。
扫描文件由于字体不清晰等因素,会影响读者的阅读体验,因此文本中如果包含扫描文件,会降低文本的简洁明晰程度。人们一般习惯于从左到右的横向阅读方向,如果文本的文字阅读方向为竖直方向或者从右到左的横向阅读方向,则显然不便于阅读,这会大大降低文本的简洁明晰程度。
因此,可以从训练文本图像提取其多项文本视觉特征,以便于在后续的模型训练步骤中确定上述文本视觉特征与视觉评分之间的关系,从而可以根据上述文本视觉特征来评价文本的简洁明晰程度。
2033、根据训练文本图像的文本视觉特征输出预测视觉评分,根据预测视觉评分与标准视觉评分之间的差值调整初始文本视觉评分模型的模型参数;
文本视觉特征与文本的视觉评分相关,则初始文本视觉评分模型可基于预先设定的初始模型参数计算训练文本图像的文本视觉特征对应的预测视觉评分,即预测性地输出视觉评分,并根据预测视觉评分与标准视觉评分之间的差值调整初始文本视觉评分模型的模型参数。
调整模型参数的目标是使得下一次计算的预测视觉评分更接近于标准视觉评分,最终实现对模型参数的优化。其中,根据预测视觉评分与标准视觉评分之间的差值调整模型参数的方法,可以是交叉验证、网格搜索、遗传算法、粒子群优化、模拟退火算法、梯度下降法、最小二乘法等模型参数优化方法。
2034、若预测视觉评分与标准视觉评分之间的差值未满足收敛条件,则返回执行提取下一批次的训练文本图像的文本视觉特征,直至差值满足收敛条件时停止训练,得到目标文本视觉评分模型;
当基于第一批次的训练文本图像的训练过程结束之后,可进入下一批次的训练文本图像的训练过程,以验证上一次训练过程调整之后的模型参数是否满足收敛条件以及进一步优化模型参数,因此,若预测视觉评分与标准视觉评分之间的差值未满足收敛条件,则返回执行提取下一批次的训练文本图像的文本视觉特征,并继续执行步骤2033中预测视觉评分的操作以及调整模型参数的操作,如此循环操作,执行多个批次的训练文本图像的训练过程,直至预测视觉评分与标准视觉评分之间的差值满足收敛条件时停止训练,可得到目标文本视觉评分模型。
其中,预测视觉评分与标准视觉评分之间的差值满足收敛条件,可以是该差值处在预设数值范围之内,也可以是该差值的变化幅度在预设范围之内,例如多次训练该差值保持不变或者变化很小,具体的收敛条件不作限定。
204、获得预先训练完成的目标文本视觉评分模型;
本实施例中,计算机设备获得目标文本视觉评分模型,可以是计算机设备执行目标文本视觉评分模型的训练步骤而获得该模型,也可以是目标文本视觉评分模型的训练步骤由该计算机设备之外的其它装置执行,并在目标文本视觉评分模型训练完成之后将目标文本视觉评分模型部署至该计算机设备,本实施例对计算机设备获得目标文本视觉评分模型的方式不作限定。
205、将待评价文本输入至目标文本内容评分模型,以得到目标文本内容评分模型输出的待评价文本的内容评分;
在目标文本内容评分模型的训练过程中,目标文本内容评分模型会不断拟合文本内容特征与内容评分的之间的函数关系,在完成模型训练之后,该函数关系可以准确地表示文本内容特征与内容评分之间的关系,根据该函数关系计算得到的内容评分可以更加接近或者等于标准内容评分。因此,可将待评价文本输入至目标文本内容评分模型,从而目标文本内容评分模型从待评价文本中提取待评价文本的文本内容特征,并根据由模型训练步骤获得的文本内容特征与内容评分的函数关系计算待评价文本的文本内容特征对应的内容评分,进而输出待评价文本的内容评分。
206、将待评价文本的文本图像输入至目标文本视觉评分模型,以得到目标文本视觉评分模型输出的待评价文本的视觉评分;
同理,由模型训练步骤获得的文本视觉特征与视觉评分的函数关系可以准确地表示文本视觉特征与视觉评分之间的关系,根据该函数关系计算得到的视觉评分可以更加接近或者等于标准视觉评分。因此,可将待评价文本的文本图像输入至目标文本视觉评分模型,从而目标文本视觉评分模型从待评价文本的文本图像中提取待评价文本的文本视觉特征,并根据该函数关系计算待评价文本的文本视觉特征对应的视觉评分,进而输出待评价文本的视觉评分。
若文本具有多页面,则可分别对每个页面进行评分,并将所有页面的评分相加计算得到文本的评分。其中所有页面的评分相加可以是加权之后相加,也可以是不加权的相加。
207、根据待评价文本的内容评分和视觉评分确定待评价文本的简洁明晰程度;
本实施例中,根据内容评分和视觉评分确定文本的简洁明晰程度的方式可以是,计算内容评分和视觉评分的和值,根据该和值确定文本的简洁明晰程度;也可以计算内容评分和视觉评分的加权和,根据加权和确定文本的简洁明晰程度,本实施例对该方式不作限定。
此外,可设置评分的阈值,当内容评分与视觉评分的和值或者加权和超过该阈值时,可确定待评价文本符合简洁明晰的要求;若未超过该阈值,则确定待评价文本不符合简洁明晰的要求。也可不设置阈值,而只确定内容评分和/或视觉评分越高的文本的简洁明晰程度越高,具体此处不作限定。
本实施例中,提供了多种用于计算文本的内容评分的文本内容特征以及计算视觉评分的文本视觉特征,使得文本的简洁明晰程度可以基于文本的客观存在的特征进行评价,评价结果更加客观,不会受到人员的主观因素的影响。
本实施例提及的文本可以是任意领域的文本。在一种具体应用场景中,其可以是证券交易领域的信息披露文本,本实施例对信息披露文本的简洁明晰程度评价融合了自然语言处理和视觉处理技术,可衡量信息披露文本能否满足投资决策要求,促进证券市场信息对称,可减少金融风险。
上面对本申请实施例中的文本简洁明晰程度评价方法进行了描述,下面对本申请实施例中的计算机设备进行描述,请参阅图5,本申请实施例中计算机设备一个实施例包括:
获取单元501,用于获得预先训练完成的目标文本内容评分模型,目标文本内容评分模型由机器学习算法对多组第一训练样本训练得到,且每组第一训练样本包括第一训练文本以及第一训练文本的标准内容评分;
获取单元501还用于获得预先训练完成的目标文本视觉评分模型,目标文本视觉评分模型由机器学习算法对多组第二训练样本训练得到,且每组第二训练样本包括训练文本图像以及训练文本图像的标准视觉评分;
内容评分单元502,用于将待评价文本输入至目标文本内容评分模型,以得到目标文本内容评分模型输出的待评价文本的内容评分;
视觉评分单元503,用于将待评价文本的文本图像输入至目标文本视觉评分模型,以得到目标文本视觉评分模型输出的待评价文本的视觉评分;
评价单元504,用于根据待评价文本的内容评分和视觉评分确定待评价文本的简洁明晰程度。
本实施例一种优选的实施方式中,计算机设备还包括:
第一训练单元505,用于执行目标文本内容评分模型的训练步骤,该训练步骤包括:
获得初始文本内容评分模型;
将多组第一训练样本输入初始文本内容评分模型,以使得初始文本内容评分模型提取第一批次的第一训练文本的文本内容特征,根据第一训练文本的文本内容特征输出预测内容评分,根据预测内容评分与标准内容评分之间的差值调整初始文本内容评分模型的模型参数,若差值未满足收敛条件,则返回执行提取下一批次的第一训练文本的文本内容特征,直至差值满足收敛条件时停止训练,得到目标文本内容评分模型。
本实施例一种优选的实施方式中,内容评分单元502具体用于将待评价文本输入至目标文本内容评分模型,以使目标文本内容评分模型执行下述分类步骤:
从待评价文本中提取待评价文本的文本内容特征;
根据训练步骤获得的文本内容特征与内容评分的函数关系计算待评价文本的文本内容特征对应的内容评分,输出待评价文本的内容评分。
本实施例一种优选的实施方式中,文本内容特征包括句号数量在文本的标点符号总数中的占比、数值型字符数量在文本的总字数中的占比、目录层次与目录标题计数、表格数、形容词数量在文本的实词总数中的占比、定语从句数量、省略的主语数量、简单句数量中的一项或多项,简单句为只含有一个主谓结构且句子各成分只由单词或短语构成的独立句子或分句。
本实施例一种优选的实施方式中,计算机设备还包括:
第二训练单元506,用于执行目标文本视觉评分模型的训练步骤,该训练步骤包括:
获得初始文本视觉评分模型;
将多组第二训练样本输入初始文本视觉评分模型,以使得初始文本视觉评分模型提取第一批次的训练文本图像的文本视觉特征,根据训练文本图像的文本视觉特征输出预测视觉评分,根据预测视觉评分与标准视觉评分之间的差值调整初始文本视觉评分模型的模型参数,若差值未满足收敛条件,则返回执行提取下一批次的训练文本图像的文本视觉特征,直至差值满足收敛条件时停止训练,得到目标文本视觉评分模型。
本实施例一种优选的实施方式中,视觉评分单元503具体用于将待评价文本的文本图像输入至目标文本视觉评分模型,以使目标文本视觉评分模型执行下述分类步骤:
从待评价文本的文本图像中提取待评价文本的文本视觉特征;
根据训练步骤获得的文本视觉特征与视觉评分的函数关系计算待评价文本的文本视觉特征对应的视觉评分,输出待评价文本的视觉评分。
本实施例一种优选的实施方式中,文本视觉特征包括段落文字长度、是否设置项目编号、粗体字数量在文本的总字数中的占比、行距和字号、扫描文件数量、文字阅读方向中的一项或多项。
本实施例中,计算机设备中各单元所执行的操作与前述图1至图4所示实施例中描述的类似,此处不再赘述。
本实施例中,待评价文本分别输入至预先训练完成的目标文本内容评分模型以及目标文本视觉评分模型,从而目标文本内容评分模型对待评价文本的文本内容进行识别和计算,得到待评价文本的内容评分,目标文本视觉评分模型对待评价文本的文本图像进行识别和计算,得到待评价文本的视觉评分,评价单元504综合内容评分和视觉评分确定待评价文本的简洁明晰程度,实现了基于内容维度和视觉维度对文本的简洁明晰程度的综合评价,实现了对文本简洁明晰程度的量化,采用预先训练完成的评分模型对文本简洁明晰程度进行计算和识别,使得文本简洁明晰程度的评价不会掺杂人员的主观因素,不会受到人员知识水平和阅读习惯等主观因素的影响,使得文本简洁明晰程度的评价标准实现统一,评价结果更加客观。
下面对本申请实施例中的计算机设备进行描述,请参阅图6,本申请实施例中计算机设备一个实施例包括:
该计算机设备600可以包括一个或一个以上中央处理器(central processingunits,CPU)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在计算机设备600上执行存储器605中的一系列指令操作。
计算机设备600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器601可以执行前述图1至图4所示实施例中计算机设备所执行的操作,具体此处不再赘述。
本申请实施例还提供了一种计算机存储介质,其中一个实施例包括:该计算机存储介质中存储有指令,该指令在计算机上执行时,使得该计算机执行前述图1至图4所示实施例中计算机设备所执行的操作。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种文本简洁明晰程度评价方法,其特征在于,所述方法包括:
获得预先训练完成的目标文本内容评分模型,所述目标文本内容评分模型由机器学习算法对多组第一训练样本训练得到,且每组所述第一训练样本包括第一训练文本以及所述第一训练文本的标准内容评分;
获得预先训练完成的目标文本视觉评分模型,所述目标文本视觉评分模型由机器学习算法对多组第二训练样本训练得到,且每组所述第二训练样本包括训练文本图像以及所述训练文本图像的标准视觉评分;
将待评价文本输入至所述目标文本内容评分模型,以得到所述目标文本内容评分模型输出的所述待评价文本的内容评分;
将所述待评价文本的文本图像输入至所述目标文本视觉评分模型,以得到所述目标文本视觉评分模型输出的所述待评价文本的视觉评分;
根据所述待评价文本的内容评分和视觉评分确定所述待评价文本的简洁明晰程度。
2.根据权利要求1所述的方法,其特征在于,所述目标文本内容评分模型的训练步骤包括:
获得初始文本内容评分模型;
将多组所述第一训练样本输入所述初始文本内容评分模型,以使得所述初始文本内容评分模型提取第一批次的第一训练文本的文本内容特征,根据所述第一训练文本的文本内容特征输出预测内容评分,根据所述预测内容评分与所述标准内容评分之间的差值调整所述初始文本内容评分模型的模型参数,若所述差值未满足收敛条件,则返回执行提取下一批次的第一训练文本的文本内容特征,直至所述差值满足收敛条件时停止训练,得到所述目标文本内容评分模型。
3.根据权利要求2所述的方法,其特征在于,所述将待评价文本输入至所述目标文本内容评分模型,以得到所述目标文本内容评分模型输出的所述待评价文本的内容评分,包括:
将所述待评价文本输入至所述目标文本内容评分模型,以使所述目标文本内容评分模型执行下述分类步骤:
从所述待评价文本中提取所述待评价文本的文本内容特征;
根据所述训练步骤获得的文本内容特征与内容评分的函数关系计算所述待评价文本的文本内容特征对应的内容评分,输出所述待评价文本的内容评分。
4.根据权利要求3所述的方法,其特征在于,文本内容特征包括句号数量在文本的标点符号总数中的占比、数值型字符数量在文本的总字数中的占比、目录层次与目录标题计数、表格数、形容词数量在文本的实词总数中的占比、定语从句数量、省略的主语数量、简单句数量中的一项或多项,所述简单句为只含有一个主谓结构且句子各成分只由单词或短语构成的独立句子或分句。
5.根据权利要求1所述的方法,其特征在于,所述目标文本视觉评分模型的训练步骤包括:
获得初始文本视觉评分模型;
将多组所述第二训练样本输入所述初始文本视觉评分模型,以使得所述初始文本视觉评分模型提取第一批次的训练文本图像的文本视觉特征,根据所述训练文本图像的文本视觉特征输出预测视觉评分,根据所述预测视觉评分与所述标准视觉评分之间的差值调整所述初始文本视觉评分模型的模型参数,若所述差值未满足收敛条件,则返回执行提取下一批次的训练文本图像的文本视觉特征,直至所述差值满足收敛条件时停止训练,得到所述目标文本视觉评分模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述待评价文本的文本图像输入至所述目标文本视觉评分模型,以得到所述目标文本视觉评分模型输出的所述待评价文本的视觉评分,包括:
将所述待评价文本的文本图像输入至所述目标文本视觉评分模型,以使所述目标文本视觉评分模型执行下述分类步骤:
从所述待评价文本的文本图像中提取所述待评价文本的文本视觉特征;
根据所述训练步骤获得的文本视觉特征与视觉评分的函数关系计算所述待评价文本的文本视觉特征对应的视觉评分,输出所述待评价文本的视觉评分。
7.根据权利要求6所述的方法,其特征在于,文本视觉特征包括段落文字长度、是否设置项目编号、粗体字数量在文本的总字数中的占比、行距和字号、扫描文件数量、文字阅读方向中的一项或多项。
8.一种计算机设备,其特征在于,所述计算机设备包括:
获取单元,用于获得预先训练完成的目标文本内容评分模型,所述目标文本内容评分模型由机器学习算法对多组第一训练样本训练得到,且每组所述第一训练样本包括第一训练文本以及所述第一训练文本的标准内容评分;
所述获取单元还用于获得预先训练完成的目标文本视觉评分模型,所述目标文本视觉评分模型由机器学习算法对多组第二训练样本训练得到,且每组所述第二训练样本包括训练文本图像以及所述训练文本图像的标准视觉评分;
内容评分单元,用于将待评价文本输入至所述目标文本内容评分模型,以得到所述目标文本内容评分模型输出的所述待评价文本的内容评分;
视觉评分单元,用于将所述待评价文本的文本图像输入至所述目标文本视觉评分模型,以得到所述目标文本视觉评分模型输出的所述待评价文本的视觉评分;
评价单元,用于根据所述待评价文本的内容评分和视觉评分确定所述待评价文本的简洁明晰程度。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
CN202110824976.0A 2021-07-21 2021-07-21 文本简洁明晰程度评价方法及相关设备 Pending CN113536769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110824976.0A CN113536769A (zh) 2021-07-21 2021-07-21 文本简洁明晰程度评价方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110824976.0A CN113536769A (zh) 2021-07-21 2021-07-21 文本简洁明晰程度评价方法及相关设备

Publications (1)

Publication Number Publication Date
CN113536769A true CN113536769A (zh) 2021-10-22

Family

ID=78100713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110824976.0A Pending CN113536769A (zh) 2021-07-21 2021-07-21 文本简洁明晰程度评价方法及相关设备

Country Status (1)

Country Link
CN (1) CN113536769A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN109543090A (zh) * 2018-08-07 2019-03-29 宜人恒业科技发展(北京)有限公司 一种评价网络文章的方法和装置
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
CN111104789A (zh) * 2019-11-22 2020-05-05 华中师范大学 文本评分方法、装置和系统
CN111160000A (zh) * 2019-12-10 2020-05-15 深圳信息职业技术学院 作文自动评分方法、装置终端设备及存储介质
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111737554A (zh) * 2020-06-16 2020-10-02 北京奇艺世纪科技有限公司 评分模型训练方法、电子书评分方法及装置
CN111753873A (zh) * 2020-05-12 2020-10-09 北京捷通华声科技股份有限公司 一种图像检测方法和装置
CN111832281A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 作文评分方法、装置、计算机设备及计算机可读存储介质
CN111914532A (zh) * 2020-09-14 2020-11-10 北京阅神智能科技有限公司 一种中文作文评分方法
CN113033178A (zh) * 2021-03-04 2021-06-25 海创汇科技创业发展有限公司 用于商业计划书的文本评估方法、装置及计算机
CN113076736A (zh) * 2021-04-30 2021-07-06 平安科技(深圳)有限公司 多维度的文本评分方法、装置、计算机设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN109543090A (zh) * 2018-08-07 2019-03-29 宜人恒业科技发展(北京)有限公司 一种评价网络文章的方法和装置
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
CN111104789A (zh) * 2019-11-22 2020-05-05 华中师范大学 文本评分方法、装置和系统
CN111160000A (zh) * 2019-12-10 2020-05-15 深圳信息职业技术学院 作文自动评分方法、装置终端设备及存储介质
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111753873A (zh) * 2020-05-12 2020-10-09 北京捷通华声科技股份有限公司 一种图像检测方法和装置
CN111737554A (zh) * 2020-06-16 2020-10-02 北京奇艺世纪科技有限公司 评分模型训练方法、电子书评分方法及装置
CN111832281A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 作文评分方法、装置、计算机设备及计算机可读存储介质
CN111914532A (zh) * 2020-09-14 2020-11-10 北京阅神智能科技有限公司 一种中文作文评分方法
CN113033178A (zh) * 2021-03-04 2021-06-25 海创汇科技创业发展有限公司 用于商业计划书的文本评估方法、装置及计算机
CN113076736A (zh) * 2021-04-30 2021-07-06 平安科技(深圳)有限公司 多维度的文本评分方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US9552570B2 (en) Document classification system, document classification method, and document classification program
JP4683394B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
KR102105319B1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
Cao et al. Machine learning based detection of clickbait posts in social media
KR101813047B1 (ko) 감성 및 성향분석 방법
KR20130092342A (ko) 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법
KR101593371B1 (ko) 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템
US20160246795A1 (en) Forensic system, forensic method, and forensic program
US11526674B2 (en) Sentence extraction system, sentence extraction method, and information storage medium
Ashraf et al. Bots and Gender Prediction Using Language Independent Stylometry-based Approach.
CN108733672B (zh) 实现网络信息质量评估的方法和系统
WO2016189605A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
Zumma et al. Personality Prediction from Twitter Dataset using Machine Learning
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
Wijaya et al. Improving the Accuracy of Naïve Bayes Algorithm for Hoax Classification Using Particle Swarm Optimization
US20200134011A1 (en) Summary generating device, summary generating method, and information storage medium
CN113536769A (zh) 文本简洁明晰程度评价方法及相关设备
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
JP2021022292A (ja) 情報処理装置、プログラム及び情報処理方法
JP7333368B2 (ja) 情報処理装置および情報処理方法
JP6718535B2 (ja) 評価装置、評価方法、および評価プログラム
CN108154382B (zh) 评价装置、评价方法及存储介质
Jaman et al. Sentiment Analysis of the Body-Shaming Beauty Vlog Comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination