CN117874172B - 文本可读性评估方法及系统 - Google Patents

文本可读性评估方法及系统 Download PDF

Info

Publication number
CN117874172B
CN117874172B CN202410268881.9A CN202410268881A CN117874172B CN 117874172 B CN117874172 B CN 117874172B CN 202410268881 A CN202410268881 A CN 202410268881A CN 117874172 B CN117874172 B CN 117874172B
Authority
CN
China
Prior art keywords
features
text
language
words
evaluated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410268881.9A
Other languages
English (en)
Other versions
CN117874172A (zh
Inventor
梁晟
许诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202410268881.9A priority Critical patent/CN117874172B/zh
Publication of CN117874172A publication Critical patent/CN117874172A/zh
Application granted granted Critical
Publication of CN117874172B publication Critical patent/CN117874172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,提供一种文本可读性评估方法及系统,通过获取待评估的语言文本数据;对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于bert的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价;相比传统方法,本发明极大地提高了文本可读性的评估效率以及精准度,扩展了文本可读性评估的应用场景。

Description

文本可读性评估方法及系统
技术领域
本发明涉及自然语言处理技术领域,涉及一种文本可读性评估方法及系统。
背景技术
文本可读性是指文本的易读性和可理解性,反映了文本对读者的友好程度。它受到词汇难度、句子结构、段落组织、文本长度等多种因素的影响,其中,易读的文本通常包括简单常见的词汇,清晰简洁的句子结构,合理的段落组织以及正确规范的语法和标点。文本可读性的评估对于生成符合特定受众需求的易读文本有着重要的意义。
中国高校的西班牙语专业教学始于1952年,到如今已有上百所高校设有西班牙语专业;而国内法语教学更是自1850年便开始生根发芽,迄今已有一百六十多年的历史。然而,作为全球的第三大和第五大语言,分别有超过20个和30个国家作为官方语言使用。
现有技术中,通过定量定性方法结合自然语言处理技术对英语进行文本可读性评估已经取得了一定的进展。但是在非英语语种的文本可读性评估方面仍然在多方面尝试。Ashish Palakurthi and Radhika Mamidi团队于2016年使用最近质心分类法进行复杂词辨识。 GRPIAA和Apache Commons Mathematics Library团队共同参与了Coh-Metrix-Esp和Coh-Metrix工具的开发,提供了全面的语言分析工具。Telmo Pires,Eva Schlinger,and Dan Garrette团队于2019年研究了多语言BERT的多语言性。FlauBERT预训练语言模型于2020年提出,为法语领域的自然语言处理任务提供了高性能工具。Guillaume Loignon团队开发的ALSI工具利用自然语言处理和文本分析技术,评估魁北克法语文本的语言复杂性,尤其适用于教育领域。Santucci团队于2020年使用多种机器学习模型对692个意大利文本进行分类,取得了显著的分类准确性。Gustavo Paetzold和Lucia Specia团队于2021年结合了BERT向量和经典特征,成功应用于SemEval任务的多个文本处理任务。MultiAzterTest工具于2021年提出,通过融合NLP-Cube和StanfordNLP等工具,支持多语言文本的可读性复杂度级别评估。Muriel Gallego团队于2022年通过Dictogloss任务引入新的教学方法,提高学习者在虚拟语气产出方面的表现。2023年韩国大学的Donghyun Kim团队,通过预训练语言模型(PLM)的技术,以BERT模型为代表,展示了在教育领域多项任务中的成功应用。截止2023年,ReaderBench的多语言文本复杂性分析框架得到不断发展,覆盖多语言环境,为教育领域提供了可靠的文本复杂性评估工具。对于非英语语种的文本可读性评估方面主要是以Garbacea团队为代表的基于大模型和大数据集的文本可读性预测-解释方法或者是以Kurdi团队为代表的基于传统大量语言学特征进行提取文本可读性公式方法为主流,但是仍然存在以下弊端:1)大模型的训练成本、大数据集的构建成本以及校准成本较高;2)基于英语的主流语言学特征很难推广到西班牙语、法语等小语种语言的应用中;3)大语言模型的应用结果缺乏可解释性。
因此,亟需一种测量效率高且精准度高的文本可读性评估方法。
发明内容
本发明提供一种文本可读性评估方法、系统及电子设备,以解决现有技术中存在的至少一个问题。
为实现上述目的,本发明提供的一种文本可读性评估方法,方法包括:
获取待评估的语言文本数据;
对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于bert的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;
将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。
进一步,优选的,利用预设的基于bert的语言模型提取词语的token信息,包括,
若待评估的语言文本数据为法语,则调用根据法语语料库训练出来的FlauBERT模型对待评估的语言文本数据提取词语的token信息;
若待评估的语言文本数据为西班牙语,则调用根据西班牙语料库训练出来的Beto模型对待评估的语言文本数据提取词语的token信息。
进一步,优选的,所述基于spacy的语言模型通过标注有语言学特征的数据集训练后获得,所述语言学特征包括句法学特征、形态学特征和词汇学特征;其中,所述形态学特征包括时态特征和语态特征;所述词汇学特征包括词频特征和逆文档频率特征。
进一步,优选的,利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征的方法包括,
利用spacy的语言模型基于待评估的语言文本数据的每个单词的token获取对应的句子的根词,并进行句法树深度计算获取对应的句法学特征;其中,spacy的语言模型为预定义了语法树深度的spacy的语言模型;
对待评估的语言文本数据的每个单词的token获取总词数量、形容词数量、动词数量、名词数量、介词数量以及副词数量,进而获取对应的词汇学特征;
对待评估的语言文本数据的动词的token,获取总句数量、各个语态的句子数量和各个时态的句子数量,获取对应的时态频率特征和语态频率特征,进而确定对应的形态学特征。
进一步,优选的,对待评估的语言文本数据的每个单词的token获取总词数量、形容词数量、动词数量、名词数量、介词数量以及副词数量,进而获取对应的词汇学特征通过以下公式实现:
其中,tf表示某个单词在当前文本中出现的频率,而idf表示所述单词在整个语料库中的重要性;t表示特定单词,d表示当前文本,D表示整个语料库。
进一步,优选的,将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定的方法,还包括,
利用多级残差注意力交互机制以及自适应权重分配策略进行特征融合。
进一步,优选的,词频特征中某词类频率R通过以下公式获取:
其中,w 表示某类型单词在整个数据集中出现的次数;N 表示数据集包含的全部单词的总数;X表示某类性单词。
为了解决上述问题,本发明还提供一种文本可读性评估系统,系统包括,
数据获取单元,用于获取待评估的语言文本数据;
特征提取单元,用于对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于bert的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;
评价单元,用于将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的文本可读性评估方法中的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述文本可读性评估方法。
本发明的文本可读性评估方法、系统、电子设备以及计算机可读存储介质具有的有益效果如下,
1)本发明通过了解文本的语法、词汇和句法结构,使得语言模型能够更好地了解文本的复杂性,从而预测读者在阅读时可能遇到的困难程度,为教育、写作和信息传播提供更有效的指导和支持;极大地提高了文本可读性的评估效率以及精准度,扩展了文本可读性评估的应用场景;例如,本发明的文本可读性评估方法有效应用于个性化学习、辅助教学工具开发、阅读障碍诊断、内容创作者指导、语言学习评估、信息传播效果评价等领域;
2)本发明的特征分为文本特征和语言学特征,特征的提取分别调用基于bert的语言模型以及基于spacy的语言模型;而基于bert的语言模型以及基于spacy的语言模型均分别根据待评估的语言分别调用西班牙语相关模型和法语相关模型;上述各个模型均利用各自的数据集进行训练;解决了大模型的训练成本、大数据集的构建成本以及校准成本较高的问题。
附图说明
图1为本发明一实施例提供的文本可读性评估方法的流程示意图;
图2为本发明一实施例提供的实现文本可读性评估系统的原理示意图;
图3为本发明一实施例提供的实现文本可读性评估方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1所示,为本发明一实施例提供的文本可读性评估方法的流程示意图。该方法可以由一个系统执行,该系统可以由软件和/或硬件实现。
在本实施例中,公开了一种融合语言学和深层语义特征的法语和西班牙语可读性构建方法。具体地说,文本可读性评估方法包括步骤S110~S130。
S110、获取待评估的语言文本数据。
还可以包括文本预处理,对收集到的文本数据进行预处理,包括去除噪声、分词、去除停用词、词干化或词形还原等操作,可以使用自然语言处理技术和相应的库来实现,如NLTK、spaCy等。
S120、对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于bert的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征。
利用预设的基于bert的语言模型提取词语的token信息,包括,若待评估的语言文本数据为法语,则调用根据法语语料库训练出来的FlauBERT模型对待评估的语言文本数据提取词语的token信息;若待评估的语言文本数据为西班牙语,则调用根据西班牙语料库训练出来的Beto模型对待评估的语言文本数据提取词语的token信息。其中,法语语料库可以为为FTB(法国树库),是由Le Monde报纸发表的文章集合,其包含大约44个带有元数据、词汇和句法注释的文件,可提供多种计算机格式以与查询工具结合使用;西班牙语语料库可以为西班牙皇家语言学院(RAE)推出的语料库(CORPES),是一个特定设计的文本语料库,将其与任何其他文本聚合区分开来。这是一个通用语料库,一个参考语料库,旨在在咨询它时,可以分析以某种语言出现的现象和语言元素,包括半岛西班牙语和美洲西班牙语。CORPES含有具有不同特征的文本,这些文本保证它们是它们所代表的语言总数的代表性和平衡样本。
以法语为例(西班牙语的操作是类似的,只是加载的语言模型不一样),调用根据法语语料库训练出来的FlauBERT模型对待评估的语言文本数据提取词语的token信息的方法包括:第一,加载Flaubert模型;加载Flaubert预训练的深度学习模型,专门用于处理法语文本。Flaubert模型在训练时考虑了法语的语言特性,因此能够提供对法语文本的高效处理和准确理解。第二,分词和tokenization:使用Flaubert模型进行分词和tokenization,将法语文本分割成单词或子词级别的token,并通过考虑法语词汇的特点,如复合词、连接词等,以确保准确的tokenization结果。第三,词性标注和命名实体识别:对每个token进行词性标注和命名实体识别。通过使用Flaubert模型识别每个token的词性,如名词、动词、形容词等,并且能够识别出文本中的命名实体,如人名、地名等。第四,词形还原和词干提取:对于动词等词类,Flaubert模型提供了词形还原和词干提取的功能,将不同形态的词汇还原为其原始形式或提取其词干,以便于减少词汇的变化形式,简化文本处理过程。第五,句法分析和依存关系分析: Flaubert模型对句子进行句法分析和依存关系分析,以理解句子中不同token之间的关系和语法结构,从而更好地理解文本的含义和语境。最后,通过上述提取出来的单词级别的token信息,再结合本发明提出的句子级别的语言学特征获取方式,计算出句子级别的语言学特征信息最后得出文本特征。
具体地说,直接调用bert模型对句子进行特征提取,之后提取所有标记的嵌入并进行平均池化得到句子的表示(或是最大池化隐藏状态特征、CLStoken特征)。所述基于spacy的语言模型通过标注有语言学特征的数据集训练后获得,所述语言学特征包括句法学特征、形态学特征和词汇学特征;其中,所述形态学特征包括时态特征和语态特征;所述词汇学特征包括词频特征和逆文档频率特征。也就是说,对于外语语料进行数据收集和整理。将这些数据整理成可以用于训练的格式,例如各个难度等级对应各个样本。对于难度的分级而言,以西班牙语为例,参照西班牙语等级考试的相关标准进行设计。
另外,上述模型利用数据集进行训练的过程中,还需要获取根据目标学习策略构建的损失函数。并调用损失函数对目标样本、正样本以及负样本各自的特征向量进行处理,即将目标样本、正样本以及负样本各自的特征向量代入损失函数,得到训练样本组对应的损失值,得到训练样本组对应的损失值。按照减少训练样本组对应的损失值的方向,对初始模型进行模型参数调整。可以理解的是,训练样本集合包括多个训练样本组,利用多个训练样本组可以对初始模型进行多次的模型参数调整,在这个不断调整的过程中,实际得到的损失值会不断减小,进而使得实际得到的目标样本与正样本的特征向量之间的距离会越来越大,目标样本与负样本的特征向量之间的距离越来越小,可以使得模型参数调整后的初始模型能够提取到准确性越来越高的特征向量。当模型参数调整后的初始模型满足收敛条件时,可将当前最新调整的初始模型作为用于提取事件的特征向量的特征提取模型。其中,收敛条件可以是模型参数的调整次数达到预设调整阈值,也可以实际得到的损失值小于损失阈值。也就是说,基于bert语言模型调用的这两个模型在训练过程中,通过对比了加入不同的语言学特征,发现加入语言学特征之后句子分类精确度(分别采取了逻辑回归,支持向量机,lstm神经网络进行分类)会有明显的提升,提升大概为1%-2%。损失函数设置的是二进制交叉熵损失。
具体地说,构建了两个开放的句子难度数据集(西班牙语共3781条句子,法语2013条句子),难度标签为2个等级。其中,需要说明的是,以西班牙语为例,将西班牙语 A1、A2、B1级证书认可语言使用者的能力定义的难度等级为等级0。将西班牙语B2、C1、C2级证书认可语言使用者的能力定义的难度等级为等级1。
将数据集来源于外语专业(西班牙语或法语)的专业四级和专业八级试题、欧标考试试题及官方备考模拟试题。数据标注方法采用基于规则+专家复检的方式,将所有句子分为简单和困难两个等级。数据集情况如表1。
表1 数据集情况表
本发明的这两个数据集的优点在于:第一,数据标注是基于本科教学及欧标等级的难度规则,而不是词汇的难度;第二,数据标注经过外语专家复检能够保证标签的可靠性;第三,数据标注方法具备通用性,由于外语专业教学的过程类似,大都以语法难度为主线进行。
数据集的语料库示例如表2。
表2 数据集的语料库示例表
在数据标注的过程中,对句子进行了多方面的特征计算,其中包括句法学特征(如句法树深度、句子长度、词率)、形态学特征(时态和语态特征),以及词汇学特征(tf-idf特征)。
其中,词频特征中某词类频率R通过以下公式获取:
其中,w 表示某类型单词在整个数据集中出现的次数;N 表示数据集包含的全部单词的总数;X表示某类性单词。
时态频率(Tense Ratio)和语态频率(Mood Ratio)通过以下公式获取:
其中,X 表示具体的时态或语态,而 R 则反映了时态或语态在整个数据集中的相对出现频率。
基于tf-idf(Term Frequency-Inverse Document Frequency)的特征由两部分组成:tf(词频)和idf(逆文档频率)。tf表示某个单词在当前文本中出现的频率,而idf表示所述单词在整个语料库中的重要性,通过其在语料库中的文档频率的逆数来计算。通过以下公式实现:
其中,tf表示某个单词在当前文本中出现的频率,而idf表示所述单词在整个语料库中的重要性;t表示特定单词,d表示当前文本,D表示整个语料库。
综上,通过所述语言学特征包括句法学特征、形态学特征和词汇学特征;其中,所述形态学特征包括时态特征和语态特征;所述词汇学特征包括词频特征和逆文档频率特征;基于上述特征对数据集进行标注;难度标注示例情况如表3所示;将数据集的基本特征情况参见表4。
表3 难度标注示例情况表
表4 数据集的基本特征情况表
通过观察表4可见,本发明的特征涉及句法学、形态学、词汇学。其中,句法学:低难度文本句子通常简短,句法深度结构简单;多使用基础的主谓宾结构、简单连接词和复合句结构,常见陈述句和疑问句高难度文本多处理较复杂的句子结构;句子长度和句法深度增加,有更多的修饰成分。形态学:低难度文本以简单的句子为主,使用基础连接词;引入常见的动词时态,如一般现在时和过去时;使用常见的疑问句和陈述句;引入复杂度较低的连接词,使用简单的复合句,介绍因果关系等;引入复合句,包括宾语从句和间接宾语。高难度文本使用更多的从句,处理更高级的动词时态和语气,包括多种复合时态、强调句式、过去完成时、间接引语、虚拟语气、各种修辞手法等;应用更深入与复杂的语法结构,包括各种复杂的句式和修辞手法。词汇学:低难度文本主要使用日常生活基础词汇,如数字、颜色、家庭成员;使用简单的形容词和副词,基本描述外貌和情感;运用常见的动词和名词,范围涉及工作、学校、购物等日常社交用语和常见场景词汇。高难度文本出现更多形容词和副词,包括比较级和最高级的各种变位,以精确表达情感和观点;涉及更广泛的主题,包括社会、文化、科技等,对专业词汇的初步要求;包括更专业和抽象的主题,如政治、经济、环境等,要求对更深层次的词汇有一定的理解和应用;涉及广泛而深入的主题,包括文学、哲学、科学等领域,对高级词汇的理解和应用。总体而言,难度低级别更注重基础语言运用,而难度高级别则要求更深入、更灵活的语言技能,包括更复杂的句式结构、更高级的词汇和更准确的语法应用。
利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征的方法包括,
S1221、利用spacy的语言模型基于待评估的语言文本数据的每个单词的token获取对应的句子的根词,并进行句法树深度计算获取对应的句法学特征;其中,spacy的语言模型为预定义了语法树深度的spacy的语言模型。具体地说,根词通常为动词,如果找到了则利用上述定义的函数进行句法树深度计算,如果没有找到根词,则跳过该句。
S1222、对待评估的语言文本数据的每个单词的token获取总词数量、形容词数量、动词数量、名词数量、介词数量以及副词数量,进而获取对应的词汇学特征;
S1223、对待评估的语言文本数据的动词的token,获取总句数量、各个语态的句子数量和各个时态的句子数量,获取对应的时态频率特征和语态频率特征,进而确定对应的形态学特征。综上,根据上述的句法学特征、词汇学特征、形态学特征获得语言学特征。
具体地说,本发明对每句话是否含有相应的时态和语态创造了8维向量,每一个维度对应一个时态或语态,这里借用了词袋模型的原理对句子的时态语态信息进行标记,存在则在对应维度置为1,不存在则置为0。最后,利用sklearn的tfidfVectorizer进行计算每句话的tfidf向量:# 创建一个TF-IDF向量化器
tfidf_vectorizer = TfidfVectorizer()
# 用于存储所有句子的TF-IDF矩阵
tfidf_matrix = tfidf_vectorizer.fit_transform(sentences_final)
综上,完成对于spacy和sklearn的利用提取了每句的句法学,形态学,词汇学三类语言学特征。
在具体的实施过程中,在进行分词处理,得到字符序列,该字符序列中包括法语或者西班牙语句子中的各个字符,并且在该字符序列中各个字符按照在原文件中的先后顺序排列。另外,该字符序列包括两个特殊字符(token):[CLS]和[SEP],[CLS]是位于字符序列中的第一个字符,[SEP]用于分割两个序列。接着可以通过嵌入(embedding)层将字符序列中的各个字符映射成字向量,得到文本序列化向量(例如E[CLS]-E[SEP]),最终将文本序列化向量作为基于bert语言模型的输入,得到基于bert语言模型输出的字符(token)特征。
S130、将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。
对于融合后的特征处理的模型选择和构建:根据任务需求选择合适的深度学习模型。可以考虑使用序列模型,如循环神经网络(RNN)或长短时记忆网络(LSTM)、可以使用卷积神经网络(CNN)、可以使用注意力机制(Attention)。
在具体的实施过程中,特征提取之后,采用了RNN网络和机器学习(SVM支持向量机和LoR逻辑回归)三种方式作为分类器,三种分类方式的效果如表5所示。
表5 各种分类方式的准确性统计表
通过观察表5可见,RNN的准确性最高,所以最终选择RNN作为分类器。
在具体的实施过程中,将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定的方法,还包括,利用多级残差注意力交互机制以及自适应权重分配策略进行特征融合。相比于现有技术中的直接拼接,即# 合并所有特征到一个张量combined_features = torch.cat([sentence_embedding, syntax, morph, lexcon],dim=1)。本发明通过将输入的神经网络进行特征融合同时进行分类,即基于多级残差注意力交互机制以及自适应权重分配策略让神经网络自己去学习合适的权重去进行特征融合,最后的分类表现比直接拼接好0.5%-1%。
本发明的文本可读性评估方法的应用可以为,通过分析文本的难易特征,教育工作者可以更好地个性化学习计划。这有助于调整教学方法,以满足学生在不同水平上的需求;通过知道文本的语法和词汇难度有助于开发辅助教学工具(基于JavaScript),比如自适应学习系统或阅读辅助软件,以帮助学习者更轻松地理解和消化文本;通过对文本可读性的评估有助于诊断学生可能面临的阅读障碍,且有助于了解学生在何处遇到困难,并指导制定个性化的阅读干预措施;对于写作者来说,了解文本的难易特征可以帮助他们更好地针对目标受众编写内容。这有助于确保文本更容易理解和吸引读者。对于学习第二语言的人,了解文本的语法和词汇复杂性可以帮助评估其语言学习水平,并提供更有针对性的语言学习建议。在广告、新闻报道或其他文本中,可读性的评估有助于确保信息能够清晰传达给广大受众,提高信息的传播效果。
如图2所示,本发明提供一种文本可读性评估系统200,本发明可以安装于电子设备中。根据实现的功能,该文本可读性评估系统200可以所述系统包括数据获取单元210、特征提取单元220以及评价单元230。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
数据获取单元210,用于获取待评估的语言文本数据;
特征提取单元220,用于对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于bert的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;
评价单元230,用于将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。
本发明的文本可读性评估系统200,本发明通过了解文本的语法、词汇和句法结构,使得语言模型能够更好地了解文本的复杂性,从而预测读者在阅读时可能遇到的困难程度,为教育、写作和信息传播提供更有效的指导和支持;极大地提高了文本可读性的评估效率以及精准度,扩展了文本可读性评估的应用场景;例如,本发明的文本可读性评估方法有效应用于个性化学习、辅助教学工具开发、阅读障碍诊断、内容创作者指导、语言学习评估、信息传播效果评价等领域。
如图3所示,本发明提供一种文本可读性评估方法的电子设备3。
该电子设备3可以包括处理器30、存储器31和总线,还可以包括存储在存储器31中并可在所述处理器30上运行的计算机程序,如文本可读性评估程序32。
其中,所述存储器31至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器31在一些实施例中可以是电子设备3的内部存储单元,例如该电子设备3的移动硬盘。所述存储器31在另一些实施例中也可以是电子设备3的外部存储设备,例如电子设备3上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括电子设备3的内部存储单元也包括外部存储设备。所述存储器31不仅可以用于存储安装于电子设备3的应用软件及各类数据,例如文本可读性评估程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器30在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器30是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块(例如文本可读性评估程序等),以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器31以及至少一个处理器30等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备3的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理系统与所述至少一个处理器30逻辑相连,从而通过电源管理系统实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备3还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备3与其他电子设备之间建立通信连接。
可选地,该电子设备3还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备3中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备3中的所述存储器31存储的文本可读性评估程序32是多个指令的组合,在所述处理器30中运行时,可以实现:获取待评估的语言文本数据;对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于bert的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。
具体地,所述处理器30对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述文本可读性评估程序的私密和安全性,上述文本可读性数据存储于本服务器集群所处区块链的节点中。
进一步地,所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:获取待评估的语言文本数据;对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于bert的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spacy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例文本可读性评估方法中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (6)

1.一种文本可读性评估方法,其特征在于,方法包括:
获取待评估的语言文本数据;
对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于BERT的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spaCy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;其中,所述基于spaCy的语言模型通过标注有语言学特征的数据集训练后获得,所述语言学特征包括句法学特征、形态学特征和词汇学特征;其中,所述形态学特征包括时态特征和语态特征;所述词汇学特征包括词频特征和逆文档频率特征;利用预设的基于spaCy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征的方法包括,利用spaCy的语言模型基于待评估的语言文本数据的每个单词的token获取对应的句子的根词,并进行句法树深度计算获取对应的句法学特征;其中,spaCy的语言模型为预定义了语法树深度的spaCy的语言模型;对待评估的语言文本数据的每个单词的token获取总词数量、形容词数量、动词数量、名词数量、介词数量以及副词数量,进而获取对应的词汇学特征;通过以下公式对待评估的语言文本数据的动词的token,获取总句数量、各个语态的句子数量和各个时态的句子数量,获取对应的时态频率特征和语态频率特征,进而确定对应的形态学特征;其中,tf表示某个单词在当前文本中出现的频率,而idf表示所述单词在整个语料库中的重要性;t表示特定单词,d表示当前文本,D表示整个语料库;
其中,利用预设的基于BERT的语言模型提取词语的token信息,包括,若待评估的语言文本数据为西班牙语,则调用根据西班牙语料库训练出来的Beto模型对待评估的语言文本数据提取词语的token信息;调用Beto模型对待评估的语言文本数据提取词语的token信息的方法包括:使用Beto模型进行分词和tokenization;对分词所获得的token进行词性标注和命名实体识别;并对不同形态的词汇还原为原始形式并进行词干提取,以及对句子进行句法分析和依存关系分析;若待评估的语言文本数据为法语,则调用根据法语语料库训练出来的FlauBERT模型对待评估的语言文本数据提取词语的token信息;
将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。
2.如权利要求1所述的文本可读性评估方法,其特征在于,
将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定的方法,还包括,
利用多级残差注意力交互机制以及自适应权重分配策略进行特征融合。
3.如权利要求1所述的文本可读性评估方法,其特征在于,
所述词频特征中某词类频率R通过以下公式获取:
其中,w 表示某类型单词在整个数据集中出现的次数;N 表示数据集包含的全部单词的总数;X表示某类性单词。
4.一种文本可读性评估系统,其特征在于,所述系统包括,
数据获取单元,用于获取待评估的语言文本数据;
特征提取单元,用于对待评估的语言文本数据进行文本特征提取和语言学特征提取,其中,利用预设的基于BERT的语言模型提取词语的token信息,并基于词语的token信息获取文本特征;利用预设的基于spaCy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征;其中,所述基于spaCy的语言模型通过标注有语言学特征的数据集训练后获得,所述语言学特征包括句法学特征、形态学特征和词汇学特征;其中,所述形态学特征包括时态特征和语态特征;所述词汇学特征包括词频特征和逆文档频率特征;利用预设的基于spaCy的语言模型提取词语的token信息,并基于词语的token信息获取语言学特征的方法包括,利用spaCy的语言模型基于待评估的语言文本数据的每个单词的token获取对应的句子的根词,并进行句法树深度计算获取对应的句法学特征;其中,spaCy的语言模型为预定义了语法树深度的spaCy的语言模型;对待评估的语言文本数据的每个单词的token获取总词数量、形容词数量、动词数量、名词数量、介词数量以及副词数量,进而获取对应的词汇学特征;通过以下公式对待评估的语言文本数据的动词的token,获取总句数量、各个语态的句子数量和各个时态的句子数量,获取对应的时态频率特征和语态频率特征,进而确定对应的形态学特征;其中,tf表示某个单词在当前文本中出现的频率,而idf表示所述单词在整个语料库中的重要性;t表示特定单词,d表示当前文本,D表示整个语料库;
其中,利用预设的基于BERT的语言模型提取词语的token信息,包括,若待评估的语言文本数据为西班牙语,则调用根据西班牙语料库训练出来的Beto模型对待评估的语言文本数据提取词语的token信息;调用Beto模型对待评估的语言文本数据提取词语的token信息的方法包括:使用Beto模型进行分词和tokenization;对分词所获得的token进行词性标注和命名实体识别;并对不同形态的词汇还原为原始形式并进行词干提取,以及对句子进行句法分析和依存关系分析;若待评估的语言文本数据为法语,则调用根据法语语料库训练出来的FlauBERT模型对待评估的语言文本数据提取词语的token信息;
评价单元,用于将所述文本特征和语言学特征进行特征融合,将融合后的特征输入分类器进行分类判定,获得待评估的语言文本数据对应的文本可读性评价。
5.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至3中任一所述的文本可读性评估方法中的步骤。
6.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一所述的文本可读性评估方法。
CN202410268881.9A 2024-03-11 2024-03-11 文本可读性评估方法及系统 Active CN117874172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410268881.9A CN117874172B (zh) 2024-03-11 2024-03-11 文本可读性评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410268881.9A CN117874172B (zh) 2024-03-11 2024-03-11 文本可读性评估方法及系统

Publications (2)

Publication Number Publication Date
CN117874172A CN117874172A (zh) 2024-04-12
CN117874172B true CN117874172B (zh) 2024-05-24

Family

ID=90594856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410268881.9A Active CN117874172B (zh) 2024-03-11 2024-03-11 文本可读性评估方法及系统

Country Status (1)

Country Link
CN (1) CN117874172B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法
CN117034961A (zh) * 2023-10-09 2023-11-10 武汉大学 一种基于bert的中法互译质量测评方法
CN117236343A (zh) * 2023-11-15 2023-12-15 江西师范大学 基于语言特征解释器和对比学习的自动可读性评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI608367B (zh) * 2012-01-11 2017-12-11 國立臺灣師範大學 中文文本可讀性計量系統及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法
CN117034961A (zh) * 2023-10-09 2023-11-10 武汉大学 一种基于bert的中法互译质量测评方法
CN117236343A (zh) * 2023-11-15 2023-12-15 江西师范大学 基于语言特征解释器和对比学习的自动可读性评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
动态多元的散文翻译质量评估框架的构建;肖勇;李丹;;西安工业大学学报;20161130;第36卷(第11期);934-939 *

Also Published As

Publication number Publication date
CN117874172A (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US9286290B2 (en) Producing insight information from tables using natural language processing
Ray et al. A review and future perspectives of Arabic question answering systems
US20130179169A1 (en) Chinese text readability assessing system and method
Juuti et al. Stay on-topic: Generating context-specific fake restaurant reviews
JP2011118526A (ja) 単語意味関係抽出装置
CN111832278B (zh) 文档流畅度的检测方法、装置、电子设备及介质
Sameen et al. Measuring short text reuse for the Urdu language
CN111581953A (zh) 一种自动解析英文文本语法现象的方法
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
Derczynski et al. Gate-time: Extraction of temporal expressions and event
Cavalli-Sforza et al. Arabic readability research: current state and future directions
Maheen et al. Automatic computer science domain multiple-choice questions generation based on informative sentences
US20190019094A1 (en) Determining suitability for presentation as a testimonial about an entity
Lu et al. Sentence-level readability assessment for L2 Chinese learning
da Rocha et al. A text as unique as a fingerprint: Text analysis and authorship recognition in a Virtual Learning Environment of the Unified Health System in Brazil
Jiménez et al. Sentiment Analysis of Student Surveys--A Case Study on Assessing the Impact of the COVID-19 Pandemic on Higher Education Teaching.
CN117874172B (zh) 文本可读性评估方法及系统
Žitko et al. Automatic question generation using semantic role labeling for morphologically rich languages
Panthum et al. Generating functional requirements based on classification of mobile application user reviews
Wloka et al. AAA4LLL-acquisition, annotation, augmentation for lively language learning
Qi RETRACTED: Application of fuzzy clustering of massive scattered point cloud data in English vocabulary analysis
Maasum et al. Development Of An Automated Tool For Detecting Errors In Tenses.
Baladjay et al. Performance evaluation of random forest algorithm for automating classification of mathematics question items
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic
Li An overview of the construction of near-synonyms discrimination resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant