CN115600575B - 一种中文文本智能分级改编方法及装置 - Google Patents

一种中文文本智能分级改编方法及装置 Download PDF

Info

Publication number
CN115600575B
CN115600575B CN202211524750.XA CN202211524750A CN115600575B CN 115600575 B CN115600575 B CN 115600575B CN 202211524750 A CN202211524750 A CN 202211524750A CN 115600575 B CN115600575 B CN 115600575B
Authority
CN
China
Prior art keywords
sentence
word
target
original
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211524750.XA
Other languages
English (en)
Other versions
CN115600575A (zh
Inventor
殷晓君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202211524750.XA priority Critical patent/CN115600575B/zh
Publication of CN115600575A publication Critical patent/CN115600575A/zh
Application granted granted Critical
Publication of CN115600575B publication Critical patent/CN115600575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,特别是指一种中文文本智能分级改编方法及装置,方法包括:获取文本数据,对文本数据进行预处理,基于预处理后的文本数据构建分级文本库;获取原始句子;获取目标等级,根据目标等级,在分级文本库中确定原始句子对应的参考句子;基于训练完毕的Bert模型、原始句子以及参考句子,确定原始句子和参考句子之间的词相似度矩阵;根据词相似度矩阵,确定原始句子与参考句子的词对应关系列表;根据原始句子与参考句子的词对应关系列表、原始句子以及参考句子,生成目标句子。采用本发明,可以提高改编效率,减少人为错误。

Description

一种中文文本智能分级改编方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是指一种中文文本智能分级改编方法及装置。
背景技术
文本分级是指将文本按特定的等级体系进行定级,常见如:文本复杂度分级、文本可读性分级等。
分级标准是指文本分级所采用的特定等级体系,特指《国际中文教育中文水平等级标准》(GF0025—2021,以下简称《等级标准》)是面向中文作为第二语言的学习者的语言水平等级规范。《等级标准》将学习者中文水平分为“三等九级”,包括初、中、高三等,并以音节、汉字、词汇、语法四种语言基本要素构成“四维基准”。初等包含三个细分级别为1级、2级、3级,中等包括三个细分级别为4级、5级、6级。高等代表最高等级,下面的7、8、9级不再细分量化指标,记为7-9级。
基于分级标准的智能改编是指按照特定的分级标准将原文修改为指定的目标等级。
智能改编具有非常大的社会价值和现实应用价值。可以将同样的文本内容改写为多个级别,适用于不同人群的阅读、学习需要,这对于分级阅读体系构建,实现精准阅读和高效阅读都有重要的意义,不仅对教育领域有重要意义,对于信息的传播,新知识的扩散都有直接作用。
而目前,文本的智能改编通常是通过人工操作进行改编,即改编人员先对需要改编的原始句子进行人工等级标注,然后按照指定的等级对原始句子中的词进行近义词替换。人工改编存在效率低、错误率高的问题。
发明内容
本发明实施例提供了一种中文文本智能分级改编方法及装置。所述技术方案如下:
一方面,提供了一种中文文本智能分级改编方法,该方法由电子设备实现,该方法包括:
S1、获取文本数据,对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库;
S2、获取原始句子,确定所述原始句子的等级;
S3、获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;
S4、基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;
S5、根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;
S6、根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子。
可选地,所述S1中的对所述文本数据进行预处理,基于文本数据以及对应的等级,构建分级文本库,包括:
S11、对所述文本数据进行分句处理,得到多个待归类句子;
S12、对多个待归类句子分别进行分级处理;
S13、将分级处理后的待归类句子存入到分级文本库中对应的分级子库中。
可选地,所述S12中的对多个待归类句子分别进行分级处理,包括:
S121、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级;
S122、将所述每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级中的最高等级,确定为待归类句子的等级。
可选地,所述S3中的获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子,包括:
S31、获取目标等级,根据所述目标等级,在所述分级文本库中确定所述目标等级对应的目标分级子库,将所述目标分级子库中与所述原始句子的词数相同的多个句子确定为参考句子候选集合;
S32、将所述原始句子输入到训练完毕的Bert模型中,获取所述原始句子的每个词对应的词向量,对所有词对应的词向量进行平均池化操作,得到所述原始句子的向量表征;
S33、将所述参考句子候选集合中的每个候选句子输入到训练完毕的Bert模型中,获取每个候选句子的每个词对应的词向量,对所述每个候选句子的所有词对应的词向量进行平均池化操作,得到所述每个候选句子的向量表征;
S34、根据所述原始句子的向量表征以及所述每个候选句子的向量表征,确定所述原始句子与所述每个候选句子的相似度,将相似度最大的候选句子确定为所述原始句子的参考句子。
可选地,所述S4中的基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵,包括:
S41、将所述原始句子输入训练完毕的Bert模型中,得到所述原始句子的每个词对应的词向量;
S42、将所述参考句子输入训练完毕的Bert模型中,得到所述参考句子的每个词对应的词向量;
S43、计算原始句子的每个词对应的词向量与所述参考句子的每个词对应的词向量之间的相似度,得到所述原始句子和参考句子之间的词相似度矩阵。
可选地,所述S5中的根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表,包括:
S51、设定k=1,x=0,y=0;
S52、判断k是否大于n,如果k大于n,则转去执行S56,如果k小于或等于n,则执行S53;其中,n表示所述原始句子的词数量;
S53、在所述词相似度矩阵中遍历所有非零元素,将相似度值最大的元素确定为目标元素,将所述目标元素所在的行数赋值给x,将所述目标元素所在的列数赋值给y;
S54、将所述词相似度矩阵的第x行元素均置为0,将所述词相似度矩阵的第y列元素均置为0;
S55、将(x,y)记入词对应关系列表中;k=k+1,x=0,y=0,转去执行S52;
S56、停止循环,生成词对应关系列表。
可选地,所述S6中的根据所述原始句子与参考句子的词对应关系列表、所述原始句子与所述参考句子,生成目标句子,包括:
S61、设定j=1;
S62、判断j是否大于n,如果j大于n,则执行S66;如果j小于或等于n,则执行S63;其中,n表示所述原始句子的词数量;
S63、根据所述原始句子与参考句子的词对应关系列表,判断第j个位置处原始句子的词和参考句子的词是否相同;
S64、如果第j个位置处原始句子的词和参考句子的词相同,则将原始句子的词确定为目标句子第j位置处的目标词;
S65、如果第j个位置处原始句子的词和参考句子的词不相同,则判断所述原始句子的词的等级是否小于或等于目标等级,如果小于或等于目标等级,则将所述原始句子的词确定为目标句子第j位置处的目标词,如果大于目标等级,则将参考句子的词确定为目标句子第j位置处的目标词;j=j+1;转去执行S62
S66、根据目标句子所有位置处的目标词,生成目标句子。
另一方面,提供了一种中文文本智能分级改编装置,该装置应用于中文文本智能分级改编方法,该装置包括:
构建模块,用于获取文本数据,对所述文本数据进行预处理,基于文本数据以及对应的等级,构建分级文本库;
第一确定模块,用于获取原始句子,确定所述原始句子的等级;
第二确定模块,用于获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;
第三确定模块,用于基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;
第四确定模块,用于根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;
生成模块,用于根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子。
可选地,所述构建模块,进一步用于:
S11、对所述文本数据进行分句处理,得到多个待归类句子;
S12、对多个待归类句子分别进行分级处理;
S13、将分级处理后的待归类句子存入到分级文本库中对应的分级子库中。
可选地,所述构建模块,进一步用于:
S121、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级;
S122、将所述每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级中的最高等级,确定为待归类句子的等级。
可选地,所述第二确定模块,进一步用于:
S31、获取目标等级,根据所述目标等级,在所述分级文本库中确定所述目标等级对应的分级子库,将所述目标等级对应的分级子库中与所述原始句子的词数相同的多个句子确定为参考句子候选集合;
S32、将所述原始句子输入到训练完毕的Bert模型中,获取所述原始句子的每个词对应的词向量,对所有词对应的词向量进行平均池化操作,得到所述原始句子的向量表征;
S33、将所述参考句子候选集合中的每个候选句子输入到训练完毕的Bert模型中,获取每个候选句子的每个词对应的词向量,对所述每个候选句子的所有词对应的词向量进行平均池化操作,得到所述每个候选句子的向量表征;
S34、根据所述原始句子的向量表征以及所述每个候选句子的向量表征,确定所述原始句子与所述每个候选句子的相似度,将相似度最大的候选句子确定为所述原始句子的参考句子。
可选地,所述第三确定模块,进一步用于:
S41、将所述原始句子输入训练完毕的Bert模型中,得到所述原始句子的每个词对应的词向量;
S42、将所述参考句子输入训练完毕的Bert模型中,得到所述参考句子的每个词对应的词向量;
S43、计算原始句子的每个词对应的词向量与所述参考句子的每个词对应的词向量之间的相似度,得到所述原始句子和参考句子之间的词相似度矩阵。
可选地,所述第四确定模块,进一步用于:
S51、设定x=1;
S52、判断x是否大于n,如果x大于n,则转去执行S56,如果x小于或等于n,则执行S53;其中,n表示所述原始句子的词数量;
S53、在所述词相似度矩阵中遍历所有非零元素,将相似度值最大的元素确定为目标元素,将所述目标元素所在的行数赋值给x,将所述目标元素所在的列数赋值给y;
S54、将所述词相似度矩阵的第x行元素均置为0,将所述词相似度矩阵的第y列元素均置为0;
S55、将(x,y)记入词对应关系列表中;k=k+1,x=0,y=0,转去执行S52;
S56、停止循环,生成词对应关系列表。
可选地,所述生成模块,进一步用于:
S61、设定j=1;
S62、判断j是否大于n,如果j大于n,则执行S66;如果j小于或等于n,则执行S63;其中,n表示所述原始句子的词数量;
S63、根据所述原始句子与参考句子的词对应关系列表,判断第j个位置处原始句子的词和参考句子的词是否相同;
S64、如果第j个位置处原始句子的词和参考句子的词相同,则将原始句子的词确定为目标句子第j位置处的目标词;
S65、如果第j个位置处原始句子的词和参考句子的词不相同,则判断所述原始句子的词的等级是否小于或等于目标等级,如果小于或等于目标等级,则将所述原始句子的词确定为目标句子第j位置处的目标词,如果大于目标等级,则将参考句子的词确定为目标句子第j位置处的目标词;j=j+1;转去执行S62
S66、根据目标句子所有位置处的目标词,生成目标句子。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述中文文本智能分级改编方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述中文文本智能分级改编方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,获取文本数据,对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库;获取原始句子,确定所述原始句子的等级;获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子。本发明相对于人工改编的方式,智能改编的方式效率更高,适合用于大规模改编场景。同时严格基于等级标准,相对于人工改编的办法,可以减少人为错误,避免人与人个体差异导致的偏差,这样的改编结果更加统一齐整。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种中文文本智能分级改编方法流程图;
图2是本发明实施例提供的一种分级文本库的分级子库结构示意图;
图3是本发明实施例提供的一种获得的词对应关系列表示意图;
图4是本发明实施例提供的一种生成目标句子的过程示意图;
图5是本发明实施例提供的一种中文文本智能分级改编装置框图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种中文文本智能分级改编方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的中文文本智能分级改编方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取文本数据,对文本数据进行预处理,基于预处理后的文本数据构建分级文本库。
一种可行的实施方式中,文本数据可以由文字组成的篇章段落等,用于构建分级文本库,可以从现有的各途径获取数据,例如,扫描数据获取、网络文本抓取、人工编辑等。
可选地,S1中的对文本数据进行预处理,基于预处理后的文本数据构建分级文本库,包括:
S11、对文本数据进行分句处理,得到多个待归类句子。
一种可行的实施方式中,需要说明的是,对文本数据进行分句处理的方法可以采用现有技术中常用的分句方法,如采用深度学习方法等,本发明实施例在此不做赘述。
S12、对多个待归类句子分别进行分级处理。
可选地,对多个待归类句子分别进行分级处理,可以包括下述步骤S121-S122:
S121、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级。
其中,预设的分级标准是用户预先设置好的文本分级所采用的特定等级体系,优选地,可以是《国际中文教育中文水平等级标准》(GF0025—2021,以下简称《等级标准》)。《等级标准》是面向中文作为第二语言的学习者的语言水平等级规范。《等级标准》将学习者中文水平分为“三等九级”,包括初、中、高三等,并以音节、汉字、词汇、语法四种语言基本要素构成“四维基准”。初等包含三个细分级别为1级、2级、3级,中等包括三个细分级别为4级、5级、6级。高等代表最高等级,下面的7、8、9级不再细分量化指标,记为7-9级。
一种可行的实施方式中,S121可以具体包括以下步骤S1211-S1214:
S1211、确定待归类句子的所有音节,并对每个音节进行分级。
具体地,确定待归类句子的所有音节后,将每个音节在《等级标准》中查找对应的等级,进而确定出每个音节的等级。
S1212、确定待归类句子的所有字,并对每个字进行分级。
具体地,确定待归类句子的所有字后,将每个字在《等级标准》中查找对应的等级,进而确定出每个字的等级。
S1213、确定待归类句子的所有词,并对每个词进行分级。
具体地,确定待归类句子的所有词后,将每个词在《等级标准》中查找对应的等级,进而确定出每个词的等级。
S1214、确定待归类句子的语法,并确定对应的语法等级。
具体地,确定待归类句子的语法后,将语法在《等级标准》中查找对应的等级,进而确定出对应的语法等级。
S122、将待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级中的最高等级,确定为待归类句子的等级。
举例来说,假设待归类句子是“小明的英语很流利”:
(1)确定每个音节对应的等级:
xiao:1级;ming:1级;de:1级;ying:2级;yu:1级;hen:1级;liu:2级;li:2级。
(2)确定每个字对应的等级:
小:1级;明:1级;的:1级;英:2级;语:1级;很:1级;流:2级;利:2级。
(3)确定每个词对应的等级:
小明:1级;的:1级;英语:2级;很:1级;流利:2级。
(4)确定待归类句子对应的语法等级:
程度副词-很:1级。
在上述所有音节的等级、所有字的等级、所有词的等级以及语法等级中,最高等级为2级,因此,将该待归类句子的等级确定为2级。
S13、将分级处理后的待归类句子存入到分级文本库中对应的分级子库中。
一种可行的实施方式中,可以按照等级分别建立多个分级子库,然后,将分级处理后的待归类句子存入对应的分级子库中。参照图2,可以建立1级子库、2级子库、3级子库、4级子库、5级子库、6级子库以及7-9级子库,然后将分级处理后的待归类句子存入对应的分级子库中。
S2、获取原始句子。
一种可行的实施方式中,原始句子是用户想要进行改编的对象句子,原始句子的获取方式可以是用户输入的一句话,也可以是通过网络或数据库等方式获取的,本发明实施例对此不作限定。
举例来说,假设用户想要对句子“他的中文很地道”这句话进行改编,则用户可以手动将该句话输入到电子设备中,电子设备接收并将其设定为原始句子。
确定原始句子后,可以确定原始句子中的每个词的等级,确定词的等级的方法可以参照上述步骤S122中第(3)个确定词的等级的方法,此处不做赘述。
S3、获取目标等级,根据目标等级,在分级文本库中确定原始句子对应的参考句子。
一种可行的实施方式中,用户想将原始句子改编成某个等级,这个等级即为目标等级。目标等级的获取方式可以是用户手动输入到电子设备中,也可以是电子设备直接获取预先设置好的等级,本发明实施例对此不作限定。
可选地,S3中的获取目标等级,根据目标等级,在分级文本库中确定原始句子对应的参考句子,可以包括以下步骤S31-S34:
S31、获取目标等级,根据目标等级,在分级文本库中确定目标等级对应的分级子库,将目标等级对应的分级子库中与原始句子的词数相同的多个句子确定为参考句子候选集合。
S32、将原始句子输入到训练完毕的Bert模型中,获取原始句子的每个词对应的词向量,对所有词对应的词向量进行平均池化操作,得到原始句子的向量表征。
一种可行的实施方式中,将原始句子输入到训练完毕的Bert模型中,获取最上层词向量。Bert模型以及Bert模型的训练方式可以采用现有技术的获取方式,本发明实施例对此不做赘述。
S33、将参考句子候选集合中的每个候选句子输入到训练完毕的Bert模型中,获取每个候选句子的每个词对应的词向量,对每个候选句子的所有词对应的词向量进行平均池化操作,得到每个候选句子的向量表征。
需要说明的是,该步骤使用的Bert模型可以与上述步骤S32中使用的Bert模型是同一个模型。
S34、根据原始句子的向量表征以及每个候选句子的向量表征,确定原始句子与每个候选句子的相似度,将相似度最大的候选句子确定为原始句子的参考句子。
一种可行的实施方式中,分别计算原始句子的向量表征与每个候选句子的向量表征之间的余弦距离,作为原始句子与每个候选句子之间的相似度,将余弦距离最大的候选句子确定为原始句子的参考句子。
距离来说,用EM_O表示原始句子的向量表征,用EM_Ci表示参考句子候选集合中的第i个候选句子,通过计算Cos(EM_S, EM_Ci)的值,来确定原始句子与第i个候选句子的相似度。
S4、基于训练完毕的Bert模型、原始句子以及参考句子,确定原始句子和参考句子之间的词相似度矩阵。
需要说明的是,该步骤中使用的Bert模型可以和上述步骤S32以及S33的Bert模型是同一个模型。
可选地,S4中的基于训练完毕的Bert模型、原始句子以及参考句子,确定原始句子和参考句子之间的词相似度矩阵,包括下述步骤S41-S43:
S41、将原始句子输入训练完毕的Bert模型中,得到原始句子的每个词对应的词向量。
需要说明的是,该步骤得到的原始句子的每个词对应的词向量和上述步骤S32中获得的词向量是意义相同的向量特征。
S42、将参考句子输入训练完毕的Bert模型中,得到参考句子的每个词对应的词向量。
需要说明的是,该步骤得到的参考句子的每个词对应的词向量和上述步骤S33中获得的词向量是意义相同的向量特征。
S43、计算原始句子的每个词对应的词向量与参考句子的每个词对应的词向量之间的相似度,得到原始句子和参考句子之间的词相似度矩阵。
一种可行的实施方式中,假设原始句子的词数量以及参考句子的词数量均为n,通过计算两个词向量之间的余弦距离确定两个词向量之间的相似度,得到的词相似度矩阵为n×n的矩阵,具体的计算过程可以如下:
用p表示原始句子中第p个词向量EM_SWp,用q表示原始句子中第q个词向量EM_RWq,p以及q均为小于或等于n的正整数,则计算Cos(EM_SWp, EM_RWq),将得到的值作为词相似度矩阵中第p行、第q列的元素值。
S5、根据词相似度矩阵,确定原始句子与参考句子的词对应关系列表。
一种可行的实施方式中,在词相似度矩阵中遍历所有元素,确定元素值最大的元素,即相似度值最大的元素,确定其所在的行数x和列数y,进而可以确定原始句子的第x个词与参考句子的第y个词的相似度最大,将原始句子的第x个词与参考句子的第y个词确定为对应关系,记录(x,y),由于原始句子的第x个词的最相近的词已找到,参考句子的第y个词的最相近的词已找到,因此,将词相似度矩阵中的第x行元素和第y列元素置零,不再参与后续的遍历;再重新执行遍历词相似度矩阵,寻找下一对相似度最大的词组,直到找到n对,结束循环过程,其中,n为原始句子的词数量。
具体地,S5中的循环过程可以包括下述步骤S51-S56:
S51、设定k=1。
S52、判断k是否大于n,如果k大于n,则转去执行S56,如果k小于或等于n,则执行S53;其中,n表示原始句子的词数量。
S53、在词相似度矩阵中遍历所有非零元素,将相似度值最大的元素确定为目标元素,将目标元素所在的行数赋值给x,将目标元素所在的列数赋值给y。
S54、将词相似度矩阵的第x行元素均置为0,将词相似度矩阵的第y列元素均置为0。
S55、将(x,y)记入词对应关系列表中;k=k+1,x=0,y=0,转去执行S52。
S56、停止循环,生成词对应关系列表。
S6、根据原始句子与参考句子的词对应关系列表、原始句子以及参考句子,生成目标句子。
可选地,S6中的根据原始句子与参考句子的词对应关系列表、原始句子与参考句子,生成目标句子,可以包括以下步骤S61-S66:
S61、设定j=1。
S62、判断j是否大于n,如果j大于n,则执行S66;如果j小于或等于n,则执行S63;其中,n表示原始句子的词数量。
S63、根据原始句子与参考句子的词对应关系列表,判断第j个位置处原始句子的词和参考句子的词是否相同。
S64、如果第j个位置处原始句子的词和参考句子的词相同,则将原始句子的词确定为目标句子第j位置处的目标词。
S65、如果第j个位置处原始句子的词和参考句子的词不相同,则判断原始句子的词的等级是否小于或等于目标等级,如果小于或等于目标等级,则将原始句子的词确定为目标句子第j位置处的目标词,如果大于目标等级,则将参考句子的词确定为目标句子第j位置处的目标词;j=j+1;转去执行S62。
S66、根据目标句子所有位置处的目标词,生成目标句子。
一种可行的实施方式中,将目标句子所有位置处的目标词按照顺序排好,组成的句子即为目标句子。
举例说明根据原始句子与参考句子的词对应关系列表、原始句子与参考句子,生成目标句子的过程:
假设原始句子为“他的中文很地道”,参考句子为“小明的英语很流利”,目标等级为2级,获得的词对应关系列表如图3所示,则生成目标句子的过程参照图4所示:
对于第1个位置的词,判断出原始句子的词“他”与参考句子的词“小明”不相同,进而,判断出原始句子的词“他”的等级为1级,小于目标等级2级,因此,将原始句子的词“他”确定为目标句子第1个位置处的目标词;
对于第2个位置的词,判断原始句子的词“的”与参考句子的词“的”相同,因此,将原始句子的词“的”确定为目标句子第2个位置处的目标词;
对于第3个位置的词,判断原始句子的词“中文”与参考句子的词“英语”不相同,进而判断出原始句子的词“中文”的等级为1级,小于目标等级2级,因此,将原始句子的词“中文”确定为目标句子第3个位置处的目标词;
对于第4个位置的词,判断原始句子的词“很”与参考句子的词“很”相同,因此,将原始句子的词“很”确定为目标句子第4个位置处的目标词;
对于第5个位置的词,判断原始句子的词“地道”与参考句子的词“流利”不相同,进而判断出原始句子的词“地道”的等级为7-9级,大于目标等级2级,因此,将参考句子的词“流利”确定为目标句子第5个位置处的目标词。
最终将“他”、“的”、“中文”、“很”、“流利”按照顺序组成一句话“他的中文很流利”,即得到目标句子。
本发明实施例中,获取文本数据,对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库;获取原始句子,确定所述原始句子的等级;获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子。本发明相对于人工改编的方式,智能改编的方式效率更高,适合用于大规模改编场景。同时严格基于等级标准,相对于人工改编的办法,可以减少人为错误,避免人与人个体差异导致的偏差,这样的改编结果更加统一齐整。
图5是根据一示例性实施例示出的一种中文文本智能分级改编装置框图。参照图5,该装置500包括:
构建模块510,用于获取文本数据,对所述文本数据进行预处理,基于文本数据以及对应的等级,构建分级文本库;
第一确定模块520,用于获取原始句子,确定所述原始句子的等级;
第二确定模块530,用于获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;
第三确定模块540,用于基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;
第四确定模块550,用于根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;
生成模块560,用于根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子。
可选地,所述构建模块510,进一步用于:
S11、对所述文本数据进行分句处理,得到多个待归类句子;
S12、对多个待归类句子分别进行分级处理;
S13、将分级处理后的待归类句子按照等级存入到分级文本库的分级子库中。
可选地,所述构建模块510,进一步用于:
S121、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级;
S122、将所述每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级中的最高等级,确定为待归类句子的等级。
可选地,所述第二确定模块530,进一步用于:
S31、获取目标等级,根据所述目标等级,在所述分级文本库中确定所述目标等级对应的目标分级子库,将所述目标分级子库中与所述原始句子的词数相同的多个句子确定为参考句子候选集合;
S32、将所述原始句子输入到训练完毕的Bert模型中,获取所述原始句子的每个词对应的词向量,对所有词对应的词向量进行平均池化操作,得到所述原始句子的向量表征;
S33、将所述参考句子候选集合中的每个候选句子输入到训练完毕的Bert模型中,获取每个候选句子的每个词对应的词向量,对所述每个候选句子的所有词对应的词向量进行平均池化操作,得到所述每个候选句子的向量表征;
S34、根据所述原始句子的向量表征以及所述每个候选句子的向量表征,确定所述原始句子与所述每个候选句子的相似度,将相似度最大的候选句子确定为所述原始句子的参考句子。
可选地,所述第三确定模块540,进一步用于:
S41、将所述原始句子输入训练完毕的Bert模型中,得到所述原始句子的每个词对应的词向量;
S42、将所述参考句子输入训练完毕的Bert模型中,得到所述参考句子的每个词对应的词向量;
S43、计算原始句子的每个词对应的词向量与所述参考句子的每个词对应的词向量之间的相似度,得到所述原始句子和参考句子之间的词相似度矩阵。
可选地,所述第四确定模块550,进一步用于:
S51、设定k=1;
S52、判断k是否大于n,如果k大于n,则转去执行S56,如果k小于或等于n,则执行S53;其中,n表示所述原始句子的词数量;
S53、在所述词相似度矩阵中遍历所有非零元素,将相似度值最大的元素确定为目标元素,将所述目标元素所在的行数赋值给x,将所述目标元素所在的列数赋值给y;
S54、将所述词相似度矩阵的第x行元素均置为0,将所述词相似度矩阵的第y列元素均置为0;
S55、将(x,y)记入词对应关系列表中;k=k+1,x=0,y=0,转去执行S52;
S56、停止循环,生成词对应关系列表。
可选地,所述生成模块560,进一步用于:
S61、设定j=1;
S62、判断j是否大于n,如果j大于n,则执行S66;如果j小于或等于n,则执行S63;其中,n表示所述原始句子的词数量;
S63、根据所述原始句子与参考句子的词对应关系列表,判断第j个位置处原始句子的词和参考句子的词是否相同;
S64、如果第j个位置处原始句子的词和参考句子的词相同,则将原始句子的词确定为目标句子第j位置处的目标词;
S65、如果第j个位置处原始句子的词和参考句子的词不相同,则判断所述原始句子的词的等级是否小于或等于目标等级,如果小于或等于目标等级,则将所述原始句子的词确定为目标句子第j位置处的目标词,如果大于目标等级,则将参考句子的词确定为目标句子第j位置处的目标词;j=j+1;转去执行S62
S66、根据目标句子所有位置处的目标词,生成目标句子。
本发明实施例中,获取文本数据,对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库;获取原始句子,确定所述原始句子的等级;获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子。本发明相对于人工改编的方式,智能改编的方式效率更高,适合用于大规模改编场景。同时严格基于等级标准,相对于人工改编的办法,可以减少人为错误,避免人与人个体差异导致的偏差,这样的改编结果更加统一齐整。
图6是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,所述存储器602中存储有至少一条指令,所述至少一条指令由所述处理器601加载并执行以实现上述中文文本智能分级改编方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述中文文本智能分级改编方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种中文文本智能分级改编方法,其特征在于,所述方法包括:
S1、获取文本数据,对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库;
S2、获取原始句子;
S3、获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;
S4、基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;
S5、根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;
S6、根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子;
其中,所述S6中的根据所述原始句子与参考句子的词对应关系列表、所述原始句子与所述参考句子,生成目标句子,包括:
S61、设定j=1;
S62、判断j是否大于n,如果j大于n,则执行S66;如果j小于或等于n,则执行S63;其中,n表示所述原始句子的词数量;
S63、根据所述原始句子与参考句子的词对应关系列表,判断第j个位置处原始句子的词和参考句子的词是否相同;
S64、如果第j个位置处原始句子的词和参考句子的词相同,则将原始句子的词确定为目标句子第j位置处的目标词;
S65、如果第j个位置处原始句子的词和参考句子的词不相同,则判断所述原始句子的词的等级是否小于或等于目标等级,如果小于或等于目标等级,则将所述原始句子的词确定为目标句子第j位置处的目标词,如果大于目标等级,则将参考句子的词确定为目标句子第j位置处的目标词;j=j+1;转去执行S62;
S66、根据目标句子所有位置处的目标词,生成目标句子。
2.根据权利要求1所述的方法,其特征在于,所述S1中的对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库,包括:
S11、对所述文本数据进行分句处理,得到多个待归类句子;
S12、对多个待归类句子分别进行分级处理;
S13、将分级处理后的待归类句子按照等级存入到分级文本库的分级子库中。
3.根据权利要求2所述的方法,其特征在于,所述S12中的对多个待归类句子分别进行分级处理,包括:
S121、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级;
S122、将所述每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级中的最高等级,确定为待归类句子的等级。
4.根据权利要求1所述的方法,其特征在于,所述S3中的获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子,包括:
S31、获取目标等级,根据所述目标等级,在所述分级文本库中确定所述目标等级对应的目标分级子库,将所述目标分级子库中与所述原始句子的词数相同的多个句子确定为参考句子候选集合;
S32、将所述原始句子输入到训练完毕的Bert模型中,获取所述原始句子的每个词对应的词向量,对所有词对应的词向量进行平均池化操作,得到所述原始句子的向量表征;
S33、将所述参考句子候选集合中的每个候选句子输入到训练完毕的Bert模型中,获取所述每个候选句子的每个词对应的词向量,对所述每个候选句子的所有词对应的词向量进行平均池化操作,得到所述每个候选句子的向量表征;
S34、根据所述原始句子的向量表征以及所述每个候选句子的向量表征,确定所述原始句子与所述每个候选句子的相似度,将相似度最大的候选句子确定为所述原始句子的参考句子。
5.根据权利要求1所述的方法,其特征在于,所述S4中的基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵,包括:
S41、将所述原始句子输入训练完毕的Bert模型中,得到所述原始句子的每个词对应的词向量;
S42、将所述参考句子输入训练完毕的Bert模型中,得到所述参考句子的每个词对应的词向量;
S43、计算原始句子的每个词对应的词向量与所述参考句子的每个词对应的词向量之间的相似度,得到所述原始句子和参考句子之间的词相似度矩阵。
6.根据权利要求1所述的方法,其特征在于,所述S5中的根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表,包括:
S51、设定k=1;
S52、判断k是否大于n,如果k大于n,则转去执行S56,如果k小于或等于n,则执行S53;其中,n表示所述原始句子的词数量;
S53、在所述词相似度矩阵中遍历所有非零元素,将相似度值最大的元素确定为目标元素,将所述目标元素所在的行数赋值给x,将所述目标元素所在的列数赋值给y;
S54、将所述词相似度矩阵的第x行元素均置为0,将所述词相似度矩阵的第y列元素均置为0;
S55、将(x,y)记入词对应关系列表中;k=k+1,x=0,y=0,转去执行S52;
S56、停止循环,生成词对应关系列表。
7.一种中文文本智能分级改编装置,其特征在于,所述装置包括:
构建模块,用于获取文本数据,对所述文本数据进行预处理,基于文本数据以及对应的等级,构建分级文本库;
第一确定模块,用于获取原始句子,确定所述原始句子的等级;
第二确定模块,用于获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;
第三确定模块,用于基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;
第四确定模块,用于根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;
生成模块,用于根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子;
所述生成模块,进一步用于:
S61、设定j=1;
S62、判断j是否大于n,如果j大于n,则执行S66;如果j小于或等于n,则执行S63;其中,n表示所述原始句子的词数量;
S63、根据所述原始句子与参考句子的词对应关系列表,判断第j个位置处原始句子的词和参考句子的词是否相同;
S64、如果第j个位置处原始句子的词和参考句子的词相同,则将原始句子的词确定为目标句子第j位置处的目标词;
S65、如果第j个位置处原始句子的词和参考句子的词不相同,则判断所述原始句子的词的等级是否小于或等于目标等级,如果小于或等于目标等级,则将所述原始句子的词确定为目标句子第j位置处的目标词,如果大于目标等级,则将参考句子的词确定为目标句子第j位置处的目标词;j=j+1;转去执行S62;
S66、根据目标句子所有位置处的目标词,生成目标句子。
8.根据权利要求7所述的装置,其特征在于,所述构建模块,进一步用于:
S11、对所述文本数据进行分句处理,得到多个待归类句子;
S12、对多个待归类句子分别进行分级处理;
S13、将分级处理后的待归类句子存入到分级文本库中对应的分级子库中。
9.根据权利要求8所述的装置,其特征在于,所述构建模块,进一步用于:
S21、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级;
S22、将所述每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级中的最高等级,确定为待归类句子的等级。
CN202211524750.XA 2022-12-01 2022-12-01 一种中文文本智能分级改编方法及装置 Active CN115600575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211524750.XA CN115600575B (zh) 2022-12-01 2022-12-01 一种中文文本智能分级改编方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211524750.XA CN115600575B (zh) 2022-12-01 2022-12-01 一种中文文本智能分级改编方法及装置

Publications (2)

Publication Number Publication Date
CN115600575A CN115600575A (zh) 2023-01-13
CN115600575B true CN115600575B (zh) 2023-03-14

Family

ID=84852964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211524750.XA Active CN115600575B (zh) 2022-12-01 2022-12-01 一种中文文本智能分级改编方法及装置

Country Status (1)

Country Link
CN (1) CN115600575B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986785A (zh) * 2018-08-08 2018-12-11 科大讯飞股份有限公司 一种文本改编方法及装置
CN111368037A (zh) * 2020-03-06 2020-07-03 平安科技(深圳)有限公司 基于Bert模型的文本相似度计算方法和装置
CN114996464A (zh) * 2022-07-19 2022-09-02 北京语言大学 一种利用有序信息的文本分级方法及装置
CN115374252A (zh) * 2022-10-21 2022-11-22 北京语言大学 一种基于原生Bert架构的文本分级方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496749B2 (en) * 2015-06-12 2019-12-03 Satyanarayana Krishnamurthy Unified semantics-focused language processing and zero base knowledge building system
CN112115701B (zh) * 2020-09-07 2021-07-09 北京语言大学 一种新闻阅读文本可读性评价方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986785A (zh) * 2018-08-08 2018-12-11 科大讯飞股份有限公司 一种文本改编方法及装置
CN111368037A (zh) * 2020-03-06 2020-07-03 平安科技(深圳)有限公司 基于Bert模型的文本相似度计算方法和装置
CN114996464A (zh) * 2022-07-19 2022-09-02 北京语言大学 一种利用有序信息的文本分级方法及装置
CN115374252A (zh) * 2022-10-21 2022-11-22 北京语言大学 一种基于原生Bert架构的文本分级方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
国学经典少儿读物分级改编的问题与思路;白瑞芬;《编辑学刊》;第102-106页 *
基于依存构式的文本复杂度分级特征体系构建及效度验证;殷晓君;《语言教学与研究》(第6期);第24-33页 *

Also Published As

Publication number Publication date
CN115600575A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
US20210390271A1 (en) Neural machine translation systems
CN111259653B (zh) 基于实体关系消歧的知识图谱问答方法、系统以及终端
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN108287820B (zh) 一种文本表示的生成方法及装置
CN112487139B (zh) 基于文本的自动出题方法、装置及计算机设备
CN110991195B (zh) 机器翻译模型训练方法、装置及存储介质
CN111767717B (zh) 印尼语的语法纠错方法、装置、设备及存储介质
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN116797417A (zh) 一种基于大语言模型的智能辅助系统
CN115600575B (zh) 一种中文文本智能分级改编方法及装置
Tashu et al. Deep learning architecture for automatic essay scoring
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
Chughtai et al. A lecture centric automated distractor generation for post-graduate software engineering courses
CN116306558B (zh) 一种计算机辅助中文文本改编的方法及装置
Wang et al. Intelligent evaluation algorithm of English writing based on semantic analysis
CN116306596B (zh) 一种结合多重特征进行中文文本拼写检查的方法及装置
US11599836B2 (en) Assigning a tutor to a cohort of students
CN114564562B (zh) 基于答案指导的题目生成方法、装置、设备及存储介质
CN115965014A (zh) 一种根据关键词生成对应的目标生成句子的方法及装置
CN112434152B (zh) 基于多通道卷积神经网络的教育类选择题解答方法和装置
EP4318271A1 (en) Learning device, inference device, program, learning method, and inference method
Chakraborty et al. Automatic Short Answer Grading Using Universal Sentence Encoder
CN116205242A (zh) 翻译方法、装置、设备、介质及程序产品
KR20240009745A (ko) 필기체 수학 심볼 보정 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant