CN111563372A - 一种基于教辅书籍出版的排版文档内容自查重方法 - Google Patents
一种基于教辅书籍出版的排版文档内容自查重方法 Download PDFInfo
- Publication number
- CN111563372A CN111563372A CN202010394710.2A CN202010394710A CN111563372A CN 111563372 A CN111563372 A CN 111563372A CN 202010394710 A CN202010394710 A CN 202010394710A CN 111563372 A CN111563372 A CN 111563372A
- Authority
- CN
- China
- Prior art keywords
- character string
- formula
- book
- similarity
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于教辅书籍出版的排版文档内容自查重方法,包括如下步骤:步骤(1):以二进制方式读入排版文档;步骤(2):对二进制行序列Wrb进行预处理;步骤(3):对字符串S进行处理;步骤(4):根据书版命令利用正则表达式提取字符串S中表格字符串;步骤(5):根据内容将字符串S′分割为多个题目;步骤(6):对T、F和Q分别利用改进的编辑距离相似度算法进行查重;步骤(7):输出的查重结果。本发明通过对书籍文档分割出的题目、表格、公式等单元进行相似度比较,实现文档自查重的目的。此方法可有效的克服现有技术存在的缺点,解决工作效率低、存在大量误报和漏报等问题。
Description
技术领域
本发明属于书籍出版文档处理和自然语言处理领域,具体涉及一种基于教辅书籍出版的排版文档内容自查重方法。
背景技术
书籍作为信息的载体,在社会生活中占有着十分重要的地位,特别是在科教文化领域,教辅书籍出版的质量尤为重要。在教辅书籍编辑过程中,往往是多名编辑共同完成,不免会出现重复的内容或者题目等信息,如果不对这些重复信息进行后期查重,必然会对书籍出版质量产生影响。因此,充分利用自然语言处理手段和计算机数据处理能力,实现书籍中重复信息准确查重,在保证书籍出版质量方面具有重要意义。
目前,用于文档内容查重的方法主要分为两种:一种是根据关键字先手动查找后人工查重;另一种是根据句子通过关键词、余弦相似度等模糊算法进行查重。根据关键字先手动查找后人工查重在实际应用中浪费大量人力,工作效率低,这种方法已经逐渐衰弱。根据句子通过关键词、余弦相似度等模糊算法进行查重,其主要用于论文查重,最突出的算法是知网的模糊查重算法,其通过忽略两句话中无意义的词,计算有意义词的重复数量,重复数量在超过所规定的阈值时,判定两句话为重复。但是,由于教辅书籍比较常见的重复内容为辅导题目或科普文章,使用类似模糊算法的方法进行自查重会导致大量误报和漏报,并且后期人工排查重复内容也需要花费大量时间。因此,目前文档查重的方法用于书籍出版的编排文档内容自查重效果不佳。
发明内容
本发明的目的是提供一种基于教辅书籍出版的排版文档内容自查重方法,通过对书籍文档分割出的题目、表格、公式等单元进行相似度比较,实现文档自查重的目的。此方法可有效的克服现有技术存在的缺点,解决工作效率低、存在大量误报和漏报等问题。
本发明解决其技术问题所采用的技术方案是:
一种基于教辅书籍出版的排版文档内容自查重方法,其特征在于,包括如下步骤:
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},其中[n]仅是一种行号表达方式,与排版文档中内容不冲突,然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn;
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗(表示指定内容不参与排版)设计正则表达式,利用正则表达式删除不参与排版的内容;
步骤(4):分别根据排版文档中的书版命令〖BG〗(表示排表格)和〖FC〗(表示排方程式)、〖FY〗(表示排化学方程式)、〖JG〗(表示排化学结构式)等命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中i和j分别表示表格和公式的序号;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目等内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
本发明和现有技术相比,其优点在于:本发明通过对书籍文档分割出的题目、表格、公式等单元进行相似度比较,实现文档自查重的目的。此方法可有效的克服现有技术存在的缺点,解决工作效率低、存在大量误报和漏报等问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的表格、公式和题目分割提取流程示意图。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例,这些实施例是为了能够更透彻地理解本发明,并且能够将本发明公开的范围完整的传达给本领域的技术人员。虽然附图中显示了本发明公开的示例性实施例,然而应当理解,本发明而不应被这里阐述的实施例所限制。
实施例1
一种基于教辅书籍出版的排版文档内容自查重方法,包括如下步骤:
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},其中[n]仅是一种行号表达方式,与排版文档中内容不冲突,然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn;
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗(表示指定内容不参与排版)设计正则表达式,利用正则表达式删除不参与排版的内容;
步骤(4):分别根据排版文档中的书版命令〖BG〗(表示排表格)和〖FC〗(表示排方程式)、〖FY〗(表示排化学方程式)、〖JG〗(表示排化学结构式)等命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中i和j分别表示表格和公式的序号;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目等内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重,分为以下三个步骤:
步骤(6.1):对表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个表格字符串的相似度,对大于阈值YT的两个表格字符串判定为重复;
步骤(6.2):对公式字符串集合F={f1,f2,…,fj}进行查重,设置公式内容相似度阈值YF,首先提取公式字符串fi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个公式字符串的相似度,对大于阈值YF的两个公式字符串判定为重复;
步骤(6.3):对题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个题目字符串的相似度,对大于阈值YQ的两个题目字符串判定为重复;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
其中:步骤(1)、步骤(2)、步骤(3)、步骤(4)、步骤(5)中,表格、公式和题目分割提取流程如图1所示。
其中:步骤(6)中,分别在进行相似度比较前对表格字符串、公式字符串、题目字符串进行预处理:表格字符串通过书版命令〖BH和BG〗实现表格内容细分;公式字符串通过把公式字符串看作一个整体单位进行比较;题目字符串通过分别对英文类型书籍和中文类型书籍进行中英文分词处理,实现中文汉字与英文单词分离,英文单词视为一个整体单位,通过改进的编辑距离算法进行相似度比较。
编辑距离指的是在两个单词之间,由其中一个单位转换为另一个单位所需要的最少单位编辑操作次数,编辑距离一般适用于字符串之间的相似度比较,针对书籍排版文档,改进的编辑距离相似度算法能够处理以英文单词、公式、中文词语为单位的列表相似度计算,其公式如下:
其中,a和b表示两个经过处理后的字符列表,i和j表示英文单词、公式或中文词语单位,通过两个字符列表中相同单位的变换操作次数实现字符列表相似度比较。
实施例2
一种基于教辅书籍出版的排版文档内容自查重方法,包括如下步骤:
步骤(1):分别以二进制方式读入两个1000行的英语教书书籍和化学教辅书籍排版文档,设置标识Flag分别为0和1,分别按行顺序读取排版文档每行内容组成二进制行序列其中n=1000表示排版文档行数,表示第n行二进制序列;
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},其中[n]仅是一种行号表达方式,与排版文档中内容不冲突,然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn;
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗(表示指定内容不参与排版)设计正则表达式,利用正则表达式删除不参与排版的内容;
步骤(4):根据排版文档中的书版命令〖BG〗(表示排表格)和〖FC〗(表示排方程式)、〖FY〗(表示排化学方程式)、〖JG〗(表示排化学结构式)等命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中i和j分别表示表格和公式的序号;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目等内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重,分为以下三个步骤:
步骤(6.1):若标识Flag为0,即对英文表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的表格字符串进行中英文分词生成两个字符列表,中文词语和英文单词分别视为一个整体单位,通过比较两个表格字符列表的相似度,对大于阈值YT的两个表格字符列表判定为重复;若标识Flag为1,即对中文表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的表格字符串进行中文分词生成两个字符列表,中文词语视为一个整体单位,通过比较两个表格字符串列表的相似度,对大于阈值YT的两个表格字符串判定为重复;
步骤(6.2):对公式字符串集合F={f1,f2,…,fj}进行查重,设置公式内容相似度阈值YF,首先提取公式字符串fi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,把公式字符串看作整体单位,通过比较两个公式的相似度,对大于阈值YF的两个公式字符串判定为重复;
步骤(6.3):若标识Flag为0,即对英文题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的题目字符串进行中英文分词生成两个字符列表,中文词语和英文单词分别视为一个整体单位,通过比较两个题目字符列表的相似度,对大于阈值YQ的两个题目字符串判定为重复;若标识Flag为1,即对中文题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的题目字符串进行中文分词生成两个字符列表,中文词语视为一个整体单位,通过比较两个题目字符列表的相似度,对大于阈值YQ的两个题目字符串判定为重复;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
为使本发明实施例的目的、技术方案和优点更加清楚,上面结合本发明实施例中的附图,对本发明实施例中的技术方案进行了清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以上对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (5)
1.一种基于教辅书籍出版的排版文档内容自查重方法,其特征在于,包括如下步骤:
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn;
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗设计正则表达式,利用正则表达式删除不参与排版的内容;其中,书版命令〖BP〗表示指定内容不参与排版;
步骤(4):分别根据排版文档中的书版命令〖BG〗和〖FC〗、〖FY〗、〖JG〗的命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中,i和j分别表示表格和公式的序号;书版命令〖BG〗表示排表格,〖FC〗表示排方程式、〖FY〗表示排化学方程式、〖JG〗表示排化学结构式;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目的内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
2.根据权利要求1所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述步骤(4)和步骤(5)中,通过书版命令和自然语言处理对排版文档进行处理,将表格内容进行细分为多条内容;通过书版命令提取的公式视为一个整体;以章节、题号、答案、解析、栏目的标识内容进行题目细分割。
3.根据权利要求1所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述步骤(6)分为以下三个步骤:
步骤(6.1):对表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个表格字符串的相似度,对大于阈值YT的两个表格字符串判定为重复;
步骤(6.2):对公式字符串集合F={f1,f2,…,fj}进行查重,设置公式内容相似度阈值YF,首先提取公式字符串fi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个公式字符串的相似度,对大于阈值YF的两个公式字符串判定为重复;
步骤(6.3):对题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个题目字符串的相似度,对大于阈值YQ的两个题目字符串判定为重复。
4.根据权利要求2或3所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述步骤(6)中,分别在进行相似度比较前对表格字符串、公式字符串、题目字符串进行预处理:表格字符串通过书版命令〖BH和BG〗实现表格内容细分;公式字符串通过把公式字符串看作一个整体单位进行比较;题目字符串通过分别对英文类型书籍和中文类型书籍进行中英文分词处理,实现中文汉字与英文单词分离,英文单词视为一个整体单位,通过改进的编辑距离算法进行相似度比较。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010394710.2A CN111563372B (zh) | 2020-05-11 | 2020-05-11 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010394710.2A CN111563372B (zh) | 2020-05-11 | 2020-05-11 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563372A true CN111563372A (zh) | 2020-08-21 |
CN111563372B CN111563372B (zh) | 2021-04-13 |
Family
ID=72074659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010394710.2A Active CN111563372B (zh) | 2020-05-11 | 2020-05-11 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563372B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868282A (zh) * | 2021-08-06 | 2021-12-31 | 安徽希施玛数据科技有限公司 | 数据处理方法及装置、终端及计算机可读存储介质 |
CN116776854A (zh) * | 2023-08-25 | 2023-09-19 | 湖南汇智兴创科技有限公司 | 在线多版本文献内容关联方法、装置、设备及介质 |
CN117573943A (zh) * | 2024-01-11 | 2024-02-20 | 云筑信息科技(成都)有限公司 | 一种基于序列化相似度计算的数据对比方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281165A (ja) * | 2001-11-13 | 2003-10-03 | Posco | 文書要約方法及びシステム |
CN106326197A (zh) * | 2016-08-23 | 2017-01-11 | 达而观信息科技(上海)有限公司 | 一种快速检测重复抄袭文本的方法 |
CN108804624A (zh) * | 2013-12-18 | 2018-11-13 | 国网江苏省电力有限公司常州供电分公司 | 文挡录入并比对的方法 |
-
2020
- 2020-05-11 CN CN202010394710.2A patent/CN111563372B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281165A (ja) * | 2001-11-13 | 2003-10-03 | Posco | 文書要約方法及びシステム |
CN108804624A (zh) * | 2013-12-18 | 2018-11-13 | 国网江苏省电力有限公司常州供电分公司 | 文挡录入并比对的方法 |
CN106326197A (zh) * | 2016-08-23 | 2017-01-11 | 达而观信息科技(上海)有限公司 | 一种快速检测重复抄袭文本的方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868282A (zh) * | 2021-08-06 | 2021-12-31 | 安徽希施玛数据科技有限公司 | 数据处理方法及装置、终端及计算机可读存储介质 |
CN116776854A (zh) * | 2023-08-25 | 2023-09-19 | 湖南汇智兴创科技有限公司 | 在线多版本文献内容关联方法、装置、设备及介质 |
CN116776854B (zh) * | 2023-08-25 | 2023-11-03 | 湖南汇智兴创科技有限公司 | 在线多版本文献内容关联方法、装置、设备及介质 |
CN117573943A (zh) * | 2024-01-11 | 2024-02-20 | 云筑信息科技(成都)有限公司 | 一种基于序列化相似度计算的数据对比方法 |
CN117573943B (zh) * | 2024-01-11 | 2024-05-28 | 云筑信息科技(成都)有限公司 | 一种基于序列化相似度计算的数据对比方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111563372B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN111563372B (zh) | 一种基于教辅书籍出版的排版文档内容自查重方法 | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN112883693B (zh) | 一种自动生成电力工作票的方法及终端 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN107526841A (zh) | 一种基于Web的藏文文本自动摘要生成方法 | |
CN111897917A (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN114265926A (zh) | 一种基于自然语言的素材推荐方法、系统、设备及介质 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
Dawar et al. | Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN113934814B (zh) | 古诗文主观题自动评分方法 | |
Paju et al. | Towards an ontology and epistemology of text reuse | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN112101007A (zh) | 一种从非结构化文本数据中提取结构化数据的方法及系统 | |
Darģis et al. | Lessons learned from creating a balanced corpus from online data | |
Camps et al. | Collating medieval vernacular texts. aligning witnesses, classifying variants | |
CN112613315B (zh) | 一种文本知识自动抽取方法、装置、设备及存储介质 | |
Rosmorduc | Computational linguistics in egyptology | |
CN114064878A (zh) | 一种基于强化学习的自然语言数据打标方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |