CN111563372A - 一种基于教辅书籍出版的排版文档内容自查重方法 - Google Patents

一种基于教辅书籍出版的排版文档内容自查重方法 Download PDF

Info

Publication number
CN111563372A
CN111563372A CN202010394710.2A CN202010394710A CN111563372A CN 111563372 A CN111563372 A CN 111563372A CN 202010394710 A CN202010394710 A CN 202010394710A CN 111563372 A CN111563372 A CN 111563372A
Authority
CN
China
Prior art keywords
character string
formula
book
similarity
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010394710.2A
Other languages
English (en)
Other versions
CN111563372B (zh
Inventor
张泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Century Jinbang Group Co ltd
Original Assignee
Century Jinbang Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Century Jinbang Group Co ltd filed Critical Century Jinbang Group Co ltd
Priority to CN202010394710.2A priority Critical patent/CN111563372B/zh
Publication of CN111563372A publication Critical patent/CN111563372A/zh
Application granted granted Critical
Publication of CN111563372B publication Critical patent/CN111563372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于教辅书籍出版的排版文档内容自查重方法,包括如下步骤:步骤(1):以二进制方式读入排版文档;步骤(2):对二进制行序列Wrb进行预处理;步骤(3):对字符串S进行处理;步骤(4):根据书版命令利用正则表达式提取字符串S中表格字符串;步骤(5):根据内容将字符串S′分割为多个题目;步骤(6):对T、F和Q分别利用改进的编辑距离相似度算法进行查重;步骤(7):输出的查重结果。本发明通过对书籍文档分割出的题目、表格、公式等单元进行相似度比较,实现文档自查重的目的。此方法可有效的克服现有技术存在的缺点,解决工作效率低、存在大量误报和漏报等问题。

Description

一种基于教辅书籍出版的排版文档内容自查重方法
技术领域
本发明属于书籍出版文档处理和自然语言处理领域,具体涉及一种基于教辅书籍出版的排版文档内容自查重方法。
背景技术
书籍作为信息的载体,在社会生活中占有着十分重要的地位,特别是在科教文化领域,教辅书籍出版的质量尤为重要。在教辅书籍编辑过程中,往往是多名编辑共同完成,不免会出现重复的内容或者题目等信息,如果不对这些重复信息进行后期查重,必然会对书籍出版质量产生影响。因此,充分利用自然语言处理手段和计算机数据处理能力,实现书籍中重复信息准确查重,在保证书籍出版质量方面具有重要意义。
目前,用于文档内容查重的方法主要分为两种:一种是根据关键字先手动查找后人工查重;另一种是根据句子通过关键词、余弦相似度等模糊算法进行查重。根据关键字先手动查找后人工查重在实际应用中浪费大量人力,工作效率低,这种方法已经逐渐衰弱。根据句子通过关键词、余弦相似度等模糊算法进行查重,其主要用于论文查重,最突出的算法是知网的模糊查重算法,其通过忽略两句话中无意义的词,计算有意义词的重复数量,重复数量在超过所规定的阈值时,判定两句话为重复。但是,由于教辅书籍比较常见的重复内容为辅导题目或科普文章,使用类似模糊算法的方法进行自查重会导致大量误报和漏报,并且后期人工排查重复内容也需要花费大量时间。因此,目前文档查重的方法用于书籍出版的编排文档内容自查重效果不佳。
发明内容
本发明的目的是提供一种基于教辅书籍出版的排版文档内容自查重方法,通过对书籍文档分割出的题目、表格、公式等单元进行相似度比较,实现文档自查重的目的。此方法可有效的克服现有技术存在的缺点,解决工作效率低、存在大量误报和漏报等问题。
本发明解决其技术问题所采用的技术方案是:
一种基于教辅书籍出版的排版文档内容自查重方法,其特征在于,包括如下步骤:
步骤(1):以二进制方式读入排版文档,按顺序读取排版文档每行内容组成二进制行序列
Figure BDA0002487071170000011
其中n表示文档行数,
Figure BDA0002487071170000012
表示第n行二进制序列;
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},其中[n]仅是一种行号表达方式,与排版文档中内容不冲突,然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗(表示指定内容不参与排版)设计正则表达式,利用正则表达式删除不参与排版的内容;
步骤(4):分别根据排版文档中的书版命令〖BG〗(表示排表格)和〖FC〗(表示排方程式)、〖FY〗(表示排化学方程式)、〖JG〗(表示排化学结构式)等命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中i和j分别表示表格和公式的序号;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目等内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
本发明和现有技术相比,其优点在于:本发明通过对书籍文档分割出的题目、表格、公式等单元进行相似度比较,实现文档自查重的目的。此方法可有效的克服现有技术存在的缺点,解决工作效率低、存在大量误报和漏报等问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的表格、公式和题目分割提取流程示意图。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例,这些实施例是为了能够更透彻地理解本发明,并且能够将本发明公开的范围完整的传达给本领域的技术人员。虽然附图中显示了本发明公开的示例性实施例,然而应当理解,本发明而不应被这里阐述的实施例所限制。
实施例1
一种基于教辅书籍出版的排版文档内容自查重方法,包括如下步骤:
步骤(1):以二进制方式读入排版文档,按顺序读取排版文档每行内容组成二进制行序列
Figure BDA0002487071170000031
其中n表示文档行数,
Figure BDA0002487071170000032
表示第n行二进制序列;
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},其中[n]仅是一种行号表达方式,与排版文档中内容不冲突,然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗(表示指定内容不参与排版)设计正则表达式,利用正则表达式删除不参与排版的内容;
步骤(4):分别根据排版文档中的书版命令〖BG〗(表示排表格)和〖FC〗(表示排方程式)、〖FY〗(表示排化学方程式)、〖JG〗(表示排化学结构式)等命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中i和j分别表示表格和公式的序号;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目等内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重,分为以下三个步骤:
步骤(6.1):对表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个表格字符串的相似度,对大于阈值YT的两个表格字符串判定为重复;
步骤(6.2):对公式字符串集合F={f1,f2,…,fj}进行查重,设置公式内容相似度阈值YF,首先提取公式字符串fi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个公式字符串的相似度,对大于阈值YF的两个公式字符串判定为重复;
步骤(6.3):对题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个题目字符串的相似度,对大于阈值YQ的两个题目字符串判定为重复;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
其中:步骤(1)、步骤(2)、步骤(3)、步骤(4)、步骤(5)中,表格、公式和题目分割提取流程如图1所示。
其中:步骤(6)中,分别在进行相似度比较前对表格字符串、公式字符串、题目字符串进行预处理:表格字符串通过书版命令〖BH和BG〗实现表格内容细分;公式字符串通过把公式字符串看作一个整体单位进行比较;题目字符串通过分别对英文类型书籍和中文类型书籍进行中英文分词处理,实现中文汉字与英文单词分离,英文单词视为一个整体单位,通过改进的编辑距离算法进行相似度比较。
编辑距离指的是在两个单词之间,由其中一个单位转换为另一个单位所需要的最少单位编辑操作次数,编辑距离一般适用于字符串之间的相似度比较,针对书籍排版文档,改进的编辑距离相似度算法能够处理以英文单词、公式、中文词语为单位的列表相似度计算,其公式如下:
Figure BDA0002487071170000041
其中,a和b表示两个经过处理后的字符列表,i和j表示英文单词、公式或中文词语单位,通过两个字符列表中相同单位的变换操作次数实现字符列表相似度比较。
实施例2
一种基于教辅书籍出版的排版文档内容自查重方法,包括如下步骤:
步骤(1):分别以二进制方式读入两个1000行的英语教书书籍和化学教辅书籍排版文档,设置标识Flag分别为0和1,分别按行顺序读取排版文档每行内容组成二进制行序列
Figure BDA0002487071170000051
其中n=1000表示排版文档行数,
Figure BDA0002487071170000052
表示第n行二进制序列;
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},其中[n]仅是一种行号表达方式,与排版文档中内容不冲突,然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗(表示指定内容不参与排版)设计正则表达式,利用正则表达式删除不参与排版的内容;
步骤(4):根据排版文档中的书版命令〖BG〗(表示排表格)和〖FC〗(表示排方程式)、〖FY〗(表示排化学方程式)、〖JG〗(表示排化学结构式)等命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中i和j分别表示表格和公式的序号;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目等内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重,分为以下三个步骤:
步骤(6.1):若标识Flag为0,即对英文表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的表格字符串进行中英文分词生成两个字符列表,中文词语和英文单词分别视为一个整体单位,通过比较两个表格字符列表的相似度,对大于阈值YT的两个表格字符列表判定为重复;若标识Flag为1,即对中文表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的表格字符串进行中文分词生成两个字符列表,中文词语视为一个整体单位,通过比较两个表格字符串列表的相似度,对大于阈值YT的两个表格字符串判定为重复;
步骤(6.2):对公式字符串集合F={f1,f2,…,fj}进行查重,设置公式内容相似度阈值YF,首先提取公式字符串fi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,把公式字符串看作整体单位,通过比较两个公式的相似度,对大于阈值YF的两个公式字符串判定为重复;
步骤(6.3):若标识Flag为0,即对英文题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的题目字符串进行中英文分词生成两个字符列表,中文词语和英文单词分别视为一个整体单位,通过比较两个题目字符列表的相似度,对大于阈值YQ的两个题目字符串判定为重复;若标识Flag为1,即对中文题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,对两个处理后的题目字符串进行中文分词生成两个字符列表,中文词语视为一个整体单位,通过比较两个题目字符列表的相似度,对大于阈值YQ的两个题目字符串判定为重复;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
为使本发明实施例的目的、技术方案和优点更加清楚,上面结合本发明实施例中的附图,对本发明实施例中的技术方案进行了清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以上对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (5)

1.一种基于教辅书籍出版的排版文档内容自查重方法,其特征在于,包括如下步骤:
步骤(1):以二进制方式读入排版文档,按顺序读取排版文档每行内容组成二进制行序列
Figure FDA0002487071160000011
其中,n表示文档行数,
Figure FDA0002487071160000012
表示第n行二进制序列;
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗设计正则表达式,利用正则表达式删除不参与排版的内容;其中,书版命令〖BP〗表示指定内容不参与排版;
步骤(4):分别根据排版文档中的书版命令〖BG〗和〖FC〗、〖FY〗、〖JG〗的命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中,i和j分别表示表格和公式的序号;书版命令〖BG〗表示排表格,〖FC〗表示排方程式、〖FY〗表示排化学方程式、〖JG〗表示排化学结构式;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目的内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。
2.根据权利要求1所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述步骤(4)和步骤(5)中,通过书版命令和自然语言处理对排版文档进行处理,将表格内容进行细分为多条内容;通过书版命令提取的公式视为一个整体;以章节、题号、答案、解析、栏目的标识内容进行题目细分割。
3.根据权利要求1所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述步骤(6)分为以下三个步骤:
步骤(6.1):对表格字符串集合T={t1,t2,…,ti}进行查重,设置表格内容相似度阈值YT,首先提取表格字符串ti中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个表格字符串的相似度,对大于阈值YT的两个表格字符串判定为重复;
步骤(6.2):对公式字符串集合F={f1,f2,…,fj}进行查重,设置公式内容相似度阈值YF,首先提取公式字符串fi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个公式字符串的相似度,对大于阈值YF的两个公式字符串判定为重复;
步骤(6.3):对题目字符串集合Q={q1,q2,…,qk}进行查重,设置题目内容相似度阈值YQ,首先提取题目字符串qi中的行号[n],然后利用正则表达式删除行号[n]和书版命令,通过循环比较两个题目字符串的相似度,对大于阈值YQ的两个题目字符串判定为重复。
4.根据权利要求2或3所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述步骤(6)中,分别在进行相似度比较前对表格字符串、公式字符串、题目字符串进行预处理:表格字符串通过书版命令〖BH和BG〗实现表格内容细分;公式字符串通过把公式字符串看作一个整体单位进行比较;题目字符串通过分别对英文类型书籍和中文类型书籍进行中英文分词处理,实现中文汉字与英文单词分离,英文单词视为一个整体单位,通过改进的编辑距离算法进行相似度比较。
5.根据权利要求4所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述编辑距离指的是在两个单词之间,由其中一个单位转换为另一个单位所需要的最少单位编辑操作次数,编辑距离适用于字符串之间的相似度比较,针对书籍排版文档,改进的编辑距离相似度算法能够处理以英文单词、公式、中文词语为单位的列表相似度计算;其公式如下:
Figure FDA0002487071160000021
其中,a和b表示两个经过处理后的字符列表,i和j表示英文单词、公式或中文词语单位,通过两个字符列表中相同单位的变换操作次数实现字符列表相似度比较。
CN202010394710.2A 2020-05-11 2020-05-11 一种基于教辅书籍出版的排版文档内容自查重方法 Active CN111563372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010394710.2A CN111563372B (zh) 2020-05-11 2020-05-11 一种基于教辅书籍出版的排版文档内容自查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010394710.2A CN111563372B (zh) 2020-05-11 2020-05-11 一种基于教辅书籍出版的排版文档内容自查重方法

Publications (2)

Publication Number Publication Date
CN111563372A true CN111563372A (zh) 2020-08-21
CN111563372B CN111563372B (zh) 2021-04-13

Family

ID=72074659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010394710.2A Active CN111563372B (zh) 2020-05-11 2020-05-11 一种基于教辅书籍出版的排版文档内容自查重方法

Country Status (1)

Country Link
CN (1) CN111563372B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868282A (zh) * 2021-08-06 2021-12-31 安徽希施玛数据科技有限公司 数据处理方法及装置、终端及计算机可读存储介质
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN117573943A (zh) * 2024-01-11 2024-02-20 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
CN106326197A (zh) * 2016-08-23 2017-01-11 达而观信息科技(上海)有限公司 一种快速检测重复抄袭文本的方法
CN108804624A (zh) * 2013-12-18 2018-11-13 国网江苏省电力有限公司常州供电分公司 文挡录入并比对的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
CN108804624A (zh) * 2013-12-18 2018-11-13 国网江苏省电力有限公司常州供电分公司 文挡录入并比对的方法
CN106326197A (zh) * 2016-08-23 2017-01-11 达而观信息科技(上海)有限公司 一种快速检测重复抄袭文本的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868282A (zh) * 2021-08-06 2021-12-31 安徽希施玛数据科技有限公司 数据处理方法及装置、终端及计算机可读存储介质
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN116776854B (zh) * 2023-08-25 2023-11-03 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN117573943A (zh) * 2024-01-11 2024-02-20 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法
CN117573943B (zh) * 2024-01-11 2024-05-28 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法

Also Published As

Publication number Publication date
CN111563372B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN111563372B (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN112883693B (zh) 一种自动生成电力工作票的方法及终端
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
CN111897917A (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN114265926A (zh) 一种基于自然语言的素材推荐方法、系统、设备及介质
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN111859950A (zh) 一种自动化生成讲稿的方法
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN113934814B (zh) 古诗文主观题自动评分方法
Paju et al. Towards an ontology and epistemology of text reuse
CN110929022A (zh) 一种文本摘要生成方法及系统
CN112101007A (zh) 一种从非结构化文本数据中提取结构化数据的方法及系统
Darģis et al. Lessons learned from creating a balanced corpus from online data
Camps et al. Collating medieval vernacular texts. aligning witnesses, classifying variants
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
Rosmorduc Computational linguistics in egyptology
CN114064878A (zh) 一种基于强化学习的自然语言数据打标方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant