CN115618852A - 一种文本数字化自动校对系统 - Google Patents

一种文本数字化自动校对系统 Download PDF

Info

Publication number
CN115618852A
CN115618852A CN202211465526.8A CN202211465526A CN115618852A CN 115618852 A CN115618852 A CN 115618852A CN 202211465526 A CN202211465526 A CN 202211465526A CN 115618852 A CN115618852 A CN 115618852A
Authority
CN
China
Prior art keywords
technical
field
text
domain
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211465526.8A
Other languages
English (en)
Other versions
CN115618852B (zh
Inventor
雷燕芳
秦余伟
冯兴旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Tiancheng Book Industry Co ltd
Original Assignee
Shandong Tiancheng Book Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Tiancheng Book Industry Co ltd filed Critical Shandong Tiancheng Book Industry Co ltd
Priority to CN202211465526.8A priority Critical patent/CN115618852B/zh
Publication of CN115618852A publication Critical patent/CN115618852A/zh
Application granted granted Critical
Publication of CN115618852B publication Critical patent/CN115618852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及数据校对领域,尤其涉及一种文本数字化自动校对系统,本发明设置数据接收模块、数据存储模块以及数据处理模块,确定正文文本各段落所属的技术领域,将正文文本划分为若干段落,并逐个判定各段落所属的技术领域,并且,确定所述正文文本中的多技术领域名词,根据多技术领域名词所属句子或段落的技术领域确定各多技术领域名词的词义以及词性,并以此为基础进行语义分析,确定词义以及词性与语义成分是否符合语义搭配逻辑,能够识别句子中多技术领域词汇在不同技术领域应用时造成的歧义,避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判,进而提高文本校对的准确性和可靠性。

Description

一种文本数字化自动校对系统
技术领域
本发明涉及数据校对领域,尤其涉及一种文本数字化自动校对系统。
背景技术
随着机器学习及文字智能识别技术的飞速提升,日常办公效率急需提高,大数据时代下各种文本信息爆炸,传统的文本分析处理工作逐渐被计算机取代,文本数据量越大,其中所包含的错误的总数也越多,通过校对工作来纠正文本中的错误显得尤其重要,传统的校对主要依赖人工,通过人来发现和纠正文本中的错误,人工校对效率低、强度大、周期长,显然已经不能满足目前文本快速增长的需求,智能校对系统在这个背景下应运而生。
中国专利公开号:CN114120332A,公开了如下内容,该发明涉及文档校核技术领域,是一种基于人工智能的文档自动校核方法,其包括以下步骤:第一步:开放场景下的文本检测与识别;第二步:结构化信息的智能提取;第三步:高效智能文书校对;第四步:文档主题结构及关键内容提取。该发明利用公司内部的前期沉淀文档数据,借助前沿的机器学习及文字智能识别技术,编制预制基础审核规则,构建智能文档审阅模型,实现文字识别,智能化信息提取,智能文书格式文字校对,关键内容识别提取等新型智能化文档处理功能,确保日常内部文件文档编写规范统一,有效识别文字错误、前后不一致等文档错误问题,实现智能办公,提升文件文档处理效率、降低工作成本、有效提高横向协同和上下联动工作质效。
但是,现有技术中还存在以下问题:
现有技术中,在对文本校对时未考虑部分词汇在不同技术领域会存在不同的词义以及词性,因此会导致在对包含上述部分词汇的句子进行文本校对时会出现误判。
发明内容
为解决上述问题,本发明提供一种文本数字化自动校对系统,其包括:
数据接收模块,用以接收各用户端发出的文本信息,所述文本信息包括标题文本以及正文文本;
数据存储模块,其包括若干技术领域数据库,各所述技术领域数据库内存储有对应技术领域的若干关键词以及各关键词在对应技术领域的词义以及词性;
数据处理模块,其包括关键词识别单元、领域判定单元以及文本校对单元,所述关键词识别单元与所述数据接收模块以及数据存储模块分别连接,用以将文本信息中的名词逐个与各所述技术领域数据库中的关键词进行对比,并根据对比结果确定各名词所属的技术领域;
所述领域判定单元与所述数据接收模块以及数据存储模块分别连接,用以判定标题文本所属的技术领域,并根据判定结果确定对正文文本各段落所属的技术领域的判定方式,并根据对应判定方式判定正文文本各段落所属的技术领域;
所述领域判定单元判定正文文本各段落所属的技术领域时包括,将所述正文文本划分为若干段落,并根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域;
且,所述领域判定单元将各段落划分为若干句子,根据各所述句子中各技术领域的名词的数量判定各句子所属的技术领域以及是否对所述句子所属的技术领域进行补充判定;
所述关键词识别单元还用以确定所述正文文本中同时属于多个技术领域的名词,并将各所述名词标记为多技术领域名词,根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性;
所述文本校对单元用以对正文文本进行语义校对,以确定所述正文文本中各句子的词性以及语义成分是否满足语义搭配逻辑。
进一步地,所述关键词识别单元提取所述标题文本中的所有名词,将各所述名词逐个与各所述技术领域数据库中的关键词进行对比,并根据对比结果确定所述标题文本中的名词所属的技术领域,其中,
当名词与技术领域数据库中的关键词相同时,所述关键词识别单元确定所述技术领域数据库对应的技术领域,并判定所述名词属于所述技术领域。
进一步地,所述领域判定单元判定所述标题文本中的所有名词是否属于相同的技术领域,并根据判定结果确定所述标题文本所属的技术领域,其中,
当所述标题文本中的所有名词属于相同的技术领域时,所述领域判定单元判定所述标题文本属于所述技术领域,并判定正文文本的各段落属于所述技术领域;
当所述标题文本中的所有名词不属于相同的技术领域时,所述领域判定单元判定无法确定所述标题文本所属的技术领域,需根据正文文本的各段落中各句子所属的技术领域判定各所述段落所属的技术领域。
进一步地,所述领域判定单元将所述正文文本划分为若干段落,并逐个判定各所述段落所属的技术领域,其中,
所述领域判定单元确定段落中各句子所属的技术领域,计算所述段落中属于各技术领域的句子数量,并确定句子数量最多的技术领域,将所述技术领域确定为所述段落的技术领域。
进一步地,所述领域判定单元将所述段落划分为若干句子,以确定段落中各句子所属的技术领域,其中,
所述领域判定单元调用所述关键词识别单元确定所述段落的句子中各名词所属的技术领域,
当所述句子中已确定技术领域的名词均属于同一技术领域时,所述领域判定单元判定所述句子属于所述技术领域;
当所述句子中全部名词均无法确定技术领域,所述领域判定单元判定所述句子无法确定技术领域;
当所述句子中的各已确定技术领域的名词属于多个技术领域,则所述领域判定单元将所述句子标记,并判定需对所述句子所属的技术领域进行补充判定。
进一步地,所述领域判定单元对所述句子所属的技术领域进行补充判定,其中,
所述领域判定单元确定所述句子中各技术领域的名词数量,并确定名词数量最多的技术领域,并按照公式(1)计算所述句子对应的领域占比参量E,
Figure 100002_DEST_PATH_IMAGE002
公式(1)中,N表示属于所述技术领域的名词数量,N0表示所述句子中的已确定技术领域的名词的数量;
所述领域判定单元将所述领域占比参量E与预设领域对比参量E0进行对比,根据对比结果判定所述句子所属的技术领域,其中,
当E≥E0时,所述领域判定单元判定所述句子所属的技术领域为所述名词数量最多的技术领域;
当E<E0时,所述领域判定单元确定所述句子所属的段落,确定所述段落所属的技术领域,并判定所述句子所属的技术领域与所述段落所属的技术领域相同。
进一步地,所述领域判定单元确定所述正文文本中同时属于多个技术领域的名词,并将各所述名词标记为多技术领域名词,根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性,其中,
若多技术领域名词所属的句子已被标记,则所述领域判定单元确定所述句子所属的技术领域,并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词,并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性;
若多技术领域名词所属的句子未被标记,则所述领域判定单元确定所述多技术领域名词所属的段落的技术领域,并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词,并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性。
进一步地,所述领域判定单元在技术领域数据库中检索与多技术领域名词相同的关键词时,若所述技术领域数据库中不存在与所述多技术领域名词相同的关键词,则记录所述多技术领域名词所属的句子,并发送至文本校对单元,所述文本校对单元不对被记录的句子进行文本校对。
进一步地,所述数据处理模块内还设置有文本校对单元,以对正文文本进行文本校对,进行所述文本校对时,包括进行语义校对,其中,
将正文文本中的句子划分为若干部分,确定各所述部分的词性以及各所述部分的语义成分,判定各所述部分的词性与各所述部分的语义成分是否预设符合语义搭配逻辑,所述语义成分包括主语、谓语、宾语、定语、状语、补语。
进一步地,所述文本校对单元判定句子不符合语义搭配逻辑时,将所述句子在文本中标注。
与现有技术相比,本发明设置数据接收模块、数据存储模块以及数据处理模块,通过将标题文本中的所有名词与各技术领域对应的专业名词进行对比确定标题文本所属的技术领域,并判定对正文文本各段落所属的技术领域的判定方式,包括将正文文本划分为若干段落,并逐个判定各所述段落所属的技术领域,其中,根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域,并且,确定所述正文文本中的多技术领域名词,根据多技术领域名词所属句子或段落的技术领域确定各多技术领域名词的词义以及词性,并以此为基础进行语义分析,确定词义以及词性与语义成分是否符合语义搭配逻辑,能够识别句子中多技术领域词汇在不同技术领域应用时造成的歧义,避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判,进而提高文本校对的准确性和可靠性。
尤其,本发明通过将标题文本中的所有名词与各技术领域对应的若干专业名词进行对比确定标题文本所属的技术领域,在实际情况中标题文本包含技术领域专业关键词时常常能体现出正文文本的技术领域,对于可直接确定标题文本技术领域的文本信息,其正文文本通过标题文本的技术领域进行确定,在保证可靠性的前提下减少数据运算量,提高文本校对的准确性和可靠性。
尤其,本发明将不能通过标题文本确定文本所属的技术领域的正文文本拆分为单个句子,将单个句子拆分为若干名词,若单个句子中全部名词均属于同一技术领域,说明该句子与此技术领域具有很大的关联关系,则领域判定单元确定该句子所属的技术领域为此技术领域,若单个句子中全部正文词汇均不属于任一技术领域,则说明该句子与全部技术领域均具有很小的关联关系,则无法确定该句子所属的技术领域,通过将单个句子拆分成若干正文词汇,将若干正文词汇与技术领域数据库中的关键词进行对比的方式确定句子所属的技术领域,保证了技术领域判定的精确度,保证了词义以及词性分析的效果。
尤其,本发明对单个句子中全部正文词汇不属于同一技术领域的句子进行补充判定,通过计算各技术领域对应的名词的数量,把句子与技术领域之间的关联关系用数字的形式量化,简单可靠的确定句子与技术领域之间的对应关系,进一步保证技术领域判定的精确度。
尤其,所述领域判定单元确定正文文本中同时属于多个技术领域的名词,并将各名词标记为多技术领域名词,根据各多技术领域名词所属句子或段落的技术领域确定技术领域名词的词义以及词性并以此为基准后续进行语义分析,并且,对于属于多技术领域的名词,确定其在正文文本中对应的技术领域,避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判,进而能够提高文本校对的准确性和可靠性。
附图说明
图1为发明实施例的文本数字化自动校对系统结构示意图;
图2为发明实施例的文本数字化自动校对系统的数据处理模块结构简图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1以及图2所示,其为本发明实施例的文本数字化自动校对系统结构示意图以及数据处理模块结构简图,本发明的文本数字化自动校对系统包括:
数据接收模块,用以接收各用户端发出的文本信息,所述文本信息包括标题文本以及正文文本;
数据存储模块,其包括若干技术领域数据库,各所述技术领域数据库内存储有对应技术领域的若干关键词以及各关键词在对应技术领域的词义以及词性;
数据处理模块,其包括关键词识别单元、领域判定单元以及文本校对单元,所述关键词识别单元与所述数据接收模块以及数据存储模块分别连接,用以将文本信息中的名词逐个与各所述技术领域数据库中的关键词进行对比,并根据对比结果确定各名词所属的技术领域;
所述领域判定单元与所述数据接收模块以及数据存储模块分别连接,用以判定标题文本所属的技术领域,并根据判定结果确定对正文文本各段落所属的技术领域的判定方式,并根据对应判定方式判定正文文本各段落所属的技术领域;
所述领域判定单元判定正文文本各段落所属的技术领域时包括,将所述正文文本划分为若干段落,并逐个判定各所述段落所属的技术领域,其中,根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域;
且,所述领域判定单元将各段落划分为若干句子,根据各所述句子中各技术领域的名词的数量判定各句子所属的技术领域以及是否对所述句子所属的技术领域进行补充判定;
所述关键词识别单元用以确定所述正文文本中同时属于多个技术领域的名词,并将各所述名词标记为多技术领域名词,根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性;
所述文本校对单元用以对正文文本进行语义校对,以确定所述正文文本中各句子的词性以及语义成分是否满足语义搭配逻辑。
具体而言,所述关键词识别单元提取所述标题文本中的所有名词,将各所述名词逐个与各所述技术领域数据库中的关键词进行对比,并根据对比结果确定所述标题文本中的名词所属的技术领域,其中,
当名词与技术领域数据库中的关键词相同时,所述关键词识别单元确定所述技术领域数据库对应的技术领域,并判定所述名词属于所述技术领域。
具体而言,所述领域判定单元判定所述标题文本中的所有名词是否属于相同的技术领域,并根据判定结果确定所述标题文本所属的技术领域,其中,
当所述标题文本中的所有名词属于相同的技术领域时,所述领域判定单元判定所述标题文本属于所述技术领域,并判定正文文本的各段落属于所述技术领域;
当所述标题文本中的所有名词不属于相同的技术领域时,所述领域判定单元判定无法确定所述标题文本所属的技术领域,需根据正文文本的各段落中各句子所属的技术领域判定各所述段落所属的技术领域。
具体而言,本发明通过将标题文本中的所有名词与各技术领域对应的若干专业名词进行对比确定标题文本所属的技术领域,在实际情况中标题文本包含技术领域专业关键词时常常能体现出正文文本的技术领域,对于可直接确定标题文本技术领域的文本信息,其正文文本通过标题文本的技术领域进行确定,在保证可靠性的前提下减少数据运算量,提高文本校对的准确性和可靠性。
具体而言,所述领域判定单元将所述正文文本划分为若干段落,并逐个判定各所述段落所属的技术领域,其中,
所述领域判定单元确定段落中各句子所属的技术领域,计算所述段落中属于各技术领域的句子数量,并确定句子数量最多的技术领域,将所述技术领域确定为所述段落的技术领域。
具体而言,所述领域判定单元将所述段落划分为若干句子,以确定段落中各句子所属的技术领域,其中,
所述领域判定单元调用所述关键词识别单元确定所述段落的句子中各名词所属的技术领域,
当所述句子中已确定技术领域的名词均属于同一技术领域时,所述领域判定单元判定所述句子属于所述技术领域;
当所述句子中全部名词均无法确定技术领域,所述领域判定单元判定所述句子无法确定技术领域;
当所述句子中的各已确定技术领域的名词属于多个技术领域,则所述领域判定单元将所述句子标记,并判定需对所述句子所属的技术领域进行补充判定。
具体而言,本发明将不能通过标题文本确定文本所属的技术领域的正文文本拆分为单个句子,将单个句子拆分为若干名词,若单个句子中全部名词均属于同一技术领域,说明该句子与此技术领域具有很大的关联关系,则领域判定单元确定该句子所属的技术领域为此技术领域,若单个句子中全部正文词汇均不属于任一技术领域,则说明该句子与全部技术领域均具有很小的关联关系,则无法确定该句子所属的技术领域,通过将单个句子拆分成若干正文词汇,将若干正文词汇与技术领域数据库中的关键词进行对比的方式确定句子所属的技术领域,保证了技术领域判定的精确度,保证了词义以及词性分析的效果。
具体而言,所述领域判定单元对所述句子所属的技术领域进行补充判定,其中,
所述领域判定单元确定所述句子中各技术领域的名词数量,并确定名词数量最多的技术领域,并按照公式(1)计算所述句子对应的领域占比参量E,
Figure DEST_PATH_IMAGE002A
公式(1)中,N表示属于所述技术领域的名词数量,N0表示所述句子中的已确定技术领域的名词的数量;
所述领域判定单元将所述领域占比参量E与预设领域对比参量E0进行对比,根据对比结果判定所述句子所属的技术领域,其中,0.5≤E0≤0.8,
当E≥E0时,所述领域判定单元判定所述句子所属的技术领域为所述名词数量最多的技术领域;
当E<E0时,所述领域判定单元确定所述句子所属的段落,确定所述段落所属的技术领域,并判定所述句子所属的技术领域与所述段落所属的技术领域相同。
具体而言,本发明对单个句子中全部正文词汇不属于同一技术领域的句子进行补充判定,通过计算各技术领域对应的名词的数量,把句子与技术领域之间的关联关系用数字的形式量化,简单可靠的确定句子与技术领域之间的对应关系,进一步保证技术领域判定的精确度。
具体而言,所述领域判定单元确定所述正文文本中同时属于多个技术领域的名词,并将各所述名词标记为多技术领域名词,根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性,其中,
若多技术领域名词所属的句子已被标记,则所述领域判定单元确定所述句子所属的技术领域,并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词,并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性;
若多技术领域名词所属的句子未被标记,则所述领域判定单元确定所述多技术领域名词所属的段落的技术领域,并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词,并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性。
具体而言,所述领域判定单元确定正文文本中同时属于多个技术领域的名词,并将各名词标记为多技术领域名词,根据各多技术领域名词所属句子或段落的技术领域确定技术领域名词的词义以及词性并以此为基准后续进行语义分析,并且,对于属于多技术领域的名词,确定其在正文文本中对应的技术领域,避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判,进而能够提高文本校对的准确性和可靠性。
具体而言,所述领域判定单元在技术领域数据库中检索与多技术领域名词相同的关键词时,若所述技术领域数据库中不存在与所述多技术领域名词相同的关键词,则记录所述多技术领域名词所属的句子,并发送至文本校对单元,所述文本校对单元不对被记录的句子进行文本校对。
具体而言,所述数据处理模块内还设置有文本校对单元,以对正文文本进行文本校对,进行所述文本校对时,包括进行语义校对,其中,
将正文文本中的句子划分为若干部分,确定各所述部分的词性以及各所述部分的语义成分,判定各所述部分的词性与各所述部分的语义成分是否预设符合语义搭配逻辑,所述语义成分包括主语、谓语、宾语、定语、状语、补语。
具体而言,所述文本校对单元判定句子不符合语义搭配逻辑时,将所述句子在文本中标注。
具体而言,所述文本校对单元进行语义校对时,可以通过预设模型算法进行语义校对,根据句子成分判定是否符合语义搭配逻辑,其为成熟现有技术,此处不再赘述,文本校对单元也可以预设一个数据库,其内储存有若干语义搭配的逻辑,确定句子各部分的语义成分后与语义搭配的逻辑进行对比,判定是否符合语义搭配的逻辑,其同样为现有技术,此处不再赘述,本发明的主要点在于判定文本的技术领域,并确定一些在多技术领域中均存在且具有不同词性以及词义的名词在所述文本中对应的词性以及词义。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种文本数字化自动校对系统,其特征在于,包括:
数据接收模块,用以接收各用户端发出的文本信息,所述文本信息包括标题文本以及正文文本;
数据存储模块,其包括若干技术领域数据库,各所述技术领域数据库内存储有对应技术领域的若干关键词以及各关键词在对应技术领域的词义以及词性;
数据处理模块,其包括关键词识别单元、领域判定单元以及文本校对单元,所述关键词识别单元用以将文本信息中的名词逐个与各所述技术领域数据库中的关键词进行对比,根据对比结果确定各名词所属的技术领域;
所述领域判定单元用以判定标题文本所属的技术领域以及正文文本各段落所属的技术领域,判定正文文本各段落所属的技术领域时包括,将所述正文文本划分为若干段落,并根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域;
且,所述领域判定单元根据段落的各句子中各技术领域的名词的数量判定各句子所属的技术领域以及是否对各句子所属的技术领域进行补充判定;
所述关键词识别单元还用以标记正文文本中的多技术领域名词,根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性;
所述文本校对单元用以对正文文本语义校对,确定所述正文文本中各句子的词性以及语义成分是否满足语义搭配逻辑。
2.根据权利要求1所述的文本数字化自动校对系统,其特征在于,所述关键词识别单元提取所述标题文本中的所有名词,将各所述名词逐个与各所述技术领域数据库中的关键词进行对比,并根据对比结果确定所述标题文本中的名词所属的技术领域,其中,
当名词与技术领域数据库中的关键词相同时,所述关键词识别单元确定所述技术领域数据库对应的技术领域,并判定所述名词属于所述技术领域。
3.根据权利要求2所述的文本数字化自动校对系统,其特征在于,所述领域判定单元判定所述标题文本中的所有名词是否属于相同的技术领域,并根据判定结果确定所述标题文本所属的技术领域,其中,
当所述标题文本中的所有名词属于相同的技术领域时,所述领域判定单元判定所述标题文本属于所述技术领域,并判定正文文本的各段落属于所述技术领域;
当所述标题文本中的所有名词不属于相同的技术领域时,所述领域判定单元判定无法确定所述标题文本所属的技术领域,需根据正文文本的各段落中各句子所属的技术领域判定各所述段落所属的技术领域。
4.根据权利要求3所述的文本数字化自动校对系统,其特征在于,所述领域判定单元将所述正文文本划分为若干段落,并逐个判定各所述段落所属的技术领域,其中,
所述领域判定单元确定段落中各句子所属的技术领域,计算所述段落中属于各技术领域的句子数量,并确定句子数量最多的技术领域,将所述技术领域确定为所述段落的技术领域。
5.根据权利要求4所述的文本数字化自动校对系统,其特征在于,所述领域判定单元将所述段落划分为若干句子,以确定段落中各句子所属的技术领域,其中,
所述领域判定单元调用所述关键词识别单元确定所述段落的句子中各名词所属的技术领域,
当所述句子中已确定技术领域的名词均属于同一技术领域时,所述领域判定单元判定所述句子属于所述技术领域;
当所述句子中全部名词均无法确定技术领域,所述领域判定单元判定所述句子无法确定技术领域;
当所述句子中的各已确定技术领域的名词属于多个技术领域,则所述领域判定单元将所述句子标记,并判定需对所述句子所属的技术领域进行补充判定。
6.根据权利要求5所述的文本数字化自动校对系统,其特征在于,所述领域判定单元对所述句子所属的技术领域进行补充判定,其中,
所述领域判定单元确定所述句子中各技术领域的名词数量,并确定名词数量最多的技术领域,并按照公式(1)计算所述句子对应的领域占比参量E,
Figure DEST_PATH_IMAGE002
公式(1)中,N表示属于所述技术领域的名词数量,N0表示所述句子中的已确定技术领域的名词的数量;
所述领域判定单元将所述领域占比参量E与预设领域对比参量E0进行对比,根据对比结果判定所述句子所属的技术领域,其中,
当E≥E0时,所述领域判定单元判定所述句子所属的技术领域为所述名词数量最多的技术领域;
当E<E0时,所述领域判定单元确定所述句子所属的段落,确定所述段落所属的技术领域,并判定所述句子所属的技术领域与所述段落所属的技术领域相同。
7.根据权利要求6所述的文本数字化自动校对系统,其特征在于,所述领域判定单元确定所述正文文本中同时属于多个技术领域的名词,并将各所述名词标记为多技术领域名词,根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性,其中,
若多技术领域名词所属的句子已被标记,则所述领域判定单元确定所述句子所属的技术领域,并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词,并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性;
若多技术领域名词所属的句子未被标记,则所述领域判定单元确定所述多技术领域名词所属的段落的技术领域,并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词,并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性。
8.根据权利要求7所述的文本数字化自动校对系统,其特征在于,所述领域判定单元在技术领域数据库中检索与多技术领域名词相同的关键词时,若所述技术领域数据库中不存在与所述多技术领域名词相同的关键词,则记录所述多技术领域名词所属的句子,并发送至文本校对单元,所述文本校对单元不对被记录的句子进行文本校对。
9.根据权利要求1所述的文本数字化自动校对系统,其特征在于,所述数据处理模块内还设置有文本校对单元,以对正文文本进行文本校对,进行所述文本校对时,包括进行语义校对,其中,
将正文文本中的句子划分为若干部分,确定各所述部分的词性以及各所述部分的语义成分,判定各所述部分的词性与各所述部分的语义成分是否预设符合语义搭配逻辑,所述语义成分包括主语、谓语、宾语、定语、状语、补语。
10.根据权利要求1所述的文本数字化自动校对系统,其特征在于,所述文本校对单元判定句子不符合语义搭配逻辑时,将所述句子在文本中标注。
CN202211465526.8A 2022-11-22 2022-11-22 一种文本数字化自动校对系统 Active CN115618852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211465526.8A CN115618852B (zh) 2022-11-22 2022-11-22 一种文本数字化自动校对系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211465526.8A CN115618852B (zh) 2022-11-22 2022-11-22 一种文本数字化自动校对系统

Publications (2)

Publication Number Publication Date
CN115618852A true CN115618852A (zh) 2023-01-17
CN115618852B CN115618852B (zh) 2023-04-07

Family

ID=84877974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211465526.8A Active CN115618852B (zh) 2022-11-22 2022-11-22 一种文本数字化自动校对系统

Country Status (1)

Country Link
CN (1) CN115618852B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2390784A1 (en) * 2001-06-15 2002-12-15 Sakhr Software Company A method and system for theme-based word sense ambiguity reduction
WO2003027894A1 (en) * 2001-09-26 2003-04-03 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
DE102010046439A1 (de) * 2010-09-24 2012-03-29 Belingoo Media Group S. A. System und Verfahren für relevanzbasiertes Kategorisieren und zeitnahes Lernen von Vokabeln
US20120124467A1 (en) * 2010-11-15 2012-05-17 Xerox Corporation Method for automatically generating descriptive headings for a text element
CN102789452A (zh) * 2011-05-16 2012-11-21 株式会社日立制作所 类似内容提取方法
US20150033116A1 (en) * 2013-07-26 2015-01-29 Metrodigi, Inc. Systems, Methods, and Media for Generating Structured Documents
US20160042058A1 (en) * 2014-08-08 2016-02-11 Cuong Duc Nguyen Processing Natural-Language Documents and Queries
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN109635278A (zh) * 2018-11-20 2019-04-16 北京小谛机器人科技有限公司 语义表示方法及装置
CN110674252A (zh) * 2019-08-26 2020-01-10 银江股份有限公司 一种面向司法领域的高精度语义搜索系统
JP2021064143A (ja) * 2019-10-11 2021-04-22 株式会社Legalscape 文作成装置、文作成方法および文作成プログラム
CN112818785A (zh) * 2021-01-22 2021-05-18 国家气象信息中心(中国气象局气象数据中心) 一种气象纸质表格文档的快速数字化方法及系统
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
WO2021164255A1 (zh) * 2020-07-28 2021-08-26 平安科技(深圳)有限公司 一种演示文稿生成方法、装置、计算机设备及存储介质
CN113553859A (zh) * 2021-08-18 2021-10-26 湖南环境生物职业技术学院 一种基于深度语义分析的英语写作评价系统
CN113918685A (zh) * 2021-12-13 2022-01-11 中电云数智科技有限公司 关键词提取方法及装置
CN115034200A (zh) * 2021-03-04 2022-09-09 广东博智林机器人有限公司 图纸信息提取方法、装置、电子设备及存储介质

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2390784A1 (en) * 2001-06-15 2002-12-15 Sakhr Software Company A method and system for theme-based word sense ambiguity reduction
WO2003027894A1 (en) * 2001-09-26 2003-04-03 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
DE102010046439A1 (de) * 2010-09-24 2012-03-29 Belingoo Media Group S. A. System und Verfahren für relevanzbasiertes Kategorisieren und zeitnahes Lernen von Vokabeln
US20120124467A1 (en) * 2010-11-15 2012-05-17 Xerox Corporation Method for automatically generating descriptive headings for a text element
CN102789452A (zh) * 2011-05-16 2012-11-21 株式会社日立制作所 类似内容提取方法
US20150033116A1 (en) * 2013-07-26 2015-01-29 Metrodigi, Inc. Systems, Methods, and Media for Generating Structured Documents
US20160042058A1 (en) * 2014-08-08 2016-02-11 Cuong Duc Nguyen Processing Natural-Language Documents and Queries
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109635278A (zh) * 2018-11-20 2019-04-16 北京小谛机器人科技有限公司 语义表示方法及装置
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN110674252A (zh) * 2019-08-26 2020-01-10 银江股份有限公司 一种面向司法领域的高精度语义搜索系统
JP2021064143A (ja) * 2019-10-11 2021-04-22 株式会社Legalscape 文作成装置、文作成方法および文作成プログラム
WO2021164255A1 (zh) * 2020-07-28 2021-08-26 平安科技(深圳)有限公司 一种演示文稿生成方法、装置、计算机设备及存储介质
CN112818785A (zh) * 2021-01-22 2021-05-18 国家气象信息中心(中国气象局气象数据中心) 一种气象纸质表格文档的快速数字化方法及系统
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统
CN115034200A (zh) * 2021-03-04 2022-09-09 广东博智林机器人有限公司 图纸信息提取方法、装置、电子设备及存储介质
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN113553859A (zh) * 2021-08-18 2021-10-26 湖南环境生物职业技术学院 一种基于深度语义分析的英语写作评价系统
CN113918685A (zh) * 2021-12-13 2022-01-11 中电云数智科技有限公司 关键词提取方法及装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
SUSETYO BAGAS BHASKORO等: "Extracting important sentences for public health surveillance information from Indonesian medical articles" *
代君;李佶壕;秦岩;王文欣;: "基于综述型文献的跨学科领域信息源地图绘制" *
刘利;: "基于词性合并的浅层句法分析方法研究" *
刘海涛;老松杨;韩智广;: "自动文摘系统中的段落自适应聚类研究" *
缪建明;张全;赵金仿;: "基于文章标题信息的汉语自动文本分类" *
郑逢斌,夏保胜,姜保庆,乔保军: "特定领域中语义校对系统的开发" *
阮光册;夏磊;: "基于共现分析的文本主题词聚类研究" *

Also Published As

Publication number Publication date
CN115618852B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111460787B (zh) 一种话题提取方法、装置、终端设备及存储介质
CN103136352B (zh) 基于双层语义分析的全文检索系统
US8712758B2 (en) Coreference resolution in an ambiguity-sensitive natural language processing system
US7970600B2 (en) Using a first natural language parser to train a second parser
KR101522049B1 (ko) 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN108922633A (zh) 一种疾病名称标准化规范方法及规范系统
CN111061882A (zh) 一种知识图谱构建方法
JPH05242138A (ja) 単語ディスアンビギュエーション装置及び方法
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及系统
Yerra et al. A sentence-based copy detection approach for web documents
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
CN111079384B (zh) 一种用于智能质检服务禁语的识别方法及系统
CN111985244A (zh) 一种针对文档内容的洗稿检测方法及装置
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN113159969A (zh) 一种金融长文本复核系统
CN115618852B (zh) 一种文本数字化自动校对系统
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
CN114970554B (zh) 一种基于自然语言处理的文档校验方法
CN113609864B (zh) 一种基于工业控制系统的文本语义识别处理系统及方法
CN106844329A (zh) 一种基于邮件列表的开源软件问答信息抽取方法
Okada et al. Bibliographic component extraction using support vector machines and hidden Markov models
Reshadat et al. Confidence measure estimation for open information extraction
Schneider et al. Using semantic resources to improve a syntactic dependency parser

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant