CN109918640A - 一种基于知识图谱的中文文本校对方法 - Google Patents

一种基于知识图谱的中文文本校对方法 Download PDF

Info

Publication number
CN109918640A
CN109918640A CN201811576338.6A CN201811576338A CN109918640A CN 109918640 A CN109918640 A CN 109918640A CN 201811576338 A CN201811576338 A CN 201811576338A CN 109918640 A CN109918640 A CN 109918640A
Authority
CN
China
Prior art keywords
entity
text
sentence
relationship
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811576338.6A
Other languages
English (en)
Other versions
CN109918640B (zh
Inventor
董黎刚
邵红
蒋献
汤柳君
吴梦莹
索同鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201811576338.6A priority Critical patent/CN109918640B/zh
Publication of CN109918640A publication Critical patent/CN109918640A/zh
Application granted granted Critical
Publication of CN109918640B publication Critical patent/CN109918640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于知识图谱的中文文本校对方法。首先利用实体抽取技术抽取得到文本语句中的实体,然后根据实体与基于关系规则的匹配结果,在知识图谱中搜索并发现句法语义错误类型。本发明不仅能避免对大规模词库的依赖,而且实现了从错别字、成分缺失与定义矛盾这三个方面对文本进行语义校对。通过与现有的中文自动校对系统进行对比发现,该校对方法在限定领域中对各种语义错误的校对都有较高的查全率。本方法可以有效地提高文本校对的准确率与查全率,有助于文字工作者改进文本质量。

Description

一种基于知识图谱的中文文本校对方法
技术领域
本发明涉及文本校对领域,一种基于知识图谱的中文文本校对方法。
背景技术
计算机的广泛应用催生出了中文文本自动校对工具,从而替代了费时费力的传统人工校对,最常见的就是Office自带的中文自动校对工具Office Proofing Tools,其他广泛使用的校对工具有校对助手、小红笔、黑马校对系统等。但是现有的校对工具只能基于大规模词库实现词语的校对,很难做到句法语义校对,并且这些校对工具都是收费软件,用户需要支付较昂贵的费用才能使用。
现有的文本自动校对技术主要有基于上下文的局部语言特征、基于规则、基于统计的校对方法。微软中国研究院首先利用Winnow方法来学习文本中与词相关的局部语言特征与长距离语言特征,然后根据上下文特征对目标词混淆集中的单词进行选择。这种基于多特征的校对方法的难点在于特征的提取和混淆集的构建。哈尔滨工业大学基于待校对语句中所有字词的候选词来得到相应语句的字词候选矩阵。根据语句的统计特征与结构特征,从候选矩阵中选择最佳字词序列并与原句对比来发现错别字。该方法的难点在于字词候选矩阵的构建。虽然基于局部特征的校对方法其准确率较高,但是算法复杂度高,在实际应用中受到限制。
北京师范大学利用校正文法规则对文本进行校对,当语句满足该规则时,只需根据规则将对应的字词标错,但是该校对方法的纠错能力有限。哈尔滨工业大学利用短语规则将单字与分词后的散串组合形成短语,然后逐步将正确的字符串捆扎并将剩余的单字符标为错误。该方法的局限在于无法检测出多字符串的替换型错误,且其构造的短语规则覆盖的范围较窄。吴岩等利用逆向最大匹配法和局部语料统计算法来获取文本中的散串,然后通过对其进行词匹配以及语法分析来得到候选错误串,最后利用交互的方法对错误串纠正。该校对方法实现简单,只需根据既定规则进行校对,但是由于无法穷举所有规则,导致校对准确率受到规则的影响。
申茂邦和马金山均提出利用字的N-gram模型和依存句法分析得到语句的结构化信息后,实现文本的错别字校对。段良涛等提出基于词的语言模型和基于语料库的n-gram查错策略来实现中文文本的自动校对。Sun等提出“散串捆扎”的方法,利用N-gram语言模型对文本进行校对与纠错。在限定领域中,该校对方法具有较高的查错率,但仍受到训练语料的规模与语料领域类型的影响。
现有的中文自动校对系统都是基于大规模词库,通过将语句与词库中的词汇进行匹配来发现错误。若词库不及时更新将会影响校对效果,而且由于对词库的过度依赖,往往只能对文本的词语错误进行校对,无法识别语句中的句法语义错误,比如语句的成分残缺、语句间的定义矛盾。因此针对该现状,本发明提出了一种基于知识图谱的中文文本校对方法。
发明内容
为了更好地改进句法语义校对,本发明提供了一种基于知识图谱的中文文本校对方法,其成本较低且易于维护,避免了对大规模词库的依赖,所提供的查全率可以得到保证,有助于提高具体领域的文本质量。
一种基于知识图谱的中文文本校对方法,包括如下步骤:
1)用实体抽取技术逐句获取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;
2)将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句中不同实体间的实体关系;
3)若在待校对文本的不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子;
4)将得到的实体对和实体关系与知识图谱中的三元组进行匹配;
5)若从待校对文本语句中获得的是单个实体和实体关系,在实体关系匹配成功的情况下,若该实体匹配到的是三元组中的实体1,则提示该语句可能缺少宾语,返回三元组中的实体2,否则提示该语句可能缺少主语,返回三元组中的实体1;
6)若实体在知识图谱的三元组中匹配不到相同实体,但能匹配到与其一半以上字数相同的实体,则提示该实体单词中可能有错别字,返回与其相同字数最多的实体作为纠错词,否则提示无法判断。
所述的步骤1)中,实体是指现实世界中的事物,实体对是指在同一语句中有关系的两个实体。
所述的步骤2)中,训练好的实体关系识别模型中采用了HowNet中定义的16种实体关系,并增加了如下5种实体关系:
1)表示关系:说明一个实体可以用另一个实体来表示;
2)因果关系:两个实体的作用关系,其中后一实体为前一实体的客观结果;
3)解释关系:某实体是对另一实体的内容解释;
4)互斥关系:两个实体不共存;
5)条件关系:某实体是条件,而另一实体是该条件下的结果。
所述的步骤4)中,所用知识图谱的构建步骤如下:
1)搜集待校对文本的参考文本,用实体抽取技术获取参考文本中的实体,
2)用实体关系识别技术获得实体间的语义关系,从而得到(实体1-实体关系-实体2)
这样的三元组。
该发明具有如下有益效果:
现有的中文自动校对系统都是基于大规模词库,通过将语句与词库中的词汇进行匹配来发现文本中的词语错误,对词库过于依赖,而且忽略了句法语义的错误。针对这种不足,本发明提出了一种基于知识图谱的中文文本校对方法,不仅能避免对大规模词库的依赖,而且实现了从错别字、成分缺失与定义矛盾这三个方面对文本进行语义校对。首先利用实体抽取技术抽取得到文本语句中的实体,然后根据实体与基于关系规则的匹配结果,在知识图谱中搜索并发现句法语义错误类型。通过与现有的中文自动校对系统进行对比发现,该校对方法在限定领域中对各种语义错误的校对都有较高的查全率。本方法可以有效地提高文本校对的准确率与查全率,有助于文字工作者改进文本质量。
附图说明
图1是构建的知识图谱的部分内容;
图2是从待校对文本中识别的实体对和实体关系;
图3是文本校对结果。
具体实施方法
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
一种基于知识图谱的中文文本校对方法,包括如下步骤:
1)用实体抽取技术逐句获取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;
2)将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句中不同实体间的实体关系;
3)若在待校对文本的不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子;
4)将得到的实体对和实体关系与知识图谱中的三元组进行匹配;
5)若从待校对文本语句中获得的是单个实体和实体关系,在实体关系匹配成功的情况下,若该实体匹配到的是三元组中的实体1,则提示该语句可能缺少宾语,返回三元组中的实体2,否则提示该语句可能缺少主语,返回三元组中的实体1;
6)若实体在知识图谱的三元组中匹配不到相同实体,但能匹配到与其一半以上字数相同的实体,则提示该实体单词中可能有错别字,返回与其相同字数最多的实体作为纠错词,否则提示无法判断。
步骤1)中,实体是指现实世界中的事物,实体对是指在同一语句中有关系的两个实体。
步骤2)中,训练好的实体关系识别模型中采用了HowNet中定义的16种实体关系,并增加了如下5种实体关系:
1)表示关系:说明一个实体可以用另一个实体来表示;
2)因果关系:两个实体的作用关系,其中后一实体为前一实体的客观结果;
3)解释关系:某实体是对另一实体的内容解释;
4)互斥关系:两个实体不共存;
5)条件关系:某实体是条件,而另一实体是该条件下的结果。
步骤4)中,所用知识图谱的构建步骤如下:
1)搜集待校对文本的参考文本,用实体抽取技术获取参考文本中的实体,
2)用实体关系识别技术获得实体间的语义关系,从而得到(实体1-实体关系-实体2)
这样的三元组。
实施例
为了便于本领域一般技术人员理解和实现本发明,现给出一种本发明所述方法的具体实施案例。提供中文文本校对的核心思想是利用知识图谱将待校对文本与参考文本进行对比,来搜索待校对文本中的句法语义错误,从而为中文文本校对提供一个具体的实现方案。
以构建大学数据结构教材的文本校对为主,下面用一个案例来描述本实施例。
案例的数据分别来源于维基百科以及某高校数据结构课程的教材,其中维基百科语料取自网站:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。
由于维基百科语料中所有文件都是网页,因此首先需要抽取所有网页中 “<content></content>”标签里的正文内容并将其合并为训练语料。训练语料中的中文数据包含繁体与简体字,因此需要采用Opencc工具(https://pypi.org/project/opencc-python/)对训练语料进行繁简转换。然后用Bi-LSTM(Bi-directional Long Short-TermMemory,双向长短期记忆网络)和CRF(Conditional Random Field,条件随机场)(https://github.com/crownpku/Information-Extraction-Chinese/blob/master/NER_IDCNN_CRF/main.py)对待校对文本和参考文本进行实体抽取,再用Bi-GRU(Gated Recurrent Unit,双向门控单元)和AM(Attention Mechanism,注意力机制)(https://github.com/crownpku/Information-Extraction-Chinese/tree/master/RE_BGRU_2ATT)获取参考文本中的实体关系,得到知识图谱,部分知识图谱内容如图1所示。
待校对文本如下:
四大物理结构包括顺序结构、链式结构、索引结构和散列结构。物埋结构:逻揖结构的存储方式。冒泡排序是稳定的。经过判断,采用了散列存储方法。链表采用了链式存储结构。线性结构是指结构中的数据元素之间存在着一对多的线性关系。线性结构是指结构中的数据元素间存在着一对一的线性关系。字符串是多型数据类型。字符串不是多型数据类型。稀梳矩阵就是多数元素为0的矩阵。头指针:指向表头节点的指针。队列,线性结构的抽象数据类型。
用实体抽取技术逐句抽取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;然后将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句不同实体间的实体关系,若在不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子。本例中待校对文本的实体抽取和实体关系识别结果如图2所示。
将待校对文本中的实体对和实体关系与知识图谱中的三元组进行匹配。若从待校对文本语句中获得的是单个实体和实体关系,在实体关系匹配成功的情况下,若该实体匹配到的是三元组中的实体1,则提示该语句可能缺少宾语,返回三元组中的实体2,否则提示该语句可能缺少主语,返回三元组中的实体1;若实体在知识图谱的三元组中匹配不到相同实体,但能匹配到与其一半以上字数相同的实体,则提示该实体单词中可能有错别字,返回与其相同字数最多的实体作为纠错词,否则提示无法判断。本例中待校对文本的校对结果如图3所示。

Claims (4)

1.一种基于知识图谱的中文文本校对方法,其特征在于,包括如下步骤:
用实体抽取技术逐句获取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;
将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句中不同实体间的实体关系;
若在待校对文本的不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子;
将得到的实体对和实体关系与知识图谱中的三元组进行匹配;
若从待校对文本语句中获得的是单个实体和实体关系,在实体关系匹配成功的情况下,若该实体匹配到的是三元组中的实体1,则提示该语句可能缺少宾语,返回三元组中的实体2,否则提示该语句可能缺少主语,返回三元组中的实体1;
若实体在知识图谱的三元组中匹配不到相同实体,但能匹配到与其一半以上字数相同的实体,则提示该实体单词中可能有错别字,返回与其相同字数最多的实体作为纠错词,否则提示无法判断。
2.根据权利要求1所述的一种基于知识图谱的中文文本校对方法,其特征在于,所述的步骤1-1)中,实体是指现实世界中的事物,实体对是指在同一语句中有关系的两个实体。
3.根据权利要求1所述的一种基于知识图谱的中文文本校对方法,其特征在于,所述的步骤1-2)中,训练好的实体关系识别模型中采用了HowNet中定义的16种实体关系,并增加了如下5种实体关系:
表示关系:说明一个实体可以用另一个实体来表示;
因果关系:两个实体的作用关系,其中一个实体为另一实体的结果;
解释关系:某实体是对另一实体的内容解释;
互斥关系:两个实体不共存;
条件关系:某实体是条件,而另一实体是该条件下的结果。
4.根据权利要求1所述的一种基于知识图谱的中文文本校对方法,其特征在于,所述的步骤1-4)中,所用知识图谱的构建步骤如下:
搜集待校对文本的参考文本,用实体抽取技术获取参考文本中的实体;
用实体关系识别技术获得实体间的语义关系,从而得到实体1-实体关系-实体2这样的三元组。
CN201811576338.6A 2018-12-22 2018-12-22 一种基于知识图谱的中文文本校对方法 Active CN109918640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811576338.6A CN109918640B (zh) 2018-12-22 2018-12-22 一种基于知识图谱的中文文本校对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811576338.6A CN109918640B (zh) 2018-12-22 2018-12-22 一种基于知识图谱的中文文本校对方法

Publications (2)

Publication Number Publication Date
CN109918640A true CN109918640A (zh) 2019-06-21
CN109918640B CN109918640B (zh) 2023-05-02

Family

ID=66959926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811576338.6A Active CN109918640B (zh) 2018-12-22 2018-12-22 一种基于知识图谱的中文文本校对方法

Country Status (1)

Country Link
CN (1) CN109918640B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334268A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目热词生成方法以及装置
CN110597760A (zh) * 2019-09-18 2019-12-20 苏州派维斯信息科技有限公司 用于电子文档合规性判别的智能方法
CN110609909A (zh) * 2019-09-18 2019-12-24 苏州派维斯信息科技有限公司 用于电子文档判别勘误的智能方法
CN111522961A (zh) * 2020-04-09 2020-08-11 武汉理工大学 一种基于注意力机制及实体描述的产业图谱构建方法
CN111597908A (zh) * 2020-04-22 2020-08-28 深圳中兴网信科技有限公司 试卷批改方法和试卷批改装置
WO2021102632A1 (zh) * 2019-11-25 2021-06-03 京东方科技集团股份有限公司 字符获取、页面处理与知识图谱构建方法及装置、介质
CN112949687A (zh) * 2021-02-01 2021-06-11 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN113139387A (zh) * 2020-01-17 2021-07-20 华为技术有限公司 语义纠错方法、电子设备及存储介质
CN113538179A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能申请方法及系统
CN116502614A (zh) * 2023-06-26 2023-07-28 北京每日信动科技有限公司 一种数据校对方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001001289A1 (en) * 1999-06-30 2001-01-04 Invention Machine Corporation, Inc. Semantic processor and method with knowledge analysis of and extraction from natural language documents
CN108563637A (zh) * 2018-04-13 2018-09-21 北京理工大学 一种融合三元组知识库的句子实体补全方法
CN108681544A (zh) * 2018-03-07 2018-10-19 中山大学 一种基于图谱拓扑结构和实体文本描述的深度学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001001289A1 (en) * 1999-06-30 2001-01-04 Invention Machine Corporation, Inc. Semantic processor and method with knowledge analysis of and extraction from natural language documents
CN108681544A (zh) * 2018-03-07 2018-10-19 中山大学 一种基于图谱拓扑结构和实体文本描述的深度学习方法
CN108563637A (zh) * 2018-04-13 2018-09-21 北京理工大学 一种融合三元组知识库的句子实体补全方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王子涵等: "基于实体相似度信息的知识图谱补全算法", 《计算机应用》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334268B (zh) * 2019-07-05 2022-01-14 李晨 一种区块链项目热词生成方法以及装置
CN110334268A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目热词生成方法以及装置
CN110597760A (zh) * 2019-09-18 2019-12-20 苏州派维斯信息科技有限公司 用于电子文档合规性判别的智能方法
CN110609909A (zh) * 2019-09-18 2019-12-24 苏州派维斯信息科技有限公司 用于电子文档判别勘误的智能方法
WO2021102632A1 (zh) * 2019-11-25 2021-06-03 京东方科技集团股份有限公司 字符获取、页面处理与知识图谱构建方法及装置、介质
CN113139387A (zh) * 2020-01-17 2021-07-20 华为技术有限公司 语义纠错方法、电子设备及存储介质
WO2021143299A1 (zh) * 2020-01-17 2021-07-22 华为技术有限公司 语义纠错方法、电子设备及存储介质
CN111522961A (zh) * 2020-04-09 2020-08-11 武汉理工大学 一种基于注意力机制及实体描述的产业图谱构建方法
CN111522961B (zh) * 2020-04-09 2023-04-07 武汉理工大学 一种基于注意力机制及实体描述的产业图谱构建方法
CN111597908A (zh) * 2020-04-22 2020-08-28 深圳中兴网信科技有限公司 试卷批改方法和试卷批改装置
CN112949687A (zh) * 2021-02-01 2021-06-11 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN112949687B (zh) * 2021-02-01 2022-05-31 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN113538179A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能申请方法及系统
CN116502614A (zh) * 2023-06-26 2023-07-28 北京每日信动科技有限公司 一种数据校对方法、系统及存储介质
CN116502614B (zh) * 2023-06-26 2023-09-01 北京每日信动科技有限公司 一种数据校对方法、系统及存储介质

Also Published As

Publication number Publication date
CN109918640B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN109918640A (zh) 一种基于知识图谱的中文文本校对方法
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN109271626B (zh) 文本语义分析方法
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN108874774B (zh) 一种基于意图理解的服务调用方法和系统
CN105701253A (zh) 中文自然语言问句语义化的知识库自动问答方法
CN107193798A (zh) 一种基于规则的试题类自动问答系统中的试题理解方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110569332B (zh) 一种语句特征的提取处理方法及装置
Sun et al. Tableqa: a large-scale chinese text-to-sql dataset for table-aware sql generation
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN106528731A (zh) 一种敏感词过滤方法及系统
CN102214238A (zh) 一种汉语词语相近性匹配装置及方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114764566B (zh) 用于航空领域的知识元抽取方法
CN115687563A (zh) 一种可解释的智能判决方法、装置、电子设备及存储介质
Han et al. Chinese spelling check based on sequence labeling
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
Kate et al. Semantic parsing. The task, the state of the art and the future
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN115688785A (zh) 一种融合多源知识的航空装备型号命名实体识别方法
He et al. Application of Grammar Error Detection Method for English Composition Based on Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant