CN112069268A - 一种基于语义关联性的文本错误识别方法及系统 - Google Patents
一种基于语义关联性的文本错误识别方法及系统 Download PDFInfo
- Publication number
- CN112069268A CN112069268A CN202010820199.8A CN202010820199A CN112069268A CN 112069268 A CN112069268 A CN 112069268A CN 202010820199 A CN202010820199 A CN 202010820199A CN 112069268 A CN112069268 A CN 112069268A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- personnel
- judgment result
- personnel information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明涉及一种基于语义关联性的文本错误识别方法,包括:获取文本中的人员信息,为第一信息;根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息;判断所述第二信息与所述第一信息是否一致,获得判断结果;若所述判断结果为是,则所述文本正确;若所述判断结果为否,则所述文本错误。本发明将文本信息中的人员信息与预先建立的数据库中的预置人员信息进行对比,可以对公文文本中的人名前置后置称谓和人员排序进行校正。
Description
技术领域
本发明涉及文本错误识别技术领域,特别是涉及一种基于语义关联性的文本错误识别方法及系统。
背景技术
随着信息化时代的发展,人工智能技术的进步,中文文本自动校对技术取得了一定发展。目前的文本校对技术主要包括三种:一是根据预设数据库检查、校对文稿中的职务、名字信息;二是基于知识图谱的中文文本校对方法,从错别字、成分缺失与定义矛盾三个方面对文本进行语义校对;三是通过研究中文语义提取、中文语义查错和中文语义纠正相关关键技术,实现基于本体一致性验证推理的中文语义校对。
但是对于公文文本,由于公文文本具有特殊性,现有的文本校对技术对于公文校对还存在一定局限性。因此如何有效校对公文是否规范、正确,是一个亟需解决的问题。
发明内容
本发明的目的是提供一种基于语义关联性的文本错误识别方法及系统,以实现校正公文文本中人名的前置后置称谓和人员排序。
为实现上述目的,本发明提供了如下方案:
一种基于语义关联性的文本错误识别方法,包括
获取文本中的人员信息,为第一信息;
根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息;
判断所述第二信息与所述第一信息是否一致,获得判断结果;
若所述判断结果为是,则所述文本正确;
若所述判断结果为否,则所述文本错误。
可选的,所述第一信息包括人名、称谓信息和人员排序信息。
可选的,所述数据库中包含现有的人员人名信息、人员称谓信息和人员排序信息。
一种基于语义关联性的文本错误识别系统,包括
第一获取模块,用于获取文本中的人员信息,为第一信息;
第二获取模块,用于根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息;
判断模块,用于判断所述第二信息与所述第一信息是否一致,获得判断结果;
第一执行模块,用于当所述判断结果为是时,判定所述文本正确;
第二执行模块,用于当所述判断结果为否时,判定所述文本错误。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种基于语义关联性的文本错误识别方法,包括:获取文本中的人员信息,为第一信息;根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息;判断所述第二信息与所述第一信息是否一致,获得判断结果;若所述判断结果为是,则所述文本正确;若所述判断结果为否,则所述文本错误。本发明将文本信息中的人员信息与预先建立的数据库中的预置人员信息进行对比,可以对公文文本中的人名前置后置称谓和人员排序进行校正。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于语义关联性的文本错误识别方法流程图;
图2为本发明实施例提供的识别方法的过程图;
图3为本发明实施例提供的识别关键词的过程图;
图4为本发明实施例提供的一种基于语义关联性的文本错误识别系统的系统图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于语义关联性的文本错误识别方法及系统,以实现校正公文文本中人名的前置后置称谓和人员排序。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
图1为本发明实施例提供的一种基于语义关联性的文本错误识别方法流程图,如图1所示,方法包括:
步骤101:获取文本中的人员信息,为第一信息。所述第一信息包括人名、称谓信息和人员排序信息,所述数据库中包含现有的人员人名信息、人员称谓信息和人员排序信息。
步骤102:根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息。
步骤103:判断所述第二信息与所述第一信息是否一致,获得判断结果。
步骤104:结束。若所述判断结果为是,则所述文本正确;若所述判断结果为否,则所述文本错误。
实施例2
图2为本发明实施例提供的识别方法的过程图,如图2所示,识别方法包括:
获取包含人名信息、排位信息和职务信息的文本。
从预先建立的数据库中提取预置的人名和排位信息、人名和称谓信息。
形成待比较的人名排序序列以及待检验的人名称谓信息。
将待比较的人名排序序列以及待检验的人名称谓信息分别与获取的文本进行比对。
若比对无误,则文本正确。
若比对有误,则报错。
图3为本发明实施例提供的识别关键词的过程图,如图3所示,识别关键词的过程包括:
获取文本识别语境。
在预先建立的数据库中查找获取的语境,判断获取的语境是否在特定语境内。
若没有在特定语境内,则不报错。
若在特定语境内,则获取文本语境中的相关语境术语。
判断相关语境术语是否包含双引号。
若是,则不报错。
若否,则报错,相关语境术语需添加双引号。
实施例3
图4为本发明实施例提供的一种基于语义关联性的文本错误识别系统的系统图,如图4所示,系统包括:
第一获取模块201,用于获取文本中的人员信息,为第一信息;
第二获取模块202,用于根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息;
判断模块203,用于判断所述第二信息与所述第一信息是否一致,获得判断结果;
第一执行模块204,用于当所述判断结果为是时,判定所述文本正确;
第二执行模块205,用于当所述判断结果为否时,判定所述文本错误。
根据本发明公开的具体实施例,本发明公开了以下技术效果:
1)采用本发明的方法,通过匹配数据库预置信息,可以识别多种搭配的人员与称谓信息,解决人名的多职务、多种搭配以及人员的前后置称谓校对问题,确保公文的规范性与正确性。此为多种搭配修饰和句法分析的文本校对实际应用,是技术上的一大创新点。
2)采用本发明的方法,通过匹配数据库预置信息,可以识别人员排位顺序信息,解决公文中的人员排位顺序校对问题,避免出现错误,保证公文质量。
3)采用本发明的方法,可以对文本内容进行充分分析,识别相关语境术语,分析方法包括识别文本中该词汇是否存在特殊语境,以及识别是否有标点符号(如加双引号),确保文本的正确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种基于语义关联性的文本错误识别方法,其特征在于,包括
获取文本中的人员信息,为第一信息;
根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息;
判断所述第二信息与所述第一信息是否一致,获得判断结果;
若所述判断结果为是,则所述文本正确;
若所述判断结果为否,则所述文本错误。
2.根据权利要求1所述的文本错误识别方法,其特征在于,所述第一信息包括人名、称谓信息和人员排序信息。
3.根据权利要求1所述的文本错误识别方法,其特征在于,所述数据库中包含现有的人员人名信息、人员称谓信息和人员排序信息。
4.一种基于语义关联性的文本错误识别系统,其特征在于,包括
第一获取模块,用于获取文本中的人员信息,为第一信息;
第二获取模块,用于根据所述人员信息从预先建立的数据库中提取预置人员信息,为第二信息;
判断模块,用于判断所述第二信息与所述第一信息是否一致,获得判断结果;
第一执行模块,用于当所述判断结果为是时,判定所述文本正确;
第二执行模块,用于当所述判断结果为否时,判定所述文本错误。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010820199.8A CN112069268A (zh) | 2020-08-14 | 2020-08-14 | 一种基于语义关联性的文本错误识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010820199.8A CN112069268A (zh) | 2020-08-14 | 2020-08-14 | 一种基于语义关联性的文本错误识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112069268A true CN112069268A (zh) | 2020-12-11 |
Family
ID=73661840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010820199.8A Pending CN112069268A (zh) | 2020-08-14 | 2020-08-14 | 一种基于语义关联性的文本错误识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069268A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
CN108255887A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 校验行业文本的方法和装置 |
CN110909535A (zh) * | 2019-12-06 | 2020-03-24 | 北京百分点信息科技有限公司 | 命名实体校对方法、装置、可读存储介质及电子设备 |
-
2020
- 2020-08-14 CN CN202010820199.8A patent/CN112069268A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
CN108255887A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 校验行业文本的方法和装置 |
CN110909535A (zh) * | 2019-12-06 | 2020-03-24 | 北京百分点信息科技有限公司 | 命名实体校对方法、装置、可读存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
王永鉴: "《公文写作漫谈》", 31 December 2017, 上海:上海文化出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
US7983903B2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN102956231B (zh) | 基于半自动校正的语音关键信息记录装置及方法 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN109344387B (zh) | 形近字字典的生成方法、装置和形近字纠错方法、装置 | |
CN110826312B (zh) | 一种软件需求规格说明书的评价方法 | |
CN113590802B (zh) | 一种会话内容异常检测方法、装置、电子设备及存储介质 | |
CN109614623B (zh) | 一种基于句法分析的作文处理方法及系统 | |
US20130031098A1 (en) | Mismatch detection system, method, and program | |
CN112579466A (zh) | 测试用例的生成方法、装置及计算机可读存储介质 | |
Tursun et al. | Noisy Uyghur text normalization | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
CN111651559A (zh) | 一种基于事件抽取的社交网络用户关系抽取方法 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN113312258A (zh) | 一种接口测试方法、装置、设备及存储介质 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN117033796A (zh) | 基于用户表达偏好的智能回复方法、装置、设备及介质 | |
CN112069268A (zh) | 一种基于语义关联性的文本错误识别方法及系统 | |
CN113435217B (zh) | 语言测试处理方法、装置及电子设备 | |
Helgadóttir et al. | Correcting Errors in a New Gold Standard for Tagging Icelandic Text. | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
CN114548113A (zh) | 基于事件的指代消解系统、方法、终端及存储介质 | |
CN111339272A (zh) | 代码缺陷报告检索方法及装置 | |
CN116226541B (zh) | 一种基于知识图谱的网络热点信息推荐方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201211 |