CN117350302A - 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 - Google Patents
一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 Download PDFInfo
- Publication number
- CN117350302A CN117350302A CN202311457830.2A CN202311457830A CN117350302A CN 117350302 A CN117350302 A CN 117350302A CN 202311457830 A CN202311457830 A CN 202311457830A CN 117350302 A CN117350302 A CN 117350302A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- semantic
- written
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012937 correction Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 230000003993 interaction Effects 0.000 title claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000006978 adaptation Effects 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000013145 classification model Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013524 data verification Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置,通过读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义,提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度,将文本词语的合适度与设定的合适阈值进行对比,在文本撰写的过程中依据构建的语言语义网络结构对撰写文本进行实时纠错,提高了文本纠错效率和文本纠错的准确性。
Description
技术领域
本发明属于电子数字数据处理技术领域,具体的说是一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置。
背景技术
在进行文档撰写的过程中,由于撰写人员的疏忽大意经常会在撰写文本上留下措辞不严谨或者出现错别字的情况,人工撰写质量也存在不可突破的瓶颈,因此,在文档撰写的质量保障工作中,如何借助工具实现报告自动化撰写、更新和优化,现有技术中的语言撰写文本纠错工具大多在文章撰写完成后进行错别字的查找,但是无法对文章中的一些不合适的词语做出有效快速的替换,是当下亟待解决的问题,现有技术中均存在上述问题;
例如在申请公布号为CN113590006A的中国专利中公开了一种轨道交通数据验证报告自动撰写方法、系统及电子设备,包括:根据具体项目需求,创建人机交互界面,载入与系统安全数据相关的输入文件;解析所述输入文件,对所述输入文件的原始数据进行降噪预处理;对经过所述降噪预处理后的数据进行业务逻辑整合计算;根据所述业务逻辑整合计算结果,输出数据验证报告,本发明实现了数据验证报告的自动撰写,大量减少了报告撰写时间,且极大降低人工错误率;实现了文本语言相似度的计算,实现完全代替人工对数据进行检索,辅助人工进行语义分析,提升了工作效率、缩短了项目周期;
同时例如在申请公布号为CN111488458A的中国专利中公开了一种国际贸易商品代码的自动识别处理方法及系统,包括:数据学习步骤:通过对海量海关商品编码大数据进行学习,形成商品品名及商品说明语料库和人工智能归类模型;品名分类步骤:提交商品的品名信息和说明信息,首先根据形成的商品品名及商品说明语料库对该品名进行语义分析,并结合人工智能归类模型推荐多个可能的商品归类大类别;语义分类步骤:结合形成的商品品名及商品说明语料库对提交的商品的说明进行语义分析,再通过人工智能归类模型,在推荐的多个可能的商品归类大类别中找出更加精确的归类小类别。本发明采用自然语言分析技术,对商品说明中的有效信息进行分析和抽提,解决了需要专业归类人员进行商品归类的问题和需要人工输入归类要素并撰写归类建议书的问题。
以上专利均存在本背景技术提出的问题:现有技术中的语言撰写文本纠错工具大多在文章撰写完成后进行错别字的查找,但是无法对文章中的一些不合适的词语做出有效快速的替换,为了解决这些问题,本申请设计了一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置。
发明内容
针对现有技术的不足,本发明提出了一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置,本发明构建基于维基百科的语言知识库:读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义,提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度,将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语,获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列,将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员,在文本撰写的过程中依据构建的语言语义网络结构对撰写文本进行实时纠错,提高了文本纠错效率和文本纠错的准确性。
为实现上述目的,本发明提供如下技术方案:
一种基于语义分析的语言撰写文本纠错方法,其包括以下具体步骤:
S1、构建基于维基百科的语言知识库:读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,这里的关键词提取的具体方式为:获取待提取文本;在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合,为本领域获取关键词的常规技术手段,在此不进行详细论述;而对于同义词提取的具体方式为:获取文本词语,在字典中导出该文本词语的同义词;对于相关词提取的具体方式为:获取文本词语,获取该文本词语的读音相似词语和字体相近词语,其中读音相似词语为与该文本词语拼音相差一个或两个音节的词语:如海洋和海燕,二者之间相差一个g音节,其中,字体相近词语为该文本词语相差若干个笔画的词语,如,人名和入名;
S2、实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义;
S3、提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度;
S4、将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语进行S5步骤;
在此需要说明的是,这里的合适阈值根据通过提取的5000组历史已撰写文本语义和正在撰写的文本词语语义数据,导入拟合软件中进行拟合得到最优的合适阈值;
S5、获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列;
S6、将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员。
具体的,所述S1的内容包括以下具体步骤:
S11、读取维基百科对该撰写文本的分类信息,获取文本的关键词,同时获取书写段落的文本词语;
S12、提取文本词语的同义词和相关词,以构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构。
具体的,所述S2具体包括以下步骤:
S21、将获取的文本关键词添加从文本获取适当的的连接词连接为若干个文本语义句;这里的文本关键词由S1步骤获取,这里的从文本获取适当的的连接词的具体方式为:在两个文本关键词之间提取符合词性的连接词,例如,一句话为:通过组装成为一个水壶,这里的文本关键词即为组装和水壶,组装和水壶之间缺少谓语,这里我们就提取成作为谓语;
S22、提取连接得到的若干个文本语义句,将这些文本语义句发送至撰写人员,撰写人员从这些文本语义句中找出最能代表文本语义的已撰写文本语义;
S23、提取得到的已撰写文本语义,储存至设置的语义储存库中。
具体的,所述S3中的词语语义合适度判断策略的具体步骤如下:
S31、提取已撰写文本语义和正在撰写的文本词语语义,正在撰写的文本词语的若干个语义设为(x1,x2,...,xn1),其中,xi为正在撰写的文本词语的第i个语义,n1为正在撰写的文本词语的语义个数,同时提取正在撰写的文本词语的语义的词性表示,代入第一合适度计算公式中计算第一合适度,第一合适度计算公式为:
其中m1()为括号内的语义符合已撰写文本语义的个数,m2()为符合已撰写文本语义的语义的词性表示中符合正在撰写的文本的个数,yi为符合已撰写文本语义的第i项语义的词性表示,n2为符合已撰写文本语义的第i项语义的词性表示的个数,γ1为语义占比系数,γ2为词性表示占比系数,γ1+γ2=1;
在此需要说明的是,这里的γ1和γ2的具体计算值,通过提取的5000组历史已撰写文本语义和正在撰写的文本词语语义数据,识别正在撰写的文本词语的错误词性和语义个数,除以全部错误数量,即得到γ1和γ2的具体计算值;
S32、同时提取该正在撰写的文本词语的撰写次数和正确次数,代入错误率计算公式中计算历史该正在撰写的文本词语的错误率,错误率计算公式为:其中,a1为正确次数,a2为撰写次数;
S33、将计算得到的第一合适度和错误率代入词语语义合适度计算公式中计算词语语义的合适度,词语语义合适度计算公式为:
具体的,所述S5中的具体内容包括以下步骤:
S51、获取正在撰写的文本词语的同义词和相关词,查找正在撰写的文本词语的同义词和相关词中与已撰写文本词性适配的词,设为(z1,z2,...,zn3),其中,zi为正在撰写的文本词语中的第i个同义词和相关词与已撰写文本词性适配的词,n3为正在撰写的文本词语的同义词和相关词中与已撰写文本词性适配的词的个数;
S52、获取与已撰写文本语义适配的若干个文本,获取(z1,z2,...,zn3)中的词语在与已撰写文本语义适配的若干个文本中出现的概率,作为适配度,获取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列;这里的适配的若干个文本通过关键词检索出来。
一种基于语义分析的语言撰写文本纠错系统,其基于上述一种基于语义分析的语言撰写文本纠错方法实现,其包括语言语义网络结构构建模块、已撰写文本语义获取模块、词语语义合适度计算模块、初选词提取模块、初选词选择模块和控制模块,所述控制模块用于控制语言语义网络结构构建模块、已撰写文本语义获取模块、词语语义合适度计算模块、初选词提取模块、初选词选择模块的运行,所述语言语义网络结构构建模块用于读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,所述已撰写文本语义获取模块用于实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义。
具体的,所述词语语义合适度计算模块用于提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度,同时用于将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语,所述初选词选择模块用于获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列,同时用于将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员。
一种人机交互装置,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
所述处理器通过调用所述存储器中存储的计算机程序,执行上述的一种基于语义分析的语言撰写文本纠错方法。
一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如上述的一种基于语义分析的语言撰写文本纠错方法。
与现有技术相比,本发明的有益效果是:
本发明构建基于维基百科的语言知识库:读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义,提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度,将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语,获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列,将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员,在文本撰写的过程中依据构建的语言语义网络结构对撰写文本进行实时纠错,提高了文本纠错效率和文本纠错的准确性。
附图说明
图1为本发明一种基于语义分析的语言撰写文本纠错方法流程示意图;
图2为本发明一种基于语义分析的语言撰写文本纠错系统整体框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。
实施例1
请参阅图1,本发明提供的一种实施例:一种基于语义分析的语言撰写文本纠错方法,其包括以下具体步骤:
S1、构建基于维基百科的语言知识库:读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,这里的关键词提取的具体方式为:获取待提取文本;在关联的关键词库中进行搜索,匹配出待提取文本中的关键词;根据待提取文本、匹配出的待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合,为本领域获取关键词的常规技术手段,在此不进行详细论述;而对于同义词提取的具体方式为:获取文本词语,在字典中导出该文本词语的同义词;对于相关词提取的具体方式为:获取文本词语,获取该文本词语的读音相似词语和字体相近词语,其中读音相似词语为与该文本词语拼音相差一个或两个音节的词语:如海洋和海燕,二者之间相差一个g音节,其中,字体相近词语为该文本词语相差若干个笔画的词语,如,人名和入名;
在本实施例中,S1的内容包括以下具体步骤:
S11、读取维基百科对该撰写文本的分类信息,获取文本的关键词,同时获取书写段落的文本词语;
以下是一个示例代码,用于获取一串文本中的关键词;关键词在这里定义为文本中出现次数最多的单词;
在上面的代码中,`getKeywords()`函数用于从给定的文本中获取关键词,并存储在`keywords`数组中;`compareKeywords()`函数用于对关键词进行排序,将出现次数最多的关键词排在前面;最后,在`main()`函数中,我们将获取到的关键词打印出来;
S12、提取文本词语的同义词和相关词,以构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构;
S2、实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义;
在本实施例中,S2具体包括以下步骤:
S21、将获取的文本关键词添加从文本获取适当的的连接词连接为若干个文本语义句;这里的文本关键词由S1步骤获取,这里的从文本获取适当的的连接词的具体方式为:在两个文本关键词之间提取符合词性的连接词,例如,一句话为:通过组装成为一个水壶,这里的文本关键词即为组装和水壶,组装和水壶之间缺少谓语,这里我们就提取成作为谓语;
S22、提取连接得到的若干个文本语义句,将这些文本语义句发送至撰写人员,撰写人员从这些文本语义句中找出最能代表文本语义的已撰写文本语义;
S23、提取得到的已撰写文本语义,储存至设置的语义储存库中;
S3、提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度;
S4、将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语进行S5步骤;
在此需要说明的是,这里的合适阈值根据通过提取的5000组历史已撰写文本语义和正在撰写的文本词语语义数据,导入拟合软件中进行拟合得到最优的合适阈值;
S5、获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列;
S6、将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员。
在本实施例中,S3中的词语语义合适度判断策略的具体步骤如下:
S31、提取已撰写文本语义和正在撰写的文本词语语义,正在撰写的文本词语的若干个语义设为(x1,x2,...,xn1),其中,xi为正在撰写的文本词语的第i个语义,n1为正在撰写的文本词语的语义个数,同时提取正在撰写的文本词语的语义的词性表示,代入第一合适度计算公式中计算第一合适度,第一合适度计算公式为:
其中m1()为括号内的语义符合已撰写文本语义的个数,m2()为符合已撰写文本语义的语义的词性表示中符合正在撰写的文本的个数,yi为符合已撰写文本语义的第i项语义的词性表示,n2为符合已撰写文本语义的第i项语义的词性表示的个数,γ1为语义占比系数,γ2为词性表示占比系数,γ1+γ2=1;
在此需要说明的是,这里的γ1和γ2的具体计算值,通过提取的5000组历史已撰写文本语义和正在撰写的文本词语语义数据,识别正在撰写的文本词语的错误词性和语义个数,除以全部错误数量,即得到γ1和γ2的具体计算值;
S32、同时提取该正在撰写的文本词语的撰写次数和正确次数,代入错误率计算公式中计算历史该正在撰写的文本词语的错误率,错误率计算公式为:其中,a1为正确次数,a2为撰写次数;
S33、将计算得到的第一合适度和错误率代入词语语义合适度计算公式中计算词语语义的合适度,词语语义合适度计算公式为:
在本实施例中,S5中的具体内容包括以下步骤:
S51、获取正在撰写的文本词语的同义词和相关词,查找正在撰写的文本词语的同义词和相关词中与已撰写文本词性适配的词,设为(z1,z2,...,zn3),其中,zi为正在撰写的文本词语中的第i个同义词和相关词与已撰写文本词性适配的词,n3为正在撰写的文本词语的同义词和相关词中与已撰写文本词性适配的词的个数;
S52、获取与已撰写文本语义适配的若干个文本,获取(z1,z2,...,zn3)中的词语在与已撰写文本语义适配的若干个文本中出现的概率,作为适配度,获取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列;这里的适配的若干个文本通过关键词检索出来。
本发明构建基于维基百科的语言知识库:读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义,提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度,将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语,获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列,将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员,在文本撰写的过程中依据构建的语言语义网络结构对撰写文本进行实时纠错,提高了文本纠错效率和文本纠错的准确性。
实施例2
如图2所示,一种基于语义分析的语言撰写文本纠错系统,其基于上述一种基于语义分析的语言撰写文本纠错方法实现,其包括语言语义网络结构构建模块、已撰写文本语义获取模块、词语语义合适度计算模块、初选词提取模块、初选词选择模块和控制模块,控制模块用于控制语言语义网络结构构建模块、已撰写文本语义获取模块、词语语义合适度计算模块、初选词提取模块、初选词选择模块的运行,语言语义网络结构构建模块用于读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,已撰写文本语义获取模块用于实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义。
在本实施例中,词语语义合适度计算模块用于提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度,同时用于将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语,初选词选择模块用于获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列,同时用于将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员。
实施例3
本实施例提供一种人机交互装置,包括:处理器和存储器,其中,存储器中存储有可供处理器调用的计算机程序;
处理器通过调用存储器中存储的计算机程序,执行上述的一种基于语义分析的语言撰写文本纠错方法。
该人机交互装置可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上的处理器(Central Processing Units,CPU)和一个或一个以上的存储器,其中,该存储器中存储有至少一条计算机程序,该计算机程序由该处理器加载并执行以实现上述方法实施例提供的一种基于语义分析的语言撰写文本纠错方法。该电子设备还能够包括其他用于实现设备功能的部件,例如,该人机交互装置还能够具有有线或无线网络接口以及输入输出接口等部件,以便进行数据的输入输出。本实施例在此不做赘述。
实施例4
本实施例提出一种计算机可读存储介质,其上存储有可擦写的计算机程序;
当计算机程序在计算机设备上运行时,使得计算机设备执行上述的一种基于语义分析的语言撰写文本纠错方法。
例如,计算机可读存储介质能够是只读存储器(Read-Only Memory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、只读光盘(Compact Disc Read-OnlyMemory,简称:CD-ROM)、磁带、软盘和光数据存储设备等。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应理解,根据A确定B并不意味着仅仅根据A确定B,还能够根据A和/或其它信息确定B。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线网络或/和无线网络方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可以意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种划分方式,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可做很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (9)
1.一种基于语义分析的语言撰写文本纠错方法,其特征在于,其包括以下具体步骤:
S1、构建基于维基百科的语言知识库:读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构;
S2、实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义;
S3、提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度;
S4、将文本词语的合适度与设定的合适阈值进行对比,判断文本词语的合适度是否大于等于设定的合适阈值,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语进行S5步骤;
S5、获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列;
S6、将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员。
2.如权利要求1所述的一种基于语义分析的语言撰写文本纠错方法,其特征在于,所述S1的内容包括以下具体步骤:
S11、读取维基百科对该撰写文本的分类信息,获取文本的关键词,同时获取书写段落的文本词语;
S12、提取文本词语的同义词和相关词,以构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构。
3.如权利要求2所述的一种基于语义分析的语言撰写文本纠错方法,其特征在于,所述S2具体包括以下步骤:
S21、将获取的文本关键词添加从文本获取适当的的连接词连接为若干个文本语义句;
S22、提取连接得到的若干个文本语义句,将这些文本语义句发送至撰写人员,撰写人员从这些文本语义句中找出最能代表文本语义的已撰写文本语义;
S23、提取得到的已撰写文本语义,储存至设置的语义储存库中。
4.如权利要求3所述的一种基于语义分析的语言撰写文本纠错方法,其特征在于,所述S3中的词语语义合适度判断策略的具体步骤如下:
S31、提取已撰写文本语义和正在撰写的文本词语语义,正在撰写的文本词语的若干个语义设为(x1,x2,...,xn1),其中,xi为正在撰写的文本词语的第i个语义,n1为正在撰写的文本词语的语义个数,同时提取正在撰写的文本词语的语义的词性表示,代入第一合适度计算公式中计算第一合适度,第一合适度计算公式为:
其中m1()为括号内的语义符合已撰写文本语义的个数,m2()为符合已撰写文本语义的语义的词性表示中符合正在撰写的文本的个数,yi为符合已撰写文本语义的第i项语义的词性表示,n2为符合已撰写文本语义的第i项语义的词性表示的个数,γ1为语义占比系数,γ2为词性表示占比系数,γ1+γ2=1;
S32、同时提取该正在撰写的文本词语的撰写次数和正确次数,代入错误率计算公式中计算历史该正在撰写的文本词语的错误率,错误率计算公式为:其中,a1为正确次数,a2为撰写次数;
S33、将计算得到的第一合适度和错误率代入词语语义合适度计算公式中计算词语语义的合适度,词语语义合适度计算公式为:
5.如权利要求4所述的一种基于语义分析的语言撰写文本纠错方法,其特征在于,S51、获取正在撰写的文本词语的同义词和相关词,查找正在撰写的文本词语的同义词和相关词中与已撰写文本词性适配的词,设为(z1,z2,...,zn3),其中,zi为正在撰写的文本词语中的第i个同义词和相关词与已撰写文本词性适配的词,n3为正在撰写的文本词语的同义词和相关词中与已撰写文本词性适配的词的个数;
S52、获取与已撰写文本语义适配的若干个文本,获取(z1,z2,...,zn3)中的词语在与已撰写文本语义适配的若干个文本中出现的概率,作为适配度,获取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列。
6.一种基于语义分析的语言撰写文本纠错系统,其基于如权利要求1-5任一项的所述一种基于语义分析的语言撰写文本纠错方法实现,其特征在于,其包括语言语义网络结构构建模块、已撰写文本语义获取模块、词语语义合适度计算模块、初选词提取模块、初选词选择模块和控制模块,所述控制模块用于控制语言语义网络结构构建模块、已撰写文本语义获取模块、词语语义合适度计算模块、初选词提取模块、初选词选择模块的运行,所述语言语义网络结构构建模块用于读取维基百科的分类信息,对撰写文本进行关键词、同义词和相关词提取,构建包含类别、文章、关键词词表、同义词和相关词的语言语义网络结构,所述已撰写文本语义获取模块用于实时提取撰写文本,基于构建的语言语义网络结构对已撰写文本语义进行提取,获得已撰写文本语义。
7.如权利要求6所述的一种基于语义分析的语言撰写文本纠错系统,其特征在于,所述词语语义合适度计算模块用于提取已撰写文本语义和正在撰写的文本词语语义,导入词语语义合适度判断策略中计算文本词语的合适度,同时用于将文本词语的合适度与设定的合适阈值进行对比,若文本词语的合适度大于等于设定的合适阈值则就将该文本词语设为选择词语,若文本词语的合适度小于设定的合适阈值则提取该文本词语,所述初选词选择模块用于获取文本词语的同义词和相关词,基于语义获取文本词语同义词和相关词的适配度,取适配度大于等于设定的适配阈值的文本词语同义词和相关词作为初选词,将初选词的适配度降序排列,同时用于将适配度排列在前五的初选词和适配度数字显示在文本词语处供撰写人员选择并提示撰写人员。
8.一种人机交互装置,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
其特征在于,所述处理器通过调用所述存储器中存储的计算机程序,执行如权利要求1-5任一项所述的一种基于语义分析的语言撰写文本纠错方法。
9.一种计算机可读存储介质,其特征在于,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-5任一项所述的一种基于语义分析的语言撰写文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311457830.2A CN117350302B (zh) | 2023-11-04 | 2023-11-04 | 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311457830.2A CN117350302B (zh) | 2023-11-04 | 2023-11-04 | 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117350302A true CN117350302A (zh) | 2024-01-05 |
CN117350302B CN117350302B (zh) | 2024-04-02 |
Family
ID=89364866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311457830.2A Active CN117350302B (zh) | 2023-11-04 | 2023-11-04 | 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117350302B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118297077A (zh) * | 2024-06-06 | 2024-07-05 | 深圳市火火兔智慧科技有限公司 | 基于随机种子的作品创作方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294639A (zh) * | 2016-08-01 | 2017-01-04 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
CN110232114A (zh) * | 2019-05-06 | 2019-09-13 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
WO2020164336A1 (zh) * | 2019-02-13 | 2020-08-20 | 阿里巴巴集团控股有限公司 | 通过强化学习提取主干词的方法及装置 |
CN111899829A (zh) * | 2020-07-31 | 2020-11-06 | 青岛百洋智能科技股份有限公司 | 一种基于icd9/10分词词库的全文检索匹配引擎 |
CN113887930A (zh) * | 2021-09-29 | 2022-01-04 | 平安银行股份有限公司 | 问答机器人健康度评估方法、装置、设备及存储介质 |
CN114254653A (zh) * | 2021-12-23 | 2022-03-29 | 深圳供电局有限公司 | 一种科技项目文本语义抽取与表示分析方法 |
CN115563512A (zh) * | 2022-09-23 | 2023-01-03 | 上海市大数据股份有限公司 | 一种基于远程监督的语义匹配模型的生成方法及系统 |
WO2023098288A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
-
2023
- 2023-11-04 CN CN202311457830.2A patent/CN117350302B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294639A (zh) * | 2016-08-01 | 2017-01-04 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
WO2020164336A1 (zh) * | 2019-02-13 | 2020-08-20 | 阿里巴巴集团控股有限公司 | 通过强化学习提取主干词的方法及装置 |
CN110232114A (zh) * | 2019-05-06 | 2019-09-13 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
CN111899829A (zh) * | 2020-07-31 | 2020-11-06 | 青岛百洋智能科技股份有限公司 | 一种基于icd9/10分词词库的全文检索匹配引擎 |
CN113887930A (zh) * | 2021-09-29 | 2022-01-04 | 平安银行股份有限公司 | 问答机器人健康度评估方法、装置、设备及存储介质 |
WO2023098288A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
CN114254653A (zh) * | 2021-12-23 | 2022-03-29 | 深圳供电局有限公司 | 一种科技项目文本语义抽取与表示分析方法 |
CN115563512A (zh) * | 2022-09-23 | 2023-01-03 | 上海市大数据股份有限公司 | 一种基于远程监督的语义匹配模型的生成方法及系统 |
Non-Patent Citations (1)
Title |
---|
周生;胡晓峰;罗批;李志强;: "战略决策文本的语义分析研究", 计算机科学, no. 02, 15 February 2011 (2011-02-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118297077A (zh) * | 2024-06-06 | 2024-07-05 | 深圳市火火兔智慧科技有限公司 | 基于随机种子的作品创作方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117350302B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN105869634B (zh) | 一种基于领域的带反馈语音识别后文本纠错方法及系统 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
US20210064821A1 (en) | System and method to extract customized information in natural language text | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN112528649B (zh) | 针对多语言混合文本的英文拼音识别方法和系统 | |
CN117350302B (zh) | 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 | |
CN105760359B (zh) | 问句处理系统及其方法 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
US20200311345A1 (en) | System and method for language-independent contextual embedding | |
CN103324621A (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
KR20230061001A (ko) | 문서 교정 장치 및 방법 | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
CN109189907A (zh) | 一种基于语义匹配的检索方法及装置 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN110866390A (zh) | 中文语法错误的识别方法、装置、计算机设备和存储介质 | |
CN112307314A (zh) | 搜索引擎精选摘要的生成方法和装置 | |
CN109977391B (zh) | 一种文本数据的信息抽取方法及装置 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |