CN114611524A - 文本纠错方法、装置、电子设备及存储介质 - Google Patents
文本纠错方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114611524A CN114611524A CN202210119165.5A CN202210119165A CN114611524A CN 114611524 A CN114611524 A CN 114611524A CN 202210119165 A CN202210119165 A CN 202210119165A CN 114611524 A CN114611524 A CN 114611524A
- Authority
- CN
- China
- Prior art keywords
- word
- compatibility
- sentence
- error
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 52
- 238000012217 deletion Methods 0.000 description 16
- 230000037430 deletion Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000001427 coherent effect Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了文本纠错方法、装置、电子设备及存储介质。该方法包括:在对待处理语句进行纠错时,可以根据待处理语句中每个词语的义素确定每个词语在待处理语句内的兼容度,作为语义兼容度,再根据待处理语句中每个词语的词性确定每个词语在待处理语句内的兼容度,作为语法兼容度,然后根据语义兼容度和语法兼容度对待处理语句进行纠错,得到纠错后的目标语句。本申请通过语义兼容度和语法兼容度可以衡量每个词语在待处理语句中是否能够表达出准确的意义以及在语法上是否连贯,因此可以更加精准地定位出语句中表意不准确或语法不连贯的错误词,进而更加精准地实现文本纠错。
Description
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本纠错方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,文本错误的识别是自然语言处理中的一个重要分支,其主要任务是检测一段文字中是否存在错误的词语,并自动对检测到的错误进行改正。但是,相关技术中对文本错误的识别和纠正均存在精准度较低的问题。
发明内容
鉴于上述问题,本申请提出了一种文本纠错方法、装置、电子设备及存储介质,能解决上述问题。
第一方面,本申请实施例提供了一种文本纠错方法,所述方法包括:获取待处理语句中每个词语的义素;根据每个词语的义素获取每个词语在所述待处理语句内的语义兼容度;获取所述待处理语句中每个词语的词性;基于每个词语的词性获取每个词语在所述待处理语句内的语法兼容度;基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
第二方面,本申请实施例提供了一种文本纠错装置,所述装置包括:义素获取单元、义素处理单元、词性获取单元、词性处理单元以及纠错单元。其中,义素获取单元用于获取待处理语句中每个词语的义素;义素处理单元,用于根据每个词语的义素获取每个词语在所述待处理语句内的语义兼容度;词性获取单元用于获取所述待处理语句中每个词语的词性;词性处理单元用于基于每个词语的词性获取每个词语在所述待处理语句内的语法兼容度;纠错单元用于基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机实现上述方法。
在本申请实施例中,可以在纠错时通过义素来确定语句中各个词语在语义上相互兼容的程度,得到语义兼容度,通过词性来确定语句中各个词语在语法上相互兼容的程度,得到语法兼容度。本申请通过语义兼容度和语法兼容度可以衡量每个词语在待处理语句中是否能够表达出准确的意义以及在语法上是否连贯,因此可以更加精准地定位出语句中表意不准确或语法不连贯的错误词,进而更加精准地实现文本纠错。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的文本纠错方法的一种应用环境示意图;
图2示出了本申请一实施例提供的文本纠错方法的流程示意图;
图3示出了本申请一实施例提供的文本纠错方法的词语替换示意图;
图4示出了本申请又一实施例提供的文本纠错方法的词语删除示意图;
图5示出了本申请另一实施例提供的文本纠错方法的词语增加示意图;
图6示出了本申请又一实施例提供的文本纠错方法的流程示意图;
图7示出了本申请另一实施例提供的文本纠错方法的流程示意图;
图8示出了本申请再一实施例提供的文本纠错方法的流程示意图
图9示出了本申请又一实施例提供的文本纠错方法的语句增加的处理流程示意图;
图10示出了本申请一实施例提供的纠错系统的处理流程示意图;
图11示出了本申请一实施例提供的含多头机制的transformer结构的示意图;
图12示出了本申请一实施例提供的文本纠错装置的模块框图;
图13示出了本申请一实施例提供的电子设备的结构框图;
图14示出了本申请一实施例提供的计算机可读存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着信息时代的快速发展,大量信息涌现在用户面前,然而不管是人工输入的文本信息还是计算机自动生成的文本信息,均可能出现文本错误。在一些情况下,文本错误的存在可能会导致歧义,使用户无法正确识别到文本的真正含义,进而影响了用户体验。此外,在意图识别、语音识别、机器翻译等应用场景下,文本错误的存在可能导致意图识别有误,语音输出结果错误或无法进行机器翻译等等,影响文本的后续处理过程。因此,亟需一种能够精准地纠正文本错误的文本纠错方式。
为解决上述问题,本申请发明人经过仔细研究后发现,目前自然语言处理(NLP,Natural Language Processing)研究与模型识别的探索均停滞于词层面,而词以下的语义单位则被蒙上了神秘面纱,但从语言实际情况来说,词作为最小的可独立使用单位,其在语义层面还有一个下位概念,即义素(SEME)。义素是现代语义学术语,指语言中意义单位(内容单位),又被称为义子,是词的构成因子。同一个词在与不同词的对比中,可以根据使用需求选择用不同数量的义素表示,比如“女人”一词如果限定用三个义素表示,可以表示为【人】【女性】【成年】。由此可知,通过分析义素可以在更小的粒度上实现对文本语义的研究,从而能够更加精准地识别出文本中各个词语的真实含义。
基于此,发明人提出了一种可以在纠错时通过义素来确定语句中各个词语在语义上相互兼容的程度,通过词性来确定语句中各个词语在语法上相互兼容的程度,接着根据语义兼容度和语法兼容度定位出语句中出现的错误,进而更加精准地实现文本纠错。
为了更好理解本申请实施例提供的一种文本纠错方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了本申请一实施例提供的文本纠错方法的一种应用环境示意图。示例性地,本申请实施例提供的文本纠错方法、装置、电子设备及存储介质可以应用电子设备,其中,电子设备可以是如图1中所示的服务器110,服务器110可以通过网络与终端设备120相连。其中,网络用以在服务器110和终端设备120之间提供通信链路的介质。网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等,本申请实施例对此不作限制。可选地,在另一些实施例中,电子设备也可以是智能手机、笔记本电脑等等。
应该理解,图1中的服务器110、网络和终端设备120仅仅是示意性的。根据实现需要,可以具有任意数目的服务器、网络和终端设备。示例性地,服务器110可以是物理服务器,也可以是由多个服务器组成的服务器集群等,终端设备120可以是手机、平板、台式电脑、笔记本电脑等等设备。可以理解的是,本申请的实施例还可以允许多台终端设备120同时接入服务器110。
在一些实施例中,终端设备120可以获取由用户输入的文本信息,然后将文本信息输入到服务器110进行文本纠错。在另一些实施方式中,终端设备120可以对用户的声音进行录取,得到用户的音频数据,进而可以在终端设备120或者服务器110中对该音频数据进行识别,得到文本信息,然后在服务器110中对文本信息进行文本纠错。
上述应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的文本纠错方法、装置、电子设备及存储介质进行详细说明。
请参阅图2,其示出了本申请一实施例提供的文本纠错方法的流程示意图。下面将针对图2所示的流程进行详细的阐述,所述文本纠错方法具体可以包括如下步骤:
步骤S210:获取待处理语句中每个词语的义素。
在一些实施例中,待处理语句可以是从终端设备中获得的文本信息,也可以是根据终端设备采集的音频数据中识别得到的文本信息,还可以是从终端设备中发送的图片中识别得到的文本信息,本申请实施例对此不做限制。在另一些实施方式中,待处理语句还可以是从其他服务器获得的文本信息。
在本申请的实施方式中,可以采用文本分词的方式将待处理语句划分为多个词语,例如使用字符串匹配等词典分词算法,或基于统计的机器学习算法等等,本申请实施例对此不做限制。进一步地,可以对待处理语句中的每个词语进行处理,得到每个词语的义素。不同于一般意义上的语义特征,从义位之间相互区别的角度分析出来的语义成分称为语义特征,而义素更加着重与对同一个词语的同一义位的语义要素的分解,其中,义位是指词的每一个意义,有的词有一个意义,有的词有多个意义(即多义词)。即是说,通过语义特征可以区别出同一个词的多个意义,而通过义素则可以对同一个词的同一个意义进行分解,能够从更小的粒度实现对文本语义的研究。其中,一个词语可以对应一个或多个义素。此外,对于多义词,在不同的待处理语句中可能呈现出不同的意义,因而若待处理语句中存在多义词时,可以根据该多义词前后词语的义素确定该多义词的义素。
在一些实施方式中,可以使用义素向量来表示每个词语的义素。具体地,可以从预先构建的义素向量库中确定每个词语的义素向量。
步骤S220:根据每个词语的义素获取每个词语在所述待处理语句内的兼容度,作为语义兼容度。
在一些实施方式中,可以根据每个词语的义素获取每个词语在待处理语句中的语义兼容度。语义兼容度可以用于表示组成语句的各个词语的义素之间是否相容以及相容的程度。可选地,语义兼容度越大,表示组成语句的各个词语的义素之间相容程度越高。
可以理解的是,一个词语可以包括多个义素,而每个义素可以使用义素向量的方式来表示,因此,每个词语的义素则可以使用多维义素向量表示,其中,多维义素向量的维度与该词语的义素个数相一致。进一步地,可以基于每个词语的多维义素向量确定每个词语在待处理语句内的语义兼容度。示例性地,待处理语句为“我是猫”,由词语A“我”、词语B“是”以及词语C“猫”组成,其中,假设词语A用义素表示为【义素1】【义素2】,而词语B用义素表示为【义素3】【义素4】【义素5】,词语C用义素表示为【义素6】【义素7】,则可以将词语A的义素表示为2维向量A,而词语B的义素表示为3维向量B,词语C的义素表示为2维向量C。,则进一步可以根据向量A、向量B以及向量C分别得到词语A、词语B以及词语C的语义兼容度。
可选地,可以根据每个词语的义素与待处理语句中其余所有词语之间的义素得到第一语义兼容度,将第一语义兼容度作为每个词语的语义兼容度。可选地,可以确定待处理语句中满足预设条件的核心词语,根据每个词语的义素与待处理语句中核心词语之间的义素得到第二语义兼容度,将第二语义兼容度作为每个词语的语义兼容度。可选地,还可以根据每个词语的义素获取该词语与该词语前后预设数量的词语之间的第三语义兼容度,将第三语义兼容度作为每个词语的语义兼容度。可选地,在一些典型的实施例中,可以联合上述三个维度的语义兼容度得到每个词语的语义兼容度,即是说,可以根据每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度确定每个词语的语义兼容度。
步骤S230:获取所述待处理语句中每个词语的词性。
词性可以表示词语的语法特征。在一些实施方式中,可以采用词性标注(Part-of-Speech tagging或POS tagging)的方式确定待处理语句中每个词语的词性。词性标注,又称词类标注或者简称标注,是指为语句中的每个词语标注一个正确的词性的方式,也即确定每个词是名词、动词、形容词或其他词性的过程。例如,对于上述示例中的待处理语句“我是猫”,经过词性标注后,可以确定词语A“我”的词性为名词,词语B“是”的词性为动词,词语C“猫”的词性为名词。
接着,可以根据每个词语的词性确定每个词语在待处理语句内的兼容度,作为语法兼容度。
步骤S240:基于每个词语的词性获取每个词语在所述待处理语句内的兼容度,作为语法兼容度。
在一些实施方式中,可以根据每个词语的词性与待处理语句中其余所有词语之间的词性得到第一语法兼容度,将第一语法兼容度作为每个词语的语法兼容度。可选地,可以确定待处理语句中满足预设条件的核心词语,根据每个词语的词性与待处理语句中核心词语之间的词性得到第二语法兼容度,将第二语法兼容度作为每个词语的语法兼容度。可选地,还可以根据每个词语的词性获取该词语与该词语前后预设数量的词语之间的第三语法兼容度,将第三语法兼容度作为每个词语的语法兼容度。可选地,在一些典型的实施例中,可以联合上述三个维度的语法兼容度得到每个词语的语法兼容度,即是说,可以根据每个词语的第一语法兼容度、第二语法兼容度以及第三语法兼容度确定每个词语的语法兼容度。
步骤S250:基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
在一些实施方案中,可以根据每个词语的语义兼容度和每个词语的语法兼容度对待处理语句进行纠错,得到纠错后的目标语句。
在一些实施例中,可以同时根据每个词语的语义兼容度和语法兼容度来确定待处理语句中的错误词,也可以根据二者中的任一个确定错误词,如根据语义兼容度或者语法兼容度确定错误词等等,本申请实施例对此不作限制。示例性地,在根据二者中的任一个确定错误词时,则将根据二者中的另一个确定错误词的错误类型,再根据错误类型对每个错误词进行纠错,进而得到目标语句。例如,若根据每个词语的语义兼容度确定待处理语句中的错误词,则将根据语法兼容度确定每个错误词的错误类型;若根据每个词语的语法兼容度确定待处理语句中的错误词,则将根据语义兼容度确定每个错误词的错误类型。
在一些实施方式中,错误类型可以包括替换类型、删除类型以及增加类型。在一些实施例中,对于替换类型的错误词,可以根据替换类型的错误词的语义确定一个第一目标词语,然后将待处理语句中替换类型的错误词替换为第一目标词语,将替换后的语句作为目标语句。
可选地,将待处理语句中替换类型的错误词替换为第一目标词语之后,确定替换后的待处理语句中每个词语的语义兼容度是否满足第一纠错条件,将满足第一纠错条件的语句作为目标语句。若不满足第一纠错条件,重复上述确定第一目标语句以及错误词替换的过程,直到替换后的待处理语句中每个词语的语义兼容度满足第一纠错条件,将满足第一纠错条件的语句作为目标语句。若待处理语句中包括词语1、词语2、词语3以及词语4(按照语句顺序排列),并且确定词语3为替换类型的错误词,并且根据词语3确定了第一目标词语为词语5,如图3所示,可以将待处理语句中的词语3替换成词语5后得到目标语句。
在一些实施例中,对于删除类型的错误词,可以直接将待处理语句中的删除类型的错误词删除得到目标语句。若确定待处理语句中词语3为删除类型的错误词,则可以将待处理语句中的词语3删除后得到目标语句,如图4所示。
在一些实施例中,对于增加类型的错误词,可以根据增加类型的错误词的语义确定第一待选词以及第二待选词,其中,第一待选词与第二待选词可以为相同的词语,也可以为不相同的词语,本申请对此不作限制。接着,在待处理语句中,在增加类型的错误词前增加第一待选词,得到第一中间语句;在待处理语句中,在增加类型的错误词后增加第二待选词,得到第二中间语句。若确定待处理语句中的词语3为增加类型的错误词,并且根据词语3确定了第一待选词为词语6,第二待选词为词语7,如图5所示,可以分别得到第一中间语句和第二中间语句。最后,可以将第一中间语句及第二中间语句中满足第二纠错条件的语句作为目标语句。
可以理解的是,在一些具体的实施方式中,待处理语句中存在两个或两个以上的错误词时,此时,可以按照错误类型分别对每个错误词进行纠错,记录下每个错误词的纠错方式、位置以及纠正内容。例如,若错误词1的纠错方式为替换词语,同时记录下错误词1的位置以及用于替换的第一目标词语,若错误词2的纠错方式为增加词语,记录错误词2的位置,增加词语的位置(前/后)以及需要增加的词语,待每个错误词均确定了纠错方式、位置以及纠正内容后,统一在待处理语句中将按照每个错误词的纠错方式、位置以及纠正内容对每个错误词进行纠错,得到纠错后的目标语句。
综上所述,本实施例提供的文本纠错方法,在对待处理语句进行纠错时,可以根据待处理语句中每个词语的义素确定每个词语在待处理语句内的语义兼容度,再根据待处理语句中每个词语的词性确定每个词语在待处理语句内的语法兼容度,然后根据语义兼容度和语法兼容度对待处理语句进行纠错,得到纠错后的目标语句。本申请可以在纠错时通过义素来确定语句中各个词语在语义上相互兼容的程度,得到语义兼容度,通过词性来确定语句中各个词语在语法上相互兼容的程度,得到语法兼容度。本申请通过语义兼容度和语法兼容度可以衡量每个词语在待处理语句中是否能够表达出准确的意义以及在语法上是否连贯,因此可以更加精准地定位出语句中表意不准确或语法不连贯的错误词,进而更加精准地实现文本纠错。
在一些实施方式中,可选地,本实施例在上述实施例的基础上,可以如下三个维度计算每个词语的语义兼容度。请参阅图6,其示出了本申请又一实施例提供的文本纠错方法的流程示意图。具体地,步骤S220可以包括如下步骤:
步骤S610:根据每个词语的义素获取该词语的义素与所述待处理语句中其余所有词语的义素之间的兼容度,作为的第一语义兼容度。
在一些实施方式中,可以分别计算每个词语的义素与待处理语句中剩余的每个词语的义素间的词间兼容度,然后对同一个词语的所有词间兼容度求均值,得到该词语的第一语义兼容度。例如,若待处理语句中包括词语1、词语2、词语3以及词语4(按照语句顺序排列),以待处理语句中的词语1为例,可以计算词语1的义素与词语2的义素之间的第一词间兼容度,词语1的义素与词语3的义素之间的第二词间兼容度,词语1的义素与词语3的义素之间的第三词间兼容度,将第一词间兼容度、第二词间兼容度及第三词间兼容度的均值作为词语1的第一语义兼容度。可选地,若使用义素向量来表示每个词语的义素,则各个词语间的词间兼容度可以通过各个词语的多维义素向量计算而得到。
步骤S620:确定所述待处理语句中满足预设条件的核心词语,根据每个词语的义素获取该词语的义素与每个所述核心词语的义素之间的兼容度,作为第二语义兼容度。
在一些实施方式中,可以首先从待处理语句中确定满足预设条件的核心词语。核心词语可以是待处理语句的重要组成成分。在一些实施方式中,可以从待处理语句中识别出实体词,将识别出的实体词作为核心词语,其中,实体词可以用于表示可触知的而且是有形的、实际存在的物体的词语。示例性地,可以采用字符串匹配的方式从预先构建的实体词库中确定待处理语句中的实体词。
在另一些实施方式中,可以将待处理语句中第一语义兼容度大于第一阈值的词语作为核心词语。可以理解的是,由于语义兼容度越大,组成语句的各个词语的义素之间相容程度越高,因此,使用语义兼容度可筛选出待处理语句中对语句的真实含义做出较大贡献的词语。
可选地,可以分别计算每个词语的义素与每个核心词语的义素间的词间兼容度,然后将同一个词语与所有核心词语的词间兼容度的均值作为该词语的第二语义兼容度。
步骤S630:根据每个词语的义素获取该词语的义素与该词语前后预设数量的词语的义素之间的兼容度,作为第三语义兼容度。
可以理解的是,由于多义词的存在,仅仅使用单个词语或少数几个词语往往无法表示出准确的意图,而将多个词语按照语法顺序组合起来,才能成为一段表意准确的话。因此,在一些实施方式中,为了消除歧义,可以计算每个词语的义素与该词语前后预设数量的词语的义素间的词间兼容度,然后对同一个词语与前后预设数量的词语的所有词间兼容度求均值,得到该词语的第三语义兼容度。可选地,预设数量可以预先设置,也可以根据待处理语句的词语数量而确定。示例性地,预设数量可以与待处理语句的词语数量呈正比。
步骤S640:基于所述每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度确定每个词语的所述语义兼容度。
可选地,可以将每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度之和作为每个词语的语义兼容度,也可以对每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度进行加权求和,得到每个词语的语义兼容度。在进行加权求和时,语义兼容度s=a1*s1+a2*s2+a3*s3,其中,s1为第一语义兼容度,a1为第一语义兼容度的权重,s2为第二语义兼容度,a2为第二语义兼容度的权重,s3为第三语义兼容度,a3为第三语义兼容度的权重。可选地,权重a1、a2、a3可以预先设置。
应当说明,在本申请的实施例中,从第一语义兼容度、第二语义兼容度以及第三语义兼容度三个维度计算每个词语的语义兼容度,可以使语义兼容度更加准确地体现出每个词语与待处理语句中的其他词语、待处理语句中的核心词语以及前后词语之间在语义上的连贯程度。
在一些实施方式中,可选地,与语义兼容度的计算方法类似,可以如下三个维度计算每个词语的与语法兼容度。请参阅图7,其示出了本申请另一实施例提供的文本纠错方法的流程示意图。具体地,步骤S240可以包括如下步骤:
步骤S710:获取每个词语的词性与所述待处理语句中其余所有词语的词性之间的兼容度,作为第一语法兼容度。
在一些实施方式中,可以分别计算每个词语的词性与待处理语句中剩余的每个词语的词性间的词性兼容度,然后对同一个词语的所有词性兼容度求均值,得到该词语的第一语法兼容度。
步骤S720:确定所述待处理语句中满足预设条件的核心词语,获取每个词语的词性与每个所述核心词语的词性之间的兼容度,作为第二语法兼容度。
在一些实施方式中,核心词语的确定方式可以参考前述步骤S620。在另一些实施方式中,可以将待处理语句中第一语法兼容度大于第二阈值的词语作为核心词语。其中,语法兼容度越大,组成语句的各个词语的词性之间相容程度越高,因此,使用语法兼容度可筛选出待处理语句中对语句在语法的连贯程度上做出较大贡献的词语。
可选地,可以分别计算每个词语的词性与每个核心词语的词性间的词性兼容度,然后将同一个词语与所有核心词语的词性兼容度的均值作为该词语的第二语法兼容度。
步骤S730:获取每个词语的词性与该词语前后预设数量的词语的词性之间的兼容度,作为第三语法兼容度。
可以理解的是,一段表意完整、语法连贯的语句通常由主语、谓语和宾语组成,其中,主语及宾语的词性通常为名词,而谓语的词性通常为动词。因此,在一些实施方式中,为了使语法兼容度可以更加准确地表示出待处理语句各个语句在语法上连贯程度,可以计算每个词语的词性与该词语前后预设数量的词语的词性间的词性兼容度,然后对同一个词语与前后预设数量的词语的所有词性兼容度求均值,得到该词语的第三语法兼容度。可选地,预设数量可以预先设置,也可以根据待处理语句的词语数量而确定。示例性地,预设数量可以与待处理语句的词语数量呈正比。
步骤S740:基于每个词语的第一语法兼容度、第二语法兼容度以及第三语法兼容度确定每个词语的所述语法兼容度。
可选地,可以将每个词语的第一语法兼容度、第二语法兼容度以及第三语法兼容度之和作为每个词语的语法兼容度,也可以对每个词语的第一语法兼容度、第二语法兼容度以及第三语法兼容度进行加权求和,得到每个词语的语法兼容度。在进行加权求和时,语法兼容度g=b1*g1+b2*g2+b3*g3,其中,g1为第一语法兼容度,b1为第一语法兼容度的权重,g2为第二语法兼容度,b2为第二语法兼容度的权重,g3为第三语法兼容度,b3为第三语法兼容度的权重。可选地,权重b1、b2、b3可以预先设置。
应当说明,在本申请的实施例中,从第一语法兼容度、第二语法兼容度以及第三语法兼容度三个维度计算每个词语的语法兼容度,可以使语法兼容度更加准确地体现出每个词语与待处理语句中的其他词语、待处理语句中的核心词语以及前后词语之间在语法上的连贯程度。
在一些实施方式中,可选地,可以根据每个词语的语义兼容度确定待处理语句中的错误词,再根据语法兼容度确定每个错误词的错误类型,接着根据错误类型对待处理语句中的每个错误词进行纠错,得到纠错后的目标语句。请参阅图8,其示出了本申请再一实施例提供的文本纠错方法的流程示意图。具体地,步骤S250可以包括如下步骤:
步骤S810:基于所述语义兼容度确定所述待处理语句中的错误词。
在一些实施方式中,可以将待处理语句中语义兼容度小于语义阈值的词语确定为错误词。可以理解的是,待处理语句中可以同时存在一个或一个以上的错误词。
步骤S820:基于所述语法兼容度确定每个错误词对应的错误类型。
在一些实施方式中,可以将待处理语句中每个错误词的语法兼容度与语法阈值进行比较。可选地,可以将语法兼容度大于语法阈值的错误词对应的错误类型确定为第一类型。具体地,第二类型为替换类型,如果一个错误词的语法兼容度高于语法阈值,说明该错误词虽然在语义上与其他词语相互兼容的程度较低,但是在语法上与其他词语相互兼容的程度较高,因此可以根据该错误词的语义选择一个词语来替换该错误词。
可选地,可以将语法兼容度小于语法阈值的错误词对应的错误类型确定为第二类型。具体地,如果一个错误词的语法兼容度低于语法阈值,说明该错误词在语义及语法上与其他词语相互兼容的程度均较低,说明该错误词为多余的词语,需要将其删除,或者该错误词与待处理语句中的其他词语之间缺少了词语,可以根据该错误词的语义在该错误词之前或之后增加一个词语。可选地,第二类型可以默认设置为删除类型,然后将待处理语句中第二类型的错误词删除,若删除后得到新的待处理语句满足第三纠错条件,则将删除后得到新的待处理语句作为纠错后的目标语句;若删除后得到新的待处理语句不满足第三纠错条件,则将该错误词的错误类型确定为增加类型,接着按照增加类型的纠错方式对该错误词进行纠正。
步骤S830:根据所述错误类型对所述待处理语句中与所述错误类型对应的错误词进行纠错,得到纠错后的目标语句。
在一些实施方式中,可以将语法兼容度大于语法阈值的错误词对应的错误类型确定为第一类型。可选地,在对第一类型的错误词进行纠错时,可以首先根据第一类型的错误词对应的语义确定第一目标词语,紧接着,在待处理语句中,使用第一目标词语替换掉第一类型的错误词,得到纠错后的目标语句。
可选地,可以根据第一类型的错误词对应的语义从指定语料库中选出第一目标词语。具体地,当第一类型的错误词的语法兼容度大于第三阈值时,可以根据第一类型的错误词对应的语义确定与第一类型的错误词的词性相同的第一目标词语;当第一类型的错误词语法兼容度小于第三阈值时,可以根据第一类型的错误词对应的语义确定与第一类型的错误词的词性不同的第一目标词语。可以理解的是,第三阈值大于上述实施例中的语法阈值。
由此,在对错误类型为第一类型的错误词进行纠错时,可以根据错误词的语义得到用于纠错的目标词,再将待处理语句中的第一类型的错误词替换为目标词,可以使目标词的语义与目标语句内其他词语的语义更加兼容,从而使纠错后的目标语句内各个词语在语义上更加连贯。此外,当该错误词的语法兼容度大于第三阈值时选择词性相同的目标词,当该错误词的语法兼容度小于第三阈值时选择词性不同的目标词,可以使目标词的词性与目标语句内其他词语的词性更加兼容,使纠错后的目标语句内各个词语在语法上更加连贯。
可选地,在将待处理语句中替换类型的错误词替换为第一目标词语之前,可以根据待处理语句内每个词语的语义兼容度确定待处理语句的初始句子兼容度。具体地,可以将待处理语句内每个词语的语义兼容度之和或每个词语的语义兼容度的均值作为待处理语句的初始句子兼容度。接着,在将待处理语句中替换类型的错误词替换为第一目标词语之后,可以根据替换后的待处理语句中每个词语的语义兼容度确定替换后的待处理语句的中间句子兼容度,将中间句子兼容度大于初始句子兼容度的语句作为目标语句。若替换后的待处理语句的中间句子兼容度小于初始句子兼容度,将重复上述确定第一目标语句以及错误词替换的过程,直到替换后的待处理语句的中间句子兼容度大于初始句子兼容度,将中间句子兼容度大于初始句子兼容度的语句作为目标语句。
在一些实施方式中,进一步地,可以将语法兼容度小于语法阈值的错误词的错误类型确定为第二类型。在一些实施例中,在对第二类型的错误词进行纠错时,可以将第二类型的错误词作为目标词,然后从待处理语句中删除该目标词,将删除目标词后的语句作为纠错后的目标语句。在本实施例中,若待处理语句中某个错误词的语义兼容度小于语义阈值,同时语法兼容度小于语法阈值,表示该错误词同时在语义和语法上与待处理语句中的其他词语都不兼容,说明该错误词为多余的词语,可以将该错误词删除,删除了该错误词后目标语句能够更加连贯。
在另一些实施例中,在对第二类型的错误词进行纠错时,可以将第二类型设置为删除类型,然后将待处理语句中第二类型的错误词删除,若删除后得到新的待处理语句满足第三纠错条件,则将删除后得到新的待处理语句作为纠错后的目标语句;若删除后得到新的待处理语句不满足第三纠错条件,则将该错误词的错误类型确定为增加类型,接着按照增加类型的纠错方式对该错误词进行纠正。
应当说明,在本申请实施例根据语义兼容度确定错误词可以从待处理语句中定位出在语义上不兼容其他词语的错误词,可以提高错误词识别的精准度。此外,本申请也可以根据语法兼容度对错误词的错误原因进行分类识别,得到错误词对应的错误类型,可以实现根据不同的错误类型对该错误类型对应的错误词进行纠错,提高纠错后的目标语句在语义和语法上的连贯性。
请参阅图9,其示出了本申请又一实施例提供的文本纠错方法的语句增加的处理流程示意图。具体地,步骤S830可以包括如下步骤:
步骤S910:错误类型包括第二类型,第二类型的错误词的语法兼容度小于或等于语法阈值,从待处理语句中删除目标词,得到第一中间语句,目标词为第二类型的错误词。
在一些实施方式中,可以将第二类型的错误词确定为目标词。可以理解的是,第二类型的错误词的语法兼容度小于或等于语法阈值。可选地,第二类型可以默认设置为删除类型,然后从待处理语句中删除目标词,得到第一中间语句。
步骤S920:根据所述待处理语句内每个词语的语义兼容度确定所述待处理语句的句子兼容度,得到初始句子兼容度。
可选地,可以将待处理语句内每个词语的语义兼容度之和作为待处理语句的初始句子兼容度。可选地,可以将待处理语句内每个词语的语义兼容度的均值作为待处理语句的初始句子兼容度
步骤S930:根据所述第一中间语句内每个词语的语义兼容度确定所述第一中间语句的句子兼容度,得到第一句子兼容度。
可选地,可以将第一中间语句内每个词语的语义兼容度之和作为第一中间语句的第一句子兼容度。可选地,可以将第一中间语句内每个词语的语义兼容度的均值作为第一中间语句的第一句子兼容度。
步骤S940:确定第一句子兼容度小于还是大于初始句子兼容度。若大于,执行步骤S950;若小于,执行步骤S960。
步骤S950:将第一中间语句作为纠错后的目标语句。
需要说明的是,由于语义兼容度越大,组成语句的各个词语的义素之间相容程度越高,同理可以得到,若句子兼容度越大,同样可以表示组成语句的各个词语的义素之间相容程度越高。因此,在对待处理语句中的错误词进行纠错后,句子兼容度应该得以提升,即是说,纠错后得到的语句的句子兼容度大于待处理语句的初始句子兼容度才能表示纠错成功。因此,在从待处理语句中删除目标词得到第一中间语句后,可以确定的第一中间语句的第一句子兼容度小于还是大于初始句子兼容度。若大于,则表示纠错成功,可以将第一中间语句作为纠错后的目标语句;若小于,表示纠错后句子兼容度下降,纠错失败,执行步骤S960。
步骤S960:根据所述目标词对应的语义确定第一待选词、第二待选词,所述第一待选词、第二待选词均与所述目标词的语义相匹配。
在一些实施方式中,若从待处理语句中删除目标词后,句子兼容度下降了,则表示采用删除的方式进行纠错失败了,因此,将该错误词的错误类型确定为增加类型,接着按照增加类型的纠错方式对该错误词进行纠正。
在本实施例中,可以根据目标词对应的语义确定第一待选词以及第二待选词,第一待选词与第二待选词可以为相同的词语,也可以不相同的词语,本申请对此不作限制。需要说明的是,第一待选词、第二待选词均与目标词的语义相匹配。
可选地,根据目标词对应的语义从指定语料库中选出第一待选词以及第二待选词。在一些实施方式中,可以根据指定语料库中每个样本词语的义素与目标词的义素,分别计算每个样本词语与目标词之间的语义兼容度,从中选出语义兼容度最大的两个词语分别作为第一待选词、第二待选词。
可选地,当语法兼容度大于第四阈值时,可以根据目标词对应的语义确定与目标词的词性相同的第一待选词以及第二待选词;当语法兼容度小于第四阈值时,则可以根据目标词对应的语义确定与目标词的词性不同的第一待选词以及第二待选词。可以理解的是,第四阈值小于上述实施例中的语法阈值。
步骤S970:在所述待处理语句中,在所述目标词前增加所述第一待选词,得到第二中间语句,根据所述第二中间语句内每个词语的语义兼容度确定所述第二中间语句的句子兼容度,得到第二句子兼容度。
接着,在待处理语句中,在目标词之前增加第一待选词,得到第二中间语句。可选地,可以将第二中间语句内每个词语的语义兼容度之和作为第二中间语句的第二句子兼容度。可选地,可以将第二中间语句内每个词语的语义兼容度的均值作为第二中间语句的第二句子兼容度
步骤S980:在所述待处理语句中,在所述目标词后增加所述第二待选词,得到第三中间语句,根据所述第三中间语句内每个词语的语义兼容度确定所述第三中间语句的句子兼容度,得到第三句子兼容度。
接着,在待处理语句中,在目标词之后增加第一待选词,得到第三中间语句。可选地,可以将第三中间语句内每个词语的语义兼容度之和作为第三中间语句的第三句子兼容度。可选地,可以将第三中间语句内每个词语的语义兼容度的均值作为第三中间语句的第三句子兼容度。
步骤S990:确定第二句子兼容度大于还是小于第三句子兼容度。若大于,执行步骤S991;若小于,执行步骤S992。
步骤S991:将第二中间语句作为纠错后的目标语句。
步骤S992:将第三中间语句作为纠错后的目标语句。
在本实施例中,分别在目标词的前后增加词语得到两个中间语句后,将句子兼容度较高的那一个中间语句作为纠错后的目标语句。即,比较第二句子兼容度与第三句子兼容度的大小,若第二句子兼容度大于第三句子兼容度,则将第二中间语句作为纠错后的目标语句;若第二句子兼容度小于第三句子兼容度,则将第三中间语句作为纠错后的目标语句。
应当说明,本申请可以根据每个词语的语义兼容度确定待处理语句中的错误词,还可以根据每个错误词的语法兼容度确定每个错误词的错误类型,最后再根据错误类型对待处理语句中的错误词进行纠错,得到纠错后的目标语句。其中,不管错误类型是替换、删除还是增加,在采用上述实施例中的方式对待处理语句进行纠错后,均可以提高语句的句子兼容度,达到提高组成语句的各个词语的义素之间相容程度的目的,从而在纠错后可以得到表意更加准确、语法更加连贯的语句。
在一些具体的实施方式中,一个词语可以包括多个义素,而每个义素可以使用义素向量的方式来表示,因此,每个词语的义素则可以使用多维义素向量表示,其中,多维义素向量的维度与该词语的义素个数相一致。可选地,可以基于每个词语的多维义素向量确定每个词语在待处理语句内的语义兼容度。请参阅图10,其示出了本申请一实施例提供的纠错系统的处理流程示意图。
具体地,可以将待检测的文本数据作为待处理语句输入到图10所示的纠错系统中。其中,在纠错系统中,可以采用上述任一实施例所示的方法对待检测的文本数据进行纠错。
在一些典型的实施例中,可以通过Word2vect的方式对待检测的文本数据中的每个词语进行词嵌入(word/character embedding)处理,得到每个词语的词向量。接着,通过预先构建的义素向量库获取到每个词语的义素向量。
在一些实施方式中,义素向量库的构建方式如下:首先获取已标注语料,已标注语料中包括多个句子对,每个句子对包括正确语句、将正确语句中的一个或多个第一目标词替换为第一特定词后的可接受度大于第一接受阈值的语句、将正确语句中的一个或多个第二目标词替换为第二特定词后的可接受度大于第二接受阈值的语句,以及将正确语句中的一个或多个第三目标词替换为第三特定词后的可接受度小于第二接受阈值的语句。其中,可接受度由母语者确定的每个语句在语法、语义维度连贯的程度。已标注语料中每个句子对的标注信息包括:句子整体可接受度(0-5)、与句中其他词不兼容的词&与该词不兼容的其他词的数量&兼容度(1-5)、替换词与被替换词的词性是否相同(或者词性距离0-5)。通过已标注数据生成义素向量步骤如下:(1)对通过随机生成n维向量的方式,给已标注数据内句子对中的词语分别增加或减少义素,并且对增加或减少的义素生成一个义素向量;(2)通过对句子中的词语进行替换的方式,对义素向量进行纠偏,将所有的义素与对应的义素向量存储于义素向量库中。
在本申请的实施例中,如图11所示,可以使用含多头机制的transformer结构进行positional embedding,从而得到每个词语的位置编码信息。接着,将每个词语的词向量与每个词语的位置编码信息进行矩阵运算,获得带有位置信息的词向量。紧接着,可以将带有位置信息的词向量输入transformer的编码层,在多头机制中的每一层进行attention计算之后,可以对每个词语得到新的词编码信息,然后对每个词(例:词语1),与词库中所有词在本次attention之后产生的词编码信息逐个进行匹配,匹配到的向量作为该词语的义素向量,义素向量按照词语内义素的排列顺序从左往右排列,从而可以得到每个词语的义素向量。可以理解的是,此时,每个词语的义素向量为多维义素向量,多维义素向量的维度与该词语的义素个数相一致。
可选地,可以将当前词语(如词语1)的义素向量与其他词语的义素向量进行点乘,得到当前词语的第一语义兼容度;将当前词语与前后n个词语的义素向量进行点乘,得到当前词语的第二语义兼容度;将当前词语与m个核心词语的义素向量进行点乘,得到当前词语的第三语义兼容度。进一步地,可以对第一语义兼容度、第二语义兼容度及第三语义兼容度进行加权计算,得到当前词语的语义兼容度。根据上述方式可以对待检测的文本数据中的每个词语进行计算,得到每个词语的语义兼容度。
可选地,可以将语义兼容度小于语义阈值的词语判定为错误词。在确定了错误词的同时,为了方便纠错,还可以确定每个错误词的起止索引。可选地,可以根据每个错误词在待检测的文本数据内所处的位置确定每个错误词的起止索引。例如,若待检测的文本数据中包括词语1、词语2、词语3以及词语4(按照语句顺序排列),确定词语3为错误词,则该错误词的起止索引可以为3,可以表示该错误词为待检测的文本数据中的第3个词语。
可选地,还可以根据语法兼容度确定每个错误词的错误类型,具体方式可以参考前述实施例中对应步骤的内容,本申请实施例在此不做赘述。紧接着,可以根据每个错误词的错误类型对待检测的文本数据中的错误词进行纠正。示例性地,当待检测的文本数据中可能同时存在两个或两个以上的错误词,则可以按照错误类型分别对每个错误词进行纠错,可以得到对每一个错误词进行纠错后的修正语句。进一步地,可以根据修正语句对待检测的文本数据进行修正,得到目标语句。例如,按照错误词1的错误类型对错误词1修正得到修正语句1,按照错误词2的错误类型对错误词2修正得到修正语句2,按照错误词3的错误类型对错误词3修正得到修正语句3,接着根据修正语句1、修正语句2以及修正语句3对待检测的文本数据进行修正后得到目标语句。
可选地,在每一个错误词的的修正语句中可以包括每个错误词的纠错方式、位置以及纠正内容。待每个错误词均确定修正语句后,统一在当待检测的文本数据中将按照修正语句中内的纠错方式、位置以及纠正内容对每个错误词进行纠错,得到纠错后的目标语句,最终输出目标语句。
在按照错误类型分别对每个错误词进行纠错,得到每一个错误词的修正语句时,采用在待检测的文本数据上增加对应的错误槽位(或称错误标记)。其中,每个错误槽位对应一个错误类型,即是说,可以对每个错误词增加三个错误槽位,分别是替换槽位、删除槽位、增加槽位。然后,根据前述步骤中确定的错误类型,对每个错误词的替换槽位、删除槽位、增加槽位进行标记,例如,对应错误类型为替换类型的错误词,将替换槽位标记为1,其他槽位标记为0。进一步地,根据三个错误槽位中标记的内容生成多条修正路径,每个修正路径对应一个错误槽位,也就是说,每条修正路径对应一个错误类型,在该修正路径中将采用对应的错误类型的纠错方式对错误词进行纠错,进一步得到纠错后的修正语句。
在一些典型的方式中,可以基于bert模型实现本申请实施例中的含多头机制的transformer结构。在本实施例中,通过在bert模型内的transformer结构中,逐层计算义素向量,最终将多头计算后得到的每个词语的义素向量进行加权计算,得到每个词语的语义兼容度,从而实现了对bert模型的优化,可以将bert模型输入的词向量由此前的词向量扩充为词向量和义素向量,在bert模型的输出参数中增加语义兼容度。
应当说明的是,本申请通过多个维度的义素向量(即多维义素向量)来表示每个词语义素,可以从更小粒度下实现了对词语进行内部的语义解释。再通过多维义素向量来表示表示组成语句的各个词语的义素之间相容程度,则可以更加精准地定位出语句中语义表达不准确的错误词,进而更加精准地实现文本纠错。
请参阅图12,示出了本申请一实施例提供的文本纠错装置的模块框图。具体地,该文本纠错装置可以包括:义素获取单元1210、义素处理单元1220、词性获取单元1230、词性处理单元1240以及纠错单元1250。
其中,义素获取单元1210用于获取待处理语句中每个词语的义素;义素处理单元1220用于根据每个词语的义素获取每个词语在所述待处理语句内的兼容度,作为语义兼容度;词性获取单元1230用于获取所述待处理语句中每个词语的词性;词性处理单元1240用于基于每个词语的词性获取每个词语在所述待处理语句内的兼容度,作为语法兼容度;纠错单元1250用于基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
在一些实施方式中,上述义素处理单元1220可以包括:第一义素处理单元,用于根据每个词语的义素获取该词语的义素与所述待处理语句中其余所有词语的义素之间的兼容度,作为第一语义兼容度;第二义素处理单元,用于确定所述待处理语句中满足预设条件的核心词语,根据每个词语的义素获取该词语的义素与每个所述核心词语的义素之间的兼容度,作为第二语义兼容度;第三义素处理单元,用于根据每个词语的义素获取该词语的义素与该词语前后预设数量的词语的义素之间的兼容度,作为第三语义兼容度;语义兼容度确定单元,用于基于所述每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度确定每个词语的所述语义兼容度。
可选地,在上述实施例中的基础上,上述语义兼容度确定单元可以包括:语义兼容度确定子单元,用于对第一语义兼容度、第二语义兼容度以及第三语义兼容度进行加权求和,得到每个词语的语义兼容度。
在一些实施方式中,上述词性处理单元1240可以包括:第一语法确定单元,用于获取每个词语的词性与所述待处理语句中其余所有词语的词性之间的兼容度,作为第一语法兼容度;第二语法确定单元,用于确定所述待处理语句中满足预设条件的核心词语,获取每个词语的词性与每个所述核心词语的词性之间的兼容度,作为第二语法兼容度;第三语法确定单元,用于获取每个词语的词性与该词语前后预设数量的词语的词性之间的兼容度,作为第三语法兼容度;语法兼容度确定单元,用于基于每个词语的第一语法兼容度、第二语法兼容度以及第三语法兼容度确定每个词语的所述语法兼容度。
可选地,在上述实施例中的基础上,上述语法兼容度确定单元可以包括:语法兼容度确定子单元,用于对第一语法兼容度、第二语法兼容度以及第三语法兼容度进行加权求和,得到每个词语的语法兼容度。
在一些实施方式中,上述纠错单元1250可以包括:错误词确定单元,用于基于所述语义兼容度确定所述待处理语句中的错误词;错误类型确定单元,用于基于所述语法兼容度确定每个错误词对应的错误类型;纠错子单元,用于根据所述错误类型对所述待处理语句中与所述错误类型对应的错误词进行纠错,得到纠错后的目标语句。
进一步地,上述错误词确定单元可以包括:错误词确定子单元,用于将所述待处理语句中语义兼容度小于语义阈值的词语确定为错误词。
可选地,上述错误类型包括第一类型,所述第一类型的错误词的语法兼容度大于语法阈值,上述纠错子单元可以包括:第一词语确定单元,用于根据所述第一类型的错误词对应的语义确定第一目标词语;替换单元,用于在所述待处理语句中,使用所述第一目标词语替换所述第一类型的错误词,得到纠错后的目标语句。
在一些实施方式中,上述错误类型包括第二类型,所述第二类型的错误词的语法兼容度小于或等于语法阈值,上述纠错子单元可以包括:第一删除单元,用于从所述待处理语句中删除目标词,得到所述纠错后的目标语句,所述目标词为第二类型的错误词。
在另一些实施方式中,上述错误类型包括第二类型,所述第二类型的错误词的语法兼容度小于或等于语法阈值,上述纠错子单元可以包括:第二删除单元,用于从所述待处理语句中删除目标词,得到第一中间语句,所述目标词为第二类型的错误词;初始句子兼容度确定单元,用于根据所述待处理语句内每个词语的语义兼容度确定所述待处理语句的句子兼容度,得到初始句子兼容度;第一句子兼容度确定单元,用于根据所述第一中间语句内每个词语的语义兼容度确定所述第一中间语句的句子兼容度,得到第一句子兼容度;第一比较单元,用于若所述第一句子兼容度小于所述初始句子兼容度,将所述第一中间语句作为所述纠错后的目标语句。
进一步地,上述纠错子单元还可以包括:第二词语确定单元,用于若所述第一句子兼容度大于所述初始句子兼容度,根据所述目标词对应的语义确定第一待选词、第二待选词,所述第一待选词、第二待选词均与所述目标词的语义相匹配;第二句子兼容度确定单元,用于在所述待处理语句中,在所述目标词前增加所述第一待选词,得到第二中间语句,根据所述第二中间语句内每个词语的语义兼容度确定所述第二中间语句的句子兼容度,得到第二句子兼容度;
第二句子兼容度确定单元,用于在所述待处理语句中,在所述目标词后增加所述第二待选词,得到第三中间语句,根据所述第三中间语句内每个词语的语义兼容度确定所述第三中间语句的句子兼容度,得到第三句子兼容度;第二比较单元,用于若所述第二句子兼容度大于所述第三句子兼容度,将所述第二中间语句作为所述纠错后的目标语句;第三比较单元,用于若所述第二句子兼容度小于所述第三句子兼容度,将所述第三中间语句作为所述纠错后的目标语句。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置中模块/单元/子单元/组件的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图13,其示出了本申请一实施例提供的电子设备的结构框图。本实施例中的所述电子设备可以包括一个或多个如下部件:处理器1310、存储器1320以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1320中并被配置为由一个或多个处理器1310执行,一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。
其中,电子设备可以为移动、便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的,电子设备可以为移动电话或智能电话(例如,基于iPhone TM,基于Android TM的电话)、便携式游戏设备(例如Nintendo DS TM,PlayStation PortableTM,Gameboy Advance TM,iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备,其他手持设备以及诸如智能手表、智能手环、耳机、吊坠等,电子设备还可以为其他的可穿戴设备(例如,诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或头戴式设备(HMD))。
电子设备还可以是多个电子设备中的任何一个,多个电子设备包括但不限于蜂窝电话、智能电话、智能手表、智能手环、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器,便携式医疗设备以及数码相机及其组合。
在一些情况下,电子设备可以执行多种功能(例如,播放音乐,显示视频,存储图片以及接收和发送电话呼叫)。如果需要,电子设备可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备。
可选地,电子设备也可以是服务器,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,还可以是提供人脸识别、自动驾驶、工业互联网服务、数据通信(如4G、5G等)等专门或平台服务器。
处理器1310可以包括一个或者多个处理核。处理器1310利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器1320内的指令、应用程序、代码集或指令集,以及调用存储在存储器1320内的数据,执行电子设备的各种功能和处理数据。可选地,处理器1310可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器1310可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1310中,单独通过一块通信芯片进行实现。
存储器1320可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1320可用于存储指令、应用程序、代码、代码集或指令集。存储器1320可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的处理器1310、存储器1320的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参考图14,其示出了本申请一实施例提供的计算机可读存储介质的结构框图。该计算机可读存储介质1400中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1400包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1400具有执行上述方法中的任何方法步骤的程序代码1410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1410可以例如以适当形式进行压缩。其中,计算机可读存储介质1400可以是如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、SSD、带电可擦可编程只读存储器(Electrically ErasableProgrammable read only memory,简称EEPROM)或快闪存储器(Flash Memory,简称Flash)等。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本申请提供的文本纠错方法、装置、电子设备及存储介质,在对待处理语句进行纠错时,可以根据待处理语句中每个词语的义素确定每个词语在待处理语句内的语义兼容度,再根据待处理语句中每个词语的词性确定每个词语在待处理语句内的语法兼容度,然后根据语义兼容度和语法兼容度对待处理语句进行纠错,得到纠错后的目标语句。本申请可以在纠错时通过义素来确定语句中各个词语在语义上相互兼容的程度,得到语义兼容度,通过词性来确定语句中各个词语在语法上相互兼容的程度,得到语法兼容度。本申请通过语义兼容度和语法兼容度可以衡量每个词语在待处理语句中是否能够表达出准确的意义以及在语法上是否连贯,因此可以更加精准地定位出语句中表意不准确或语法不连贯的错误词,进而更加精准地实现文本纠错。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、SSD、Flash)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
Claims (14)
1.一种文本纠错方法,其特征在于,所述方法包括:
获取待处理语句中每个词语的义素;
根据每个词语的义素获取每个词语在所述待处理语句内的兼容度,作为语义兼容度;
获取所述待处理语句中每个词语的词性;
基于每个词语的词性获取每个词语在所述待处理语句内的兼容度,作为语法兼容度;
基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
2.根据权利要求1所述的方法,其特征在于,所述根据每个词语的义素获取每个词语在所述待处理语句内的兼容度,作为语义兼容度,包括:
根据每个词语的义素获取该词语的义素与所述待处理语句中其余所有词语的义素之间的兼容度,作为第一语义兼容度;
确定所述待处理语句中满足预设条件的核心词语,根据每个词语的义素获取该词语的义素与每个所述核心词语的义素之间的兼容度,作为第二语义兼容度;
根据每个词语的义素获取该词语的义素与该词语前后预设数量的词语的义素之间的兼容度,作为第三语义兼容度;
基于所述每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度确定每个词语的所述语义兼容度。
3.根据权利要求2所述的方法,其特征在于,所述基于每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度确定每个词语的所述语义兼容度,包括:
对第一语义兼容度、第二语义兼容度以及第三语义兼容度进行加权求和,得到每个词语的语义兼容度。
4.根据权利要求1所述的方法,其特征在于,所述基于每个词语的词性获取每个词语在所述待处理语句内的兼容度,作为语法兼容度,包括:
获取每个词语的词性与所述待处理语句中其余所有词语的词性之间的兼容度,作为第一语法兼容度;
确定所述待处理语句中满足预设条件的核心词语,获取每个词语的词性与每个所述核心词语的词性之间的兼容度,作为第二语法兼容度;
获取每个词语的词性与该词语前后预设数量的词语的词性之间的兼容度,作为第三语法兼容度;
基于每个词语的第一语法兼容度、第二语法兼容度以及第三语法兼容度确定每个词语的所述语法兼容度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句,包括:
基于所述语义兼容度确定所述待处理语句中的错误词;
基于所述语法兼容度确定每个错误词对应的错误类型;
根据所述错误类型对所述待处理语句中与所述错误类型对应的错误词进行纠错,得到纠错后的目标语句。
6.根据权利要求5所述的方法,其特征在于,所述基于所述语义兼容度确定所述待处理语句中的错误词,包括:
将所述待处理语句中语义兼容度小于语义阈值的词语确定为错误词。
7.根据权利要求5所述的方法,其特征在于,所述错误类型包括第一类型,所述第一类型的错误词的语法兼容度大于语法阈值,所述根据所述错误类型对所述待处理语句中与所述错误类型对应的错误词进行纠错,得到纠错后的目标语句,包括:
根据所述第一类型的错误词对应的语义确定第一目标词语;
在所述待处理语句中,使用所述第一目标词语替换所述第一类型的错误词,得到纠错后的目标语句。
8.根据权利要求5所述的方法,其特征在于,所述错误类型包括第二类型,所述第二类型的错误词的语法兼容度小于或等于语法阈值,所述根据所述错误类型对所述待处理语句中与所述错误类型对应的错误词进行纠错,得到纠错后的目标语句,包括:
从所述待处理语句中删除目标词,得到所述纠错后的目标语句,所述目标词为第二类型的错误词。
9.根据权利要求5所述的方法,其特征在于,所述错误类型包括第二类型,所述第二类型的错误词的语法兼容度小于或等于语法阈值,所述根据所述错误类型对所述待处理语句中所述错误类型对应的错误词进行纠错,得到纠错后的目标语句,包括:
从所述待处理语句中删除目标词,得到第一中间语句,所述目标词为第二类型的错误词;
根据所述待处理语句内每个词语的语义兼容度确定所述待处理语句的句子兼容度,得到初始句子兼容度;
根据所述第一中间语句内每个词语的语义兼容度确定所述第一中间语句的句子兼容度,得到第一句子兼容度;
若所述第一句子兼容度小于所述初始句子兼容度,将所述第一中间语句作为所述纠错后的目标语句。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若所述第一句子兼容度大于所述初始句子兼容度,根据所述目标词对应的语义确定第一待选词、第二待选词,所述第一待选词、第二待选词均与所述目标词的语义相匹配;
在所述待处理语句中,在所述目标词前增加所述第一待选词,得到第二中间语句,根据所述第二中间语句内每个词语的语义兼容度确定所述第二中间语句的句子兼容度,得到第二句子兼容度;
在所述待处理语句中,在所述目标词后增加所述第二待选词,得到第三中间语句,根据所述第三中间语句内每个词语的语义兼容度确定所述第三中间语句的句子兼容度,得到第三句子兼容度;
若所述第二句子兼容度大于所述第三句子兼容度,将所述第二中间语句作为所述纠错后的目标语句;
若所述第二句子兼容度小于所述第三句子兼容度,将所述第三中间语句作为所述纠错后的目标语句。
11.一种文本纠错装置,其特征在于,所述方法包括:
义素获取单元,用于获取待处理语句中每个词语的义素;
义素处理单元,用于根据每个词语的义素获取每个词语在所述待处理语句内的语义兼容度;
词性获取单元,用于获取所述待处理语句中每个词语的词性;
词性处理单元,用于基于每个词语的词性获取每个词语在所述待处理语句内的语法兼容度;
纠错单元,用于基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至10任一项所述的方法。
14.一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机实现如权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119165.5A CN114611524B (zh) | 2022-02-08 | 2022-02-08 | 文本纠错方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119165.5A CN114611524B (zh) | 2022-02-08 | 2022-02-08 | 文本纠错方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114611524A true CN114611524A (zh) | 2022-06-10 |
CN114611524B CN114611524B (zh) | 2023-11-17 |
Family
ID=81860093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210119165.5A Active CN114611524B (zh) | 2022-02-08 | 2022-02-08 | 文本纠错方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611524B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5136503A (en) * | 1988-12-20 | 1992-08-04 | Kabushiki Kaisha Csk | Machine translation system |
US20060277525A1 (en) * | 2005-06-06 | 2006-12-07 | Microsoft Corporation | Lexical, grammatical, and semantic inference mechanisms |
WO2010018453A2 (en) * | 2008-08-15 | 2010-02-18 | University Of Cape Town | System and method for processing electronically generated text |
CN102694767A (zh) * | 2011-03-21 | 2012-09-26 | 国基电子(上海)有限公司 | 支持协议间网络电话互通的通信终端及方法 |
CN105869642A (zh) * | 2016-03-25 | 2016-08-17 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
US20170075877A1 (en) * | 2015-09-16 | 2017-03-16 | Marie-Therese LEPELTIER | Methods and systems of handling patent claims |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
WO2018101506A1 (ko) * | 2016-11-30 | 2018-06-07 | 주식회사 와이즈넛 | 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 |
CN110929514A (zh) * | 2019-11-20 | 2020-03-27 | 北京百分点信息科技有限公司 | 文本校对方法、装置、计算机可读存储介质及电子设备 |
CN111324214A (zh) * | 2018-12-17 | 2020-06-23 | 北京搜狗科技发展有限公司 | 一种语句纠错方法和装置 |
US20200298401A1 (en) * | 2019-01-03 | 2020-09-24 | Lucomm technologies, Inc | Semantic Robotic System |
CN111832308A (zh) * | 2020-07-17 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 语音识别文本连贯性处理方法和装置 |
WO2021063524A1 (en) * | 2019-10-04 | 2021-04-08 | Omilia Natural Language Solutions Ltd. | Unsupervised induction of user intents from conversational customer service corpora |
CN112800247A (zh) * | 2021-04-09 | 2021-05-14 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信系统 |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN113268996A (zh) * | 2021-06-02 | 2021-08-17 | 网易有道信息技术(北京)有限公司 | 用于扩充语料的方法和用于翻译模型的训练方法及产品 |
CN113361266A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 文本纠错方法、电子设备及存储介质 |
CN113435186A (zh) * | 2021-06-18 | 2021-09-24 | 上海熙瑾信息技术有限公司 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
CN113705195A (zh) * | 2021-07-19 | 2021-11-26 | 永中软件股份有限公司 | 语句连贯性检查方法 |
-
2022
- 2022-02-08 CN CN202210119165.5A patent/CN114611524B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5136503A (en) * | 1988-12-20 | 1992-08-04 | Kabushiki Kaisha Csk | Machine translation system |
US20060277525A1 (en) * | 2005-06-06 | 2006-12-07 | Microsoft Corporation | Lexical, grammatical, and semantic inference mechanisms |
WO2010018453A2 (en) * | 2008-08-15 | 2010-02-18 | University Of Cape Town | System and method for processing electronically generated text |
CN102694767A (zh) * | 2011-03-21 | 2012-09-26 | 国基电子(上海)有限公司 | 支持协议间网络电话互通的通信终端及方法 |
US20170075877A1 (en) * | 2015-09-16 | 2017-03-16 | Marie-Therese LEPELTIER | Methods and systems of handling patent claims |
CN105869642A (zh) * | 2016-03-25 | 2016-08-17 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
WO2018101506A1 (ko) * | 2016-11-30 | 2018-06-07 | 주식회사 와이즈넛 | 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
CN111324214A (zh) * | 2018-12-17 | 2020-06-23 | 北京搜狗科技发展有限公司 | 一种语句纠错方法和装置 |
US20200298401A1 (en) * | 2019-01-03 | 2020-09-24 | Lucomm technologies, Inc | Semantic Robotic System |
WO2021063524A1 (en) * | 2019-10-04 | 2021-04-08 | Omilia Natural Language Solutions Ltd. | Unsupervised induction of user intents from conversational customer service corpora |
CN110929514A (zh) * | 2019-11-20 | 2020-03-27 | 北京百分点信息科技有限公司 | 文本校对方法、装置、计算机可读存储介质及电子设备 |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN111832308A (zh) * | 2020-07-17 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 语音识别文本连贯性处理方法和装置 |
CN112800247A (zh) * | 2021-04-09 | 2021-05-14 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信系统 |
CN113268996A (zh) * | 2021-06-02 | 2021-08-17 | 网易有道信息技术(北京)有限公司 | 用于扩充语料的方法和用于翻译模型的训练方法及产品 |
CN113435186A (zh) * | 2021-06-18 | 2021-09-24 | 上海熙瑾信息技术有限公司 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
CN113361266A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 文本纠错方法、电子设备及存储介质 |
CN113705195A (zh) * | 2021-07-19 | 2021-11-26 | 永中软件股份有限公司 | 语句连贯性检查方法 |
Non-Patent Citations (3)
Title |
---|
任柏青;: "基于深度学习的智能中文文本检校方法", 现代电信科技, no. 04, pages 59 - 62 * |
方菁;郭继荣;: "系统聚类在英语外交新闻计量文体特征中的应用", 情报杂志, no. 03, pages 175 - 181 * |
梁镛: "试论词义术语化流程中的转换机制及语义特征", 同济大学学报(自然科学版), no. 03, pages 56 - 65 * |
Also Published As
Publication number | Publication date |
---|---|
CN114611524B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10592607B2 (en) | Iterative alternating neural attention for machine reading | |
US11216510B2 (en) | Processing an incomplete message with a neural network to generate suggested messages | |
CN109858045B (zh) | 机器翻译方法和装置 | |
CN108304480B (zh) | 一种文本相似度确定方法、装置及设备 | |
CN108804427B (zh) | 语音机器翻译方法及装置 | |
CN109271641A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN113516961B (zh) | 一种音符生成方法、相关设备、存储介质及程序产品 | |
CN111488742B (zh) | 用于翻译的方法和装置 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN114154487A (zh) | 文本自动纠错方法、装置、电子设备及存储介质 | |
CN109582823A (zh) | 视频信息链式存储方法、装置、计算机设备及存储介质 | |
WO2020156342A1 (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN114706945A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
WO2022022049A1 (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN112581297A (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN111966894A (zh) | 信息查询方法、装置、存储介质及电子设备 | |
CN114611524B (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN115879480A (zh) | 语义约束机器翻译方法、装置、电子设备及存储介质 | |
CN111090769A (zh) | 一种歌曲推荐的方法、装置、设备和计算机存储介质 | |
CN112101023B (zh) | 文本处理方法、装置以及电子设备 | |
CN112016281B (zh) | 错误医疗文本的生成方法、装置及存储介质 | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN111259180A (zh) | 图像推送方法、装置、电子设备和存储介质 | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |