CN112528663A - 一种电网领域调度场景下的文本纠错方法及系统 - Google Patents
一种电网领域调度场景下的文本纠错方法及系统 Download PDFInfo
- Publication number
- CN112528663A CN112528663A CN202011509488.2A CN202011509488A CN112528663A CN 112528663 A CN112528663 A CN 112528663A CN 202011509488 A CN202011509488 A CN 202011509488A CN 112528663 A CN112528663 A CN 112528663A
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- probability
- candidate
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 59
- 230000001172 regenerating effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000036651 mood Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 101100117236 Drosophila melanogaster speck gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明公开了一种电网领域调度场景下的文本纠错方法及系统,方法包括:对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;将命名实体集合与知识库做实体链接确定实体的真实信息;用命名实体识别集合对分词集合进行词边界修正以更新分词集合;对分词集合中各词添加拼音特征生成新的分词集合;将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;根据可疑错别字的拼音从拼音字典中获得此词的候选集;将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。本发明结合概率模型来定位可疑错别字,可提高文本纠错的效率。
Description
技术领域
本发明属于电网调度技术领域,具体涉及一种电网领域调度场景下的文本纠错方法,还涉及一种电网领域调度场景下的文本纠错系统。
背景技术
在调度场景,有大量的工作需要通过电话等语音方式沟通询问或者下达工作指令,现在相关工作面临智能化推荐的问题,而其中最为重要的环节之一就是语音翻译,而调度及其现场工作人员,分布在全国各个地方,地方方言和工作人员自身声带音调问题,给语音翻译工作带了极大的困扰,甚至难以克服,且调度场景下的领域内用语较为复杂,但是对精度的要求非常高。
中文文本纠错任务,常见错误类型包括:谐音字词、混淆音字词、字词顺序颠倒、字词补全、形似字错误、中文拼音全拼、中文拼音缩写和语法错误。目前来看,纠错算法分为两个方向:基于规则、深度模型;
中文纠错分为两步走,第一步是错误检测,第二步是错误纠正。错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集。错误纠正部分,是遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。
目前市面上,百度腾讯京东都有相关文本纠错产品,但是由于电网领域尤其特别,如果不针对性调整,很难达到其效果,如还有部分开源产品,中文单词自动纠错Cn_Speck_Checker和Autochecker&autocorrecter for chinese等,目前相关算法在各种自测数据集中表现效果尚且一般,用在调度领域更是难以作为。
面对以上矛盾,特提出该应用型发明,用来在调度场景下全方位的提高语音翻译的精度。
发明内容
本发明的目的在于克服现有技术中的不足,提供了一种电网领域调度场景下的文本纠错方法,结合概率模型来定位可疑错别字,可提高文本纠错的效率。
为解决上述技术问题,本发明提供了一种电网领域调度场景下的文本纠错方法,其特征是,包括以下过程:
对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;
将命名实体集合与知识库做实体链接确定实体的真实信息;
用命名实体识别集合对分词集合进行词边界修正以更新分词集合;
对分词集合中各词添加拼音特征生成新的分词集合;
将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;
根据可疑错别字的拼音从拼音字典中获得此词的候选集;
将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。
进一步的,所述对文本中句子处理前还包括:删除语气词重复词。
进一步的,所述从List集合中提取设备类实体组成实体类集合,包括:
遍历List集合后,复制设备类实体,并记录词位置,到一个List集合中组成实体类集合。
进一步的,所述将命名实体集合与知识库做实体链接,确定实体的真实信息,包括:
从命名实体集合中提取设备类实体组成实体类集合;遍历实体类集合中各设备类实体,将各设备类实体与知识库中同类型的实体做文本距离分析;
选取所有实体中文本距离最接近的实体作为当前遍历设备类实体的真实值。
进一步的,所述生成新的分词集合后,还包括对新的分词集合进行符号转译,具体包括:
数字根据拼音做转换:
0读洞;1读妖;2读两;3读三;4读四;5读五;6读六;7读拐;8读八;9读勾。
进一步的,所述概率模型为Transformer+Bi-LSTM模型。
进一步的,所述将新的分词集合输入概率模型获得各个词出现的概率,包括:
将新的分词集合通过word2vec模型转换为词向量;
将词向量输入Transformer+Bi-LSTM模型,输出各个词在句子中出现的概率。
进一步的,所述根据概率确定可疑错别字,包括:
将概率小于阈值的词认为是可疑错别字。
进一步的,所述获取候选集后,还包括:对候选集中各词进行合法性检查,具体过程为:
删除候选集中包含的敏感词和自定义函数,所述自定义函数包括:候选词不在基于电网语料训练的词向量中,和命名实体被作为错别字。
进一步的,所述根据概率确定最优候选,包括:
选取概率最大的候选词作为最优候选。
相应的,本发明还提供了一种电网领域调度场景下的文本纠错系统,包括:
集合获取模块,用于对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;
实体链接模块,用于将实体类集合与知识库做实体链接确定实体的真实信息;
分词修正模块,用于用命名实体识别集合对分词集合进行词边界修正以更新分词集合;
词序列模块,用于对分词集合中各词添加拼音生成新的分词集合;
错别字定位模块,用于将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;
候选生成模块,用于根据可疑错别字的拼音从拼音字典中获得此词的候选集;
最优候选确定模块,用于将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。
与现有技术相比,本发明所达到的有益效果是:本发明结合概率模型来定位可疑错别字,提高文本纠错精度。
附图说明
图1为本发明方法的具体流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明中涉及到的名词解释:
Transformer+Bi-LSTM:一种目前较为流行的深度学习模型;
Word2vec:一种深度学习模型,主要训练大量的文本语料,得出结果就是一组很长向量,来代替词语本身,是一种词语数字化表示手段;
实体:指的是具有可区别性且独立存在的某种事物。电网领域多指:电网公司、调度机构、各种厂站、线路和各种设备;
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
实施例1
本发明的一种电网领域调度场景下的文本纠错方法,该流程方案还需要三个前期准备工作,分别是命名实体识别模型、实体知识库、维护拼音字典和基于大量通话记录的文本文件所训练的概率模型,概率模型可以是n-gram或者LSTM类似深度学习模型,本发明采用的是Transformer+Bi-LSTM,该模型的输入为一句话,在一句话中,会设定一些指定类型,如果实体是相关类型,则替换为对象类型,来作为特征词输入,输出为各个词的概率。
准备工作完成后,现以“恩,啊查看下中山变,1亩母线上,中性点避雷器上的姐弟刀闸是否和尚”为例子,参见图1所示,文本纠错的流程如下所示:
步骤1:将文本中语气词重复词剔除
如字面意思,删除重复的语气词,如“啊”,“恩”,“明白,明白”,语气词可以定义和扩展;
经过步骤1后,句子变为“查看下中山变,1亩母线上,中性点避雷器上的姐弟刀闸是否和尚”。
步骤2:对文本进行分词并抽取命名实体,得到各自List集合
对文本中句子,分词并抽取命名实体,获得分词集合(List集合)和命名实体集合(List集合)。
此次命名实体是电网领域特殊标注的命名实体,如“电网设备”、“电网规章”等,将文本输入预先准备好的命名实体识别模型,分词提取实体,该处的实体,主要是电网设备类实体,如“中山变”、“***母线”、“**刀闸”,并预存起来,已做备用;分词是基于开发域语料训练训练的算法模型,命名实体识别是电网语料训练的算法模型,分词和命名实体分别缓存到两个LIST集合中,然后采用命名实体识别集合对原分词集合进行词边界修正,更新分词集合。
步骤3:提取设备类实体组成实体类集合
根据步骤2的命名实体识别结果,遍历命名实体集合后,复制设备类实体,并记录词位置,到一个List集合中组成实体类集合,实体类集合格式为:
[
{word:”中山变”,begin:3,end:5},
{word:”1亩母线”,begin:7,end:10},
*******
]
实体类集合转入步骤10,用命名实体识别集合对分词集合进行词边界修正以更新分词集合,分词List集合中剩下内容结构不变,转入步骤4;
步骤4:词序列
对分词集合结合预先整理的电网语料拼音字典进行汉语拼音转换,在原集合数据基础上,增加拼音特征,生成新的分词集合作为词序列:
[
{word:“查看”,begin:0,end:1,pingyin:”cha kan”},
**********************
{},
]
步骤5:符号转译
电网数字的读法,沿用军队的读法,要根据下面所列的内容,根据拼音做转换:
0读洞;1读妖;2读两;3读三;4读四;5读五;6读六;7读拐;8读八;9读勾。
还有电网线路的读法的1亩,2亩,在文本表示里面多用1#,2#,此处也要做转换。
步骤6:模型定位错别字
根据电网语料训练一个word2vec模型,此次定义为模型1,根据日常生活类模型,训练一个word2vec,此处定义为模型2,两个模型的向量大小一致都为60;先根据步骤5返回的集合,结合模型1和模型2,整理特征,输入上文中的Transformer+Bi-LSTM模型(简单的用n-gram来替代同样可行),因为Transformer+Bi-LSTM的输出是概率,如果一个词在当句子中出现的概率小于0.1,认为该词是可疑错别字,并指出返回;
如例子中返回:[
{word:”姐弟”,begin:21,end:22},
{word:”和尚”,begin:27,end:28}
]
步骤7:生成候选集
根据步骤6返回的结果,获取其拼音,根据拼音字典返回同是此拼音的候选集;
[
{pingyin:”jiedi”,result:[“接地”,”揭底”,”姐弟”,”结缔”,”阶地”]},
{pingyin:”hesang”,result:[“和尚”,”合上”,”河上”,”喝上”,”何尚”]}
]
步骤8:合法性检查
合法性检查主要是对步骤7的结果做一个过滤,包含敏感词检查和自定义函数,自定义函数本设计中有两个:一是如果当前候选词不在基于电网语料训练的词向量中,则删除,二是如果是命名实体被作为错别字,则直接删除。
步骤9:选最优候选
根据步骤8的过滤结果,候选词逐个带入句子,重新生成特征带入Transformer+Bi-LSTM模型,根据其概率做排序,选取概率最大的候选词作为最优候选;
根据例子,当前返回:
[
{word:”接地”,begin:21,end:22},
{word:”合上”,begin:27,end:28}
]
然后流程走向步骤12;
步骤10:实体链接分析
根据步骤4的结果,遍历命名实体,根据实体类型和知识库中同类型的实体,做文本距离分析,并排序;
步骤11:返回知识库实体
根据步骤10的结果,选取所有实体中文本距离最接近的实体,作为当前遍历实体的真实值,如中山变,返回结果是中山变电站,1亩母线,返回结果是1#母线,然后判断所有实体,在图库中是否可以连接,可以连接则返回,不能连接,给出疑问提醒,然后结束。
步骤12:结束。
本发明解决了电网领域内,语音识别精度难以实用,需要文本纠错来提高精度,以达到一定程度的实用化目的。
实施例2
相应的,本发明还提供了一种电网领域调度场景下的文本纠错系统,包括:
集合获取模块,用于对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;
实体链接模块,用于将实体类集合与知识库做实体链接确定实体的真实信息;
分词修正模块,用于用命名实体识别集合对分词集合进行词边界修正以更新分词集合;
词序列模块,用于对分词集合中各词添加拼音生成新的分词集合;
错别字定位模块,用于将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;
候选生成模块,用于根据可疑错别字的拼音从拼音字典中获得此词的候选集;
最优候选确定模块,用于将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。
本系统中各模块的实现方案参见实施例1方法中各步骤的实现过程。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (10)
1.一种电网领域调度场景下的文本纠错方法,其特征是,包括以下过程:
对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;
将命名实体集合与知识库做实体链接确定实体的真实信息;
用命名实体识别集合对分词集合进行词边界修正以更新分词集合;
对分词集合中各词添加拼音特征生成新的分词集合;
将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;
根据可疑错别字的拼音从拼音字典中获得此词的候选集;
将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。
2.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述对文本中句子处理前还包括:删除语气词重复词。
3.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述将命名实体集合与知识库做实体链接,确定实体的真实信息,包括:
从命名实体集合中提取设备类实体组成实体类集合;
遍历实体类集合中各设备类实体,将各设备类实体与知识库中同类型的实体做文本距离分析;
选取所有实体中文本距离最接近的实体作为当前遍历设备类实体的真实值。
4.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述生成新的分词集合后,还包括对新的分词集合进行符号转译,具体包括:
数字根据拼音做转换:
0读洞;1读妖;2读两;3读三;4读四;5读五;6读六;7读拐;8读八;9读勾。
5.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述概率模型为Transformer+Bi-LSTM模型。
6.根据权利要求5所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述将新的分词集合输入概率模型获得各个词出现的概率,包括:
将新的分词集合通过word2vec模型转换为词向量;
将词向量输入Transformer+Bi-LSTM模型,输出各个词在句子中出现的概率。
7.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述根据概率确定可疑错别字,包括:
将概率小于阈值的词认为是可疑错别字。
8.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述获取候选集后,还包括:对候选集中各词进行合法性检查,具体过程为:
删除候选集中包含的敏感词和自定义函数,所述自定义函数包括:候选词不在基于电网语料训练的词向量中和命名实体被作为错别字。
9.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法,其特征是,所述根据概率确定最优候选,包括:
选取概率最大的候选词作为最优候选。
10.一种电网领域调度场景下的文本纠错系统,其特征是,包括:
集合获取模块,用于对文本中句子进行分词和命名实体识别,获得分词集合和命名实体集合;
实体链接模块,用于将实体类集合与知识库做实体链接确定实体的真实信息;
分词修正模块,用于用命名实体识别集合对分词集合进行词边界修正以更新分词集合;
词序列模块,用于对分词集合中各词添加拼音生成新的分词集合;
错别字定位模块,用于将新的分词集合输入概率模型获得各个词出现的概率,并根据概率确定可疑错别字;
候选生成模块,用于根据可疑错别字的拼音从拼音字典中获得此词的候选集;
最优候选确定模块,用于将候选集中候选词逐个带入句子,重新生成特征带入概率模型,并根据概率确定最优候选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011509488.2A CN112528663B (zh) | 2020-12-18 | 2020-12-18 | 一种电网领域调度场景下的文本纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011509488.2A CN112528663B (zh) | 2020-12-18 | 2020-12-18 | 一种电网领域调度场景下的文本纠错方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528663A true CN112528663A (zh) | 2021-03-19 |
CN112528663B CN112528663B (zh) | 2024-02-20 |
Family
ID=75001574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011509488.2A Active CN112528663B (zh) | 2020-12-18 | 2020-12-18 | 一种电网领域调度场景下的文本纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528663B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516966A (zh) * | 2021-06-24 | 2021-10-19 | 肇庆小鹏新能源投资有限公司 | 一种语音识别缺陷检测方法和装置 |
CN113591457A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113673228A (zh) * | 2021-09-01 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本纠错方法、装置、计算机存储介质及计算机程序产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120232904A1 (en) * | 2011-03-10 | 2012-09-13 | Samsung Electronics Co., Ltd. | Method and apparatus for correcting a word in speech input text |
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN110941720A (zh) * | 2019-09-12 | 2020-03-31 | 贵州耕云科技有限公司 | 一种基于知识库的特定人员信息纠错方法 |
CN111079412A (zh) * | 2018-10-18 | 2020-04-28 | 北京嘀嘀无限科技发展有限公司 | 文本纠错方法及装置 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111444706A (zh) * | 2020-06-15 | 2020-07-24 | 四川大学 | 一种基于深度学习的裁判文书文本纠错方法及系统 |
CN111651978A (zh) * | 2020-07-13 | 2020-09-11 | 深圳市智搜信息技术有限公司 | 基于实体的词法检查方法与装置和计算机设备及存储介质 |
CN111666768A (zh) * | 2020-06-10 | 2020-09-15 | 京东方科技集团股份有限公司 | 一种中文命名实体的识别方法、识别装置及电子设备 |
-
2020
- 2020-12-18 CN CN202011509488.2A patent/CN112528663B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120232904A1 (en) * | 2011-03-10 | 2012-09-13 | Samsung Electronics Co., Ltd. | Method and apparatus for correcting a word in speech input text |
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN111079412A (zh) * | 2018-10-18 | 2020-04-28 | 北京嘀嘀无限科技发展有限公司 | 文本纠错方法及装置 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
CN110941720A (zh) * | 2019-09-12 | 2020-03-31 | 贵州耕云科技有限公司 | 一种基于知识库的特定人员信息纠错方法 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111666768A (zh) * | 2020-06-10 | 2020-09-15 | 京东方科技集团股份有限公司 | 一种中文命名实体的识别方法、识别装置及电子设备 |
CN111444706A (zh) * | 2020-06-15 | 2020-07-24 | 四川大学 | 一种基于深度学习的裁判文书文本纠错方法及系统 |
CN111651978A (zh) * | 2020-07-13 | 2020-09-11 | 深圳市智搜信息技术有限公司 | 基于实体的词法检查方法与装置和计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
孙雁斌,王子强,周永灿: "一种智能型电网调度倒闸操作即时通信系统设计", 《自动化与仪器仪表》, pages 99 - 102 * |
杨越;黄瑞章;魏琴;陈艳平;秦永彬;: "基于上下文语义的新闻人名纠错方法", 电子科技大学学报, no. 06, pages 809 - 814 * |
许士锦,范展滔,邱生敏,张坤: "基于语音识别及自然语言处理对话流的人机智能交互方法研究", 《机械与电子》, vol. 39, no. 7, pages 65 - 69 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516966A (zh) * | 2021-06-24 | 2021-10-19 | 肇庆小鹏新能源投资有限公司 | 一种语音识别缺陷检测方法和装置 |
CN113591457A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113591457B (zh) * | 2021-07-30 | 2023-10-24 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113673228A (zh) * | 2021-09-01 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本纠错方法、装置、计算机存储介质及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN112528663B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528663B (zh) | 一种电网领域调度场景下的文本纠错方法及系统 | |
CN109445834B (zh) | 基于抽象语法树的程序代码相似性快速比较方法 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
CN105243055B (zh) | 基于多语言的分词方法和装置 | |
WO2021135444A1 (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN105261358A (zh) | 用于语音识别的n元文法模型构造方法及语音识别系统 | |
CN114386371B (zh) | 中文拼写纠错方法、系统、设备及存储介质 | |
CN111428474A (zh) | 基于语言模型的纠错方法、装置、设备及存储介质 | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN110209802B (zh) | 一种提取摘要文本的方法及装置 | |
CN111312209A (zh) | 文本到语音的转换处理方法、装置及电子设备 | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及系统 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN110347802A (zh) | 一种文本分析方法及装置 | |
CN115730585A (zh) | 文本纠错及其模型训练方法、装置、存储介质及设备 | |
CN110309513B (zh) | 一种文本依存分析的方法和装置 | |
CN102135957A (zh) | 一种翻译短句的方法及装置 | |
CN115455981B (zh) | 一种多语种语句的语义理解方法、装置、设备及存储介质 | |
CN116432653A (zh) | 一种多语种数据库的构建方法、装置、存储介质及设备 | |
CN115455986A (zh) | 一种西班牙语地名翻译方法、装置、设备及介质 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 | |
CN113157852A (zh) | 语音处理的方法、系统、电子设备及存储介质 | |
Asker et al. | Applying machine learning to Amharic text classification | |
CN116341543B (zh) | 一种人名识别与纠错的方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |