CN112836493A - 一种转写文本校对方法及存储介质 - Google Patents
一种转写文本校对方法及存储介质 Download PDFInfo
- Publication number
- CN112836493A CN112836493A CN202011404000.XA CN202011404000A CN112836493A CN 112836493 A CN112836493 A CN 112836493A CN 202011404000 A CN202011404000 A CN 202011404000A CN 112836493 A CN112836493 A CN 112836493A
- Authority
- CN
- China
- Prior art keywords
- proofreading
- word
- text
- candidate
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种转写文本校对方法及存储介质,包括,基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果。本发明方法基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,由此从不同的文本粒度出发确定校对方案,提高了转写文本的准确性和语义的合理性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种转写文本校对方法及 存储介质。
背景技术
当前,语音转写在越来越多的地方发挥着重要作用,但由于方言、噪声 等因素的影响,转写精度有限。因此,文本校对技术在实际应用中发挥着重 要作用,近些年相关研究得到了广泛关注。
早期的文本校对方法主要基于规则,近些年随着深度学习技术的不断发 展,先后提出了基于统计机器翻译和基于端到端学习方法的文本校对方法。 但现有的方案依然很难处理语音转写以后复杂的文本错误。
发明内容
本发明实施例提供一种转写文本校对方法及存储介质,用以从不同的文 本粒度出发确定校对方案,提高转写文本的准确性和语义的合理性。
第一方面,本发明实施例提供一种转写文本校对方法,包括:
基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校 对,获得对应的候选方案集;
根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果。
可选的,对待校对文本按照不同文本粒度进行分析校对之前,还包括:
对所述待校对文本进行预处理;
所述预处理至少包括如下之一:全角转半角、统一编码以及去掉非中文 字符。
可选的,基于预先构建的校对样本库对待校对文本按照不同文本粒度进 行分析校对,获得对应的候选方案集,包括:
基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候 选方案集;
对所述待校对文本以及所述第一候选方案集进行字粒度校对,获得第二 候选方案集和第三候选方案集。
可选的,基于预先构建的校对样本库对待校对文本进行词粒度校对,获 得第一候选方案集,包括:
对所述待校对文本进行分词;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配, 确定校正词以及对应的错误位置。
可选的,将分词获得的词语以及词语对应的位置基于所述校对样本库进 行匹配之前,还包括:
对所述校对样本库进行分词处理,并根据分词结果训练N-gram模型;
将分词结果中存在语法关联关系的词语进行合并,获得词语搭配组合;
基于所述N-gram模型确定所述存在语法关联关系的词语的出现次数;
将出现次数大于次数阈值的词语对应的所述词语搭配组合进行保存,获 得词语搭配库;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配, 包括:
将分词获得的词语以及词语对应的位置与所述词语搭配库进行匹配。
可选的,基于预先构建的校对样本库对待校对文本进行词粒度校对,获 得第一候选方案集,还包括:
按照所述待校对文本的分词顺序通过所述N-gram模型计算分数;
将计算结果中分数低于分数阈值对应的词语的记录为疑似错误词;
从所述词语搭配库中搜索与所述疑似错误词可能搭配的前一个词,获得 备选词集合。
可选的,获得备选词集合之后,基于预先构建的校对样本库对待校对文 本进行词粒度校对,获得第一候选方案集,还包括:
确定所述疑似错误词以及备选词集合的拼音;
确定疑似错误词对应的拼音与备选词集合中每个词的拼音之间的编辑距 离;
将所述疑似错误词替换为备选词集合中低于第一距离阈值的词,并通过 N-gram模型计算分数;
选取备选词集合中分数高的词对所述待校对文本进行校对,获得第一候 选方案集。
可选的,对所述待校对文本以及所述第一候选方案集进行字粒度校对, 获得第二候选方案集和第三候选方案集,包括:
利用预设语言模型对所述待校对文本以及所述第一候选方案集进行逐字 预测;
若预测字与当前字不相同,且所述预测字的拼音与当前字的拼音之间的 编辑距离小于第二距离阈值,则将当前字替换为预测字,以获得第二候选方 案集和第三候选方案集。
可选的,根据所述候选方案集确定校对方案,并通过所述校对方案确定 校对结果,包括:
确定不同的所述候选方案集的校对文本的困惑度;
根据困惑度低的校对文本确定校对结果。
第二方面,本发明实施例提供一种计算机可读存储介质,所述计算机可 读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述 的转写文本校对方法的步骤。
本发明实施例基于预先构建的校对样本库对待校对文本按照不同文本粒 度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方 案,由此从不同的文本粒度出发确定校对方案,提高了转写文本的准确性和 语义的合理性,取得了积极的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
图1为本发明第一实施例流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明第一实施例提供一种转写文本校对方法,如图1所示,包括以下 具体步骤:
S101、基于预先构建的校对样本库对待校对文本按照不同文本粒度进行 分析校对,获得对应的候选方案集;
S102、根据所述候选方案集确定校对方案,并通过所述校对方案确定校 对结果。
在具体实施过程中,待校对文本可以通过语音转写方式获得,例如从语 音转写模块获取转写后的文本,根据文本中的标点符号对文本进行分割得到 若干文本段,由此若干文本段的每一个文本段构成了待校对文本,在校对完 成后可以按照先前的顺序进行组合,从而获得完整的文本。
本发明实施例基于预先构建的校对样本库对待校对文本按照不同文本粒 度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方 案,由此从不同的文本粒度出发确定校对方案,提高了转写文本的准确性和 语义的合理性。
可选的,预先构建校对样本库包括:
对公开词料进行标注分析,构建校对样本库。
具体地说,可以采用爬虫等技术通过互联网公开渠道收集语料,或通过 人工方式收集标注语料,构建校对样本库,重点包括常用同音字字典库、常 用词库、人名库、地名库、机构企业库以及领域文本校对样本库。
可选的,对待校对文本按照不同文本粒度进行分析校对之前,还包括:
对所述待校对文本进行预处理;
所述预处理至少包括如下之一:全角转半角、统一编码以及去掉非中文 字符。
具体的,在通过语音转写方式获得转写文本并将转写文本进行分割得到 若干文本段之后,本实施例中进一步可以对每个文本段进行预处理,例如对 文本段进行全角转半角、统一编码、记录并去掉非中文字符,以便最终可以 恢复原文本包含的内容。
可选的,基于预先构建的校对样本库对待校对文本按照不同文本粒度进 行分析校对,获得对应的候选方案集,包括:
基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候 选方案集;
对所述待校对文本以及所述第一候选方案集进行字粒度校对,获得第二 候选方案集和第三候选方案集。
具体地说,本实施例中对预处理以后的待校对文本,基于校对样本库, 采用基于词粒度的转写文本校对方法进行分析校对,由此可以获得第一候选 方案集。
然后对预处理以后的待校对文本和第一候选方案集中的校对文本,分别 采用基于字粒度的转写文本校对方法进行分析校对,由此可以获得第二候选 方案集和第三候选方案集。也即本发明的主要思路为通过对比仅词粒度校对, 先词粒度校对后字粒度校对以及仅字粒度校对三种方案的校正准确性,选取 准确性最好的校对方案来对待校对文本进行校对。
可选的,基于预先构建的校对样本库对待校对文本进行词粒度校对,获 得第一候选方案集,包括:
对所述待校对文本进行分词;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配, 确定校正词以及对应的错误位置。
针对词粒度校对,在本实施例中首先对待校对文本进行分词,得到词语 和词语对应的位置,然后根据前述校对样本库进行匹配,例如以前述的常用 词库、人名库、地名库、机构企业库、领域文本校对样本库作为自定义字典 辅助分词,通过领域文本校对样本库,匹配分词的词语,若能够匹配出错误 词语,则记录校正词以及对应的错误位置。
可选的,将分词获得的词语以及词语对应的位置基于所述校对样本库进 行匹配之前,还包括:
对所述校对样本库进行分词处理,并根据分词结果训练N-gram模型;
具体的,对于前述校对样本库中的文本语料,本实施例中还进一步进行 分词处理,根据分词结果,采用如下公式训练2-gram模型和3-gram模型:
N=2:
p(wn|wn-1)=p(wn,wn-1)/p(wn-1)=count(wn,wn-1)/count(wn-1)
N=3:
p(wn|wn-1,wn-2)=p(wn,wn-1,wn-2)/p(wn-1,wn-2)=c(wn,wn-1,wn-2)/c(wn-1,wn-2)
其中c(a,b)表示统计单词a和单词b连续出现的次数。
将分词结果中存在语法关联关系的词语进行合并,获得词语搭配组合;
基于所述N-gram模型确定所述存在语法关联关系的词语的出现次数;
将出现次数大于次数阈值的词语对应的所述词语搭配组合进行保存,获 得词语搭配库;
在对校对样本库进行分词处理后构建词语搭配库,包括如下步骤:
对校对样本库中的文本语料进行依存句法分析。提取存在语法关联关系 的词语搭配,具体的语法关联关系可以是主谓关系、动宾关系、间宾关系、 定中关系、状中关系、动补关系在内的词语搭配,然后找到词语搭配中后一 个词相同的组合,合并前一个词。接着根据所述N-gram模型确定词语搭配组 合中前一个词的出现次数,将词语搭配组合中前一个词的出现次数大于次数 阈值(例如M次)的词语搭配组合加入到词语搭配库。本实施例中的词语搭配 库可以根据对校对样本库进行分词处理的结果建立,然后加入大于次数阈值的词语搭配组合,从而扩展词语搭配库。
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配, 包括:
将分词获得的词语以及词语对应的位置与所述词语搭配库进行匹配。
在获得词语搭配库后,可以将分词获得的词语以及词语对应的位置与词 语搭配库进行匹配,从而确定校正词以及对应的错误位置。
可选的,基于预先构建的校对样本库对待校对文本进行词粒度校对,获 得第一候选方案集,还包括:
按照所述待校对文本的分词顺序通过所述N-gram模型计算分数;
将计算结果中分数低于分数阈值对应的词语的记录为疑似错误词;
从所述词语搭配库中搜索与所述疑似错误词可能搭配的前一个词,获得 备选词集合。
在确定明显的错误词的校正词以及对应的错误位置后,本实例中进一步 确定疑似错误,包括:
在当前待校对文本的文本段分词的基础上,按照前后顺序根据N-gram模 型计算分数,分数低于分数阈值的,则记录为疑似错误词。接着从词语搭配 库中搜索疑似错误词可能搭配的前一个词,得到备选词集合。
可选的,获得备选词集合之后,基于预先构建的校对样本库对待校对文 本进行词粒度校对,获得第一候选方案集,还包括:
确定所述疑似错误词以及备选词集合的拼音;
确定疑似错误词对应的拼音与备选词集合中每个词的拼音之间的编辑距 离;
将所述疑似错误词替换为备选词集合中低于第一距离阈值的词,并通过 N-gram模型计算分数;
选取备选词集合中分数高的词对所述待校对文本进行校对,获得第一候 选方案集。
在前述获得备选词集合的基础上,本实施例中进一步根据备选词集合确 定第一候选方案集:
将疑似错误词以及备选词集合的词语转换为拼音表示。将错误词语的拼 音和备选词集每个词的拼音求编辑距离。本实施例中编辑距离是计算一个字 符串需要改动多少才能变到第二个字符串,编辑的方式可以分为三种:修改 一个字符、增加一个字符、删去一个字符,编辑距离越小说明两个字符串匹 配程度越高。
基于此,本实施例中记录低于第一距离阈值的前N个词,然后通过所记 录的前N个词替换疑似错误词,并通过N-gram模型计算替换后的分数;最后 取分数最高的词语并记录校对位置作为校对方案,多个校对方案构成了第一 候选方案集。
可选的,对所述待校对文本以及所述第一候选方案集进行字粒度校对, 获得第二候选方案集和第三候选方案集,包括:
利用预设语言模型对所述待校对文本以及所述第一候选方案集逐字预 测;
若预测字与当前字不相同,且所述预测字的拼音与当前字的拼音之间的 编辑距离小于第二距离阈值,则将当前字替换为预测字,以获得第二候选方 案集和第三候选方案集。
在本实施例中进一步获得需要对比的候选方案集合,具体地对所述待校 对文本以及所述第一候选方案集对应的校对文本每个字逐一掩盖,然后采用 Bert语言模型,结合上下文预测该位置最可能出现的字。若预测字与被掩盖 字一样,则说明该字不需要修改。若如果预测字和被掩盖字的汉语拼音的编 辑距离小于第二距离阈值,则判定被掩盖字需要被校对为预测词,以此构成 第二候选方案集和第三候选方案集。
可选的,根据所述候选方案集确定校对方案,并通过所述校对方案确定 校对结果,包括:
确定不同的所述候选方案集的校对文本的困惑度;
根据困惑度低的校对文本确定校对结果。
对于前述获得的第一候选方案集、第二候选方案集和第三候选方案集, 可以采用中文XLNet模型,计算按照校对方案候选集校对后的每个校对文本 的困惑度。由于困惑度受文本长度的影响,本实施例中在操作时对XLNet计 算的结果除以文本长度,再选择第一候选方案集、第二候选方案集以及第三 候选方案集中困惑度最低的校对文本,即为最终的校对方案。
在获得校对方案后,然后可以根据前述全角转半角、统一编码以及去掉 非中文字符对预处理的内容进行恢复,由此获得最终的校对文本段。对于前 述转写后的若干文本段均可以重复采用前述的校对方案获得对应文本段的校 对文本段,然后顺序合并校对文本段由此获得原始转写输入文本的校准结果。
在获得校对方案或者校准结果后,可以进一步人工比较校对前后的文本, 将人工比较判定为修改正确的加入到校对样本库。
综上,本发明方法对待校对文本按照不同文本粒度进行分析校对,获得 对应的候选方案集,通过设定的判定方法从所述候选方案集选取与待校对文 本最适合的校对方案,由此从不同的文本粒度出发确定校对方案,可以极大 提高转写文本校对方法,特别是语音转写文本的校对精确度。
实施例二
本发明第二实施例提供一种计算机可读存储介质,所述计算机可读存储 介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一实施例 的转写文本校对方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或 者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情 况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器, 空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上 述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的, 本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求 所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种转写文本校对方法,其特征在于,包括:
基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;
根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果。
2.如权利要求1所述的转写文本校对方法,其特征在于,对待校对文本按照不同文本粒度进行分析校对之前,还包括:
对所述待校对文本进行预处理;
所述预处理至少包括如下之一:全角转半角、统一编码以及去掉非中文字符。
3.如权利要求1所述的转写文本校对方法,其特征在于,基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集,包括:
基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集;
对所述待校对文本以及所述第一候选方案集进行字粒度校对,获得第二候选方案集和第三候选方案集。
4.如权利要求3所述的转写文本校对方法,其特征在于,基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集,包括:
对所述待校对文本进行分词;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配,确定校正词以及对应的错误位置。
5.如权利要求4所述的转写文本校对方法,其特征在于,将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配之前,还包括:
对所述校对样本库进行分词处理,并根据分词结果训练N-gram模型;
将分词结果中存在语法关联关系的词语进行合并,获得词语搭配组合;
基于所述N-gram模型确定所述存在语法关联关系的词语的出现次数;
将出现次数大于次数阈值的词语对应的所述词语搭配组合进行保存,获得词语搭配库;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配,包括:
将分词获得的词语以及词语对应的位置与所述词语搭配库进行匹配。
6.如权利要求5所述的转写文本校对方法,其特征在于,基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集,还包括:
按照所述待校对文本的分词顺序通过所述N-gram模型计算分数;
将计算结果中分数低于分数阈值对应的词语的记录为疑似错误词;
从所述词语搭配库中搜索与所述疑似错误词可能搭配的前一个词,获得备选词集合。
7.如权利要求6所述的转写文本校对方法,其特征在于,获得备选词集合之后,基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集,还包括:
确定所述疑似错误词以及备选词集合的拼音;
确定疑似错误词对应的拼音与备选词集合中每个词的拼音之间的编辑距离;
将所述疑似错误词替换为备选词集合中低于第一距离阈值的词,并通过N-gram模型计算分数;
选取备选词集合中分数高的词对所述待校对文本进行校对,获得第一候选方案集。
8.如权利要求3-7任一项所述的转写文本校对方法,其特征在于,对所述待校对文本以及所述第一候选方案集进行字粒度校对,获得第二候选方案集和第三候选方案集,包括:
利用预设语言模型对所述待校对文本以及所述第一候选方案集进行逐字预测;
若预测字与当前字不相同,且所述预测字的拼音与当前字的拼音之间的编辑距离小于第二距离阈值,则将当前字替换为预测字,以获得第二候选方案集和第三候选方案集。
9.如权利要求1-7任一项所述的转写文本校对方法,其特征在于,根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果,包括:
确定不同的所述候选方案集的校对文本的困惑度;
根据困惑度低的校对文本确定校对结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的转写文本校对方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404000.XA CN112836493B (zh) | 2020-12-04 | 2020-12-04 | 一种转写文本校对方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404000.XA CN112836493B (zh) | 2020-12-04 | 2020-12-04 | 一种转写文本校对方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836493A true CN112836493A (zh) | 2021-05-25 |
CN112836493B CN112836493B (zh) | 2023-03-14 |
Family
ID=75923465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011404000.XA Active CN112836493B (zh) | 2020-12-04 | 2020-12-04 | 一种转写文本校对方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836493B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN111090986A (zh) * | 2019-11-29 | 2020-05-01 | 福建亿榕信息技术有限公司 | 一种公文文档纠错的方法 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
-
2020
- 2020-12-04 CN CN202011404000.XA patent/CN112836493B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN111090986A (zh) * | 2019-11-29 | 2020-05-01 | 福建亿榕信息技术有限公司 | 一种公文文档纠错的方法 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
Non-Patent Citations (1)
Title |
---|
张俊祺: "面向领域的语音转换后文本纠错研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836493B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107305768B (zh) | 语音交互中的易错字校准方法 | |
Schuster et al. | Japanese and korean voice search | |
US6983239B1 (en) | Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser | |
US20070219777A1 (en) | Identifying language origin of words | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
CN111666764B (zh) | 一种基于XLNet的自动摘要方法与装置 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN110705262A (zh) | 一种改进的应用于医技检查报告的智能纠错方法 | |
CN112259083A (zh) | 音频处理方法及装置 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
Hifny | Restoration of Arabic diacritics using dynamic programming | |
Hládek et al. | Learning string distance with smoothing for OCR spelling correction | |
Dashti | Real-word error correction with trigrams: correcting multiple errors in a sentence | |
CN113947072A (zh) | 一种文本纠错方法及文本纠错装置 | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
CN117292680A (zh) | 一种基于小样本合成的输电运检的语音识别的方法 | |
CN112836493B (zh) | 一种转写文本校对方法及存储介质 | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
CN115906878A (zh) | 一种基于提示的机器翻译方法 | |
San et al. | Automated speech tools for helping communities process restricted-access corpora for language revival efforts | |
Mekki et al. | COTA 2.0: An automatic corrector of tunisian Arabic social media texts | |
Aliero et al. | Systematic review on text normalization techniques and its approach to non-standard words | |
Qafmolla | Automatic language identification | |
CN114254628A (zh) | 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |