CN108536656B - 基于wfst的文本正则化方法及系统 - Google Patents

基于wfst的文本正则化方法及系统 Download PDF

Info

Publication number
CN108536656B
CN108536656B CN201810194833.4A CN201810194833A CN108536656B CN 108536656 B CN108536656 B CN 108536656B CN 201810194833 A CN201810194833 A CN 201810194833A CN 108536656 B CN108536656 B CN 108536656B
Authority
CN
China
Prior art keywords
chinese
chinese character
conversion rule
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810194833.4A
Other languages
English (en)
Other versions
CN108536656A (zh
Inventor
鲁俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201810194833.4A priority Critical patent/CN108536656B/zh
Publication of CN108536656A publication Critical patent/CN108536656A/zh
Application granted granted Critical
Publication of CN108536656B publication Critical patent/CN108536656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种基于WFST的文本正则化方法及系统,其中,所述方法包括:预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。本发明提供的技术方案,能够提高将非中文字符转写为中文字符的准确率。

Description

基于WFST的文本正则化方法及系统
技术领域
本发明涉及互联网技术领域,特别涉及一种基于WFST的文本正则化方法及系统。
背景技术
真实文本中含有大量非标准词,这些词在词典中查不到,它们的读音也不能通过正常的拼音规则得到。在中文文本中,非标准词是指包含非汉字字符的词,其中的非汉字字符需要转换成对应的汉字,这个转换过程称为文本正则化。文本正则化是语音合成的关键环节,也是语音识别的必要步骤。由于非标准词往往是用户关注的焦点,如日期、价格、电话号码、机构名等,因此文本正则化直接影响语音服务的质量。
一个非标准词在不同的上下文中可能对应不同的发音,例如“11”可以读作“十一”,在电话号码中可以读作“幺幺”,因此,目前仅通过固定的转换规则将非标准词转写为中文字符的方式,无法将非标准词进行正确地发音。
发明内容
本发明提供一种基于WFST的文本正则化方法及系统,能够提高将非中文字符转写为中文字符的准确率。
为实现上述目的,本申请提供一种基于WFST的文本正则化方法,所述方法包括:预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
进一步地,基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括:当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
进一步地,所述方法还包括:
当所述目标中文文本中存在数字与后缀的组合时,调用预设后缀列表,并将所述目标中文文本中存在的数字与后缀的组合中的后缀在所述预设后缀列表中进行匹配;
若在所述预设后缀列表中匹配到与所述数字与后缀的组合中的后缀相同的后缀,则按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串,并对所述数字标注与所述最长的后缀的类型相匹配的读法标签。
进一步地,为分类后的非中文字符编写对应的转换规则包括:
当所述非中文字符为数字时,判断所述数字所处的数值区间,并根据所述数值区间确定所述非中文字符的转换规则。
进一步地,所述方法还包括:
获取与所述非中文字符相关联的上下文信息,并从所述上下文信息中提取用于表征所述非中文字符类型的特征词;
按照所述特征词,确定所述非中文字符的转换规则。
进一步地,为分类后的非中文字符编写对应的转换规则包括:
确定分类后的非中文字符对应的多个疑似转换规则;
按照最大熵模型计算每个疑似转换规则对应的熵;
将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
进一步地,为分类后的非中文字符编写对应的转换规则包括:
为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联;
按照所述训练样本和实际转换规则,对每一类非中文字符的分类器进行训练,以使得将每一类非中文字符的任一训练样本输入训练后的分类器时,得到的预测结果与所述训练样本关联的实际转换规则一致;
将待编写的非中文字符输入训练得到的分类器,得到对应的转换规则。
为实现上述目的,本申请还提供一种基于WFST的文本正则化系统,所述系统包括:转换规则编写单元,用于预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;非中文字符串识别单元,用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;中文字符转写单元,用于根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
进一步地,非中文字符串识别单元包括:
最长匹配模块,用于当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
进一步地,转换规则编写单元包括:
疑似转换规则确定模块,用于确定分类后的非中文字符对应的多个疑似转换规则;
熵计算模块,用于按照最大熵模型计算每个疑似转换规则对应的熵;
转换规则确定模块,用于将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
由上可见,在本申请中,预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则,然后基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串,最终可以根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。这样,根据不同类别的非中文字符,可以调用不同的转换规则,从而可以提高将非中文字符转写为中文字符的准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施方式中基于WFST的文本正则化方法流程图;
图2是本发明实施方式中基于WFST的文本正则化系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
请参阅图1,本申请提供的基于WFST的文本正则化方法,包括以下步骤:
S1:预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则。
S2:基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串。
S3:根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符
在一个实施方式中,基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括:
当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
在一个实施方式中,所述方法还包括:
当所述目标中文文本中存在数字与后缀的组合时,调用预设后缀列表,并将所述目标中文文本中存在的数字与后缀的组合中的后缀在所述预设后缀列表中进行匹配;
若在所述预设后缀列表中匹配到与所述数字与后缀的组合中的后缀相同的后缀,则按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串,并对所述数字标注与所述最长的后缀的类型相匹配的读法标签。
在一个实施方式中,为分类后的非中文字符编写对应的转换规则包括:
当所述非中文字符为数字时,判断所述数字所处的数值区间,并根据所述数值区间确定所述非中文字符的转换规则。
在一个实施方式中,所述方法还包括:
获取与所述非中文字符相关联的上下文信息,并从所述上下文信息中提取用于表征所述非中文字符类型的特征词;
按照所述特征词,确定所述非中文字符的转换规则。
在一个实施方式中,为分类后的非中文字符编写对应的转换规则包括:
确定分类后的非中文字符对应的多个疑似转换规则;
按照最大熵模型计算每个疑似转换规则对应的熵;
将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
在一个实施方式中,为分类后的非中文字符编写对应的转换规则包括:
为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联;
按照所述训练样本和实际转换规则,对每一类非中文字符的分类器进行训练,以使得将每一类非中文字符的任一训练样本输入训练后的分类器时,得到的预测结果与所述训练样本关联的实际转换规则一致;
将待编写的非中文字符输入训练得到的分类器,得到对应的转换规则。
具体地,加权有限状态转换器(Weighted Finite-State Transducer,WFST)在状态之间的转移路径上附有权重,并且在状态转移上的标签中既有输入又有输出。基于WFST的中文文本正则化方法编写的规则更加简洁,比传统方法考虑更多的上下文信息。通过设定不同的权重调整优先级,更方便的处理规则冲突问题。
在本实施方式中,在识别非中文字符串时,当存在非中文字符嵌套时,可以采用最长匹配策略,即最长串为非中文字符串,而不是它的子串。因为串越长,串内所含信息越多,歧义越小,所需要处理的串的数量也越少。
为了识别“数字+后缀”的组合情况,可以使用由汉语量词、个别数词、名词等构成的后缀列表。例如,该列表中包括人、天、时、元、角、分等后缀词。对于单字后缀,可能会出现一些歧义情况。例如“1999人才工程”,可能会被认为是“1999人”,而实际上“1999”表示的是1999年,而不是人的数量。此时,可以按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串。也就是说,将“1999人才”作为非中文字符串,此时,可以给“1999”标注“年份”的读法标签。
在本实施方式中,在给不同类别的非中文字符编写转换规则时,可以存在多种方式。一种是基于非中文字符本身的简单规则。例如,在“数字:数字”的非中文字符串中,如果第一个数字在0-24之间,第二个数字在“0-60”之间,则可以表示时间,也可以表示比值,而如果不在这两个区间内,则仅可以表示比值。又例如,上下文信息中包含“年、月、日”等时间特征词,则可以认为非中文字符串表示的是时间;而如果上下文信息中包含“比分、局、盘、胜、负”等比分特征词,则可以认为非中文字符串表示的是比值。另一种是基于最大熵模型,可以确定分类后的非中文字符对应的多个疑似转换规则,这些疑似转换规则为可能正确的转换规则。然后可以按照最大熵模型计算每个疑似转换规则对应的熵,并将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。还有一种是基于机器学习的方式,为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联。例如,针对比值的非中文字符,提供大量的训练样本,这些训练样本可以包含非中文字符及其上下文。这样,将训练样本输入初始的分类器,可以得到初始的训练结果。如果该训练结果表征的不是比值的转换规则,那么可以对初始的分类器中的参数进行校正,直至训练结果表征的是比值的转换规则为止。这样,为不同的非中文字符串均可以训练得到各自的分类器。后续需要编写转换规则时,可以将待编写的非中文字符输入训练得到的分类器,从而可以得到对应的转换规则。
请参阅图2,本申请还提供一种基于WFST的文本正则化系统,所述系统包括:
转换规则编写单元100,用于预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;
非中文字符串识别单元200,用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;
中文字符转写单元300,用于根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
在本实施方式中,非中文字符串识别单元包括:
最长匹配模块,用于当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
在本实施方式中,转换规则编写单元包括:
疑似转换规则确定模块,用于确定分类后的非中文字符对应的多个疑似转换规则;
熵计算模块,用于按照最大熵模型计算每个疑似转换规则对应的熵;
转换规则确定模块,用于将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
由上可见,在本申请中,预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则,然后基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串,最终可以根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。这样,根据不同类别的非中文字符,可以调用不同的转换规则,从而可以提高将非中文字符转写为中文字符的准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于WFST的文本正则化方法,其特征在于,所述方法包括:
预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则,包括:
确定分类后的非中文字符对应的多个疑似转换规则;
按照最大熵模型计算每个疑似转换规则对应的熵;
将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则;
基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;
根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
2.根据权利要求1所述的方法,其特征在于,基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括:
当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述目标中文文本中存在数字与后缀的组合时,调用预设后缀列表,并将所述目标中文文本中存在的数字与后缀的组合中的后缀在所述预设后缀列表中进行匹配;
若在所述预设后缀列表中匹配到与所述数字与后缀的组合中的后缀相同的后缀,则按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串,并对所述数字标注与所述最长的后缀的类型相匹配的读法标签。
4.根据权利要求1所述的方法,其特征在于,为分类后的非中文字符编写对应的转换规则包括:
当所述非中文字符为数字时,判断所述数字所处的数值区间,并根据所述数值区间确定所述非中文字符的转换规则。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取与所述非中文字符相关联的上下文信息,并从所述上下文信息中提取用于表征所述非中文字符类型的特征词;
按照所述特征词,确定所述非中文字符的转换规则。
6.根据权利要求1所述的方法,其特征在于,为分类后的非中文字符编写对应的转换规则包括:
为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联;
按照所述训练样本和实际转换规则,对每一类非中文字符的分类器进行训练,以使得将每一类非中文字符的任一训练样本输入训练后的分类器时,得到的预测结果与所述训练样本关联的实际转换规则一致;
将待编写的非中文字符输入训练得到的分类器,得到对应的转换规则。
7.一种基于WFST的文本正则化系统,其特征在于,所述系统包括:
转换规则编写单元,用于预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;
所述转换规则编写单元包括:
疑似转换规则确定模块,用于确定分类后的非中文字符对应的多个疑似转换规则;
熵计算模块,用于按照最大熵模型计算每个疑似转换规则对应的熵;
转换规则确定模块,用于将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则;
非中文字符串识别单元,用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;
中文字符转写单元,用于根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
8.根据权利要求7所述的系统,其特征在于,非中文字符串识别单元包括:
最长匹配模块,用于当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
CN201810194833.4A 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统 Active CN108536656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810194833.4A CN108536656B (zh) 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810194833.4A CN108536656B (zh) 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统

Publications (2)

Publication Number Publication Date
CN108536656A CN108536656A (zh) 2018-09-14
CN108536656B true CN108536656B (zh) 2021-08-24

Family

ID=63485684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810194833.4A Active CN108536656B (zh) 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统

Country Status (1)

Country Link
CN (1) CN108536656B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390104B (zh) * 2019-07-23 2023-05-05 思必驰科技股份有限公司 用于语音对话平台的不规则文本转写方法及系统
CN111145722B (zh) * 2019-12-30 2022-09-02 出门问问信息科技有限公司 一种文本处理方法和装置、计算机存储介质和电子设备
CN112668341B (zh) * 2021-01-08 2024-05-31 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质
CN115563951A (zh) * 2022-10-14 2023-01-03 美的集团(上海)有限公司 文本序列的标注方法、装置、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1143769A (zh) * 1995-08-16 1997-02-26 国际商业机器公司 处理中文文本的系统和方法
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
CN103154974A (zh) * 2011-03-07 2013-06-12 株式会社Ntt都科摩 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
CN104391588A (zh) * 2014-11-07 2015-03-04 腾讯科技(深圳)有限公司 一种输入提示的方法及装置
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342689A1 (en) * 2014-01-27 2016-11-24 Beijing Qihoo Technology Company Limited Method, device and system for loading recommendation information and detecting web address

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
CN1143769A (zh) * 1995-08-16 1997-02-26 国际商业机器公司 处理中文文本的系统和方法
CN103154974A (zh) * 2011-03-07 2013-06-12 株式会社Ntt都科摩 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
CN104391588A (zh) * 2014-11-07 2015-03-04 腾讯科技(深圳)有限公司 一种输入提示的方法及装置
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Phonetisaurus: Exploring grapheme-to-phoneme conversion with joint n-gram models in the WFST framework";JOSEF ROBERT NOVAK 等;《Natural Language Engineering》;20150907;第22卷(第6期);第907-938页 *
冯伟 等." 基于WFST的俄语字音转换算法研究".《中文信息学报》.2018,第32卷(第2期), *

Also Published As

Publication number Publication date
CN108536656A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
US11568143B2 (en) Pre-trained contextual embedding models for named entity recognition and confidence prediction
CN108536656B (zh) 基于wfst的文本正则化方法及系统
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN103578467B (zh) 声学模型的建立方法、语音辨识方法及其电子装置
CN102184167B (zh) 一种文本数据处理方法和装置
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
O'Neill et al. Spgispeech: 5,000 hours of transcribed financial audio for fully formatted end-to-end speech recognition
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN112966496A (zh) 一种基于拼音特征表征的中文纠错方法及系统
US20230214579A1 (en) Intelligent character correction and search in documents
CN110377882A (zh) 用于确定文本的拼音的方法、装置、系统和存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN115240655A (zh) 一种基于深度学习的中文语音识别系统及方法
CN112183060B (zh) 多轮对话系统的指代消解方法
Thennattil et al. Phonetic engine for continuous speech in Malayalam
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
KR100629862B1 (ko) 외래어를 한국어로 표기하기 위한 한국어 표기장치 및 방법
CN113051923B (zh) 数据验证方法、装置、计算机设备和存储介质
AU2021238965B2 (en) Speech recognition and training for data inputs
CN114548049A (zh) 一种数字正则化方法、装置、设备及存储介质
CN115099222A (zh) 标点符号误用检测纠正方法、装置、设备及存储介质
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: 12 / F, Guanjie building, building 1, No. 16, Taiyanggong Middle Road, Chaoyang District, Beijing

Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant