CN108536656A - 基于wfst的文本正则化方法及系统 - Google Patents

基于wfst的文本正则化方法及系统 Download PDF

Info

Publication number
CN108536656A
CN108536656A CN201810194833.4A CN201810194833A CN108536656A CN 108536656 A CN108536656 A CN 108536656A CN 201810194833 A CN201810194833 A CN 201810194833A CN 108536656 A CN108536656 A CN 108536656A
Authority
CN
China
Prior art keywords
chinese character
transformation rule
chinese
target
suffix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810194833.4A
Other languages
English (en)
Other versions
CN108536656B (zh
Inventor
鲁俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhisheng Information Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201810194833.4A priority Critical patent/CN108536656B/zh
Publication of CN108536656A publication Critical patent/CN108536656A/zh
Application granted granted Critical
Publication of CN108536656B publication Critical patent/CN108536656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于WFST的文本正则化方法及系统,其中,所述方法包括:预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。本发明提供的技术方案,能够提高将非中文字符转写为中文字符的准确率。

Description

基于WFST的文本正则化方法及系统
技术领域
本发明涉及互联网技术领域,特别涉及一种基于WFST的文本正则化方法及系统。
背景技术
真实文本中含有大量非标准词,这些词在词典中查不到,它们的读音也不能通过正常的拼音规则得到。在中文文本中,非标准词是指包含非汉字字符的词,其中的非汉字字符需要转换成对应的汉字,这个转换过程称为文本正则化。文本正则化是语音合成的关键环节,也是语音识别的必要步骤。由于非标准词往往是用户关注的焦点,如日期、价格、电话号码、机构名等,因此文本正则化直接影响语音服务的质量。
一个非标准词在不同的上下文中可能对应不同的发音,例如“11”可以独坐“十一”,在电话号码中可以读作“幺幺”,因此,目前仅通过固定的转换规则将非标准词转写为中文字符的方式,无法将非标准词进行正确地发音。
发明内容
本发明提供一种基于WFST的文本正则化方法及系统,能够提高将非中文字符转写为中文字符的准确率。
为实现上述目的,本申请提供一种基于WFST的文本正则化方法,所述方法包括:预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
进一步地,基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括:当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
进一步地,所述方法还包括:
当所述目标中文文本中存在数字与后缀的组合时,调用预设后缀列表,并将所述目标中文文本中存在的数字与后缀的组合中的后缀在所述预设后缀列表中进行匹配;
若在所述预设后缀列表中匹配到与所述数字与后缀的组合中的后缀相同的后缀,则按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串,并对所述数字标注与所述最长的后缀的类型相匹配的读法标签。
进一步地,为分类后的非中文字符编写对应的转换规则包括:
当所述非中文字符为数字时,判断所述数字所处的数值区间,并根据所述数值区间确定所述非中文字符的转换规则。
进一步地,所述方法还包括:
获取与所述非中文字符相关联的上下文信息,并从所述上下文信息中提取用于表征所述非中文字符类型的特征词;
按照所述特征词,确定所述非中文字符的转换规则。
进一步地,为分类后的非中文字符编写对应的转换规则包括:
确定分类后的非中文字符对应的多个疑似转换规则;
按照最大熵模型计算每个疑似转换规则对应的熵;
将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
进一步地,为分类后的非中文字符编写对应的转换规则包括:
为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联;
按照所述训练样本和实际转换规则,对每一类非中文字符的分类器进行训练,以使得将每一类非中文字符的任一训练样本输入训练后的分类器时,得到的预测结果与所述训练样本关联的实际转换规则一致;
将待编写的非中文字符输入训练得到的分类器,得到对应的转换规则。
为实现上述目的,本申请还提供一种基于WFST的文本正则化系统,所述系统包括:转换规则编写单元,用于预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;非中文字符串识别单元,用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;中文字符转写单元,用于根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
进一步地,非中文字符串识别单元包括:
最长匹配模块,用于当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
进一步地,转换规则编写单元包括:
疑似转换规则确定模块,用于确定分类后的非中文字符对应的多个疑似转换规则;
熵计算模块,用于按照最大熵模型计算每个疑似转换规则对应的熵;
转换规则确定模块,用于将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
由上可见,在本申请中,预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则,然后基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串,最终可以根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。这样,根据不同类别的非中文字符,可以调用不同的转换规则,从而可以提高将非中文字符转写为中文字符的准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施方式中基于WFST的文本正则化方法流程图;
图2是本发明实施方式中基于WFST的文本正则化系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
请参阅图1,本申请提供的基于WFST的文本正则化方法,包括以下步骤:
S1:预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则。
S2:基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串。
S3:根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符
在一个实施方式中,基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括:
当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
在一个实施方式中,所述方法还包括:
当所述目标中文文本中存在数字与后缀的组合时,调用预设后缀列表,并将所述目标中文文本中存在的数字与后缀的组合中的后缀在所述预设后缀列表中进行匹配;
若在所述预设后缀列表中匹配到与所述数字与后缀的组合中的后缀相同的后缀,则按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串,并对所述数字标注与所述最长的后缀的类型相匹配的读法标签。
在一个实施方式中,为分类后的非中文字符编写对应的转换规则包括:
当所述非中文字符为数字时,判断所述数字所处的数值区间,并根据所述数值区间确定所述非中文字符的转换规则。
在一个实施方式中,所述方法还包括:
获取与所述非中文字符相关联的上下文信息,并从所述上下文信息中提取用于表征所述非中文字符类型的特征词;
按照所述特征词,确定所述非中文字符的转换规则。
在一个实施方式中,为分类后的非中文字符编写对应的转换规则包括:
确定分类后的非中文字符对应的多个疑似转换规则;
按照最大熵模型计算每个疑似转换规则对应的熵;
将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
在一个实施方式中,为分类后的非中文字符编写对应的转换规则包括:
为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联;
按照所述训练样本和实际转换规则,对每一类非中文字符的分类器进行训练,以使得将每一类非中文字符的任一训练样本输入训练后的分类器时,得到的预测结果与所述训练样本关联的实际转换规则一致;
将待编写的非中文字符输入训练得到的分类器,得到对应的转换规则。
具体地,加权有限状态转换器(Weighted Finite-State Transducer,WFST)在状态之间的转移路径上附有权重,并且在状态转移上的标签中既有输入又有输出。基于WFST的中文文本正则化方法编写的规则更加简洁,比传统方法考虑更多的上下文信息。通过设定不同的权重调整优先级,更方便的处理规则冲突问题。
在本实施方式中,在识别非中文字符串时,当存在非中文字符嵌套时,可以采用最长匹配策略,即最长串为非中文字符串,而不是它的子串。因为串越长,串内所含信息越多,歧义越小,所需要处理的串的数量也越少。
为了识别“数字+后缀”的组合情况,可以使用由汉语量词、个别数词、名词等构成的后缀列表。例如,该列表中包括人、天、时、元、角、分等后缀词。对于单字后缀,可能会出现一些歧义情况。例如“1999人才工程”,可能会被认为是“1999人”,而实际上“1999”表示的是1999年,而不是人的数量。此时,可以按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串。也就是说,将“1999人才”作为非中文字符串,此时,可以给“1999”标注“年份”的读法标签。
在本实施方式中,在给不同类别的非中文字符编写转换规则时,可以存在多种方式。一种是基于非中文字符本身的简单规则。例如,在“数字:数字”的非中文字符串中,如果第一个数字在0-24之间,第二个数字在“0-60”之间,则可以表示时间,也可以表示比值,而如果不在这两个区间内,则仅可以表示比值。又例如,上下文信息中包含“年、月、日”等时间特征词,则可以认为非中文字符串表示的是时间;而如果上下文信息中包含“比分、局、盘、胜、负”等比分特征词,则可以认为非中文字符串表示的是比值。另一种是基于最大熵模型,可以确定分类后的非中文字符对应的多个疑似转换规则,这些疑似转换规则为可能正确的转换规则。然后可以按照最大熵模型计算每个疑似转换规则对应的熵,并将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。还有一种是基于机器学习的方式,为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联。例如,针对比值的非中文字符,提供大量的训练样本,这些训练样本可以包含非中文字符及其上下文。这样,将训练样本输入初始的分类器,可以得到初始的训练结果。如果该训练结果表征的不是比值的转换规则,那么可以对初始的分类器中的参数进行校正,直至训练结果表征的是比值的转换规则为止。这样,为不同的非中文字符串均可以训练得到各自的分类器。后续需要编写转换规则时,可以将待编写的非中文字符输入训练得到的分类器,从而可以得到对应的转换规则。
请参阅图2,本申请还提供一种基于WFST的文本正则化系统,所述系统包括:
转换规则编写单元100,用于预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;
非中文字符串识别单元200,用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;
中文字符转写单元300,用于根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
在本实施方式中,非中文字符串识别单元包括:
最长匹配模块,用于当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
在本实施方式中,转换规则编写单元包括:
疑似转换规则确定模块,用于确定分类后的非中文字符对应的多个疑似转换规则;
熵计算模块,用于按照最大熵模型计算每个疑似转换规则对应的熵;
转换规则确定模块,用于将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
由上可见,在本申请中,预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则,然后基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串,最终可以根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。这样,根据不同类别的非中文字符,可以调用不同的转换规则,从而可以提高将非中文字符转写为中文字符的准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于WFST的文本正则化方法,其特征在于,所述方法包括:
预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;
基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;
根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
2.根据权利要求1所述的方法,其特征在于,基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括:
当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述目标中文文本中存在数字与后缀的组合时,调用预设后缀列表,并将所述目标中文文本中存在的数字与后缀的组合中的后缀在所述预设后缀列表中进行匹配;
若在所述预设后缀列表中匹配到与所述数字与后缀的组合中的后缀相同的后缀,则按照最长匹配策略,将数字与最长的后缀作为识别出的非中文字符串,并对所述数字标注与所述最长的后缀的类型相匹配的读法标签。
4.根据权利要求1所述的方法,其特征在于,为分类后的非中文字符编写对应的转换规则包括:
当所述非中文字符为数字时,判断所述数字所处的数值区间,并根据所述数值区间确定所述非中文字符的转换规则。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取与所述非中文字符相关联的上下文信息,并从所述上下文信息中提取用于表征所述非中文字符类型的特征词;
按照所述特征词,确定所述非中文字符的转换规则。
6.根据权利要求1所述的方法,其特征在于,为分类后的非中文字符编写对应的转换规则包括:
确定分类后的非中文字符对应的多个疑似转换规则;
按照最大熵模型计算每个疑似转换规则对应的熵;
将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
7.根据权利要求1所述的方法,其特征在于,为分类后的非中文字符编写对应的转换规则包括:
为每一类非中文字符提供预设数量的训练样本,所述训练样本与实际转换规则相关联;
按照所述训练样本和实际转换规则,对每一类非中文字符的分类器进行训练,以使得将每一类非中文字符的任一训练样本输入训练后的分类器时,得到的预测结果与所述训练样本关联的实际转换规则一致;
将待编写的非中文字符输入训练得到的分类器,得到对应的转换规则。
8.一种基于WFST的文本正则化系统,其特征在于,所述系统包括:
转换规则编写单元,用于预先将非中文字符按照加权有限状态转换器进行分类,并为分类后的非中文字符编写对应的转换规则;
非中文字符串识别单元,用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串;
中文字符转写单元,用于根据识别出的所述非中文字符串所属的类别,调用相匹配的目标转换规则,并基于所述目标转换规则,将识别出的所述非中文字符转写为中文字符。
9.根据权利要求8所述的系统,其特征在于,非中文字符串识别单元包括:
最长匹配模块,用于当所述目标中文文本中存在非中文字符嵌套时,按照最长匹配策略,将最长串的非中文字符作为识别出的非中文字符串。
10.根据权利要求8所述的系统,其特征在于,转换规则编写单元包括:
疑似转换规则确定模块,用于确定分类后的非中文字符对应的多个疑似转换规则;
熵计算模块,用于按照最大熵模型计算每个疑似转换规则对应的熵;
转换规则确定模块,用于将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。
CN201810194833.4A 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统 Active CN108536656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810194833.4A CN108536656B (zh) 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810194833.4A CN108536656B (zh) 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统

Publications (2)

Publication Number Publication Date
CN108536656A true CN108536656A (zh) 2018-09-14
CN108536656B CN108536656B (zh) 2021-08-24

Family

ID=63485684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810194833.4A Active CN108536656B (zh) 2018-03-09 2018-03-09 基于wfst的文本正则化方法及系统

Country Status (1)

Country Link
CN (1) CN108536656B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390104A (zh) * 2019-07-23 2019-10-29 苏州思必驰信息科技有限公司 用于语音对话平台的不规则文本转写方法及系统
CN111145722A (zh) * 2019-12-30 2020-05-12 出门问问信息科技有限公司 一种文本处理方法和装置、计算机存储介质和电子设备
CN112668341A (zh) * 2021-01-08 2021-04-16 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质
CN115563951A (zh) * 2022-10-14 2023-01-03 美的集团(上海)有限公司 文本序列的标注方法、装置、存储介质和电子设备
CN112668341B (zh) * 2021-01-08 2024-05-31 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1143769A (zh) * 1995-08-16 1997-02-26 国际商业机器公司 处理中文文本的系统和方法
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
CN103154974A (zh) * 2011-03-07 2013-06-12 株式会社Ntt都科摩 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
CN104391588A (zh) * 2014-11-07 2015-03-04 腾讯科技(深圳)有限公司 一种输入提示的方法及装置
US20160342689A1 (en) * 2014-01-27 2016-11-24 Beijing Qihoo Technology Company Limited Method, device and system for loading recommendation information and detecting web address
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
CN1143769A (zh) * 1995-08-16 1997-02-26 国际商业机器公司 处理中文文本的系统和方法
CN103154974A (zh) * 2011-03-07 2013-06-12 株式会社Ntt都科摩 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
US20160342689A1 (en) * 2014-01-27 2016-11-24 Beijing Qihoo Technology Company Limited Method, device and system for loading recommendation information and detecting web address
CN104391588A (zh) * 2014-11-07 2015-03-04 腾讯科技(深圳)有限公司 一种输入提示的方法及装置
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOSEF ROBERT NOVAK 等: ""Phonetisaurus: Exploring grapheme-to-phoneme conversion with joint n-gram models in the WFST framework"", 《NATURAL LANGUAGE ENGINEERING》 *
冯伟 等: "" 基于WFST的俄语字音转换算法研究"", 《中文信息学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390104A (zh) * 2019-07-23 2019-10-29 苏州思必驰信息科技有限公司 用于语音对话平台的不规则文本转写方法及系统
CN110390104B (zh) * 2019-07-23 2023-05-05 思必驰科技股份有限公司 用于语音对话平台的不规则文本转写方法及系统
CN111145722A (zh) * 2019-12-30 2020-05-12 出门问问信息科技有限公司 一种文本处理方法和装置、计算机存储介质和电子设备
CN111145722B (zh) * 2019-12-30 2022-09-02 出门问问信息科技有限公司 一种文本处理方法和装置、计算机存储介质和电子设备
CN112668341A (zh) * 2021-01-08 2021-04-16 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质
CN112668341B (zh) * 2021-01-08 2024-05-31 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质
CN115563951A (zh) * 2022-10-14 2023-01-03 美的集团(上海)有限公司 文本序列的标注方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN108536656B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
US20050144003A1 (en) Multi-lingual speech synthesis
EP0917129B1 (en) Speech recognition method and apparatus
US7107215B2 (en) Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
US7840399B2 (en) Method, device, and computer program product for multi-lingual speech recognition
TW422967B (en) Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
CN109461436A (zh) 一种语音识别发音错误的纠正方法及系统
CN108536656A (zh) 基于wfst的文本正则化方法及系统
WO2020199600A1 (zh) 情感极性分析方法及相关装置
US20070288240A1 (en) User interface for text-to-phone conversion and method for correcting the same
US11935523B2 (en) Detection of correctness of pronunciation
CN110021293A (zh) 语音识别方法及装置、可读存储介质
CN110083711A (zh) 一种汉字拼音转换方法及转换系统
Parlikar et al. The festvox indic frontend for grapheme to phoneme conversion
CN110377882A (zh) 用于确定文本的拼音的方法、装置、系统和存储介质
CN114023302B (zh) 文本语音处理装置及文本读音处理方法
CN110852075A (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
Ngo et al. Phonology-augmented statistical framework for machine transliteration using limited linguistic resources
US20200372110A1 (en) Method of creating a demographic based personalized pronunciation dictionary
KR20060056404A (ko) 텍스트 세그먼트의 합성된 발음을 위한 문자 대 사운드변환
CN116597809A (zh) 多音字消歧方法、装置、电子设备及可读存储介质
CN113889115A (zh) 一种基于语音模型的方言转述方法及相关装置
Oyebola et al. A sociophonetic study on TH variation in Educated Nigerian English
CN109871528A (zh) 语音数据的语义识别方法及装置、存储介质、计算机设备
Brinckmann Transcription bottleneck of speech corpus exploitation
Sindran et al. Rule-based standard Arabic Phonetization at phoneme, allophone, and syllable level

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: 12 / F, Guanjie building, building 1, No. 16, Taiyanggong Middle Road, Chaoyang District, Beijing

Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant