CN112542154B - 文本转换方法、装置、计算机可读存储介质及电子设备 - Google Patents

文本转换方法、装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN112542154B
CN112542154B CN201910836472.3A CN201910836472A CN112542154B CN 112542154 B CN112542154 B CN 112542154B CN 201910836472 A CN201910836472 A CN 201910836472A CN 112542154 B CN112542154 B CN 112542154B
Authority
CN
China
Prior art keywords
pronunciation
text
word
sub
pending word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910836472.3A
Other languages
English (en)
Other versions
CN112542154A (zh
Inventor
蒋微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910836472.3A priority Critical patent/CN112542154B/zh
Publication of CN112542154A publication Critical patent/CN112542154A/zh
Application granted granted Critical
Publication of CN112542154B publication Critical patent/CN112542154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种文本转换方法、装置、计算机可读存储介质及电子设备,其中,该方法包括:从目标文本中提取至少一个读音待定词,生成第一子文本;基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本;基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式;基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本。本公开实施例实现了第一子文本和第二子文本相结合的方式,确定目标文本中的读音待定词的发音方式,提高了将读音待定词转换为相应的文字的准确性,此外,可以避免采用人工设定规则的方式进行文本正则化,降低了文本转换的难度。

Description

文本转换方法、装置、计算机可读存储介质及电子设备
技术领域
本公开涉及计算机技术领域,尤其是一种文本转换方法、装置、计算机可读存储介质及电子设备。
背景技术
在中文文本中,非标准词是指包含非汉字字符(如阿拉伯数字、英文字符、各种符号等)的词,其中的非汉字字符需要转换成对应的汉字,这个转换过程称为文本正则化。文本正则化是语音合成的关键环节,也是语音识别的必要步骤。由于非标准词往往是用户关注的焦点,如日期、价格、电话号码、机构名等,因此文本正则化直接影响语音服务的质量。
现有的文本正则化方法,可以采用设定规则来实现,例如,“20摄氏度”中的数字“20”读成“二十”。还可以使用WFST(Weighted Finite-State Transducer,加权有限状态转换器)识别出非中文/英文字符串,并对该字符串进行分类识别,根据规则转换成对应的中文。
发明内容
本公开的实施例提供了一种文本转换方法、装置、计算机可读存储介质及电子设备。
本公开的实施例提供了一种文本转换方法,该方法包括:从目标文本中提取至少一个读音待定词,生成第一子文本;基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本;基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式;基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本。
根据本公开实施例的另一个方面,提供了一种文本转换装置,该装置包括:第一生成模块,用于从目标文本中提取至少一个读音待定词,生成第一子文本;第二生成模块,用于基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本;第一确定模块,用于基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式;转换模块,用于基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述文本转换方法。
根据本公开实施例的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述文本转换方法。
基于本公开的上述实施例,通过从目标文本中提取至少一个读音待定词,生成第一子文本,以及基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本,再基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式,最后基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本,从而实现了第一子文本和第二子文本相结合的方式,确定目标文本中的读音待定词的发音方式,提高了将读音待定词转换为相应的文字的准确性,此外,可以避免采用人工设定规则的方式进行文本正则化,降低了文本转换的难度。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的文本转换方法的流程示意图。
图3是本公开另一示例性实施例提供的文本转换方法的流程示意图。
图4是本公开另一示例性实施例提供的文本转换方法的流程示意图。
图5是本公开的实施例的文本转换方法的应用场景的示意图。
图6是本公开一示例性实施例提供的文本转换装置的结构示意图。
图7是本公开另一示例性实施例提供的文本转换装置的结构示意图。
图8是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
通常,针对不同领域,数字、符号的具体发音情况和概率是不同的,目前通用的文本正则化方法离不开人工设定的规则,一般针对不同领域需要重新修改规则权重、删除规则、增加规则,在原本就庞大复杂的规则库上修改是非常麻烦且风险较大的。
示例性系统
图1示出了可以应用本公开的实施例的文本转换方法或文本转换装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如语音识别应用、搜索类应用、网页浏览器应用等。
终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如对终端设备101上传的文本进行处理的后台文本服务器。后台文本服务器可以对接收到的文本进行处理,得到处理结果(例如转换后文本)。
需要说明的是,本公开的实施例所提供的文本转换方法可以由服务器103执行,也可以由终端设备101执行,相应地,文本转换装置可以设置于服务器103中,也可以设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
示例性方法
图2是本公开一示例性实施例提供的文本转换方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上,如图2所示,该方法包括如下步骤:
步骤201,从目标文本中提取至少一个读音待定词,生成第一子文本。
在本实施例中,目标文本可以是电子设备预先获取的待对其进行转换的文本。上述读音待定词可以是非文字的数字、符号等非文字词。例如,数字“2019”、符号“%”、“#”等。
作为示例,目标文本为“2019年6月21日,测试正确率52%”,其中的读音待定词包括:2019、6、21、52、%。生成的第一子文本可以为“2019|6|21|52|%”。
步骤202,基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本。
在本实施例中,电子设备可以基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本。作为示例,电子设备可以将目标文本中的至少一个读音待定词删除,得到第二子文本。
步骤203,基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式。
在本实施例中,电子设备可以基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式。作为示例,电子设备可以基于统计的方法,确定第一子文本中每个读音待定词对应的发音方式及概率,确定第二子文本中的每个待填充位置(即删除读音待定词的位置)对应的发音方式及概率,取概率值最大的发音方式作为读音待定词的发音方式。
步骤204,基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本。
在本实施例中,电子设备可以基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本。具体地,每种发音方式对应于一种文字词转换方法,电子设备可以根据每个读音待定词的发音方式,按照对应的文字词转换方法,将每个读音待定词转换为相应的文字词。
作为示例,目标文本为“2019年6月21日,测试正确率52%”。对于读音待定词“2019”,其对应的发音方式为依次将每个数字读作相应的汉字数字,即“二零一九”。对于读音待定词“52”和“%”,其对应的发音方式为将“52”读作“五十二”,将“%”读作“百分之”,并且将两个词的读音顺序颠倒。对于其他读音待定词的转换方法,这里不再一一列举。基于此,转换后文本可以为“二零一九年六月二十一日,测试正确率百分之二十五”。
本公开的上述实施例提供的方法,通过从目标文本中提取至少一个读音待定词,生成第一子文本,以及基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本,再基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式,最后基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本,从而实现了第一子文本和第二子文本相结合的方式,确定目标文本中的读音待定词的发音方式,提高了将读音待定词转换为相应的文字的准确性,此外,可以避免采用人工设定规则的方式进行文本正则化,降低了文本转换的难度。
在一些可选的实现方式中,上述步骤201可以如下执行:
首先,对目标文本进行分词,得到词语序列。具体地,电子设备可以利用现有的分词方法对目标文本进行分词,例如基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。
然后,从词语序列中提取至少一个读音待定词,生成第一子文本。通过对目标文本进行分词,可以更准确地将读音待定词与其他词语分隔开,提高生成第一子文本的准确性。
在一些可选的实现方式中,上述步骤202中,电子设备可以向除至少一个读音待定词之外的部分中的目标位置添加预设符号,得到第二子文本。其中,目标位置是目标文本中的每个读音待定词所在的位置。继续步骤201中的示例,在目标文本中的目标位置可以添加预设符号“O”,得到的第二子文本为“O年O月O日,测试正确率OO。”。本实现方式通过将读音待定词替换为预设符号,可以有效地标记出读音待定词的位置,有助于利用第二子文本准确地对预设符号处添加的文字词进行预测。
在一些可选的实现方式中,在步骤204之后,如图3所示,还可以包括如下步骤:
步骤205,确定转换后文本包括的词语的词性。
具体地,电子设备可以利用现有的词性标注方法,确定转换后文本包括的词语的词性。作为示例,词性标注方法可以包括但不限于以下至少一种:基于最大熵的词性标注、基于统计最大概率输出词性、基于HMM(Hidden Markov Model,隐马尔柯夫模型)的词性标注等。需要说明的是,上述转换后文本包括词语可以利用分词算法对转换后文本进行分词得到。
步骤206,对转换后文本进行韵律预测,得到用于表征转换后文本的停顿位置的停顿信息。
具体地,电子设备可以利用神经网络模型(例如RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)等),对转换后文本进行韵律预测。通常,停顿信息可以分为多个级别,例如根据停顿时间的长短,分为L1-L5五个级别,其中,L5的停顿时间最长,例如完整的句子之间的停顿。L1的停顿时间最短,例如词语中的文字之间的停顿。
步骤207,确定转换后文本的音素信息。
具体地,电子设备可以利用各种生成音素信息的方法,确定转换后文本的音素信息。作为示例,上述生成音素信息的方法可以包括但不限于以下至少一种:G2P(Grapheme-to-Phoneme)算法(包括RNN、LSTM等),中文词典结合多音字识别技术,决策树技术等。
通常,在得到上述词性、停顿信息、音素信息之后,可以基于词性、停顿信息、音素信息进行语音合成,即将文字转换为语音,由于本可选的实现方式采用的转换后文本是对读音待定词进行转换后得到的文本,因此,可以提高生成的语音信息的准确性。
进一步参考图4,示出了文本转换方法的又一个实施例的流程示意图。如图4所示,在上述图2所示实施例的基础上,步骤203可以包括如下步骤:
步骤2031,将第一子文本输入预先训练的第一预测模型,得到每个读音待定词分别对应的第一发音方式信息集合。
在本实施例中,第一预测模型用于表征第一子文本与第一发音方式信息集合的对应关系。其中,第一发音方式信息集合中的每个发音方式信息包括第一概率值。
作为示例,第一预测模型可以是利用机器学习方法对第一初始模型进行训练得到的模型。第一初始模型可以包括但不限于以下至少一种:BERT(Bidirectional EncoderRepresentations from Transformers)、LSTM等。通常,第一预测模型可以首先提取第一子文本包括的读音待定词的特征(例如对于“2019”,字符长度=4,数值<2200,……),得到特征向量,然后利用神经网络对特征向量进行分析,对每个读音待定词进行分类,得到第一发音方式信息集合。作为示例,针对某个读音待定词,其对应的第一发音方式信息集合包括:“S:0.63,M:0.3,N:0.02,……”。其中,S表示一种发音方式,0.63表示该发音方式的第一概率;M表示另一种发音方式,0.3表示该发音方式的第一概率,……。
步骤2032,将第二子文本输入预先训练的第二预测模型,得到每个读音待定词分别对应的第二发音方式信息集合。
在本实施例中,第二预测模型用于表征第二子文本与第二发音方式信息集合的对应关系。其中,第二发音方式信息集合中的每个发音方式信息包括第二概率值。
作为示例,第二预测模型可以是利用机器学习方法对第二初始模型进行训练得到的模型。第二初始模型可以包括但不限于以下至少一种:BERT、LSTM等。通常,第二预测模型可以首先把第二子文本包括的词语转换为词向量,然后利用神经网络对词向量进行分析,对每个目标位置(即读音待定词在目标文本中的位置)进行分类,得到第二发音方式信息集合。例如,第二子文本为“O年O月O日,测试正确率OO”,其中的符号O表示读音待定词的位置,针对某个符号O,其对应的第二发音方式信息集合包括:“S:0.42,M:0.4,N:0.12,……”。其中,S表示一种发音方式,0.42表示该发音方式的第二概率;M表示另一种发音方式,0.4表示该发音方式的第二概率,……。
步骤2033,基于第一概率值和第二概率值,确定每个读音待定词的发音方式。
在本实施例中,电子设备可以基于上述第一概率值和第二概率值,按照各种方式确定每个读音待定词的发音方式。
作为示例,对于某个读音待定词,可以将该读音待定词对应的各个第一概率值和各个第二概率值中的最大值对应的发音方式信息作为该读音待定词对应的发音方式信息,从而基于该发音方式信息确定该读音待定词的发音方式。
上述图4对应实施例提供的方法,通过使用第一预测模型和第二预测模型确定读音待定词的发音方式,可以分别对第一子文本和第二子文本进行分析,有效地利用了第一子文本和第二子文本的特征,分别得到第一发音方式信息集合和第二发音方式信息集合,从而采用第一发音方式信息集合和第二发音方式信息集合相结合的方式,提高了确定读音待定词的发音方式的准确性。
在一些可选的实现方式中,对于至少一个读音待定词中的每个读音待定词,电子设备可以执行如下步骤:
首先,确定该读音待定词对应的第一发音方式信息集合和第二发音方式信息集合中的对应于相同的发音方式的第一概率值和第二概率值。
作为示例,针对某个读音待定词,其对应的第一发音方式信息集合为“S:0.63,M:0.3,N:0.02……”,第二发音方式信息集合为“S:0.42,M:0.4,N:0.12……”。S表征的发音方式对应的第一概率和第二概率分别为0.63和0.42,M表征的发音方式对应的第一概率和第二概率分别为0.3和0.4,……。
然后,基于对应于相同的发音方式的第一概率值和第二概率值,确定该读音待定词的发音方式。
电子设备可以按照各种方式确定读音待定词的发音方式,例如,将对应于相同的发音方式的第一概率值和第二概率值相加,将相加所得到的数值中的最大值对应的发音方式信息确定为读音待定词的发音方式信息。例如,上述示例中的S对应的第一概率和第二概率的和为0.63+0.42=1.05,为各个相同的发音方式对应的第一概率和第二概率之和的最大值,则确定该读音待定词的发音方式为S表征的发音方式。
本可选的实现方式,可以灵活地利用对应于相同的发音方式的第一概率值和第二概率值确定读音待定词的发音方式,从而有助于使最终确定的读音方式的概率最大,提高了文本转换的准确性。
在一些可选的实现方式中,电子设备可以将对应于相同的发音方式的第一概率值和第二概率值相乘,并基于所得到的乘积中的最大值对应的发音方式信息,确定该读音待定词的发音方式。例如上述示例中的S对应的第一概率和第二概率的乘积为0.63*0.42=0.2646,为各个相同的发音方式对应的第一概率和第二概率之积的最大值,则确定该读音待定词的发音方式为S表征的发音方式。通过相乘的方式确定读音待定词的发音方式,可以准确地得到某个读音待定词的发音方式的概率,从而有利于更准确地确定每个读音待定词的发音方式。
参见图5,图5是根据本实施例的文本转换方法的应用场景的一个示意图。在图3的应用场景中,目标文本电子设备501首先从目标文本502中提取至少一个读音待定词,生成第一子文本503(即执行步骤201)。如图5所示,目标文本为“2019年6月21日,测试正确率52%”。电子设备501从目标文本502中提取的读音待定词包括非文字词“2019、6、21、52、%”,生成的第一子文本503可以“2019|6|21|52|%”。然后,电子设备501基于目标文本502中的除至少一个读音待定词之外的部分,生成第二子文本504(即执行步骤202)。如图5所示,,电子设备501在目标文本中的读音待定词对应的位置添加预设符号“O”,得到的第二子文本504为“O年O月O日,测试正确率OO。”再然后,电子设备501基于第一子文本503和第二子文本504,确定至少一个读音待定词中的每个读音待定词的发音方式(即执行步骤203)。例如,电子设备501可以将第一子文本503输入预先训练的第一预测模型505,将第二子文本504输入预先训练的第二预测模型506,从而基于第一预测模型505和第二预测模型506针对每个读音待定词输出的第一发音方式信息集合507和第二发音方式信息集合508,确定每个读音待定词的发音方式。最后,电子设备501基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词(例如将“2019”转换为“二零一九”,将“21”转换为“二十一”等等),得到转换后文本509(即执行步骤204)。如图5所示,转换后文本509为“二零一九年六月二十一日,测试正确率百分之二十五”。
本公开实施例提供的任一种文本转换方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种文本转换方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种文本转换方法。下文不再赘述。
示例性装置
图6是本公开一示例性实施例提供的文本转换装置的结构示意图。本实施例可应用在电子设备(例如图1所示的服务器或终端设备)上,如图6所示,文本转换装置包括:第一生成模块601,用于从目标文本中提取至少一个读音待定词,生成第一子文本;第二生成模块602,用于基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本;第一确定模块603,用于基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式;转换模块604,用于基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本。
在本实施例中,第一生成模块601目标文本可以是文本转换装置预先获取的待对其进行转换的文本。上述读音待定词可以是非文字的数字、符号等非文字词。例如,数字“2019”、符号“%”、“#”等。
作为示例,目标文本为“2019年6月21日,测试正确率52%”,其中的读音待定词包括:2019、6、21、52、%。生成的第一子文本可以为“2019|6|21|52|%”。
在本实施例中,第二生成模块602可以基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本。作为示例,第二生成模块602可以将目标文本中的至少一个读音待定词删除,得到第二子文本。
在本实施例中,第一确定模块603可以基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式。作为示例,第一确定模块603可以基于统计的方法,确定第一子文本中每个读音待定词对应的发音方式及概率,确定第二子文本中的每个待填充位置(即删除读音待定词的位置)对应的发音方式及概率,取概率值最大的发音方式作为读音待定词的发音方式。
在本实施例中,转换模块604可以基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本。具体地,每种发音方式对应于一种文字词转换方法,转换模块604可以根据每个读音待定词的发音方式,按照对应的文字词转换方法,将每个读音待定词转换为相应的文字词。
作为示例,目标文本为“2019年6月21日,测试正确率52%”。对于读音待定词“2019”,其对应的发音方式为依次将每个数字读作相应的汉字数字,即“二零一九”。对于读音待定词“52”和“%”,其对应的发音方式为将“52”读作“五十二”,将“%”读作“百分之”,并且将两个词的读音顺序颠倒。对于其他读音待定词的转换方法,这里不再一一列举。基于此,转换后文本可以为“二零一九年六月二十一日,测试正确率百分之二十五”。
参照图7,图7是本公开另一示例性实施例提供的文本转换装置的结构示意图。
在一些可选的实现方式中,第一确定模块603可以包括:第一预测单元6031,用于将第一子文本输入预先训练的第一预测模型,得到每个读音待定词分别对应的第一发音方式信息集合,其中,第一发音方式信息集合中的每个发音方式信息包括第一概率值;第二预测单元6032,用于将第二子文本输入预先训练的第二预测模型,得到每个读音待定词分别对应的第二发音方式信息集合,其中,第二发音方式信息集合中的每个发音方式信息包括第二概率值;确定单元6033,用于基于第一概率值和第二概率值,确定每个读音待定词的发音方式。
在一些可选的实现方式中,确定单元6033可以包括:第一确定子单元60331,用于对于至少一个读音待定词中的每个读音待定词,确定该读音待定词对应的第一发音方式信息集合和第二发音方式信息集合中的对应于相同的发音方式的第一概率值和第二概率值;第二确定子单元60332,用于基于对应于相同的发音方式的第一概率值和第二概率值,确定该读音待定词的发音方式。
在一些可选的实现方式中,第二确定子单元60332可以进一步用于:将对应于相同的发音方式的第一概率值和第二概率值相乘,并基于所得到的乘积中的最大值对应的发音方式信息,确定该读音待定词的发音方式。
在一些可选的实现方式中,第二生成模块602可以进一步用于:向除至少一个读音待定词之外的部分中的目标位置添加预设符号,得到第二子文本,其中,目标位置是目标文本中的每个读音待定词所在的位置。
在一些可选的实现方式中,第一生成模块601可以包括:分词单元6011,用于对目标文本进行分词,得到词语序列;生成单元6012,用于从词语序列中提取至少一个读音待定词,生成第一子文本。
在一些可选的实现方式中,文本转换装置还可以包括:第二确定模块605,用于确定转换后文本包括的词语的词性;预测模块606,用于对转换后文本进行韵律预测,得到用于表征转换后文本的停顿位置的停顿信息;第三确定模块607,用于确定转换后文本的音素信息。
本公开上述实施例提供的文本转换装置,通过从目标文本中提取至少一个读音待定词,生成第一子文本,以及基于目标文本中的除至少一个读音待定词之外的部分,生成第二子文本,再基于第一子文本和第二子文本,确定至少一个读音待定词中的每个读音待定词的发音方式,最后基于每个读音待定词的发音方式,将每个读音待定词分别转换为文字词,得到转换后文本,从而实现了第一子文本和第二子文本相结合的方式,确定目标文本中的读音待定词的发音方式,提高了将读音待定词转换为相应的文字的准确性,此外,可以避免采用人工设定规则的方式进行文本正则化,降低了文本转换的难度。
示例性电子设备
下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
图8图示了根据本公开实施例的电子设备的框图。
如图8所示,电子设备800包括一个或多个处理器801和存储器802。
处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备800中的其他组件以执行期望的功能。
存储器802可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器801可以运行程序指令,以实现上文的本公开的各个实施例的文本转换方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备800还可以包括:输入装置803和输出装置804,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置803可以是鼠标、键盘等设备,用于输入文本。在该电子设备是单机设备时,该输入装置803可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的文本。
该输出装置804可以向外部输出各种信息,包括转换后文本。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备800中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备800还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本转换方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本转换方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (8)

1.一种文本转换方法,包括:
从目标文本中提取至少一个读音待定词,生成第一子文本;
基于所述目标文本中的除所述至少一个读音待定词之外的部分,生成第二子文本;
基于所述第一子文本和所述第二子文本,确定所述至少一个读音待定词中的每个读音待定词的发音方式;
基于所述每个读音待定词的发音方式,将所述每个读音待定词分别转换为文字词,得到转换后文本;
其中,所述基于所述第一子文本和第二子文本,确定所述至少一个读音待定词中的每个读音待定词的发音方式,包括:
将所述第一子文本输入预先训练的第一预测模型,得到所述每个读音待定词分别对应的第一发音方式信息集合,其中,所述第一发音方式信息集合中的每个发音方式信息包括第一概率值;
将所述第二子文本输入预先训练的第二预测模型,得到所述每个读音待定词分别对应的第二发音方式信息集合,其中,所述第二发音方式信息集合中的每个发音方式信息包括第二概率值;
对于所述至少一个读音待定词中的每个读音待定词,确定该读音待定词对应的第一发音方式信息集合和第二发音方式信息集合中的对应于相同的发音方式的第一概率值和第二概率值;
基于所述对应于相同的发音方式的第一概率值和第二概率值,确定该读音待定词的发音方式。
2.根据权利要求1所述的方法,其中,所述基于所述对应于相同的发音方式的第一概率值和第二概率值,确定该读音待定词的发音方式,包括:
将所述对应于相同的发音方式的第一概率值和第二概率值相乘,并基于所得到的乘积中的最大值对应的发音方式信息,确定该读音待定词的发音方式。
3.根据权利要求1所述的方法,其中,所述基于所述目标文本中的除所述至少一个读音待定词之外的部分,生成第二子文本,包括:
向所述除所述至少一个读音待定词之外的部分中的目标位置添加预设符号,得到第二子文本,其中,所述目标位置是所述目标文本中的每个读音待定词所在的位置。
4.根据权利要求1所述的方法,其中,所述从目标文本中提取至少一个读音待定词,生成第一子文本,包括:
对所述目标文本进行分词,得到词语序列;
从所述词语序列中提取至少一个读音待定词,生成第一子文本。
5.根据权利要求1-4之一所述的方法,其中,在所述基于所述每个读音待定词的发音方式,将所述每个读音待定词分别转换为文字词,得到转换后文本之后,所述方法还包括:
确定所述转换后文本包括的词语的词性;
对所述转换后文本进行韵律预测,得到用于表征所述转换后文本的停顿位置的停顿信息;
确定所述转换后文本的音素信息。
6.一种文本转换装置,包括:
第一生成模块,用于从目标文本中提取至少一个读音待定词,生成第一子文本;
第二生成模块,用于基于所述目标文本中的除所述至少一个读音待定词之外的部分,生成第二子文本;
第一确定模块,用于基于所述第一子文本和所述第二子文本,确定所述至少一个读音待定词中的每个读音待定词的发音方式;
转换模块,用于基于所述每个读音待定词的发音方式,将所述每个读音待定词分别转换为文字词,得到转换后文本;
其中,所述第一确定模块包括:
第一预测单元,用于将所述第一子文本输入预先训练的第一预测模型,得到所述每个读音待定词分别对应的第一发音方式信息集合,其中,所述第一发音方式信息集合中的每个发音方式信息包括第一概率值;
第二预测单元,用于将所述第二子文本输入预先训练的第二预测模型,得到所述每个读音待定词分别对应的第二发音方式信息集合,其中,所述第二发音方式信息集合中的每个发音方式信息包括第二概率值;
确定单元,用于对于所述至少一个读音待定词中的每个读音待定词,确定该读音待定词对应的第一发音方式信息集合和第二发音方式信息集合中的对应于相同的发音方式的第一概率值和第二概率值;还用于基于所述对应于相同的发音方式的第一概率值和第二概率值,确定该读音待定词的发音方式。
7.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的方法。
8.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-5任一所述的方法。
CN201910836472.3A 2019-09-05 2019-09-05 文本转换方法、装置、计算机可读存储介质及电子设备 Active CN112542154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910836472.3A CN112542154B (zh) 2019-09-05 2019-09-05 文本转换方法、装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910836472.3A CN112542154B (zh) 2019-09-05 2019-09-05 文本转换方法、装置、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112542154A CN112542154A (zh) 2021-03-23
CN112542154B true CN112542154B (zh) 2024-03-19

Family

ID=75012155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910836472.3A Active CN112542154B (zh) 2019-09-05 2019-09-05 文本转换方法、装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112542154B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781997A (zh) * 2021-09-22 2021-12-10 联想(北京)有限公司 语音合成方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980047177A (ko) * 1996-12-14 1998-09-15 윤덕용 한국어 문서 음성 변환 시스템을 위한 문서 분석기
CN101271687A (zh) * 2007-03-20 2008-09-24 株式会社东芝 字音转换预测以及语音合成的方法和装置
CN102929864A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种音字转换方法及装置
CN109545183A (zh) * 2018-11-23 2019-03-29 北京羽扇智信息科技有限公司 文本处理方法、装置、电子设备及存储介质
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630892B2 (en) * 2004-09-10 2009-12-08 Microsoft Corporation Method and apparatus for transducer-based text normalization and inverse text normalization
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
US20100082327A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for mapping phonemes for text to speech synthesis
US8468021B2 (en) * 2010-07-15 2013-06-18 King Abdulaziz City For Science And Technology System and method for writing digits in words and pronunciation of numbers, fractions, and units
US10402740B2 (en) * 2016-07-29 2019-09-03 Sap Se Natural interactive user interface using artificial intelligence and freeform input

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980047177A (ko) * 1996-12-14 1998-09-15 윤덕용 한국어 문서 음성 변환 시스템을 위한 문서 분석기
CN101271687A (zh) * 2007-03-20 2008-09-24 株式会社东芝 字音转换预测以及语音合成的方法和装置
CN102929864A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种音字转换方法及装置
CN109545183A (zh) * 2018-11-23 2019-03-29 北京羽扇智信息科技有限公司 文本处理方法、装置、电子设备及存储介质
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备

Also Published As

Publication number Publication date
CN112542154A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN110287278B (zh) 评论生成方法、装置、服务器及存储介质
CN110019742B (zh) 用于处理信息的方法和装置
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
KR20210154705A (ko) 시맨틱 매칭 방법, 장치, 기기 및 저장 매체
CN111368559A (zh) 语音翻译方法、装置、电子设备及存储介质
US11651015B2 (en) Method and apparatus for presenting information
CN109920431B (zh) 用于输出信息的方法和装置
CN111414745A (zh) 文本标点确定方法与装置、存储介质、电子设备
CN112364658A (zh) 翻译以及语音识别方法、装置、设备
CN111639162A (zh) 信息交互方法和装置、电子设备和存储介质
CN112711943B (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN112542154B (zh) 文本转换方法、装置、计算机可读存储介质及电子设备
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
WO2024077906A1 (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN112364653A (zh) 用于语音合成的文本分析方法、装置、服务器和介质
US11893344B2 (en) Morpheme analysis learning device, morpheme analysis device, method, and program
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质
CN111985235A (zh) 文本处理方法、装置、计算机可读存储介质和电子设备
CN111883133A (zh) 客服语音识别方法、装置、服务器及存储介质
CN111401046B (zh) 房源标题的生成方法和装置、存储介质、电子设备
CN115248846B (zh) 文本识别方法、设备、介质
CN114330345B (zh) 命名实体识别方法、训练方法、装置、电子设备及介质
US20210142010A1 (en) Learning method, translation method, information processing apparatus, and recording medium
CN114676319B (zh) 获取商家名称的方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant