结合RPA及AI的拼音标注文本生成方法及装置
技术领域
本申请涉及语音合成技术领域,具体涉及人工智能(Artificial Intelligence,简称AI)和机器人流程自动化(Robotic Process Automation,简称RPA)领域,尤其涉及一种结合RPA及AI的拼音标注文本生成方法及装置。
背景技术
机器人流程自动化(Robotic Process Automation,简称:RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,NLP属于人工智能的一个重要分支。
语音合成,是一种能根据文字生成语音的技术。语音合成系统设置有前端,前端用于将中文文本转换为拼音文本,语音合成系统用于根据拼音文本生成对应的语音。前端的构建,需要大量的中文文本以及对应的拼音标注文本。目前的拼音标注文本,主要由人员来对中文文本进行拼音标注得到,耗时长,且错误率高。
发明内容
本申请的目的旨在至少在一定程度上解决上述技术问题之一。
为此,本申请的第一个目的在于提出一种结合RPA及AI的拼音标注文本生成方法,该方法可自动对文本中的连续三声汉字组成的词语进行变声处理,更加准确的对文本进行拼音标注,提高了文本的标注效率和正确率。
本申请的第二个目的在于提出一种结合RPA及AI的拼音标注文本生成装置。
本申请的第三个目的在于提出另一种结合RPA及AI的拼音标注文本生成装置。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种结合RPA及AI的拼音标注文本生成方法,包括:获取待进行拼音标注的中文文本,生成所述中文文本对应的拼音文本;将所述中文文本输入预设的停顿模型,获取所述中文文本中的停顿信息;按照所述停顿信息对所述中文文本进行分词,得到分词结果;基于所述分词结果以及所述拼音文本,确定连续三声汉字组成的词语;对所述连续三声汉字组成的词语进行变声处理,生成所述中文文本对应的拼音标注文本并输出。
本申请实施例的结合RPA及AI的拼音标注文本生成方法,通过获取待进行拼音标注的中文文本,生成所述中文文本对应的拼音文本;将所述中文文本输入预设的停顿模型,获取所述中文文本中的停顿信息;按照所述停顿信息对所述中文文本进行分词,得到分词结果;基于所述分词结果以及所述拼音文本,确定连续三声汉字组成的词语;对所述连续三声汉字组成的词语进行变声处理,生成所述中文文本对应的拼音标注文本并输出。该方法可自动对文本中的连续三声汉字组成的词语进行变声处理,更加准确的对文本进行拼音标注,提高了文本的标注效率和正确率。
为达上述目的,本申请第二方面实施例提出了一种结合RPA及AI的拼音标注文本生成装置,该装置包括:获取模块,用于获取待进行拼音标注的中文文本,生成所述中文文本对应的拼音文本;输入模块,用于将所述中文文本输入预设的停顿模型,获取所述中文文本中的停顿信息;分词模块,用于按照所述停顿信息对所述中文文本进行分词,得到分词结果;确定模块,用于基于所述分词结果以及所述拼音文本,确定连续三声汉字组成的词语;变声处理模块,用于对所述连续三声汉字组成的词语进行变声处理,生成所述中文文本对应的拼音标注文本并输出。
本申请实施例的结合RPA及AI的拼音标注文本生成装置,通过获取待进行拼音标注的中文文本,生成所述中文文本对应的拼音文本;将所述中文文本输入预设的停顿模型,获取所述中文文本中的停顿信息;按照所述停顿信息对所述中文文本进行分词,得到分词结果;基于所述分词结果以及所述拼音文本,确定连续三声汉字组成的词语;对所述连续三声汉字组成的词语进行变声处理,生成所述中文文本对应的拼音标注文本并输出。该装置可实现自动对文本中的连续三声汉字组成的词语进行变声处理,更加准确的对文本进行拼音标注,提高了文本的标注效率和正确率。
为达上述目的,本申请第三方面实施例提出了另一种结合RPA及AI的拼音标注文本生成装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的结合RPA及AI的拼音标注文本生成方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的结合RPA及AI的拼音标注文本生成方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例的结合RPA及AI的拼音标注文本生成方法的流程示意图;
图2为根据本申请另一个实施例的结合RPA及AI的拼音标注文本生成方法的流程示意图;
图3为根据本申请一个实施例的结合RPA及AI的拼音标注文本生成装置的结构示意图;
图4为根据本申请另一个实施例的结合RPA及AI的拼音标注文本生成装置的结构示意图;
图5为根据本申请一个实施例的另一种结合RPA及AI的拼音标注文本生成装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的结合RPA及AI的拼音标注文本生成方法及装置。本申请提供的结合RPA及AI的拼音标注文本生成方法的执行主体为结合RPA及AI的拼音标注文本生成装置。
图1为本申请实施例提供的一种结合RPA及AI的拼音标注文本生成方法的流程示意图。如图1所示,该结合RPA及AI的拼音标注文本生成方法包括以下步骤:
步骤101,获取待进行拼音标注的中文文本,生成中文文本对应的拼音文本。
在本申请实施例中,待进行拼音标注的中文文本为需要进行拼音标注的中文文本,比如,相关音频对应的中文文本、文档中的部分中文文本、网络上的中文文本等。对应的,待进行拼音标注的中文文本的获取方式可以是但不限于通过对相关音频进行转化,将音频转化为对应的中文文本、对文档中的中文文本进行截取、以及在网络上进行下载等。
接着,根据获取的待进行拼音标注的中文文本,生成由拼音组成的与中文文本对应的拼音文本。作为一种示例,可通过查询拼音库的方式生成待进行拼音标注的中文文本对应的拼音文本。比如,待进行拼音标注的中文文本为“语音合成”,对应的拼音文本为“yu3yin1he2 cheng2”,其中,数字代表拼音声调。
步骤102,将中文文本输入预设的停顿模型,获取中文文本中的停顿信息。
作为一种示例,将待标注的中文文本输入预先训练的文本停顿识别模型中,该文本停顿识别模型可输出中文文本对应的停顿信息。其中,停顿信息可以是但不限于分词信息。
步骤103,按照停顿信息对中文文本进行分词,得到分词结果。
在本申请实施例中,在获得停顿信息之后,可将停顿信息插入到中文文本中,得到停顿分词后的各个词语,比如,“展览馆馆长”,插入停顿信息之后,停顿分词后的各个词语为:“展览馆”,“馆长”。
可选地,如图2所示,对停顿分词后的各个词语进行分词,得到分词结果,并对分词结果中的连续单字词进行组合,具体实现过程如下:
步骤201,根据自然语言处理NLP按照预设的分词策略对停顿分词后的各个词语进行分词,得到分词后的结果。
作为一种示例,针对停顿分词后的每个词语,将词语输入预设的分词模型,获取词语的分词结果,其中,可以基于NLP技术确定停顿分词中每个分词的词性,根据词性确定出停顿分词后的每个词语,进而,将词语输入到预先设置的分词模型,其中,该分词模型也可以是根据NLP中的深度学习技术对有关样本数据训练生成的;在词语的分词结果中存在字数大于等于第二预设数量的待拆分词语时,根据自然语言处理NLP按照待拆分词语的字数对待拆分词语进行拆分,使得待拆分词语的字数小于等于第二预设数量。
由于分词结果类型不同,采用的拆分方式也不同,示例说明如下:
第一种示例:对于分词结果中存在可以进一步分割的词,以2个字的词长度为准,进一步分割。以中文文本为“展览馆馆长”为例,停顿分词后的各个词语为:“展览馆”,“馆长”。其中,“展览馆”是一个等于第二预设数量的词的三字词(第二预设数量为3),将“展览馆”输入预设的分词模型,可将“展览馆”进一步拆分为:“展览”,“馆”,最终分词结果为:“展览”,“馆”,“馆长”。
第二种示例,对于不可分割的三字词,保留即可,不做任何处理。以“索马里海匪”为例,可分为:“索马里”,“海匪”。“索马里”虽然是一个等于第二预设数量的词的三字词(第二预设数量为3),但是一个整体,无法继续分词,保留即可。
第三种示例,对于不可分割的四字词,每2个字为一个词进行分割。以“索马里里”为例,分成“索马”,“里里”。
第四种示例,对于不可分割的五字词,按2-3规则进行分割。以“索马里里里”为例,分成“索马”,“里里里”。
第五种示例,对于不可分割的N字词(N大于5),当N为偶数时,每2个字为一个词;当N为奇数时,最后3个字为一个词,剩下部分每2个字为一个词。例如,“索马海尔里里”,可分成“索马”,“海尔”,“里里”。又例如,“索马里海尔马索”,可分成“索马”,“里海”,“尔马索”。
步骤202,在分词后的结果中存在大于第一预设数量的连续单字词时,对连续单字词进行组合。
举例而言,以“我我我有纸老虎”为例,分词后的结果为:“我”,“我”,“我”,“有”,“纸”,“老虎”。对连续单字词进行组合,组合结果为“我我我有纸”,“老虎”。
步骤104,基于分词结果以及拼音文本,确定连续三声汉字组成的词语。
步骤105,对连续三声汉字组成的词语进行变声处理,生成中文文本对应的拼音标注文本并输出。
可选地,将连续三声汉字组成的词语中最后一个字之前的所有字的拼音确定为待变声拼音;对连续三声汉字组成的词语对应的拼音中的待变声拼音进行二声处理。
在本申请实施例中,可遍历所有的分词结果,找到含有连续3声字的词,当连续3声的字数为N时,将前面N-1个所有字的拼音确定为待变声拼音,待变声拼音对应的3声汉字的声调改为2声。
举例而言,比如:“索马里海匪”(suo3 ma3 li3 hai3 fei3),分词结果为“索马里”,“海匪”,变声处理后的拼音为:“suo2 ma2 li3”,“hai2 fei3”;又比如:“展览馆馆长”,分词结果为“展览”,“馆”,“馆长”(“zhan3 lan3”,“guan3”,“guan3 zhang3”),变声处理后的拼音为:“zhan2 lan3”,“guan3”,“guan2 zhang3”;再比如:“我我我有纸老虎”,分词为“我我我有纸”,“老虎”,变声处理后的拼音为:“wo2 wo2 wo2 you2 zhi3”,“lao2 hu3”。
为了进一步确保文本标注的准确性,在本申请实施例中,对分词结果中的连续三声汉字组成的词语对应的拼音中的待变声拼音进行二声处理之后,可获取变声处理后的拼音文本中的连续三声拼音;对连续三声拼音中最后一个拼音之前的所有拼音进行二声处理。
举例而言,以“展览馆馆长”为例,经过变声处理后,得到的拼音为:“zhan2 lan3guan3guan2 zhang3”,其中“lan3 guan3”为连续3声,将第一个字变为2声,结果为“lan2guan3”,最终结果为:“zhan2 lan2 guan3 guan2 zhang3”。
进一步地,为了语音合成系统的前端的构建,在本申请实施例中,对连续三声汉字组成的词语进行变声处理,生成中文文本对应的拼音标注文本并输出之后,可将中文文本以及对应的拼音标注文本确定为训练数据;采用训练数据对语音合成系统的前端处理模型进行训练,得到训练好的前端处理模型。由此,提高了文本的标注效率和正确率。
本申请实施例的结合RPA及AI的拼音标注文本生成方法,通过获取待进行拼音标注的中文文本,生成中文文本对应的拼音文本;将中文文本输入预设的停顿模型,获取所述中文文本中的停顿信息;按照停顿信息对所述中文文本进行分词,得到分词结果;基于分词结果以及所述拼音文本,确定连续三声汉字组成的词语;对所述连续三声汉字组成的词语进行变声处理,生成所述中文文本对应的拼音标注文本并输出。该方法可自动对文本中的连续三声汉字组成的词语进行变声处理,更加准确的对文本进行拼音标注,提高了文本的标注效率和正确率。
与上述几种实施例提供的结合RPA及AI的拼音标注文本生成方法相对应,本申请的一种实施例还提供一种结合RPA及AI的拼音标注文本生成装置,由于本申请实施例提供的结合RPA及AI的拼音标注文本生成装置与上述几种实施例提供的结合RPA及AI的拼音标注文本生成方法相对应,因此在前述结合RPA及AI的拼音标注文本生成方法的实施方式也适用于本实施例提供的结合RPA及AI的拼音标注文本生成装置,在本实施例中不再详细描述。图3为根据本申请一个实施例的结合RPA及AI的拼音标注文本生成装置的结构示意图。如图3所示,该结合RPA及AI的拼音标注文本生成装置包括:获取模块310、输入模块320、分词模块330、确定模块340、变声处理模块350。
其中,获取模块310,用于获取待进行拼音标注的中文文本,生成中文文本对应的拼音文本;输入模块320,用于将中文文本输入预设的停顿模型,获取中文文本中的停顿信息;分词模块330,用于按照停顿信息对中文文本进行分词,得到分词结果;确定模块340,用于基于分词结果以及拼音文本,确定连续三声汉字组成的词语;变声处理模块350,用于对连续三声汉字组成的词语进行变声处理,生成中文文本对应的拼音标注文本并输出。
作为本申请实施例的一种可能实现方式,分词模块330还用于,按照预设的分词策略对停顿分词后的各个词语进行分词,得到分词后的结果;在分词后的结果中存在大于第一预设数量的连续单字词时,对连续单字词进行组合。
作为本申请实施例的一种可能实现方式,分词模块330具体用于,针对停顿分词后的每个词语,将词语输入预设的分词模型,获取词语的分词结果;在词语的分词结果中存在字数大于等于第二预设数量的待拆分词语时,按照待拆分词语的字数对待拆分词语进行拆分,使得待拆分词语的字数小于等于第二预设数量。
作为本申请实施例的一种可能实现方式,变声处理模块350具体用于,将连续三声汉字组成的词语中最后一个字之前的所有字的拼音确定为待变声拼音;对连续三声汉字组成的词语对应的拼音中的待变声拼音进行二声处理。
作为本申请实施例的一种可能实现方式,变声处理模块350具体还用于,获取变声处理后的拼音文本中的连续三声拼音;对连续三声拼音中最后一个拼音之前的所有拼音进行二声处理。
作为本申请实施例的一种可能实现方式,如图4所示,在图3所示基础上,结合RPA及AI的拼音标注文本生成装置还包括:训练模块360。
其中,确定模块340,用于将中文文本以及对应的拼音标注文本确定为训练数据;训练模块360,用于采用训练数据对语音合成系统的前端处理模型进行训练,得到训练好的前端处理模型。
本申请实施例的结合RPA及AI的拼音标注文本生成装置,通过获取待进行拼音标注的中文文本,生成中文文本对应的拼音文本;将中文文本输入预设的停顿模型,获取中文文本中的停顿信息;按照停顿信息对中文文本进行分词,得到分词结果;基于分词结果以及拼音文本,确定连续三声汉字组成的词语;对连续三声汉字组成的词语进行变声处理,生成中文文本对应的拼音标注文本并输出。该装置可实现自动对文本中的连续三声汉字组成的词语进行变声处理,更加准确的对文本进行拼音标注,提高了文本的标注效率和正确率。
为了实现上述实施例,本申请还提出另一种结合RPA及AI的拼音标注文本生成装置,图5为本申请实施例提供的另一种结合RPA及AI的拼音标注文本生成装置的结构示意图。该结合RPA及AI的拼音标注文本生成装置包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的结合RPA及AI的拼音标注文本生成方法。
进一步地,结合RPA及AI的拼音标注文本生成装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的结合RPA及AI的拼音标注文本生成方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
为了实现上述实施例,本申请实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例的结合RPA及AI的拼音标注文本生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。