CN109545183A - 文本处理方法、装置、电子设备及存储介质 - Google Patents
文本处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109545183A CN109545183A CN201811413110.5A CN201811413110A CN109545183A CN 109545183 A CN109545183 A CN 109545183A CN 201811413110 A CN201811413110 A CN 201811413110A CN 109545183 A CN109545183 A CN 109545183A
- Authority
- CN
- China
- Prior art keywords
- text
- english
- pronunciation
- string
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013507 mapping Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 230000036651 mood Effects 0.000 claims description 27
- 230000002452 interceptive effect Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 10
- 230000001052 transient effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 description 18
- 238000003786 synthesis reaction Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005266 casting Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例公开了一种文本处理方法、装置、电子设备及存储介质。该方法包括:识别输入文本中包括的至少一组英文字符串;如果确定英文字符串中包括不属于英文单词的目标字符串,则获取与目标字符串中每个英文字母对应的替换字符对目标字符串进行替换处理,替换字符不属于中文字;对替换处理后的输入文本进行文本分割,得到至少一个文本分词;根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取输入文本中的各文本分词的发音。本发明实施例提供的技术方案,解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题,增加了语音的自然度。
Description
技术领域
本发明实施例涉及信息处理技术领域,特别是涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
TTS(Text To Speech,语音合成)是一种将文字转换成人类自然语言的技术,被广泛应用在车机导航播报、商家的在线客服、智能机器人语言交互等方面。
TTS系统主要分为前端和后端,其中前端主要完成分析文本的工作,将字素转换成音素,主要包括文本正规化、断句、生成发音等工作。TTS的后端主要完成语音的合成,主要包括韵律预测、原始音频合成等工作。TTS系统的好坏主要由其合成的语音是否更加符合人类的自然语言决定,其常用的标准为MOS(Mean Opinion Score,平均意见得分)测试,该值越高说明系统的效果越好。TTS系统合成普通话的难点之一是处理中文中夹杂着由字母组成的特殊名词的句式,比如“打开QQ聊天”。TTS系统处理这种句式的方案是先对该句子进行分割“打开/QQ/聊天”,然后用英文方式处理“QQ”。
现有技术虽然在处理中英混杂的句子效果较好,但由于字母组成的特殊名词并不是英文单词,使用该方案有时存在不理想的效果,造成句子发音不协调,降低MOS值。
发明内容
有鉴于此,本发明实施例提供了一种文本处理方法、装置、电子设备及存储介质,主要目的在于解决中文中夹杂特殊的字母名词的句子发音不协调的问题。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种文本处理方法,该方法包括:
识别输入文本中包括的至少一组英文字符串;
如果确定所述英文字符串中包括不属于英文单词的目标字符串,则获取与所述目标字符串中每个英文字母对应的替换字符对所述目标字符串进行替换处理,所述替换字符不属于中文字;
对替换处理后的输入文本进行文本分割,得到至少一个文本分词;
根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取所述输入文本中的各文本分词的发音。
可选的,在获取输入文本中包括的至少一组英文字符串之前,还包括:
获取中文习惯发音的标准英文字符串集合;
获取与所述标准英文字符串集合匹配的多个标准英文字母,并建立替换字符与各所述标准英文字母之间的映射关系;
使用中文音素发音对各所述标准英文字母进行标注,并根据标注结果,建立替换字符与各所述中文音素发音之间的映射关系。
可选的,所述替换字符包括:日文片假名。
可选的,对所述输入文本中英文字符串的识别操作以及对目标字符串的替换处理操作在文本的正规化处理阶段实现。
可选的,确定所述英文字符串中包括不属于英文单词的目标字符串,包括:
将所述至少一组英文字符串分别在标准英文字典进行查找,并将在所述标准英文字典中未查找到的英文字符串作为所述目标字符串。
可选的,在识别输入文本中包括的至少一组英文字符串之前,还包括:
获取用户的交互语音,并根据所述交互语音生成交互文本;
获取与所述交互文本对应的反馈文本作为所述输入文本;
在获取所述输入文本中的各文本分词的发音之后,还包括:向所述用户播放所述输入文本的各文本分词的发音。
可选的,在获取用户的交互语音之后,还包括:
根据所述交互语音,确定用户的交互情绪,并获取与所述交互情绪匹配的反馈情绪;
向所述用户播放所述输入文本的各文本分词的发音,包括:
按照所述反馈情绪,向所述用户播放所述输入文本的各文本分词的发音。
第二方面,本发明实施例还提供一种文本处理装置,该装置包括:
英文字符串识别模块,用于识别输入文本中包括的至少一组英文字符串;
目标字符串替换模块,用于如果确定所述英文字符串中包括不属于英文单词的目标字符串,则获取与所述目标字符串中每个英文字母对应的替换字符对所述目标字符串进行替换处理,所述替换字符不属于中文字;
输入文本分割模块,用于对替换处理后的输入文本进行文本分割,得到至少一个文本分词;
发音获取模块,用于根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取所述输入文本中的各文本分词的发音。
第三方面,本发明实施例还提供一种电子设备,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行本发明任意实施例提供的文本处理方法。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本发明任意实施例提供的文本处理方法。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的文本处理方法,识别输入文本中的英文字符串,并使用替换字符对非英文单词的字符串进行替换处理,将替换后的输入文本分割成分词,根据分词与发音之间的映射关系,获取各分词的发音,本发明实施例通过建立中文音素发音与各英文字母之间的映射关系,解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题,增加了语音的自然度,使合成的语音更加自然。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的一种文本处理方法的流程图;
图2示出了本发明实施例二提供的一种文本处理方法的流程图;
图3示出了本发明实施例三提供的一种文本处理装置的结构示意图;
图4示出了本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1为本发明实施例一提供的一种文本处理方法的流程图,本实施例可适用于处理中文中夹杂着由字母组成的特殊名词的句子发音的情况,该方法可以由文本处理装置来执行,该装置可以由硬件和/或软件来实现,并一般可以集成在各种提供对文本进行语音合成的终端或者服务器中。如图1所示,该方法包括:
步骤110、识别输入文本中包括的至少一组英文字符串。
在本发明实施例中,输入文本是预先存储在数据库中的一段文字,可以回答用户所提出的问题或者满足用户所提出的要求。具体的,输入文本可以是一篇文章,通过对该文章进行语音合成,可以满足为用户播放该文章的要求;输入文本可以是某个领域中一些常见问题的答案,例如,对于网络购物的售后流程中涉及到的问题的答案,或者是车载导航领域中从出发地到目的地的线路规划问题的答案,等等。
具体的,输入文本即为待进行语音合成的文本,由于输入文本中中文分词和中文发音的映射关系与英文分词和英文发音的映射关系不同,因此,在获得输入文本之后,需要先识别出输入文本中的所有英文字符串,对每一个英文字符串分别进行对应的语音合成。
具体的,从输入文本的起始位置开始,以汉字为单位,顺序对输入文本进行识别,当遇到英文字母时,从该英文字母起,到下一个非英文字母为止,为一个英文字符串,根据此过程找到输入文本中的所有英文字符串。
步骤120、如果确定英文字符串中包括不属于英文单词的目标字符串,则获取与目标字符串中每个英文字母对应的替换字符对目标字符串进行替换处理,替换字符不属于中文字。
具体的,识别出输出文本中的所有英文字符串之后,考虑到英文单词的发音获取方式与非英文单词的发音获取方式不同,因此,需要判断英文字符串中是否包含不属于英文单词的目标字符串,其中,目标字符串即为由字母组成的特殊名词。
可选的,当英文字符串中包括目标字符串时,获取与目标字符串中每个英文字母对应的替换字符对目标字符串进行替换处理,其中,替换字符不属于中文字;当英文字符串中不包括目标字符串,即所有英文字符串都是英文单词时,则不对英文字符串进行替换处理,直接执行步骤103对输入文本进行分词分割。
步骤130、对替换处理后的输入文本进行文本分割,得到至少一个文本分词。
具体的,对输入文本进行替换处理后,输入文本中的由英文字母组成的特殊名词全部变成与中文发音有映射关系的替换字符,此时,对输入文本进行文本分割,得到至少一个文本分词,其中,所得到的分词都可以根据对应的映射关系获取到相应的发音。
步骤140、根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取输入文本中的各文本分词的发音。
典型的,音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素,相同发音动作发出的音就是同一音素,不同发音动作发出的音就是不同音素,例如[ma-mi]中,两个[m]的发音动作相同,因此是相同音素,[a]、[i]的发音动作不同,因此是不同音素。
具体的,获取到文本分词后,根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取输入文本中的各文本分词的发音,可以包括:对于中文分词,根据中文分词与中文发音之间的映射关系,获取中文分词所对应的中文发音;对于英文分词,根据英文分词与英文发音之间的映射关系,获取英文分词所对应的英文发音;对于替换字符,根据替换字符与中文音素发音之间的映射关系,获取替换字符的中文发音,根据替换字符的中文发音得到其所对应的目标字符串的中文发音;根据各个分词在输入文本中的位置顺序,依次对各个分词进行发音,即可得到输入文本的发音,完成对输入文本进行语音合成的过程。
本发明实施例提供的技术方案,识别输入文本中的英文字符串,并使用替换字符对非英文单词的字符串进行替换处理,将替换后的输入文本分割成分词,根据各分词与发音之间的映射关系,获取各分词的发音,本发明实施例通过建立中文音素发音与各英文字母之间的映射关系,解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题,增加了语音的自然度,使合成的语音更加自然。
实施例二
图2为本发明实施例二提供的一种文本处理方法的流程图,上述各个实施例之间的技术特征的排列组合也落入本发明实施例的保护范围之内。本发明实施例可适用于任一种需要对文本进行语音合成的情况,具体的,参考图2,该方法可以包括如下步骤:
步骤210、预先建立替换字符与各中文音素发音之间的映射关系。
本发明实施例中,为了实现利用替换字符替换输入文本中由字母组成的特殊名词中的英文字母,进而获取到特殊名词中的英文字母所对应的发音,解决现有技术中特殊名词发音不协调的问题,需要预先建立替换字符与各中文音素发音之间的映射关系。
具体的,替换字符可以用于替换输入文本中由字母组成的特殊名词中的英文字母,由于按照对英文单词的处理方式处理特殊名词,会造成该名词发音与中文部分不协调,使整个输入文本发音听起来不够自然,因此,本发明实施例中采用替换字符替换特殊名词中的每个英文字母,再根据替换字符与中文音素发音之间的对应关系,即可以获取特殊名词的发音。
具体的,考虑到对字母组成的特殊名词的处理方式比较特殊,因此,需要预先获取中文习惯发音的标准英文字符串集合;例如,标准英文字符串集合中可以包括“QQ”和“KTV”等中文习惯发音的标准英文字符串。
具体的,获取到中文习惯发音的标准英文字符串集合后,为了能够用替换字符替换标准英文字符串中的字母,需要获取与标准英文字符串集合匹配的多个标准英文字母,并建立替换字符与各标准英文字母之间的映射关系。例如,针对标准英文字符串集合中包括的标准英文字符串“QQ”,获取与字符串“QQ”匹配的标准英文字母Q,建立替换字符ピ与标准英文字母Q之间的映射关系,根据此映射关系,对于任何标准英文字符串中的标准英文字母Q都可以用替换字符ピ替换。
具体的,建立替换字符与各标准英文字母之间的映射关系之后,为了能根据替换字符获得与该替换字符对应的标准英文字母的发音,需要使用中文音素发音对各标准英文字母进行标注,并根据标注结果,建立替换字符与各中文音素发音之间的映射关系。例如,使用中文音素发音kiu1对标准英文字母Q进行标注,并根据该标注结果,建立替换字符ピ与中文音素发音kiu1之间的映射关系,根据此映射关系,可以在使用替换字符ピ对输入文本中的标准英文字母Q进行替换后,获取标准英文字母Q的发音。
可选的,替换字符包括:日文片假名。本发明实施例中,为了避免对标准英文字符串中的标准英文字母进行替换处理后产生新的中文分词与原有的中文分词混淆,采用日文片假名与中文音素发音进行关联并保存在字典中。当然,可以理解的是,除了可以使用日文片假名之外,还可以采用其他非中文的字,如日文,韩文,泰文等作为替换字符,本实施例对此并不进行限制。
在建立替换字符与各中文音素发音之间的映射关系之后,可以实现使中文中夹杂着由字母组成的特殊名词的输入文本发音协调,合成的语音更加自然。
步骤220、根据用户的交互语音,获取输入文本和反馈情绪。
在本发明实施例中,应用场景可以是车载导航播报、商家的在线客服、智能机器人语言交互等。具体的,在应用场景下,用户提出问题,根据用户提出的问题从数据库中找到对应的答案,并对答案进行语音合成,根据获取的发音将答案播放给用户。
具体的,为了获取待进行语音合成的输入文本,先获取用户的交互语音,即用户所提出的问题,并根据交互语音生成交互文本,从预先存储有若干问题答案的数据库中获取与交互文本对应的反馈文本作为输入文本,其中,输入文本即为用户提出的问题所对应的答案。
具体的,在获取用户的交互语音之后,还包括:根据交互语音,确定用户的交互情绪,并获取与交互情绪匹配的反馈情绪;例如,如果确定用户的交互情绪比较兴奋,则获取与交互情绪匹配的反馈情绪也可以比较高兴;如果用户的交互情绪比较低落,则获取的反馈情绪也可以比较平稳等等。
本发明实施例中,为输入文本匹配与交互情绪对应的反馈情绪,可以使合成的语音能正确表达语意,听起来更加自然;同时,可以照顾到用户的情绪,给用户一种与朋友或师长对话的感觉,提高用户的感觉体验,其中,反馈情绪可以从音高、音长和音强等方面表现出来。
步骤230、获取输入文本中的英文字符串,并判断所有英文字符串中是否包括非英文单词的目标字符串,若是,执行步骤204,否则,执行步骤205。
具体的,根据用户的交互文本获取输入文本之后,逐字地识别输入文本,获得输入文本中包括的至少一组英文字符串,并根据字典判断所有的英文字符串中是否包括非英文单词的目标字符串。例如,获得的交互文本为“如何登陆QQ邮箱”,根据该交互文本从数据库中获取的输入文本为“打开QQ邮箱官网,输入QQ账号密码,点击登陆”,则先逐字识别输入文本,获取到两组相同的英文字符串“QQ”,根据字典判断字符串“QQ”是否为非英文单词的目标字符串。
具体的,判断字符串“QQ”是否为非英文单词的目标字符串,可以包括:将字符串“QQ”在标准英文字典中进行查找,若字符串“QQ”在标准英文字典中,则确定字符串“QQ”为英文单词,不需要对其进行替换处理,可继续执行步骤205;若字符串“QQ”不在标准英文字典中,则确定字符串“QQ”为目标字符串,需要对其进行替换处理,可继续执行步骤204。
具体的,对输入文本中英文字符串的识别操作以及对目标字符串的替换处理操作都在输入文本的正规化处理阶段实现。本发明实施例中,对输入文本进行语音合成的过程可以分为六个阶段,第一阶段,使用中文音素发音对各标准英文字母进行标注;第二阶段,建立替换字符与各中文音素发音之间的映射关系;第三阶段,从数据库中获取输入文本;第四阶段,对输入文本进行文本正规化处理;第五阶段,将处理后的输入文本分割成分词;第六阶段,获取各分词的发音。
步骤240、根据替换字符对目标字符串进行替换处理。
具体的,确定输入文本中的目标字符串后,替换字符与各标准英文字母之间的映射关系,使用替换字符对目标字符串中各个英文字母进行替换。例如,对输入文本“打开QQ邮箱官网,输入QQ账号密码,点击登陆”中的目标字符串进行替换处理后,得到处理后的输入文本“打开ピピ邮箱官网,输入ピピ账号密码,点击登陆”。
步骤250、将输入文本分割为文本分词,并根据各分词与发音之间的映射关系,获取各个分词的发音。
具体的,对替换处理后的输入文本进行分割,得到中文分词、英文分词以及替换字符组成的特殊分词,并查找字典,根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取各文本分词的发音。
例如,对处理后的输入文本“打开ピピ邮箱官网,输入ピピ账号密码,点击登陆”进行分割,得到结果“打开/ピピ/邮箱/官网,输入/ピピ/账号/密码,点击/登陆”,根据各分词与发音之间的映射关系,获取到各个分词的发音如下:da3 kai1/kiu1 kiu1/you2 xiang1/guan1 wang3/,shu1 ru4/kiu1 kiu1/zhang4 hao4/mi4 ma3/,dian3 ji1/deng1 lu4,其中,中文拼音后的数字表示该拼音的声调。
步骤260、按照反馈情绪,向用户播放输入文本的各文本分词的发音。
具体的,在获取输入文本中的各文本分词的发音之后,还包括:按照根据用户交互情绪获得的反馈情绪,向用户播放该输入文本的各文本分词的发音。
本发明实施例提供的技术方案,识别输入文本中的英文字符串,并使用替换字符对非英文单词的字符串进行替换处理,将替换后的输入文本分割成分词,根据各分词与发音之间的映射关系,获取各分词的发音,本发明实施例通过建立中文音素发音与各英文字母之间的映射关系,解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题,增加了语音的自然度,使合成的语音更加自然。
实施例三
图3为本发明实施例三提供的一种文本处理装置的结构示意图,具体的,如图3所示,该装置可以包括:
英文字符串识别模块310,用于识别输入文本中包括的至少一组英文字符串;
目标字符串替换模块320,用于如果确定英文字符串中包括不属于英文单词的目标字符串,则获取与目标字符串中每个英文字母对应的替换字符对目标字符串进行替换处理,替换字符不属于中文字;
输入文本分割模块330,用于对替换处理后的输入文本进行文本分割,得到至少一个文本分词;
发音获取模块340,用于根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取输入文本中的各文本分词的发音。
本发明实施例提供的技术方案,识别输入文本中的英文字符串,并使用替换字符对非英文单词的字符串进行替换处理,将替换后的输入文本分割成分词,根据各分词与发音之间的映射关系,获取各分词的发音,本发明实施例通过建立中文音素发音与各英文字母之间的映射关系,解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题,增加了语音的自然度,使合成的语音更加自然。
进一步的,该装置还包括:映射关系建立模块,用于在获取输入文本中包括的至少一组英文字符串之前,获取中文习惯发音的标准英文字符串集合;获取与标准英文字符串集合匹配的多个标准英文字母,并建立替换字符与各标准英文字母之间的映射关系;使用中文音素发音对各标准英文字母进行标注,并根据标注结果,建立替换字符与各中文音素发音之间的映射关系,其中,替换字符包括:日文片假名。
进一步的,对输入文本中英文字符串的识别操作以及对目标字符串的替换处理操作在文本的正规化处理阶段实现。
进一步的,该装置还包括:目标字符串判断模块,用于确定英文字符串中包括不属于英文单词的目标字符串,包括:将至少一组英文字符串分别在标准英文字典进行查找,并将在标准英文字典中未查找到的英文字符串作为目标字符串。
进一步的,该装置还包括:输入文本获取模块,用于在识别输入文本中包括的至少一组英文字符串之前,获取用户的交互语音,并根据交互语音生成交互文本;获取与交互文本对应的反馈文本作为输入文本;语音播放模块,用于在获取输入文本中的各文本分词的发音之后,向用户播放输入文本的各文本分词的发音。
进一步的,该装置还包括:反馈情绪获取模块,用于在获取用户的交互语音之后,根据交互语音,确定用户的交互情绪,并获取与交互情绪匹配的反馈情绪;
进一步的,语音播放模块,还用于按照反馈情绪,向用户播放输入文本的各文本分词的发音。
由于本发明实施例所介绍的文本处理装置为可以执行本发明实施例中的文本处理方法的装置,故而基于本发明实施例中所介绍的文本处理方法,本领域所属技术人员能够了解本实施例的文本处理装置的具体实施方式以及其各种变化形式,所以在此对于该文本处理装置如何实现本发明实施例中的文本处理方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中文本处理方法所采用的装置,都属于本申请所欲保护的范围。
实施例四
参照图4,图4是本发明实施例四提供的一种电子设备的结构示意图,如图4所示,该设备包括处理器410、存储器420、输入装置430和输出装置440;设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本处理方法对应的程序指令/模块(例如,文本处理装置中的英文字符串识别模块310、目标字符串替换模块320、输入文本分割模块330和发音获取模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的文本处理方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例五
本发明实施例五提供了一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现一种文本处理方法,一种文本处理方法包括:
识别输入文本中包括的至少一组英文字符串;
如果确定所述英文字符串中包括不属于英文单词的目标字符串,则获取与所述目标字符串中每个英文字母对应的替换字符对所述目标字符串进行替换处理,所述替换字符不属于中文字;
对替换处理后的输入文本进行文本分割,得到至少一个文本分词;
根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取所述输入文本中的各文本分词的发音。
当然,本发明实施例所提供的一种非暂态计算机可读存储介质,其计算机指令可执行不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在非暂态计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
识别输入文本中包括的至少一组英文字符串;
如果确定所述英文字符串中包括不属于英文单词的目标字符串,则获取与所述目标字符串中每个英文字母对应的替换字符对所述目标字符串进行替换处理,所述替换字符不属于中文字;
对替换处理后的输入文本进行文本分割,得到至少一个文本分词;
根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取所述输入文本中的各文本分词的发音。
2.根据权利要求1所述的方法,其特征在于,在获取输入文本中包括的至少一组英文字符串之前,还包括:
获取中文习惯发音的标准英文字符串集合;
获取与所述标准英文字符串集合匹配的多个标准英文字母,并建立替换字符与各所述标准英文字母之间的映射关系;
使用中文音素发音对各所述标准英文字母进行标注,并根据标注结果,建立替换字符与各所述中文音素发音之间的映射关系。
3.根据权利要求1所述的方法,其特征在于,所述替换字符包括:日文片假名。
4.根据权利要求1所述的方法,其特征在于,对所述输入文本中英文字符串的识别操作以及对目标字符串的替换处理操作在文本的正规化处理阶段实现。
5.根据权利要求1所述的方法,其特征在于,确定所述英文字符串中包括不属于英文单词的目标字符串,包括:
将所述至少一组英文字符串分别在标准英文字典进行查找,并将在所述标准英文字典中未查找到的英文字符串作为所述目标字符串。
6.根据权利要求1-5任一项所述的方法,其特征在于,在识别输入文本中包括的至少一组英文字符串之前,还包括:
获取用户的交互语音,并根据所述交互语音生成交互文本;
获取与所述交互文本对应的反馈文本作为所述输入文本;
在获取所述输入文本中的各文本分词的发音之后,还包括:向所述用户播放所述输入文本的各文本分词的发音。
7.根据权利要求6所述的方法,其特征在于,在获取用户的交互语音之后,还包括:
根据所述交互语音,确定用户的交互情绪,并获取与所述交互情绪匹配的反馈情绪;
向所述用户播放所述输入文本的各文本分词的发音,包括:
按照所述反馈情绪,向所述用户播放所述输入文本的各文本分词的发音。
8.一种文本处理装置,其特征在于,包括:
英文字符串识别模块,用于识别输入文本中包括的至少一组英文字符串;
目标字符串替换模块,用于如果确定所述英文字符串中包括不属于英文单词的目标字符串,则获取与所述目标字符串中每个英文字母对应的替换字符对所述目标字符串进行替换处理,所述替换字符不属于中文字;
输入文本分割模块,用于对替换处理后的输入文本进行文本分割,得到至少一个文本分词;
发音获取模块,用于根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取所述输入文本中的各文本分词的发音。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1至权利要求7中任一项所述的文本处理方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811413110.5A CN109545183A (zh) | 2018-11-23 | 2018-11-23 | 文本处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811413110.5A CN109545183A (zh) | 2018-11-23 | 2018-11-23 | 文本处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109545183A true CN109545183A (zh) | 2019-03-29 |
Family
ID=65850474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811413110.5A Pending CN109545183A (zh) | 2018-11-23 | 2018-11-23 | 文本处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109545183A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264992A (zh) * | 2019-06-11 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成处理方法、装置、设备和存储介质 |
CN110600002A (zh) * | 2019-09-18 | 2019-12-20 | 北京声智科技有限公司 | 语音合成方法、装置及电子设备 |
CN111062186A (zh) * | 2019-12-06 | 2020-04-24 | 金蝶软件(中国)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN111160044A (zh) * | 2019-12-31 | 2020-05-15 | 出门问问信息科技有限公司 | 文语转换方法及装置、终端和计算机可读存储介质 |
CN111179904A (zh) * | 2019-12-31 | 2020-05-19 | 出门问问信息科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
CN111858837A (zh) * | 2019-04-04 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN112102810A (zh) * | 2020-09-22 | 2020-12-18 | 深圳追一科技有限公司 | 一种语音合成方法、系统及相关设备 |
CN112291281A (zh) * | 2019-07-09 | 2021-01-29 | 钉钉控股(开曼)有限公司 | 语音播报及语音播报内容的设定方法和装置 |
CN112364642A (zh) * | 2019-07-23 | 2021-02-12 | 马上消费金融股份有限公司 | 一种文本处理方法及装置 |
CN112530404A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN112542154A (zh) * | 2019-09-05 | 2021-03-23 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
CN112562684A (zh) * | 2020-12-08 | 2021-03-26 | 维沃移动通信有限公司 | 一种语音识别方法、装置和电子设备 |
CN115311672A (zh) * | 2022-08-09 | 2022-11-08 | 北京惠朗时代科技有限公司 | 一种英文审批文件和实际用印文件的替换检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1989547A (zh) * | 2004-05-27 | 2007-06-27 | 诺基亚公司 | 在语音识别和文本-语音引擎中处理缩写词和数字 |
CN102543069A (zh) * | 2010-12-30 | 2012-07-04 | 财团法人工业技术研究院 | 多语言的文字转语音合成系统与方法 |
CN106773923A (zh) * | 2016-11-30 | 2017-05-31 | 北京光年无限科技有限公司 | 面向机器人的多模态情感数据交互方法及装置 |
US20170309272A1 (en) * | 2016-04-26 | 2017-10-26 | Adobe Systems Incorporated | Method to Synthesize Personalized Phonetic Transcription |
-
2018
- 2018-11-23 CN CN201811413110.5A patent/CN109545183A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1989547A (zh) * | 2004-05-27 | 2007-06-27 | 诺基亚公司 | 在语音识别和文本-语音引擎中处理缩写词和数字 |
CN102543069A (zh) * | 2010-12-30 | 2012-07-04 | 财团法人工业技术研究院 | 多语言的文字转语音合成系统与方法 |
US20170309272A1 (en) * | 2016-04-26 | 2017-10-26 | Adobe Systems Incorporated | Method to Synthesize Personalized Phonetic Transcription |
CN106773923A (zh) * | 2016-11-30 | 2017-05-31 | 北京光年无限科技有限公司 | 面向机器人的多模态情感数据交互方法及装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858837A (zh) * | 2019-04-04 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN110264992A (zh) * | 2019-06-11 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成处理方法、装置、设备和存储介质 |
CN112291281A (zh) * | 2019-07-09 | 2021-01-29 | 钉钉控股(开曼)有限公司 | 语音播报及语音播报内容的设定方法和装置 |
CN112291281B (zh) * | 2019-07-09 | 2023-11-03 | 钉钉控股(开曼)有限公司 | 语音播报及语音播报内容的设定方法和装置 |
CN112364642B (zh) * | 2019-07-23 | 2024-04-02 | 马上消费金融股份有限公司 | 一种文本处理方法及装置 |
CN112364642A (zh) * | 2019-07-23 | 2021-02-12 | 马上消费金融股份有限公司 | 一种文本处理方法及装置 |
CN112542154A (zh) * | 2019-09-05 | 2021-03-23 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
CN112542154B (zh) * | 2019-09-05 | 2024-03-19 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
CN110600002A (zh) * | 2019-09-18 | 2019-12-20 | 北京声智科技有限公司 | 语音合成方法、装置及电子设备 |
CN111062186A (zh) * | 2019-12-06 | 2020-04-24 | 金蝶软件(中国)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN111179904A (zh) * | 2019-12-31 | 2020-05-19 | 出门问问信息科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
CN111160044A (zh) * | 2019-12-31 | 2020-05-15 | 出门问问信息科技有限公司 | 文语转换方法及装置、终端和计算机可读存储介质 |
CN112102810A (zh) * | 2020-09-22 | 2020-12-18 | 深圳追一科技有限公司 | 一种语音合成方法、系统及相关设备 |
CN112530404A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN112562684A (zh) * | 2020-12-08 | 2021-03-26 | 维沃移动通信有限公司 | 一种语音识别方法、装置和电子设备 |
CN115311672A (zh) * | 2022-08-09 | 2022-11-08 | 北京惠朗时代科技有限公司 | 一种英文审批文件和实际用印文件的替换检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109545183A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Schultz et al. | Multilingual speech processing | |
Gibbon et al. | Handbook of standards and resources for spoken language systems | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
CN108711420A (zh) | 多语言混杂模型建立、数据获取方法及装置、电子设备 | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
TWI698857B (zh) | 語音辨識系統及其方法、與電腦程式產品 | |
US20100217581A1 (en) | Multi-Mode Input Method Editor | |
Davel et al. | Pronunciation dictionary development in resource-scarce environments | |
Gibbon et al. | Spoken language system and corpus design | |
US20160180741A1 (en) | Pronunciation learning device, pronunciation learning method and recording medium storing control program for pronunciation learning | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN112231015B (zh) | 一种基于浏览器的操作指导方法、sdk插件及后台管理系统 | |
CN102193913A (zh) | 翻译装置及翻译方法 | |
Carvalho et al. | A critical survey on the use of fuzzy sets in speech and natural language processing | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
DE112022000504T5 (de) | Interaktive Inhaltsausgabe | |
Płaza et al. | Call transcription methodology for contact center systems | |
CN107734123A (zh) | 一种联系人排序方法和装置 | |
JP2006236037A (ja) | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 | |
Varga | Online Automatic Subtitling Platforms and Machine Translation | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
WO2023047623A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
Gibbon et al. | Spoken Language Characterization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |