CN110634336A - 有声电子书生成方法及装置 - Google Patents
有声电子书生成方法及装置 Download PDFInfo
- Publication number
- CN110634336A CN110634336A CN201910779757.8A CN201910779757A CN110634336A CN 110634336 A CN110634336 A CN 110634336A CN 201910779757 A CN201910779757 A CN 201910779757A CN 110634336 A CN110634336 A CN 110634336A
- Authority
- CN
- China
- Prior art keywords
- text
- role
- determining
- audio
- book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000001755 vocal effect Effects 0.000 abstract 1
- 230000000981 bystander Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 241000519999 Stachys Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 235000013547 stew Nutrition 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 208000037280 Trisomy Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本公开公开了一种有声电子书生成方法、装置、电子设备及计算机可读存储介质,其中,所述方法包括:确定电子书文本中包含的至少一个角色;根据文本上下文信息确定每个角色对应的文本内容;根据所述各个角色对应的文本内容分别合成各自的音频。本公开通过确定电子书文本中包含的至少一个角色,根据文本上下文信息确定每个角色对应的文本内容,根据所述各个角色对应的文本内容分别合成各自的音频,可以自动生成多角色演说的有声电子书,且成本较低。
Description
技术领域
本公开涉及计算机处理技术领域,尤其涉及一种有声电子书生成方法、装置、电子设备及计算机可读存储介质。
背景技术
随着科技的发展,特别是电子文档识别技术的发展,安装了阅读软件后,就可以阅读电子图书了。近年以喜马拉雅等为代表的有声电子书播放平台强势崛起,人民能更方便、更实惠地享受丰富多彩的电子书作品,极大地促进文化的发展。
在现有技术中,通常组织多位演说家对同一个小说文本进行演说并录音,或同一位演说家模拟不同角色的声音,得到多角色演说的有声电子书。
但是,上述方法存在演说成本高或无法真正实现多角色演说等问题。
发明内容
本公开提供一种有声电子书生成方法、装置、电子设备及计算机可读存储介质,以至少解决相关技术中演说成本高或无法真正实现多角色演说的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种有声电子书生成方法,包括:
确定电子书文本中包含的至少一个角色;
根据文本上下文信息确定每个角色对应的文本内容;
根据所述各个角色对应的文本内容分别合成各自的音频。
进一步的,所述根据文本上下文信息确定每个角色对应的文本内容,包括:
根据引号将所述电子书文本分割为对话文本和旁白文本,将所述对话文本和旁白文本分别作为不同角色对应的文本内容;
根据所述对话文本的上下文信息确定所述对话文本所属角色。
进一步的,所述根据所述各个角色对应的文本内容分别合成各自的音频,包括:
为每个角色分别配置对应的音频参数;
根据各个角色对应的文本内容和音频参数生成各自的音频。
进一步的,所述确定电子书文本中包含的至少一个角色,包括:
对所述电子书文本进行分词和词性标注;
根据所述分词和词性标注的结果确定至少一个角色。
根据本公开实施例的第二方面,还提供一种有声电子书生成装置,包括:
角色确定模块,用于确定电子书文本中包含的至少一个角色;
内容确定模块,用于根据文本上下文信息确定每个角色对应的文本内容;
音频合成模块,用于根据所述各个角色对应的文本内容分别合成各自的音频。
进一步的,所述内容确定模块具体用于:根据引号将所述电子书文本分割为对话文本和旁白文本,将所述对话文本和旁白文本分别作为不同角色对应的文本内容;根据所述对话文本的上下文信息确定所述对话文本所属角色。
进一步的,所述音频合成模块具体用于:为每个角色分别配置对应的音频参数;根据各个角色对应的文本内容和音频参数生成各自的音频。
进一步的,所述角色确定模块具体用于:对所述电子书文本进行分词和词性标注;根据所述分词和词性标注的结果确定至少一个角色。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:通过执行指令以实现上述第一方面任一项所述的有声电子书生成方法。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述第一方面任一项所述的有声电子书生成方法。
根据本公开实施例的第五方面,提供一种计算机产品,包括上述第一方面任一项所述的有声电子书生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:通过确定电子书文本中包含的至少一个角色,根据文本上下文信息确定每个角色对应的文本内容,根据所述各个角色对应的文本内容分别合成各自的音频,可以自动生成多角色演说的有声电子书,且成本较低。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开实施例一提供的一种有声电子书生成方法的流程图。
图2是本公开实施例二提供的一种有声电子书生成方法的流程图。
图3是本公开实施例三提供的一种有声电子书生成装置的结构框图。
图4是本公开实施例四提供的一种电子设备的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
实施例一
图1是本公开实施例一提供的一种有声电子书生成方法的流程图,本实施例提供的有声电子书生成方法的执行主体,可为本公开实施例提供的有声电子书生成装置,该装置可以集成于移动终端设备(例如,智能手机、平板电脑等)、笔记本或固定终端(台式电脑)中,该有声电子书生成装置可以采用硬件或软件实现。如图1所示,包括以下步骤:
在步骤S11中,确定电子书文本中包含的至少一个角色。
其中,电子书可以为小说,角色为可以为小说中的人物,包括主角、配角,以及小说中的旁白也归为一个角色。
具体的,可以通过识别电子书文本中包含的人名,根据人名确定角色。例如,针对文本“过了一会儿,史强走进了病房,在他的床前坐下”,通过人名识别可以确定史强为一个人名,即可以确定史强为一个角色。
在步骤S12中,根据文本上下文信息确定每个角色对应的文本内容。
其中,上下文信息包括文本内容、角色对应的人名等。
例如,对于文本“过了一会儿,史强走进了病房,在他的床前坐下。“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”史强说。”根据上文文本信息“过了一会儿,史强走进了病房,在他的床前坐下。”可以初步确定下述文本内容“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”为史强说的,进一步根据下文文本信息“史强说”可以确定上述文本内容“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”确实为史强说的。根据上述规则,可以确定电子书中每个角色对应的文本内容,即说话内容。对于旁白“过了一会儿,史强走进了病房,在他的床前坐下”及“史强说”也将其作为一个独立的角色。
在步骤S13中,根据所述各个角色对应的文本内容分别合成各自的音频。
具体的,在确定了每个角色对应的文本内容之后,分别合成各自的音频。
例如,对于文本“过了一会儿,史强走进了病房,在他的床前坐下。“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”史强说。”可以确定包含的角色为旁白和史强,旁白对应的文本内容为“过了一会儿,史强走进了病房,在他的床前坐下”及“史强说”,史强对应的文本内容为“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”,然后分别合成旁白和史强对应的音频。通过类似的方法,可以得到电子书中所有角色的音频,从而得到多角色演说的有声电子书。
本实施例通过确定电子书文本中包含的至少一个角色,根据文本上下文信息确定每个角色对应的文本内容,根据所述各个角色对应的文本内容分别合成各自的音频,可以自动生成多角色演说的有声电子书,且成本较低。
在一个可选的实施例中,步骤S11具体包括:
步骤S111:对所述电子书文本进行分词和词性标注。
步骤S112:根据所述分词和词性标注的结果确定至少一个角色。
具体的,可以采用中文词法分析工具包(THU Lexical Analyzer for Chinese,THULAC)对所述电子书文本进行分词和词性标注。例如,采用的词性标注集如下:
n/名词np/人名ns/地名ni/机构名nz/其它专名m/数词q/量词mq/数量词t/时间词f/方位词s/处所词v/动词a/形容词d/副词h/前接成分k/后接成分i/习语j/简称r/代词c/连词p/介词u/助词y/语气助词e/叹词o/拟声词g/语素w/标点x/其它
例如,对于电子书文本“过了一会儿,史强走进了病房,在他的床前坐下”,对应的分词和词性标注结果为:过_u了_u一会儿_m,_w史强_np走_v进_v了_u病房_n,_w在_p他_r的_u床_n前_f坐下_v,据此可以查找到np前的单元就是史强,这样一段文字中的角色就找出来了。
在一个可选的实施例中,步骤S12具体包括:
步骤S121:根据引号将所述电子书文本分割为对话文本和旁白文本,将所述对话文本和旁白文本分别作为不同角色对应的文本内容。
步骤S122:根据所述对话文本的上下文信息确定所述对话文本所属角色。
具体的,目前电子书格式完备,尤其是小说,对话内容基本都包含在引号(“”)里,在一段文本内容中首先找到“,然后标注位置,直到下一个”,再次标注位置,这两个位置之间的文本就认为它是对话,其他的就是旁白了,这样就能把整个电子书中旁白和对话找出来并按顺序保存下来。
在确定了对话和旁白之后,再根据所述对话文本的上下文信息确定所述对话文本所属角色。例如,对于对话“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”,其对应的上文文本信息为“过了一会儿,史强走进了病房,在他的床前坐下”、及下文文本信息为“史强说”,可以确定该对话的角色为史强。
例如,对于旁白“史强很快回来了,对罗辑说”,可采用如下代码实现确定对话文本所属角色:
得到的结果为:[回来/VV nsubj>史强/NN advmod>[很/AD dep>快/AD]aux:asp>了/ASpunct>,/PU conj>[说/VV nmod:prep>[罗辑/NR case>对/P]]]
其中,nsubj表示主语,NN表示人名,因此nsubj>史强/NN即为主语名为史强的人,也即说话的人就是史强,接下来的对话就归属为史强这个角色。
在一个可选的实施例中,步骤S13具体包括:
步骤S131:为每个角色分别配置对应的音频参数。
步骤S132:根据各个角色对应的文本内容和音频参数生成各自的音频。
其中,音频参数可以为以下至少一种:语速、音高、音量、半音和音色。针对不同的角色设置不同风格的音频参数。其中,音频音质可以通过机器学习模仿某个人的声音而获得,极大丰富音频质量和数量。
实施例二
图2是本公开实施例二提供的一种有声电子书生成方法的流程图,本实施例以小说《三体》片段为例对本公开进行详细说明,如图2所示,具体包括:
《三体》片段如下:
过了一会儿,史强走进了病房,在他的床前坐下。“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”史强说。“大史,你救了我的命。”罗辑无力地说。史强摆了下手:“出了这事,应该算是我们的失职吧,当时,我们没有采取最有效的保卫措施,我们只能听你的,现在没事了。”“他们三个呢?”罗辑问。大史马上就明白他指的是谁,“都很好,他们没有你这么轻率,一个人走到外面。”“是ETO要杀我们吗?”“应该是吧,凶手已经被捕了,幸亏我们在你后面布置了蛇眼。”“什么?”“一种很精密的雷达系统,能根据子弹的弹道迅速确定射手的位置。那个凶手的身份已经确定,是ETO军事组织的游击战专家。我们没想到他居然敢在那样的中心地带下手,所以他这次行动几乎是自杀性质的。”“我想见他。”“谁,凶手?”罗辑点点头。“好的,不过这不在我的权限内,我只负责安全保卫,我去请示一下。”史强说完,起身出去了,他现在显得谨慎而认真,与以前那个看上去大大咧咧的人很不同,一时让罗辑有些不适应。史强很快回来了,对罗辑说:“可以了,就在这儿见呢,还是换个地方,医生说你起来走路没问题的。”罗辑本想说换个地方,并起身下床,但转念一想,这副病怏怏的样子更合自己的意,就又在床上躺了下来:“就在这儿吧。”“他们正在过来,还要等一会儿,你先吃点儿东西吧,离飞机上吃饭已经过去一整天了。我先去安排一下。”史强说完,起身又出去了。罗辑刚吃完饭,凶手就被带了进来,他是一个年轻人,有着一副英俊的欧洲面孔,但最大的特征是他那淡淡的微笑,那笑容像是长在他脸上似的,从不消退。
步骤S21:确定电子书文本中包含的至少一个角色。
具体的,根据以上对话可以确定小说中的角色分别为:旁白、史强、罗辑。
步骤S22:根据引号将所述电子书文本分割为对话文本和旁白文本,将所述对话文本和旁白文本分别作为不同角色对应的文本内容。
具体的,分割旁白文本和对话文本如下:
旁白:过了一会儿,史强走进了病房,在他的床前坐下。
对话:“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”
旁白:史强说。
对话:“大史,你救了我的命。”
旁白:罗辑无力地说。
旁白:史强摆了下手:
对话:“出了这事,应该算是我们的失职吧,当时,我们没有采取最有效的保卫措施,我们只能听你的,现在没事了。”
对话:“他们三个呢?”
旁白:罗辑问。
对话:“都很好,他们没有你这么轻率,一个人走到外面。”
对话:“是ETO要杀我们吗?”
对话:“应该是吧,凶手已经被捕了,幸亏我们在你后面布置了蛇眼。”
对话:“什么?”
对话:“一种很精密的雷达系统,能根据子弹的弹道迅速确定射手的位置。那个凶手的身份已经确定,是ETO军事组织的游击战专家。我们没想到他居然敢在那样的中心地带下手,所以他这次行动几乎是自杀性质的。”
对话:“我想见他。”
对话:“谁,凶手?”
旁白:罗辑点点头。
对话:“好的,不过这不在我的权限内,我只负责安全保卫,我去请示一下。”
旁白:史强说完,起身出去了,他现在显得谨慎而认真,与以前那个看上去大大咧咧的人很不同,一时让罗辑有些不适应。
旁白:史强很快回来了,对罗辑说:
对话:“可以了,就在这儿见呢,还是换个地方,医生说你起来走路没问题的。”
旁白:罗辑本想说换个地方,并起身下床,但转念一想,这副病怏怏的样子更合自己的意,就又在床上躺了下来:
对话:“就在这儿吧。”
对话:“他们正在过来,还要等一会儿,你先吃点儿东西吧,离飞机上吃饭已经过去一整天了。我先去安排一下。”
旁白:史强说完,起身又出去了。
旁白:罗辑刚吃完饭,凶手就被带了进来,他是一个年轻人,有着一副英俊的欧洲面孔,但最大的特征是他那淡淡的微笑,那笑容像是长在他脸上似的,从不消退。
步骤S23:根据所述对话文本的上下文信息确定所述对话文本所属角色。
具体的,确定结果如下:
朗读者==>姓名:旁白,角色:1
朗读内容:过了一会儿,史强走进了病房,在他的床前坐下。
----------------------------------------------------
朗读者==>姓名:史强,角色:1000
朗读内容:“感觉怎么样,穿防弹衣中枪我有过三次,应该没有太大的事。”
--------------------------------------------------
朗读者==>姓名:旁白,角色:1
朗读内容:
史强说。
-------------------------------------------------
朗读者==>姓名:罗辑,角色:1001
朗读内容:“大史,你救了我的命。”
------------------------------------------------------
朗读者==>姓名:旁白,角色:1
朗读内容:罗辑无力地说。
------------------------------------------------------
朗读者==>姓名:旁白,角色:1
朗读内容:史强摆了下手:
-----------------------------------------------
朗读者==>姓名:史强,角色:1000
朗读内容:“出了这事,应该算是我们的失职吧,当时,我们没有采取最有效的保卫措施,我们只能听你的,现在没事了。”
----------------------------------------------
朗读者==>姓名:罗辑,角色:1001
朗读内容:“他们三个呢?”
-----------------------------------------------
朗读者==>姓名:旁白,角色:1
朗读内容:罗辑问。
---------------------------------------------------
朗读者==>姓名:史强,角色:1000
朗读内容:“都很好,他们没有你这么轻率,一个人走到外面。”
--------------------------------------------------
朗读者==>姓名:罗辑,角色:1001
朗读内容:“是ETO要杀我们吗?”
------------------------------------------------
步骤S24:为每个角色分别配置对应的音频参数。
步骤S25:根据各个角色对应的文本内容和音频参数生成各自的音频。
步骤S26:利用语音合成软件将各段音频合成一整本有声电子书。
实施例三
图3是本公开实施例三提供的一种有声电子书生成装置框图。该装置可以集成于移动终端设备(例如,智能手机、平板电脑等)、笔记本或固定终端(台式电脑)中,该有声电子书生成装置可以采用硬件或软件实现。参照图3,该装置包括:角色确定模块31、内容确定模块32、音频合成模块33;其中,
角色确定模块31用于确定电子书文本中包含的至少一个角色;
内容确定模块32用于根据文本上下文信息确定每个角色对应的文本内容;
音频合成模块33用于根据所述各个角色对应的文本内容分别合成各自的音频。
进一步的,所述内容确定模块32具体用于:根据引号将所述电子书文本分割为对话文本和旁白文本,将所述对话文本和旁白文本分别作为不同角色对应的文本内容;根据所述对话文本的上下文信息确定所述对话文本所属角色。
进一步的,所述音频合成模块33具体用于:为每个角色分别配置对应的音频参数;根据各个角色对应的文本内容和音频参数生成各自的音频。
进一步的,所述角色确定模块31具体用于:对所述电子书文本进行分词和词性标注;根据所述分词和词性标注的结果确定至少一个角色。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例四
图4是根据一示例性实施例示出的一种用于有声电子书生成的装置400的框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电力组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,多媒体信息等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或多媒体信息模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击信息的行为轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种有声电子书生成方法,其特征在于,包括:
确定电子书文本中包含的至少一个角色;
根据文本上下文信息确定每个角色对应的文本内容;
根据所述各个角色对应的文本内容分别合成各自的音频。
2.根据权利要求1所述的方法,其特征在于,所述根据文本上下文信息确定每个角色对应的文本内容,包括:
根据引号将所述电子书文本分割为对话文本和旁白文本,将所述对话文本和旁白文本分别作为不同角色对应的文本内容;
根据所述对话文本的上下文信息确定所述对话文本所属角色。
3.根据权利要求1所述的方法,其特征在于,所述根据所述各个角色对应的文本内容分别合成各自的音频,包括:
为每个角色分别配置对应的音频参数;
根据各个角色对应的文本内容和音频参数生成各自的音频。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定电子书文本中包含的至少一个角色,包括:
对所述电子书文本进行分词和词性标注;
根据所述分词和词性标注的结果确定至少一个角色。
5.一种有声电子书生成装置,其特征在于,包括:
角色确定模块,用于确定电子书文本中包含的至少一个角色;
内容确定模块,用于根据文本上下文信息确定每个角色对应的文本内容;
音频合成模块,用于根据所述各个角色对应的文本内容分别合成各自的音频。
6.根据权利要求5所述的装置,其特征在于,所述内容确定模块具体用于:根据引号将所述电子书文本分割为对话文本和旁白文本,将所述对话文本和旁白文本分别作为不同角色对应的文本内容;根据所述对话文本的上下文信息确定所述对话文本所属角色。
7.根据权利要求5所述的装置,其特征在于,所述音频合成模块具体用于:为每个角色分别配置对应的音频参数;根据各个角色对应的文本内容和音频参数生成各自的音频。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述角色确定模块具体用于:对所述电子书文本进行分词和词性标注;根据所述分词和词性标注的结果确定至少一个角色。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:通过执行指令以实现权利要求1-4任一项所述的有声电子书生成方法。
10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行权利要求1-4任一项所述的有声电子书生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910779757.8A CN110634336A (zh) | 2019-08-22 | 2019-08-22 | 有声电子书生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910779757.8A CN110634336A (zh) | 2019-08-22 | 2019-08-22 | 有声电子书生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110634336A true CN110634336A (zh) | 2019-12-31 |
Family
ID=68970466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910779757.8A Pending CN110634336A (zh) | 2019-08-22 | 2019-08-22 | 有声电子书生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110634336A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401059A (zh) * | 2020-03-16 | 2020-07-10 | 深圳市子瑜杰恩科技有限公司 | 小说朗读的方法 |
CN111415650A (zh) * | 2020-03-25 | 2020-07-14 | 广州酷狗计算机科技有限公司 | 文本语音转换的方法、装置、设备以及存储介质 |
CN112185341A (zh) * | 2020-09-10 | 2021-01-05 | 广州多益网络股份有限公司 | 基于语音合成的配音方法、装置、设备和存储介质 |
CN112270198A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN113409766A (zh) * | 2021-05-31 | 2021-09-17 | 北京搜狗科技发展有限公司 | 一种识别方法、装置、用于识别的装置及语音合成方法 |
CN113628609A (zh) * | 2020-05-09 | 2021-11-09 | 微软技术许可有限责任公司 | 自动音频内容生成 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN201336138Y (zh) * | 2008-12-19 | 2009-10-28 | 众智瑞德科技(北京)有限公司 | 一种文本朗读设备 |
US20110320198A1 (en) * | 2010-06-28 | 2011-12-29 | Threewits Randall Lee | Interactive environment for performing arts scripts |
US8527262B2 (en) * | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
US9195738B2 (en) * | 2008-07-24 | 2015-11-24 | Yahoo! Inc. | Tokenization platform |
CN107885723A (zh) * | 2017-11-03 | 2018-04-06 | 广州杰赛科技股份有限公司 | 对话角色区分方法和系统 |
CN108231059A (zh) * | 2017-11-27 | 2018-06-29 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN109523986A (zh) * | 2018-12-20 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备以及存储介质 |
CN109523988A (zh) * | 2018-11-26 | 2019-03-26 | 安徽淘云科技有限公司 | 一种文本演绎方法及装置 |
CN109543021A (zh) * | 2018-11-29 | 2019-03-29 | 北京光年无限科技有限公司 | 一种面向智能机器人的故事数据处理方法及系统 |
CN109658916A (zh) * | 2018-12-19 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、存储介质和计算机设备 |
EP3506255A1 (en) * | 2017-12-28 | 2019-07-03 | Spotify AB | Voice feedback for user interface of media playback device |
CN109979430A (zh) * | 2017-12-28 | 2019-07-05 | 深圳市优必选科技有限公司 | 一种机器人讲故事的方法、装置、机器人及存储介质 |
-
2019
- 2019-08-22 CN CN201910779757.8A patent/CN110634336A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527262B2 (en) * | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
US9195738B2 (en) * | 2008-07-24 | 2015-11-24 | Yahoo! Inc. | Tokenization platform |
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN201336138Y (zh) * | 2008-12-19 | 2009-10-28 | 众智瑞德科技(北京)有限公司 | 一种文本朗读设备 |
US20110320198A1 (en) * | 2010-06-28 | 2011-12-29 | Threewits Randall Lee | Interactive environment for performing arts scripts |
CN107885723A (zh) * | 2017-11-03 | 2018-04-06 | 广州杰赛科技股份有限公司 | 对话角色区分方法和系统 |
CN108231059A (zh) * | 2017-11-27 | 2018-06-29 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
EP3506255A1 (en) * | 2017-12-28 | 2019-07-03 | Spotify AB | Voice feedback for user interface of media playback device |
CN109979430A (zh) * | 2017-12-28 | 2019-07-05 | 深圳市优必选科技有限公司 | 一种机器人讲故事的方法、装置、机器人及存储介质 |
CN109523988A (zh) * | 2018-11-26 | 2019-03-26 | 安徽淘云科技有限公司 | 一种文本演绎方法及装置 |
CN109543021A (zh) * | 2018-11-29 | 2019-03-29 | 北京光年无限科技有限公司 | 一种面向智能机器人的故事数据处理方法及系统 |
CN109658916A (zh) * | 2018-12-19 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、存储介质和计算机设备 |
CN109523986A (zh) * | 2018-12-20 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备以及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401059A (zh) * | 2020-03-16 | 2020-07-10 | 深圳市子瑜杰恩科技有限公司 | 小说朗读的方法 |
CN111415650A (zh) * | 2020-03-25 | 2020-07-14 | 广州酷狗计算机科技有限公司 | 文本语音转换的方法、装置、设备以及存储介质 |
CN113628609A (zh) * | 2020-05-09 | 2021-11-09 | 微软技术许可有限责任公司 | 自动音频内容生成 |
CN112185341A (zh) * | 2020-09-10 | 2021-01-05 | 广州多益网络股份有限公司 | 基于语音合成的配音方法、装置、设备和存储介质 |
CN112270198A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN113409766A (zh) * | 2021-05-31 | 2021-09-17 | 北京搜狗科技发展有限公司 | 一种识别方法、装置、用于识别的装置及语音合成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634336A (zh) | 有声电子书生成方法及装置 | |
Reid et al. | Smartphone Paradox | |
CN116312526A (zh) | 自然助理交互 | |
CN105009556B (zh) | 用于交互式远程通信中的增强响应的意图引擎 | |
KR101612788B1 (ko) | 이동 단말기 및 그 제어 방법 | |
CN108205627A (zh) | 交互式助理模块对访问的有条件提供 | |
KR101513615B1 (ko) | 이동 단말기 및 그 음성 인식 방법 | |
KR20190116960A (ko) | 디지털 어시스턴트와의 애플리케이션 통합 | |
KR101462930B1 (ko) | 이동 단말기 및 그 화상통화 제어방법 | |
CN106202150B (zh) | 信息显示方法及装置 | |
CN111583944A (zh) | 变声方法及装置 | |
CN111326138A (zh) | 语音生成方法及装置 | |
CN112068711A (zh) | 一种输入法的信息推荐方法、装置和电子设备 | |
CN112037756A (zh) | 语音处理方法、装置和介质 | |
KR20200004903A (ko) | 컴패니언 디바이스의 통화 기능을 액세스하기 위한 일차 디바이스에서의 음성 상호작용 | |
CN111898018A (zh) | 一种虚拟资源的发送方法、装置、电子设备及存储介质 | |
CN109886211A (zh) | 数据标注方法、装置、电子设备及存储介质 | |
KR20110059178A (ko) | 아바타 개인비서 서비스 제공 방법 및 그 시스템 | |
CN115238111A (zh) | 一种图片显示方法及电子设备 | |
CN109948155B (zh) | 一种多意图的选择方法及装置、终端设备 | |
CN112151072A (zh) | 语音处理方法、装置和介质 | |
CN108628461A (zh) | 一种输入方法和装置、一种更新词库的方法和装置 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN116486799A (zh) | 从用户话语生成emoji | |
CN114356068B (zh) | 一种数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191231 |
|
RJ01 | Rejection of invention patent application after publication |