CN108337357B

CN108337357B - 音频播放方法及装置

Info

Publication number: CN108337357B
Application number: CN201710259554.7A
Authority: CN
Inventors: 佟林; 胡含
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2019-12-17
Anticipated expiration: 2037-04-19
Also published as: CN108337357A

Abstract

本发明公开了一种音频播放方法及装置。其中，该方法包括：从第一应用在终端的显示界面上所显示的文本中获取待播放文本；从待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本；获取与目标对象匹配的目标音频资源包，并利用目标音频资源包将对象文本转换为与目标对象的音频特征相匹配的对象音频；获取与默认对象匹配的默认音频资源包，并利用默认音频资源包将待播放文本中除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频；根据对象音频及默认音频生成与待播放文本相匹配的目标音频，并播放目标音频。本发明解决了现有的音频播放过程中存在的音频内容过于单一的技术问题。

Description

音频播放方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频播放方法及装置。

背景技术

如今，很多终端应用中开始配置一种新的展示模式，即，以音频形式播放所要展示的文本内容，例如，上述终端应用可以为新闻应用，导航应用，电子阅读应用等等。其中，上述终端应用在从显示在终端界面的内容中确定出待播放的目标内容后，可将该目标内容对应的文本文字转换为音频，然后播放出上述音频。从而使得用户无需再通过显示界面一行一行观看目标内容，而是可以通过听力获取上述目标内容。

然而，目前在以音频形式播放所要展示的文本内容的过程中，针对所要转换的目标内容，往往是将全部目标内容转换为同一种预设的默认音频。也就是说，在采用现有技术实现以音频形式播放所要展示的目标内容时，用户仅能听到一种预设的单一的声音。即，现有技术中以音频形式播放所要展示的文本内容的过程中，存在所播放的音频内容过于单一的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频播放方法及装置，以至少解决现有的音频播放过程中存在的音频内容过于单一的技术问题。

根据本发明实施例的一个方面，提供了一种音频播放方法，包括：从第一应用在终端的显示界面上所显示的文本中获取待播放文本；从上述待播放文本中识别出对象文本及与上述对象文本匹配的目标对象，其中，上述对象文本为上述目标对象所表达的文本；获取与上述目标对象匹配的目标音频资源包，并利用上述目标音频资源包将上述对象文本转换为与上述目标对象的音频特征相匹配的对象音频；获取与默认对象匹配的默认音频资源包，并利用上述默认音频资源包将上述待播放文本中除上述对象文本之外的文本转换为与上述默认对象的音频特征相匹配的默认音频；根据上述对象音频及上述默认音频生成与上述待播放文本相匹配的目标音频，并播放上述目标音频。

根据本发明实施例的另一方面，还提供了一种音频播放装置，包括：第一获取单元，用于从第一应用在终端的显示界面上所显示的文本中获取待播放文本；识别单元，用于从上述待播放文本中识别出对象文本及与上述对象文本匹配的目标对象，其中，上述对象文本为上述目标对象所表达的文本；第一转换单元，用于获取与上述目标对象匹配的目标音频资源包，并利用上述目标音频资源包将上述对象文本转换为与上述目标对象的音频特征相匹配的对象音频；第二转换单元，用于获取与默认对象匹配的默认音频资源包，并利用上述默认音频资源包将上述待播放文本中除上述对象文本之外的文本转换为与上述默认对象的音频特征相匹配的默认音频；生成单元，用于根据上述对象音频及上述默认音频生成与上述待播放文本相匹配的目标音频；播放单元，用于播放上述目标音频。

在本发明实施例中，通过从获取到的待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本，从而实现利用与目标对象匹配的目标音频资源包，将对象文本转换为与目标对象的音频特征匹配的对象音频，利用与默认对象匹配的默认音频资源包，将除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频，从而实现根据上述转换得到的对象音频及默认音频生成与待播放文本匹配的目标音频，以播放该目标音频。也就是说，通过获取待播放文本中的不同对象文本及与其分别匹配的目标对象，按照不同的目标对象将对应的对象文本分别转换为不同的对象音频，以与默认音频结合得到与待播放文本匹配的目标音频，而不再是将待播放文本统一转换为预设的单一的音频，以克服现有的音频播放过程中存在所播放的音频内容过于单一的问题，进而使目标音频中的音频内容更加真实，更加丰富，以实现提高音频播放的多样性的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频播放方法的应用环境示意图；

图2是根据本发明实施例的一种可选的音频播放方法的流程图；

图3是根据本发明实施例的一种可选的音频播放方法的示意图；

图4是根据本发明实施例的另一种可选的音频播放方法的流程图；

图5是根据本发明实施例的又一种可选的音频播放方法的流程图；

图6是根据本发明实施例的又一种可选的音频播放方法的流程图；

图7是根据本发明实施例的另一种可选的音频播放方法的示意图；

图8是根据本发明实施例的又一种可选的音频播放方法的示意图；

图9是根据本发明实施例的一种可选的音频播放装置的示意图；

图10是根据本发明实施例的一种可选的音频播放终端的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

在本发明实施例中，提供了一种上述音频播放方法的实施例。作为一种可选的实施方式，该音频播放方法可以但不限于应用于如图1所示的应用环境中，终端102中运行有第一应用，从第一应用在终端102的显示界面上所显示的文本中获取待播放文本后，从待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本；通过网络104向第一应用的服务器106获取与目标对象匹配的目标音频资源包，及与默认对象匹配的默认音频资源包，并利用上述目标音频资源包将对象文本转换为与目标对象的音频特征相匹配的对象音频，利用上述默认音频资源包将待播放文本中除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频；然后，根据上述对象音频及默认音频生成与待播放文本相匹配的目标音频，从而实现播放转换后的上述目标音频。

在本实施例中，通过从获取到的待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本，从而实现利用与目标对象匹配的目标音频资源包，将对象文本转换为与目标对象的音频特征匹配的对象音频，利用与默认对象匹配的默认音频资源包，将除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频，从而实现根据上述转换得到的对象音频及默认音频生成与待播放文本匹配的目标音频，以播放该目标音频。也就是说，通过获取待播放文本中的不同对象文本及与其分别匹配的目标对象，按照不同的目标对象将对应的对象文本分别转换为不同的对象音频，以与默认音频结合得到与待播放文本匹配的目标音频，而不再是将待播放文本统一转换为预设的单一的音频，以克服现有的音频播放过程中存在所播放的音频过于单一的问题，进而使目标音频中的音频内容更加真实，更加丰富，以实现提高音频播放的多样性的效果。

可选地，在本实施例中，上述终端可以包括但不限于以下至少之一：手机、平板电脑、笔记本电脑、台式PC机、数字电视、车载终端及其他以音频形式播放所要展示的内容的硬件设备。上述网络可以包括但不限于以下至少之一：广域网、城域网、局域网。上述只是一种示例，本实施例对此不做任何限定。

根据本发明实施例，提供了一种音频播放方法，如图2所示，该方法包括：

S202，从第一应用在终端的显示界面上所显示的文本中获取待播放文本；

S204，从待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本；

S206，获取与目标对象匹配的目标音频资源包，并利用目标音频资源包将对象文本转换为与目标对象的音频特征相匹配的对象音频；

S208，获取与默认对象匹配的默认音频资源包，并利用默认音频资源包将待播放文本中除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频；

S210，根据对象音频及默认音频生成与待播放文本相匹配的目标音频，并播放目标音频。

可选地，在本实施例中，上述音频播放方法可以但不限于应用于可以以音频形式播放所要展示的文本内容的终端应用中，其中，上述终端应用可以包括但不限于：新闻应用，导航应用，电子阅读应用等等。上述仅是一种示例，本实施例中对此不做任何限定。例如，以车载终端上的新闻应用为例进行说明。新闻应用在车载终端的显示界面上显示有多条新闻文本，如图3(a)所示，假设包括两条新闻文本，分别为标题T1和标题T2的新闻文本，并在上述新闻文本中获取待播放文本(例如，标题T1的新闻文本)，其中，待播放文本(例如，标题T1的新闻文本)的文本内容如图3(b)所示。然后从上述待播放文本(例如，标题T1的新闻文本)中识别出对象文本，及与对象文本匹配的目标对象(如图所示为目标对象S)，利用与目标对象S匹配的目标音频资源包，将上述对象文本转换为与目标对象的音频特征匹配的对象音频，并利用与默认对象匹配的默认音频资源包将除上述对象文本之外的文本转换为与默认对象的音频特征匹配的默认音频。从而实现根据上述对象音频及默认音频生成与待播放文本(例如，标题T1的新闻文本)匹配的目标音频，如图3(b)所示播放上述目标音频。其中，在播放上述目标音频的过程中，目标对象S所表达的对象文本将按照与目标对象的音频特征相匹配的对象音频播放，除上述对象文本之外的文本将按照与默认对象的音频特征相匹配的默认音频播放，从而使得所播放的内容更加真实，更加丰富，提高了所播放的目标音频的多样性。上述只是一种示例，具体可以根据实际用户需求来进行设置，本实施例中在此不做任何限定。

需要说明的是，通过获取待播放文本中的不同对象文本及与其分别匹配的目标对象，按照不同的目标对象将对应的对象文本分别转换为不同的对象音频，以与默认音频结合得到与待播放文本匹配的目标音频，而不再是将待播放文本统一转换为预设的单一的音频，以克服现有的音频播放过程中存在所播放的音频过于单一的问题，进而使目标音频中的音频内容更加真实，更加丰富，以实现提高音频播放的多样性的效果。

可选地，在本实施例中，目标对象与默认对象并不相同，也就是说，二者的音频特征并不相同，从而实现所播放的目标音频中可以包含具有不同音频特征的声音，以达到提高音频多样性的效果。此外，在本实施例中，在识别出对象文本，而未识别出目标对象的情况下，也可按照默认对象对对象文本进行音频转换。其中，在第一应用中可以包括一个或多个预设的默认对象。假设默认对象包括：默认对象A、默认对象B及默认对象C。在对除上述对象文本之外的文本转换为与默认对象A的音频特征匹配的默认音频，且未识别出目标对象的情况下，可以将对象文本转换为与默认对象B的音频特征匹配的音频，也将保证所播放的音频的内容的多样性。

可选地，在本实施例中，对象文本为目标对象所表达的文本，具体的应用场景中，对象文本一般为一段文字内容，该段文字内容的来源(或出处)为目标对象。例如，从待播放文本中识别出对象文本，并识别出该对象文本为目标对象所表达的文本，其中，上述表达可以包括但不限于：表述、说明、发言等，则可将上述对象文本按照与目标对象匹配的音频特征进行转换，得到对应的对象音频。

可选地，在本实施中，目标音频资源包中包含有目标对象的声学特征，例如，发生人的声调、重音、发音速度等，上述只是一种示例，本实施例中在此不做限定。

可选地，在本实施例中，从待播放文本中识别出对象文本及与对象文本匹配的目标对象包括但不限于：使用预定匹配式从待播放文本中识别出对象文本；根据对象文本查找与对象文本匹配的目标对象。其中，该预定匹配式用于通过匹配识别出对象文本，例如，上述预定匹配可以但不限于为正则表达式，上述仅是一种示例，在此不做任何限定。

可选地，在本实施例中，使用预定匹配式从待播放文本中识别出对象文本包括但不限于：在待播放文本中使用预定匹配式进行查找，其中，预定匹配式中包括预定标识对，预定标识对用于标识对象文本在待播放文本中的起始位置和终止位置；在查找到预定匹配式中的预定标识对的情况下，将待播放文本中位于预定标识对所标识的起始位置和终止位置之间的文本识别为对象文本。例如，当对象文本为对话内容时，上述的预定标识对则表示为双引号或单引号，当然在本实施例中并不仅于此，也可以为下划线、加粗、高亮以及突出颜色显示等。上述仅是一种示例，本实施在此不做任何限定。

可选地，在本实施例中，根据对象文本查找与对象文本匹配的目标对象包括但不限于：在对象文本前后识别对象标识，进一步，从识别出的对象标识中获取目标对象的对象标识。其中，作为一种可选的实施方式，可以但不限于将距离对象文本最近的对象标识所标识的对象作为目标对象。例如，如图3(b)所示，对象文本为“yyyyy”，可以在对象文本前后预定范围内查找对象标识，在查找到对象标识的情况下，将距离对象文本最近的对象标识所标识的对象作为目标对象，例如，图3(b)所示目标对象S。

可选地，在本实施例中，根据对象音频及默认音频生成与待播放文本相匹配的目标音频包括但不限于：将对象音频按照预定标识对所标识的位置插入到默认音频中，以生成目标音频。从而实现在播放目标音频时，听众可以听到目标对象和默认对象具备不同音频特征的声音，以达到提高目标音频的真实性和多样性的目的。

可选地，在本实施例中，获取与目标对象匹配的目标音频资源包包括以下至少之一：向第一应用的服务器发送获取请求；接收服务器响应获取请求所发送的目标音频资源包；从终端获取目标音频资源包。

也就是说，在本实施例中，上述用于音频转换的目标音频资源包可以但不限于预先缓存在第一应用的客户端中，以便于快速调用与对象对应的音频资源包，将对象文本转换为对应的对象音频。此外，在本实施例中，上述用于音频转换的目标音频资源包也可以但不限于向服务器请求获取，以节省在终端中所占用的存储空间，降低终端的处理负荷。

可选地，在本实施例中，在向第一应用的服务器发送获取请求之后，服务器获取目标音频资源包的方式可以包括但不限于：

(1)终端向第一应用的服务器发送的获取请求中携带的标识是目标对象的标识，服务器可以根据目标对象的标识进行查找，在查找到目标对象时，直接调用与目标对象匹配的目标音频资源包，并将该目标音频资源包发送至终端。其中，获取请求中携带的标识可以包括但不限于待播放文本中的一个或多个目标对象的标识。也就是说，第一应用的服务器在获取到获取请求后，可以直接根据目标对象的标识查找获取对应的目标音频资源包，然后将查找到的目标音频资源包发送给终端。

(2)终端向第一应用的服务器发送的获取请求中携带的标识是对象文本的文本标识。也就是说，第一应用的服务器中可以预先对第一应用所要推送的所有文本进行分析，获取各个文本中包含的目标对象，并获取对应的目标音频资源包，在接收到终端发送的获取请求后，第一应用的服务器可以根据获取请求中携带的文本标识，直接调用文本标识所标识的文本中与所涉及的全部目标对象对应的目标音频资源包，然后将上述目标音频资源包发送给终端。

可选地，在本实施例中，从终端获取目标音频资源包包括但不限于：从与第一应用对应的存储空间中，获取与对象文本中的目标对象匹配的目标音频资源包。

也就是说，为了节约网络流量，在第一应用会预先下载部分目标对象对应的音频资源包缓存到终端中，终端可以优先在对应的存储空间内查找获取与目标对象匹配的目标音频资源包，而在存储空间内没有查找到对应目标音频资源的目标对象的情况下，再向服务器请求该目标对象的目标音频资源。

此外，在本实施例中，终端中存储空间缓存的目标音频资源包可以按照需要进行更新，例如，在终端所运行的第一应用更新时，同步更新所存储的目标音频资源包，又例如，第一应用的服务器主动推送更新后的目标音频资源包。其中，更新后的目标音频资源包可以但不限于为第一应用的服务器中更新后的热点对象所对应的音频资源包，上述热点对象为根据大数据分析后得到的操作频率大于预定阈值的对象，上述操作可以包括但不限于网络搜索、点击、访问等操作。需要说明的是，上述终端中的音频资源包可以但不限于为增量更新、替换更新。也就是说，终端中的音频资源包可以不断增加更新后的内容，也可以替换已存储的内容，本实施例中对此不做任何限定。

可选地，在本实施例中，在从第一应用在终端的显示界面上所显示的文本中获取待播放文本之前，还包括但不限于：第一应用的服务器获取热点对象及与热点对象对应的音频资源，其中，对热点对象所执行的操作的操作频率大于预定阈值；服务器根据热点对象及与音频资源建立与热点对象匹配的音频数据库，其中，音频数据库用于获取与热点对象的音频特征匹配的音频资源包。

需要说明的是，在本实施例中，第一应用的服务器获取热点对象及与热点对象对应的音频资源可以包括但不限于：第一应用的服务器大数据分析获取操作频率大于预定阈值的热点对象，其中，上述操作频率可以但不限于根据以下操作量获取：点击量、搜索量等。进一步，从网络上获取热点对象对应的音频资料及视频资料，其中，上述视频资料将转换成音频格式后存储。然后，将上述热点对象与对应的音频资源按照映射关系存储，以建立用于获取与热点对象的音频特征匹配的音频资源包音频数据库。

具体结合图4所示进行说明，第一应用的服务器根据大数据分析获取热点对象(也可称作热点人物)的名单，然后获取名单中与每个热点对象匹配的音频资料及视频资料，将上述音频资料及视频资料与对应的热点对象按照对应关系存储，以建立音频资源库。然后，从上述音频资源库中获取音频资源，利用波形拼接合成技术，得到与每个热点对象对应的音频资源包。

进一步，第一应用的客户端获取待播放文本，并识别出其中的对象文本，定位与对象文本对应的目标对象(如图所示目标对象S)。作为一种可选的方式，向服务器请求获取与目标对象S对应的目标音频资源包，则在本实施例中，可以利用对应的目标音频资源包通过语音合成(Text To Speech，简称TTS)技术，如利用TTS引擎将对象文本转换为与目标对象S对应的对象音频。此外，对于除对象文本之外的文本，可以获取按照与默认对象A对应的默认音频资源包，则在本实施例中，可以利用对应的默认音频资源包通过语音合成(Text ToSpeech，简称TTS)技术，如利用TTS引擎将除对象文本之外的文本转换为与默认对象A对应的默认音频，进而将上述对象音频插入默认音频以得到目标音频。

通过本申请提供的实施例，通过获取待播放文本中的不同对象文本及与其分别匹配的目标对象，按照不同的目标对象将对应的对象文本分别转换为不同的对象音频，以与默认音频结合得到与待播放文本匹配的目标音频，而不再是将待播放文本统一转换为预设的单一的音频，以克服现有的音频播放过程中存在所播放的音频过于单一的问题，进而使目标音频中的音频内容更加真实，更加丰富，以实现提高音频播放的多样性的效果。

作为一种可选的方案，如图5所示，步骤S204从待播放文本中识别出对象文本及与对象文本匹配的目标对象包括：

S502，使用预定匹配式从待播放文本中识别出对象文本；

S504，根据对象文本查找与对象文本匹配的目标对象。

可选地，在本实施例中，该预定匹配式可以但不限于用于通过匹配识别出对象文本，例如，上述预定匹配可以但不限于为正则表达式，上述仅是一种示例，在此不做任何限定。

可选地，在本实施例中，上述预定匹配式中可以包括但不限于：预定标识对，其中，该预定标识对用于标识对象文本在待播放文本中的起始位置和终止位置。具体的，上述的预定标识对则表示为双引号或单引号，也可以为下划线、加粗、高亮以及突出颜色显示等。

例如，如图3(b)所示待播放文本为一条新闻文本，以预定标识对为双引号为例，通过正则匹配可从上述新闻文本中识别出双引号之间的对象本文，如图3(b)所示为“yyyyy”。进一步，在上述对象文本前后定位得到表达上述对象文本的目标对象为如图3(b)所示的“目标对象S”。

通过本申请的实施例，利用预定匹配式通过正则匹配从待播放文本中识别出对象文本，进而定位得到对应的目标对象，将大大减少查找时间，实现快速地对对象文本及目标对象进行发现及定位，从而缩减文本转换为音频的时间，以达到提高音频转换效率及播放效率的效果。

作为一种可选的方案，如图6所示，步骤S502使用预定匹配式从待播放文本中识别出对象文本包括：

S602，在待播放文本中使用预定匹配式进行查找，其中，预定匹配式中包括预定标识对，预定标识对用于标识对象文本在待播放文本中的起始位置和终止位置；

S604，在查找到预定匹配式中的预定标识对的情况下，将待播放文本中位于预定标识对所标识的起始位置和终止位置之间的文本识别为对象文本。

具体结合以下示例进行说明，上述的预定标识对可以为一组预定标识，例如双引号或单引号、书名号“《》”等，也可以是单独的预定标识，如字体下划线、加粗、高亮以及突出颜色显示。参照图3(b)所示，假定预定标识对为双引号，图3中的对象文本则可以为处于双引号之间的文本内容，双引号中的左引号为预定标识对的起始位置，右引号则为预定标识对的终止位置。

通过本申请的实施例，在查找到预定匹配式中的预定标识对的情况下，通过在待播放文本中查找预定标识对，以达到快速识别出待播放文本中位于预定标识对之间的对象文本的目的，从而实现提高查找对象文本的速度的效果，进而实现提高文本转换为音频的转换效率和播放效率。

作为一种可选的方案，根据对象文本查找与对象文本匹配的目标对象包括：

S1，在待播放文本中以下至少一个预定范围内查找对象标识：距离起始位置向前的第一预定范围、距离终止位置向后的第二预定范围；

S2，在预定范围内查找到对象标识的情况下，获取在对象文本所指示的文本内容中，处于中心位置的关键词；

S3，将距离关键词最近的对象标识所标识的对象，作为与对象文本相匹配的目标对象。

具体结合以下示例进行说明，仍以图7所示的车载终端上的新闻应用为例进行说明，通过预定标识对“双引号”可识别出对象文本为“yyhyy”。进一步，设定第一预定范围是在预设标识对的起始位置向前n个字符范围，第二预定范围是在预设标识对的终止位置向后m个字符的范围，在该范围内进行查找对象标识。需要说明的是，上述字符数量仅用于举例说明，其中，n与m可以相等，也可以不等，根据实际场景设置为不同的取值，本实施例中对此不做任何限定。

进一步，在预定范围内查找到对象标识的情况下，获取对象文本的关键词，如图7中所示，在对象文本所指示的文本内容(即“yyhyy”)中，处于中心位置的关键词“h”，然后获取距离关键词最近的对象标识所标识的对象，如对象S1，则可将上述对象S1作为与对象文本“yyhyy”匹配的目标对象。

需要说明的是，在本实施例中，在预定范围内未查找到与对象文本匹配的目标对象的情况下，可以但不限于将默认对象作为目标对象。其中，在第一应用中可以包括一个或多个预设的默认对象。假设默认对象包括：默认对象A、默认对象B及默认对象C。上述作为目标对象的默认对象可以为用于对除上述对象文本之外的文本进行转换的默认对象A，以简化转换步骤，提高音频播放效率。此外，在本实施例中，也可以为其他默认对象，如默认对象B或默认对象C，从而实现在未识别出目标对象的情况下，可以将对象文本转换为与默认对象B的音频特征匹配的音频，以使得通过默认对象B对对象文本所转换的音频，与通过默认对象A对其他文本(除上述对象文本之外的文本)所转换的音频不同。进而保证所播放的音频的内容的多样性。

通过本申请提供的实施例，在识别出待播放文本中的对象文本的情况下，通过在预定范围内定位与对象文本匹配的目标对象，实现快速获取与目标对象匹配的目标音频资源包，从而达到提高对对象文本进行音频转换的转换效率，进而保证音频播放效率。此外，将不同对象转换为不同的音频，还将保证音频内容的多样性。

作为一种可选的方案，根据对象音频及默认音频生成与待播放文本相匹配的目标音频包括：

S1，根据预定标识对将对象音频插入默认音频，以生成目标音频。

具体结合以下示例进行说明，仍以图7所示为例进行说明，将待播放文本中非双引号中的内容根据默认对象的音频特征转换为默认音频，将双引号中的对象文本根据目标对象(如对象S1)的音频特征转换为对象音频。进一步，根据双引号所在的位置，将上述对象音频插入到默认音频的对应位置，以得到与待播放文本(即标题T1的新闻文本)对应的目标音频。

通过本申请提供的实施例，按照不同的目标对象将对应的对象文本分别转换为不同的对象音频，以与默认音频结合得到与待播放文本匹配的目标音频，从而使得所得到的目标音频更加真实，更加丰富，以达到提高音频内容多样性的效果。

作为一种可选的方案，获取与目标对象匹配的目标音频资源包包括以下至少之一：

S1，向第一应用的服务器发送获取请求；接收服务器响应获取请求所发送的目标音频资源包；

S2，从终端获取目标音频资源包。

可选地，在本实施例中，服务器通过以下至少一种方式获取目标音频资源包：1)服务器根据获取请求中所携带的目标对象的对象标识查找与目标对象匹配的目标音频资源包；2)服务器根据获取请求中所携带的对象文本的文本标识查找与对象文本中的目标对象匹配的目标音频资源包。

需要说明的是，在上述方式1)中，终端向第一应用的服务器发送的获取请求中携带的标识是目标对象的标识，服务器可以根据目标对象的标识进行查找，在查找到目标对象时，直接调用与目标对象匹配的目标音频资源包，并将该目标音频资源包发送至终端。其中，获取请求中携带的标识可以包括但不限于待播放文本中的一个或多个目标对象的标识。也就是说，第一应用的服务器在获取到获取请求后，可以直接根据目标对象的标识查找获取对应的目标音频资源包，然后将查找到的目标音频资源包发送给终端。

此外，在上述方式2)中，终端向第一应用的服务器发送的获取请求中携带的标识是对象文本的文本标识。也就是说，第一应用的服务器中可以预先对第一应用所要推送的所有文本进行分析，获取各个文本中包含的目标对象，并获取对应的目标音频资源包，在接收到终端发送的获取请求后，第一应用的服务器可以根据获取请求中携带的文本标识，直接调用文本标识所标识的文本中与所涉及的全部目标对象对应的目标音频资源包，然后将上述目标音频资源包发送给终端。

可选地，在本实施例中，从终端获取目标音频资源包包括：从与第一应用对应的存储空间中，获取与对象文本中的目标对象匹配的目标音频资源包，其中，在第一应用更新时，目标音频资源包被同步更新。

此外，在本实施例中，终端中存储空间缓存的目标音频资源包可以按照需要进行更新，例如，在终端所运行的第一应用更新时，同步更新所存储的目标音频资源包，又例如，第一应用的服务器主动推送更新后的目标音频资源包。

通过本申请提供的实施例，通过以下两种方式获取目标音频资源包：向第一应用的服务器发送获取请求，接收服务器响应获取请求所发送的目标音频资源包，从终端获取目标音频资源包。从而保证快速准确地获取到用于音频转换的音频资源包，以达到提高音频转换的准确性和转换效率的目的。

作为一种可选的方案，在从第一应用在终端的显示界面上所显示的文本中获取待播放文本之前，还包括：

S1，第一应用的服务器获取热点对象及与热点对象对应的音频资源，其中，对热点对象所执行的操作的操作频率大于预定阈值；

S2，服务器根据热点对象及与音频资源建立与热点对象匹配的音频数据库，其中，音频数据库用于获取与热点对象的音频特征匹配的音频资源包。

具体结合图8所示示例进行说明：第一应用的服务器获取热点对象名单(也可称作热点人物名单)。例如，以搜索引擎为例，通过搜索引擎对搜索内容分类和查询热度排序，将排名靠前的人物列入热点人物名单中，此名单会增量持续更新。并获取与上述热点人物关联的视频资料、音频资料，将上述视频资料转换为音频格式，得到与热点人物匹配的音频资源，利用上述热点人物和音频资源，建立音频资源库。

进一步，利用波形拼接合成引擎，及上述音频资源库，合成得到与每个热点人物分别匹配的音频资源包。例如，采用通用、完善的波型合成技术，将人物声学资源片段中的元音、辅音及音调采样，合成该热点人物的音频资源包，批量生成多个热点人物的音频资源包后，将形成较完备的热点人物音频资源集合。

通过车载终端中运行的新闻应用的客户端获取待播放文本，识别出待播放文本中的对象文本及与对象文本匹配的目标对象(也可称作目标人物)。利用目标对象的对象标识，可从服务器中较完备的热点人物音频资源集合中获取与目标对象(也可称作目标人物)匹配的目标音频资源包，及与默认对象匹配的默认音频资源包(可从服务器获取，也可从终端本地获取)，利用语音合成TTS引擎，分别合成对应的对象音频和默认音频，以生成目标音频。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述音频播放方法的音频播放装置，如图9所示，该装置包括：

1)第一获取单元902，用于从第一应用在终端的显示界面上所显示的文本中获取待播放文本；

2)识别单元904，用于从待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本；

3)第一转换单元906，用于获取与目标对象匹配的目标音频资源包，并利用目标音频资源包将对象文本转换为与目标对象的音频特征相匹配的对象音频；

4)第二转换单元908，用于获取与默认对象匹配的默认音频资源包，并利用默认音频资源包将待播放文本中除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频；

5)生成单元910，用于根据对象音频及默认音频生成与待播放文本相匹配的目标音频；

6)播放单元912，用于播放目标音频。

可选地，在本实施例中，上述音频播放装置可以但不限于应用于可以以音频形式播放所要展示的文本内容的终端应用中，其中，上述终端应用可以包括但不限于：新闻应用，导航应用，电子阅读应用等等。上述仅是一种示例，本实施例中对此不做任何限定。例如，以车载终端上的新闻应用为例进行说明。新闻应用在车载终端的显示界面上显示有多条新闻文本，如图3(a)所示，假设包括两条新闻文本，分别为标题T1和标题T2的新闻文本，并在上述新闻文本中获取待播放文本(例如，标题T1的新闻文本)，其中，待播放文本(例如，标题T1的新闻文本)的文本内容如图3(b)所示。然后从上述待播放文本(例如，标题T1的新闻文本)中识别出对象文本，及与对象文本匹配的目标对象(如图所示为目标对象S)，利用与目标对象S匹配的目标音频资源包，将上述对象文本转换为与目标对象的音频特征匹配的对象音频，并利用与默认对象匹配的默认音频资源包将除上述对象文本之外的文本转换为与默认对象的音频特征匹配的默认音频。从而实现根据上述对象音频及默认音频生成与待播放文本(例如，标题T1的新闻文本)匹配的目标音频，如图3(b)所示播放上述目标音频。其中，在播放上述目标音频的过程中，目标对象S所表达的对象文本将按照与目标对象的音频特征相匹配的对象音频播放，除上述对象文本之外的文本将按照与默认对象的音频特征相匹配的默认音频播放，从而使得所播放的内容更加真实，更加丰富，提高了所播放的目标音频的多样性。上述只是一种示例，具体可以根据实际用户需求来进行设置，本实施例中在此不做任何限定。

作为一种可选的方案，识别单元904包括：

1)识别模块，用于使用预定匹配式从待播放文本中识别出对象文本；

2)查找模块，用于根据对象文本查找与对象文本匹配的目标对象。

作为一种可选的方案，识别模块包括：

1)第一查找子模块，用于在待播放文本中使用预定匹配式进行查找，其中，预定匹配式中包括预定标识对，预定标识对用于标识对象文本在待播放文本中的起始位置和终止位置；

2)识别子模块，用于在查找到预定匹配式中的预定标识对的情况下，将待播放文本中位于预定标识对所标识的起始位置和终止位置之间的文本识别为对象文本。

作为一种可选的方案，查找模块包括：

1)第二查找子模块，用于在待播放文本中以下至少一个预定范围内查找对象标识：距离起始位置向前的第一预定范围、距离终止位置向后的第二预定范围；

2)第一获取子模块，用于在预定范围内查找到对象标识的情况下，获取在对象文本所指示的文本内容中，处于中心位置的关键词；

3)第一确定子模块，用于将距离关键词最近的对象标识所标识的对象，作为与对象文本相匹配的目标对象。

需要说明的是，在本实施例中，还包括：第二确定子模块，用于在查找与对象文本匹配的目标对象之后，在预定范围内未查找到与对象文本匹配的目标对象的情况下，将默认对象作为目标对象。其中，在第一应用中可以包括一个或多个预设的默认对象。假设默认对象包括：默认对象A、默认对象B及默认对象C。上述作为目标对象的默认对象可以为用于对除上述对象文本之外的文本进行转换的默认对象A，以简化转换步骤，提高音频播放效率。此外，在本实施例中，也可以为其他默认对象，如默认对象B或默认对象C，从而实现在未识别出目标对象的情况下，可以将对象文本转换为与默认对象B的音频特征匹配的音频，以使得通过默认对象B对对象文本所转换的音频，与通过默认对象A对其他文本(除上述对象文本之外的文本)所转换的音频不同。进而保证所播放的音频的内容的多样性。

作为一种可选的方案，生成单元910包括：

1)插入模块，用于根据预定标识对将对象音频插入默认音频，以生成目标音频。

作为一种可选的方案，第一转换单元包括以下至少之一：

1)传输模块，用于向第一应用的服务器发送获取请求；接收服务器响应获取请求所发送的目标音频资源包；

2)获取模块，用于从终端获取目标音频资源包。

作为一种可选的方案，获取模块包括：

1)第二获取子模块，用于从与第一应用对应的存储空间中，获取与对象文本中的目标对象匹配的目标音频资源包，其中，在第一应用更新时，目标音频资源包被同步更新。

实施例3

根据本发明实施例，还提供了一种用于实施上述音频播放方法的音频播放终端，如图10所示，该终端包括：

1)通讯接口1002，设置为从第一应用在终端的显示界面上所显示的文本中获取待播放文本；

2)处理器1004，与通讯接口1002连接，设置为从待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本；还设置为获取与目标对象匹配的目标音频资源包，并利用目标音频资源包将对象文本转换为与目标对象的音频特征相匹配的对象音频；还设置为获取与默认对象匹配的默认音频资源包，并利用默认音频资源包将待播放文本中除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频；还设置为根据对象音频及默认音频生成与待播放文本相匹配的目标音频，并播放目标音频；

3)存储器1006，与通讯接口1002及处理器1004连接，设置为存储带播放文本、目标音频资源包、默认音频资源包、对象音频、默认音频及默认音频。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以位于网络中的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，从第一应用在终端的显示界面上所显示的文本中获取待播放文本；

S2，从待播放文本中识别出对象文本及与对象文本匹配的目标对象，其中，对象文本为目标对象所表达的文本；

S3，获取与目标对象匹配的目标音频资源包，并利用目标音频资源包将对象文本转换为与目标对象的音频特征相匹配的对象音频；

S4，获取与默认对象匹配的默认音频资源包，并利用默认音频资源包将待播放文本中除对象文本之外的文本转换为与默认对象的音频特征相匹配的默认音频；

S5，根据对象音频及默认音频生成与待播放文本相匹配的目标音频，并播放目标音频。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频播放方法，其特征在于，包括：

从第一应用在终端的显示界面上所显示的文本中获取待播放文本；

从所述待播放文本中识别出对象文本及与所述对象文本匹配的目标对象，其中，所述对象文本为所述目标对象所表达的文本，其中，所述表达包括：发言；

获取与所述目标对象匹配的目标音频资源包，并利用所述目标音频资源包将所述对象文本转换为与所述目标对象的音频特征相匹配的对象音频；

获取与默认对象匹配的默认音频资源包，并利用所述默认音频资源包将所述待播放文本中除所述对象文本之外的文本转换为与所述默认对象的音频特征相匹配的默认音频；

根据所述对象音频及所述默认音频生成与所述待播放文本相匹配的目标音频，并播放所述目标音频；

其中，所述从所述待播放文本中识别出对象文本及与所述对象文本匹配的目标对象包括：使用预定匹配式从所述待播放文本中识别出对象文本；根据所述对象文本查找与所述对象文本匹配的所述目标对象；

所述根据所述对象文本查找与所述对象文本匹配的所述目标对象包括：在所述待播放文本中以下至少一个预定范围内查找对象标识：距离所述待播放文本中的起始位置向前的第一预定范围、距离所述待播放文本中的终止位置向后的第二预定范围；在所述预定范围内查找到所述对象标识的情况下，获取在所述对象文本所指示的文本内容中，处于中心位置的关键词；将距离所述关键词最近的对象标识所标识的对象，作为与所述对象文本相匹配的所述目标对象。

2.根据权利要求1所述的方法，其特征在于，所述使用预定匹配式从所述待播放文本中识别出对象文本包括：

在所述待播放文本中使用所述预定匹配式进行查找，其中，所述预定匹配式中包括预定标识对，所述预定标识对用于标识所述对象文本在所述待播放文本中的起始位置和终止位置；

在查找到所述预定匹配式中的所述预定标识对的情况下，将所述待播放文本中位于所述预定标识对所标识的所述起始位置和所述终止位置之间的文本识别为所述对象文本。

3.根据权利要求1所述的方法，其特征在于，在查找与所述对象文本匹配的所述目标对象之后，还包括：

在所述预定范围内未查找到与所述对象文本匹配的所述目标对象的情况下，将所述默认对象作为所述目标对象。

4.根据权利要求2所述的方法，其特征在于，所述根据所述对象音频及所述默认音频生成与所述待播放文本相匹配的目标音频包括：

根据所述预定标识对将所述对象音频插入所述默认音频，以生成所述目标音频。

5.根据权利要求1所述的方法，其特征在于，所述获取与所述目标对象匹配的目标音频资源包包括以下至少之一：

向所述第一应用的服务器发送获取请求；接收所述服务器响应所述获取请求所发送的所述目标音频资源包；

从所述终端获取所述目标音频资源包。

6.根据权利要求5所述的方法，其特征在于，在向所述第一应用的服务器发送所述获取请求之后，还包括：

所述服务器调用所述获取请求所请求的所述目标音频资源包，其中，所述服务器通过以下至少一种方式获取所述目标音频资源包：所述服务器根据所述获取请求中所携带的所述目标对象的对象标识查找与所述目标对象匹配的目标资源包、所述服务器根据所述获取请求中所携带的所述对象文本的文本标识查找与所述对象文本中的所述目标对象匹配的所述目标资源包；

所述服务器将所述目标音频资源包发送给所述终端。

7.根据权利要求5所述的方法，其特征在于，所述从所述终端获取所述目标音频资源包包括：

从与所述第一应用对应的存储空间中，获取与所述对象文本中的所述目标对象匹配的所述目标音频资源包，其中，在所述第一应用更新时，目标资源包被同步更新。

8.根据权利要求1所述的方法，其特征在于，在所述从第一应用在终端的显示界面上所显示的文本中获取待播放文本之前，还包括：

所述第一应用的服务器获取热点对象及与所述热点对象对应的音频资源，其中，对所述热点对象所执行的操作的操作频率大于预定阈值；

所述服务器根据所述热点对象及与所述音频资源建立与所述热点对象匹配的音频数据库，其中，所述音频数据库用于获取与所述热点对象的音频特征匹配的音频资源包。

9.一种音频播放装置，其特征在于，包括：

第一获取单元，用于从第一应用在终端的显示界面上所显示的文本中获取待播放文本；

识别单元，用于从所述待播放文本中识别出对象文本及与所述对象文本匹配的目标对象，其中，所述对象文本为所述目标对象所表达的文本，其中，所述表达包括：发言；

第一转换单元，用于获取与所述目标对象匹配的目标音频资源包，并利用所述目标音频资源包将所述对象文本转换为与所述目标对象的音频特征相匹配的对象音频；

第二转换单元，用于获取与默认对象匹配的默认音频资源包，并利用所述默认音频资源包将所述待播放文本中除所述对象文本之外的文本转换为与所述默认对象的音频特征相匹配的默认音频；

生成单元，用于根据所述对象音频及所述默认音频生成与所述待播放文本相匹配的目标音频；

播放单元，用于播放所述目标音频；

其中，所述识别单元包括：识别模块，用于使用预定匹配式从所述待播放文本中识别出对象文本；查找模块，用于根据所述对象文本查找与所述对象文本匹配的所述目标对象；

所述查找模块包括：第二查找子模块，用于在所述待播放文本中以下至少一个预定范围内查找对象标识：距离所述待播放文本中的起始位置向前的第一预定范围、距离所述待播放文本中的终止位置向后的第二预定范围；第一获取子模块，用于在所述预定范围内查找到所述对象标识的情况下，获取在所述对象文本所指示的文本内容中，处于中心位置的关键词；第一确定子模块，用于将距离所述关键词最近的对象标识所标识的对象，作为与所述对象文本相匹配的所述目标对象。

10.根据权利要求9所述的装置，其特征在于，所述识别模块包括：

第一查找子模块，用于在所述待播放文本中使用所述预定匹配式进行查找，其中，所述预定匹配式中包括预定标识对，所述预定标识对用于标识所述对象文本在所述待播放文本中的起始位置和终止位置；

识别子模块，用于在查找到所述预定匹配式中的所述预定标识对的情况下，将所述待播放文本中位于所述预定标识对所标识的所述起始位置和所述终止位置之间的文本识别为所述对象文本。

11.根据权利要求9所述的装置，其特征在于，还包括：

第二确定子模块，用于在查找与所述对象文本匹配的所述目标对象之后，在所述预定范围内未查找到与所述对象文本匹配的所述目标对象的情况下，将所述默认对象作为所述目标对象。

12.根据权利要求10所述的装置，其特征在于，所述生成单元包括：

插入模块，用于根据所述预定标识对将所述对象音频插入所述默认音频，以生成所述目标音频。

13.根据权利要求9所述的装置，其特征在于，所述第一转换单元包括以下至少之一：

传输模块，用于向所述第一应用的服务器发送获取请求；接收所述服务器响应所述获取请求所发送的所述目标音频资源包；

获取模块，用于从所述终端获取所述目标音频资源包。

14.根据权利要求13所述的装置，其特征在于，所述获取模块包括：

第二获取子模块，用于从与所述第一应用对应的存储空间中，获取与所述对象文本中的所述目标对象匹配的所述目标资源包，其中，在所述第一应用更新时，所述目标音频资源包被同步更新。

15.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至8任一项中所述的方法。