CN111277976B - 信息处理设备、信息处理方法和程序 - Google Patents

信息处理设备、信息处理方法和程序 Download PDF

Info

Publication number
CN111277976B
CN111277976B CN201910858944.5A CN201910858944A CN111277976B CN 111277976 B CN111277976 B CN 111277976B CN 201910858944 A CN201910858944 A CN 201910858944A CN 111277976 B CN111277976 B CN 111277976B
Authority
CN
China
Prior art keywords
reproduction
audio data
text data
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910858944.5A
Other languages
English (en)
Other versions
CN111277976A (zh
Inventor
塚本淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN111277976A publication Critical patent/CN111277976A/zh
Application granted granted Critical
Publication of CN111277976B publication Critical patent/CN111277976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及一种信息处理设备、信息处理方法和程序。根据本发明实施例的信息处理设备包括:通信单元,其配置为接收内容的音频数据和与所述音频数据相对应的文本数据;音频数据再现单元,其配置为执行所述音频数据的再现;文本数据再现单元,其配置为通过所述文本数据的音频合成执行再现;和控制器,其配置为控制所述音频数据或所述文本数据的再现。当所述音频数据再现单元不能执行所述音频数据的再现时,所述控制器使所述文本数据再现单元执行所述文本数据的再现。

Description

信息处理设备、信息处理方法和程序
技术领域
本发明涉及信息处理设备、信息处理方法和程序。
背景技术
在现有技术中,已知一种技术:在该技术中,分发音频内容(下文中称为“内容”)的分发服务器通过诸如无线局域网(LAN)的通信网络分发内容。
例如,日本未审查专利申请公开第2006-41721(JP 2006-41721 A)号公开了一种技术:其与流媒体内容的再现并行地下载下载内容,并且在下载完成后从流媒体内容的再现切换到下载内容的再现。
发明内容
通常,根据数据量或通信速度可能需要长时间来完成内容的下载。因此,利用JP2006-41721 A中公开的技术,当客户在完成内容下载之前且在流再现期间移动到基站的覆盖区域之外时,无法再执行内容的再现。另外,利用JP2006-41721A中公开的技术,在开始内容的再现时,在接收到流再现所需的内容之前,无法执行内容的再现。以这种方式,在现有技术中,存在不能执行内容的再现的可能性。
本发明提供一种信息处理设备、信息处理方法以及一种程序,能够降低不能执行从服务器分发的内容的再现的可能性。
本发明的第一方案涉及一种信息处理设备,包括通信单元、音频数据再现单元、文本数据再现单元和控制器。通信单元配置为接收内容的音频数据和与所述音频数据相对应的文本数据。音频数据再现单元配置为执行所述音频数据的再现。文本数据再现单元配置为通过所述文本数据的音频合成执行再现。控制器配置为控制所述音频数据的再现或所述文本数据的再现。当所述音频数据不能由所述音频数据再现单元再现时,所述控制器使所述文本数据再现单元执行所述文本数据的再现。
本发明的第二方案涉及一种信息处理设备中的信息处理方法,所述信息处理设备包括:音频数据再现单元,其配置为执行内容的音频数据的再现;以及文本数据再现单元,其配置为通过对应于所述音频数据的文本数据的音频合成执行再现。所述方法包括:接收所述音频数据和所述文本数据的步骤;和控制所述音频数据或所述文本数据的再现的步骤。当所述音频数据不能由所述音频数据再现单元再现时,使所述文本数据再现单元执行所述文本数据的再现。
本发明的第三方案涉及一种程序,所述程序使信息处理设备执行如下步骤,其中所述信息处理设备包括:音频数据再现单元,其配置为执行内容的音频数据的再现;以及文本数据再现单元,其配置为通过对应于所述音频数据的文本数据的音频合成执行再现,所述步骤包括:接收所述音频数据和所述文本数据的步骤;和控制所述音频数据或所述文本数据的再现的步骤。当所述音频数据不能由所述音频数据再现单元再现时,使所述文本数据再现单元执行所述文本数据的再现。
利用根据本发明的各方案的信息处理设备、信息处理方法和程序,可以降低不能执行从服务器分发的内容的再现的可能性。
附图说明
下面将参照附图描述本发明的示例性实施例的特征、优点以及技术和工业重要性,附图中相同的附图标记指代相同的元件,并且其中:
图1是示出包括根据本发明实施例的信息处理设备的信息处理系统的配置示例的图;
图2是示出图1中所示的信息处理设备的操作的示例的流程图;和
图3是示出图1中所示的信息处理设备的操作的另一个示例的流程图。
具体实施方式
在下文中,将参考附图描述本发明的实施例。在每个附图中,相同的附图标记指代相同或等同的配置元件。
图1是示出包括根据本发明实施例的信息处理设备10的信息处理系统1的配置示例的图。
图1所示的信息处理系统1包括分发服务器2和信息处理设备10。
分发服务器2分发诸如新闻的阅读或在与用户之间执行音频交互的交互系统中对用户的应答的音频内容(内容)。具体地,分发服务器2分发内容的音频数据和与音频数据相对应的文本数据。对应于音频数据的文本数据是将作为音频数据的相同内容表示为文本的数据。对应于音频数据的文本数据例如是如下数据:音频数据的音频被写成文本的数据;由被称为中间语言的语音符号串形成的数据;等等。所述中间语言通过读音频数据的音频被写成的文本或者重音、韵律等的语言分析来生成。
信息处理设备10获取(接收)从分发服务器2分发的内容的音频数据和文本数据,并再现该内容。信息处理设备10例如是安装在车辆3上的汽车导航设备。能够通过网络4与分发服务器2通信的通信设备20安装在车辆3上。网络4包括例如诸如移动通信网络和因特网的网络,并且可以包括预定的通信网络。
车辆3例如是汽车,但不限于此,并且可以是人可以乘坐的任何车辆。车辆3是由用户驾驶的车辆,但不限于此,并且可以是例如进行自动驾驶的车辆。自动驾驶包括例如汽车工程师协会(SAE)中定义的1级或5级,但不限于此,并且可以随机定义。分发服务器2包括一个服务器设备或能够彼此通信的多个服务器设备。在实施例中,为了简化描述,将描述分发服务器2包括一个服务器设备的情况。
通信设备20与构成网络4的基站进行无线通信。通信设备20可以是例如车载通信设备,诸如数据通信模块(DCM)。通信设备20可以包括与诸如4G和5G的移动通信标准兼容的通信模块,以连接到网络4。
当信息处理设备10安装在车辆3上时,信息处理设备10通过通信设备20经由网络4获取内容的音频数据和文本数据。信息处理设备10可以是包括无线通信功能的通信设备,诸如便携式电话、智能电话或平板终端。在这种情况下,信息处理设备10可以在不通过通信设备20的情况下直接访问网络4,以从分发服务器2获取内容的音频数据和文本数据。在下文中,将描述信息处理设备10安装在车辆3上并且通过通信设备20经由网络4获取内容的音频数据和文本数据的情况。
接下来,将描述信息处理设备10的配置。分发服务器2可以具有任何配置,只要包括关联和保持内容的音频数据和文本数据的功能以及通过网络4分发(流媒体分发或下载分发)这些数据的功能即可。因此,省略对分发服务器2的配置的描述。
图1中所示的信息处理设备10包括输入单元11、通信单元12、存储单元13、音频数据再现单元14、文本数据再现单元15和控制器16。
输入单元11接受用户输入的操作,并响应于输入操作将信号输出到控制器16。输入单元11例如由按钮、开关、拨盘旋钮等构成。另外,输入单元11可以被配置为触摸面板,其中当信息处理设备10包括显示单元时,触摸传感器的触摸表面设置在显示单元的显示表面上。另外,输入单元11可以被配置为接受音频输入的麦克风。
通信单元12根据控制器16的控制,通过通信设备20接收从分发服务器2分发的内容的音频数据和文本数据。另外,通信单元12可以根据控制器16的控制通过通信设备20向分发服务器2发送各种请求。
存储单元13包括一个以上存储器。在实施例中,“存储器”例如是半导体存储器、磁存储器或光学存储器,但不限于此。在存储单元13中包括的每个存储器可以用作例如主存储设备、辅助存储设备或高速缓冲存储器。存储单元13存储用于信息处理设备10的操作的预定信息。例如,存储单元13可以存储系统程序和应用程序。另外,存储单元13可以存储由通信单元12接收的内容的音频数据和文本数据。
音频数据再现单元14根据控制器16的控制执行由通信单元12接收的音频数据的再现。音频数据再现单元14可以与音频数据的接收并行地执行用于音频数据的再现的流再现,或者在完成音频数据的接收之后执行用于所接收的音频数据的再现的下载再现。
文本数据再现单元15根据控制器16的控制,通过对通信单元12接收的文本数据的音频合成来执行再现(音频合成再现)。
例如,当信息处理设备10安装在包括扬声器的车辆上时,音频数据再现单元14和文本数据再现单元15通过车辆中包括的扬声器再现内容。另外,例如,当信息处理设备10本身包括扬声器时,音频数据再现单元14和文本数据再现单元15通过信息处理设备10中包括的扬声器再现内容。
在流再现中,再现内容的音频质量良好,但是当通信环境恶化时,再现被中断。另外,在下载再现中,再现内容的音频质量良好,但是在具有大数据量的音频数据的下载完成之前不能开始再现。另外,在音频合成再现中,再现所需的文本数据的数据量非常小,但是与流再现和下载再现相比,再现内容的音频质量差。以这种方式,内容再现、下载再现和音频合成再现分别具有优点和缺点。在实施例中,如下所述,通过组合这些再现方法,信息处理设备10可以降低不能执行从分发服务器2分发的内容的再现的可能性。
控制器16包括一个以上处理器。控制器16控制整个信息处理设备10的操作。例如,控制器16控制由通信单元12接收的音频数据和文本数据的再现。具体地,当音频数据再现单元14不能执行音频数据的再现时,控制器16使文本数据再现单元15执行文本数据的再现。通常,与音频数据相比,文本数据具有小的数据量,因此可以在短时间内执行下载。因此,即使当不能执行音频数据的再现时,完成文本数据的下载的可能性很高,并且文本数据的音频合成再现是可能的。因此,当不能执行音频数据的再现时,通过执行文本数据的再现,可以降低不能执行从分发服务器2分发的内容的再现的可能性。
接下来,将描述根据实施例的信息处理设备10的操作。如上所述,当音频数据再现单元14不能执行音频数据的再现时,根据实施例的信息处理设备10使文本数据再现单元15执行文本数据的再现。例如,在开始再现音频数据时,在流再现期间等,发生不能再现音频数据的情况。在下文中,将以这两种情况作为示例来描述信息处理设备10的操作。
首先,将参考图2所示的流程图来描述在开始音频数据的再现时信息处理设备10的操作,着重于控制器16的操作。
步骤S101:例如,当通过输入单元11输入请求再现内容的操作时,控制器16使通信单元12将请求再现内容的再现请求发送到分发服务器2。当接收到从信息处理设备10发送的再现请求时,分发服务器2开始分发被请求再现的内容的文本数据。
步骤S102:当分发服务器2开始分发内容的文本数据时,通信单元12下载文本数据。
步骤S103:当文本数据的下载完成时,控制器16使通信单元12将开始内容的流再现或下载再现的请求发送到分发服务器2。当接收到从信息处理设备10发送的开始请求时,分发服务器2响应于开始请求,开始用于内容的流再现或下载再现的音频数据的分发。
步骤S104:控制器16判定是否存在可以快速(例如,在预定时间内)开始流再现或下载再现的可能性。控制器16例如基于从分发服务器2分发的音频数据的接收速度,判定是否存在可以快速开始流再现或下载再现的可能性。也就是说,当音频数据的接收速度快于预定参考时,控制器16判定存在可以快速开始流再现或下载再现的可能性。当作出存在可以快速开始流再现或下载再现的可能性的判定时(步骤S104:是),控制器16进行到步骤S105的处理。当作出不存在可以快速开始流再现或下载再现的可能性的判定时(步骤S104:否),控制器16进行到步骤S107的处理。即使在作出不存在可以快速开始流再现或下载再现的可能性的判定时,控制器16使通信单元12继续接收音频数据。
步骤S105:控制器16判定流再现或下载再现是否可能。也就是说,在流再现的情况下,控制器16判定是否完成了开始流再现所需的音频数据的接收。另外,在下载再现的情况下,控制器16判定是否完成了内容的音频数据的下载。当作出流再现或下载再现不可能的判定时(步骤S105:否),控制器16重复步骤S105的处理。当作出流再现或下载再现可能的判定时(步骤S105:是),控制器16进行到步骤S106的处理。
步骤S106:当流再现或下载再现可能时,控制器16使音频数据再现单元14开始所接收的音频数据的流再现或下载再现。
步骤S107:当不存在能快速开始流再现或下载再现的可能性时,控制器16使文本数据再现单元15通过接收的文本数据的音频合成来执行再现。
步骤S108:控制器16在文本数据的再现期间判定流再现或下载再现是否可能。也就是说,在流再现的情况下,控制器16判定是否完成了开始流再现所需的音频数据的接收。另外,在下载再现的情况下,控制器16判定是否完成了内容的音频数据的下载。当作出流再现或下载再现不可能的判定时(步骤S108:否),控制器16返回到步骤S107的处理。当作出流再现或下载再现可能的判定时(步骤S108:是),控制器16进行到步骤S109的处理。
步骤S109:控制器16根据由文本数据再现单元15再现的文本数据的字符数和文本数据的再现速度,估计文本数据再现单元15对内容的再现位置。下面将详细描述文本数据再现单元15对内容的再现位置的估计。
步骤S110:控制器16将内容的再现从文本数据再现单元15对文本数据的再现切换为音频数据再现单元14对音频数据的再现(流再现或下载再现),并且使音频数据再现单元14从估计的再现位置起执行音频数据的再现。
当控制器16通过步骤S106或步骤S110的处理使音频数据再现单元14开始下载再现时,例如,对内容的再现是否结束进行判定,并且当判定内容的再现结束时,处理结束。另外,当控制器16使音频数据再现单元14开始流再现时,例如,控制器16转移到图3所示的流程,如下所述。
接下来,将参考图3中所示的流程图描述在流再现期间信息处理设备10的操作,着重于控制器16的操作。
步骤S201:当接收到流再现所需的音频数据时,控制器16使音频数据再现单元14执行所接收的音频数据的流再现。
步骤S202:控制器16判定流再现是否被中断。例如,当无法从分发服务器2接收音频数据时,也就是说,与分发服务器2的通信被中断时,控制器16判定流再现被中断。当判定流再现未被中断时(步骤S202:否),控制器16进行到步骤S203的处理。当判定流再现被中断时(步骤S202:是),控制器16进行到步骤S204的处理。
通过这样做,可以尽可能通过音频质量高的音频数据继续内容的流再现,然后切换到文本数据的再现。
步骤S203:控制器16判定内容的再现(通过流再现的内容的再现)是否结束。当判定内容的再现结束时(步骤S203:是),控制器16结束处理。当判定内容的再现没有结束时(步骤S203:否),控制器16返回到步骤S202的处理。
步骤S204:当判定流再现被中断时,控制器16根据流再现的再现时间和再现速度估计音频数据再现单元14对内容的再现位置。下面将详细描述音频数据再现单元14对内容的再现位置的估计。
步骤S205:控制器16将内容的再现从音频数据再现单元14的流再现切换到文本数据再现单元15对文本数据的再现,并且使文本数据再现单元15从音频数据再现单元14对内容的估计再现位置起开始文本数据的再现。
当通信单元12对音频数据的接收速度是足以由音频数据再现单元14进行流再现的接收速度时,控制器16可以在再现之前在存储单元13中临时缓存音频数据。在这种情况下,当流再现被中断时,控制器16可以使音频数据再现单元14执行存储单元13中缓存的未再现音频数据的再现,然后,使文本数据再现单元15从音频数据再现单元14对内容的再现位置起执行文本数据的再现。
步骤S206:控制器16判定是否可能返回到流再现。控制器16例如基于与分发服务器2的通信是否恢复以及是否接收到流再现所需的音频数据来判定是否可能返回到流再现。当判定不能返回到流再现时(步骤S206:否),控制器16进行到步骤S207的处理。当判定返回到流再现是可能的时(步骤S206:是),控制器16进行到步骤S209的处理。
步骤S207:由于不能返回到流再现,因此控制器16继续文本数据再现单元15对文本数据的再现。
步骤S208:控制器16判定内容的再现(通过文本数据的再现的内容再现)是否结束。当判定内容的再现结束时(步骤S208:是),控制器16结束处理。当判定内容的再现没有结束时(步骤S208:否),控制器16返回到步骤S206的处理。
步骤S209:为了返回到流再现,控制器16根据文本数据再现单元15对文本数据的再现字符数和再现速度来估计文本数据再现单元15对内容的再现位置。下面将详细描述文本数据再现单元15对内容的再现位置的估计。
步骤S210:控制器16将内容的再现从文本数据再现单元15对文本数据的再现切换到音频数据再现单元14的流再现,并且使音频数据再现单元14从文本数据再现单元15对内容的估计再现位置起开始流再现。此后,控制器16进行到步骤S203的处理。
接下来,将描述音频数据再现单元14和文本数据再现单元15对内容的再现位置的估计方法。首先,将描述文本数据再现单元15对内容的再现位置的估计方法。
如上所述,控制器16根据由文本数据再现单元15再现的文本数据的字符数和内容的再现速度,估计文本数据再现单元15对内容的再现位置。具体地,控制器16将由文本数据再现单元15再现的文本数据的字符数乘以文本数据的再现速度,以估计文本数据再现单元15对文本数据的再现时间。控制器16估计从文本数据再现单元15开始再现的内容的位置起向前估计的再现时间的位置,作为音频数据中内容的再现位置。
例如,假设文本数据再现单元15以0.3秒/字符的再现速度再现“こんにちは。いいてんきですね。(Konnichiwa.Iitenkidesune.:你好。好天气啊。)”的文本数据。但是,假设句点“。”需要一秒钟。在这种情况下,控制器16估计文本数据再现单元15对内容的再现时间为13个字符(こんにちはいいてんきですね(KonnichiwaIitenkidesune.:你好好天气啊)×0.3秒/字符+2秒(句号“。”×2个)=5.9秒。控制器16估计从文本数据再现单元15开始再现的内容的位置起向前估计的再现时间(5.9秒)的位置,作为文本数据再现单元15对内容的再现位置。
然而,文本数据的实际再现速度随着内容的句子而变化。因此,控制器16可以使音频数据再现单元14从通过上述计算估计的内容再现位置往前预定时间的位置起开始音频数据的再现。也就是说,控制器16可以根据再现字符×再现速度-误差校正(用于校正再现时间的校正时间)的等式来估计内容的再现时间。通过这样做,可能在切换时冗余地再现内容中的一些内容,但是可以降低发生跳过(其中内容中的一些内容丢失)的可能性。
通常,存在随着由文本数据再现单元15再现的文本数据的字符数越多,误差也越大的可能性。因此,随着由文本数据再现单元15再现的文本数据的字符数越多,控制器16可以使上述的误差校正值越大。
通常,存在文本数据的再现速度根据内容的类型而不同的情况。因此,控制器16可以基于内容的类型来改变内容的文本数据的再现速度。通过这样做,可以根据内容的类型估计适当的再现位置。例如,可以通过将指示内容的类型的标识符添加到内容的文本数据来区分内容的类型。
接下来,将描述音频数据再现单元14对内容的再现位置的估计方法。
如上所述,控制器16根据音频数据再现单元14对音频数据的再现时间和再现速度来估计音频数据再现单元14对内容的再现位置。具体地,控制器16将音频数据再现单元14对音频数据的再现时间除以音频数据的再现速度,以估计被音频数据再现单元14再现的内容的字符数。控制器16估计从音频数据再现单元14开始再现的内容的位置起向前估计的再现字符数的位置,作为音频数据再现单元14对内容的再现位置。
例如,假设音频数据再现单元14在三秒钟内再现“こんにちは。いいてんきですね。(Konnichiwa.Iitenkidesune.:你好。好天气啊。)”的音频数据。这里,假设音频数据再现单元14对内容的再现速度为0.3秒/字符。但是,假设句点“。”是三个字符。在这种情况下,控制器16估计音频数据再现单元14对音频数据的再现字符数为3秒÷0.3秒+3个字符(对于一个句点“。”)=13个字符。因此,控制器16估计从音频数据再现单元14开始再现的内容的位置起向前估计的再现字符数(13个字符)的位置(第14个字符),作为音频数据再现单元14对内容的再现位置。
然而,音频数据的实际再现速度随着内容的句子而变化。因此,控制器16可以使文本数据再现单元15从通过上述计算估计的内容的再现位置往前预定时间的位置起开始文本数据的再现。也就是说,控制器16可以根据估计的再现位置-误差校正(用于校正再现时间的校正时间)的等式来估计内容的再现时间。
例如,假设音频数据再现单元14再现如上所述的“こんにちは。いいてんきですね。(Konnichiwa.Iitenkidesune.:你好。好天气啊。)”的音频数据中的“こんにちは。いいて(Konnichiwa.Iiten:你好。好天)”。在这种情况下,当文本数据再现单元15从单词“てんき(tenki.:天气)”的中间切换文本数据的再现时,用户难以掌握内容的内含。因此,控制器16可以使文本数据再现单元15例如从紧前的句点(在上面的示例中,从“いいてんき(Iitenki.:好天气)”)起执行文本数据的再现。
通常,存在随着音频数据再现单元14对音频数据的再现时间越长,误差也越大的可能性。因此,随着音频数据再现单元14对音频数据的再现时间越长,控制器16可以使如上所述的误差校正值越大。
对内容的再现位置的估计不限于上述方法。例如,当安装用于收集安装有信息处理设备10的车辆3周围的音频的麦克风时,或者当信息处理设备10自身包括麦克风时,控制器16可以在内容的再现期间分析由麦克风收集的音频,以估计内容的再现位置。当没有麦克风时,控制器16可以使从音频数据再现单元14输出到扬声器的音频信号被分支并输入到控制器16,以估计音频数据再现单元14对内容的再现位置。
为了估计内容的再现位置,描述了内容是日语的情况作为示例。然而,本发明不限于此。例如,当内容是英语时,控制器16可以将再现速度从“n秒/字符”替换为“n秒/单词”,并将“再现字符数”用“再现单词数”替换以估计内容的再现位置。
以这种方式,在实施例中,信息处理设备10包括:通信单元12,其接收内容的音频数据和与音频数据相对应的文本数据;音频数据再现单元14,其执行音频数据的再现;文本数据再现单元15,其通过文本数据的音频合成执行再现;控制器16,其控制音频数据的再现或文本数据的再现。当音频数据再现单元14不能执行音频数据的再现时,控制器16使文本数据再现单元15执行文本数据的再现。
通常,与音频数据相比,与音频数据相对应的文本数据具有小的数据量,因此在短时间内完成文本数据的接收。因此,很有可能在音频数据的再现可能之前或者甚至当由于通信中断等而无法再现音频数据(流再现)时,就完成了文本数据的接收。因此,当不能再现音频数据时,通过执行文本数据的再现,可以降低从分发服务器2分发的内容不能再现的可能性。
已经描述了信息处理设备10,并且可以使用计算机用作信息处理设备10。这种计算机在计算机的存储单元中存储描述实现信息处理设备10的每个功能的处理内容的程序,并使计算机的CPU读取和执行该程序。以这种方式,计算机实现信息处理设备10的每个功能。
程序可以记录在计算机可读记录介质中。利用这种记录介质,可以将程序安装在计算机上。这里,记录程序的记录介质可以是非暂时性记录介质。非暂时性记录介质没有特别限制,可以是诸如CD-ROM或DVD-ROM的记录介质。
以上实施例被描述为代表性示例,但是对于本领域技术人员显而易见的是,在本公开的精神和范围内可以进行各种改变和替换。因此,本公开不应被解释为受上述实施例限制,而是在不脱离权利要求的范围的情况下可以进行各种修改和改变。例如,可以将在实施例的配置图中描述的多个配置块组合成一个或将一个配置块进行划分。

Claims (8)

1.一种信息处理设备,包括:
通信单元,其配置为接收内容的音频数据和与所述音频数据相对应的文本数据;
音频数据再现单元,其配置为执行所述音频数据的再现;
文本数据再现单元,其配置为通过所述文本数据的音频合成执行再现;和
控制器,其配置为控制所述音频数据或所述文本数据的再现,
其中,当所述音频数据不能由所述音频数据再现单元再现时,所述控制器使所述文本数据再现单元执行所述文本数据的所述再现,
所述音频数据再现单元与所述通信单元对所述音频数据的接收并行地执行用于接收的所述音频数据的再现的流再现,并且当所述音频数据再现单元的所述流再现被中断时,所述控制器使所述文本数据再现单元从所述音频数据再现单元对所述内容的再现位置起执行所述文本数据的所述再现,
所述控制器根据所述音频数据再现单元的所述流再现的再现时间和再现速度,估计所述音频数据再现单元对所述内容的所述再现位置,
所述控制器使所述文本数据再现单元从估计的所述再现位置往前预定时间的位置起执行所述文本数据的所述再现。
2.根据权利要求1所述的信息处理设备,还包括存储单元,所述存储单元缓存由所述通信单元接收的所述音频数据,
其中,当所述音频数据再现单元的所述流再现被中断时,所述控制器使所述音频数据再现单元执行缓存在所述存储单元中的未再现的所述音频数据的所述再现,然后使所述文本数据再现单元从所述音频数据再现单元对所述内容的所述再现位置起执行所述文本数据的所述再现。
3.根据权利要求1或权利要求2所述的信息处理设备,其中,当在所述文本数据再现单元对所述文本数据的所述再现期间所述音频数据再现单元的所述流再现是可能的时,所述控制器从所述文本数据再现单元对所述文本数据的所述再现切换到所述音频数据再现单元的所述流再现。
4.根据权利要求1所述的信息处理设备,其中:
所述音频数据再现单元与所述通信单元对所述音频数据的接收并行地执行用于接收的所述音频数据的再现的流再现,或者在完成所述内容的所述音频数据的所述接收之后执行用于接收的所述音频数据的所述再现的下载再现,并且
所述控制器使所述通信单元接收所述文本数据,然后接收所述音频数据,当完成所述文本数据的接收时使所述文本数据再现单元开始所述文本数据的所述再现,而当所述音频数据再现单元的所述流再现或所述下载再现是可能的时,从所述文本数据再现单元对所述文本数据的所述再现切换到所述音频数据再现单元对所述音频数据的所述再现。
5.根据权利要求3所述的信息处理设备,其中,所述控制器根据所述文本数据再现单元对所述文本数据的再现字符数和再现速度估计所述文本数据的再现时间,基于估计的所述再现时间估计文本数据再现单元对所述内容的再现位置,并且使所述音频数据再现单元从估计的所述再现位置起执行所述音频数据的所述再现。
6.根据权利要求5所述的信息处理设备,其中,所述控制器使所述音频数据再现单元从估计的所述再现位置往前预定时间的位置起执行所述音频数据的所述再现。
7.一种信息处理设备中的信息处理方法,所述信息处理设备包括:音频数据再现单元,其配置为执行内容的音频数据的再现;以及文本数据再现单元,其配置为通过对应于所述音频数据的文本数据的音频合成执行再现,所述信息处理方法包括:
接收所述音频数据和所述文本数据的步骤;和
控制所述音频数据或所述文本数据的再现的步骤,
其中,当所述音频数据不能由所述音频数据再现单元再现时,使所述文本数据再现单元执行所述文本数据的所述再现,
对所述音频数据的接收并行地执行用于接收的所述音频数据的再现的流再现,并且当所述音频数据再现单元的所述流再现被中断时,使所述文本数据再现单元从所述音频数据再现单元对所述内容的再现位置起执行所述文本数据的所述再现,
根据所述音频数据再现单元的所述流再现的再现时间和再现速度,估计所述音频数据再现单元对所述内容的所述再现位置,
使所述文本数据再现单元从估计的所述再现位置往前预定时间的位置起执行所述文本数据的所述再现。
8.一种计算机可读记录介质,存储有程序,所述程序使信息处理设备执行如下步骤,所述信息处理设备包括:音频数据再现单元,其配置为执行内容的音频数据的再现;以及文本数据再现单元,其配置为通过对应于所述音频数据的文本数据的音频合成执行再现,所述步骤包括:
接收所述音频数据和所述文本数据的步骤;和
控制所述音频数据或所述文本数据的再现的步骤,
其中,当所述音频数据不能由所述音频数据再现单元再现时,使所述文本数据再现单元执行所述文本数据的所述再现,
对所述音频数据的接收并行地执行用于接收的所述音频数据的再现的流再现,并且当所述音频数据再现单元的所述流再现被中断时,使所述文本数据再现单元从所述音频数据再现单元对所述内容的再现位置起执行所述文本数据的所述再现,
根据所述音频数据再现单元的所述流再现的再现时间和再现速度,估计所述音频数据再现单元对所述内容的所述再现位置,
使所述文本数据再现单元从估计的所述再现位置往前预定时间的位置起执行所述文本数据的所述再现。
CN201910858944.5A 2018-11-19 2019-09-11 信息处理设备、信息处理方法和程序 Active CN111277976B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-216668 2018-11-19
JP2018216668A JP7119939B2 (ja) 2018-11-19 2018-11-19 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
CN111277976A CN111277976A (zh) 2020-06-12
CN111277976B true CN111277976B (zh) 2023-10-27

Family

ID=70728074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910858944.5A Active CN111277976B (zh) 2018-11-19 2019-09-11 信息处理设备、信息处理方法和程序

Country Status (3)

Country Link
US (3) US11195508B2 (zh)
JP (1) JP7119939B2 (zh)
CN (1) CN111277976B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684423A (zh) * 2004-03-04 2005-10-19 索尼株式会社 信息提供控制方法和信息再现系统
CN102789796A (zh) * 2011-05-17 2012-11-21 索尼公司 再现设备、再现流文件的方法以及程序
CN103390016A (zh) * 2012-05-07 2013-11-13 Lg电子株式会社 显示与音频文件相关联的文本的方法以及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023678A (en) * 1998-03-27 2000-02-08 International Business Machines Corporation Using TTS to fill in for missing dictation audio
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
DE10321097A1 (de) * 2003-05-09 2004-11-25 Dictanet Software Ag Verfahren und Computervorrichtung zum automatischen Wiedergeben von digitalen Audiodaten
JP3884017B2 (ja) * 2004-02-13 2007-02-21 ダイキン工業株式会社 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム
JP2006041721A (ja) 2004-07-23 2006-02-09 Ntt Docomo Inc コンテンツ配信システム、コンテンツ受信クライアント、コンテンツ配信サーバ、及び、コンテンツ再生方法
US7822606B2 (en) * 2006-07-14 2010-10-26 Qualcomm Incorporated Method and apparatus for generating audio information from received synthesis information
JP5032408B2 (ja) * 2008-07-25 2012-09-26 パナソニック株式会社 簡易レジューム再生装置及び簡易レジューム再生方法
US8996377B2 (en) * 2012-07-12 2015-03-31 Microsoft Technology Licensing, Llc Blending recorded speech with text-to-speech output for specific domains
JP6852478B2 (ja) * 2017-03-14 2021-03-31 株式会社リコー 通信端末、通信プログラム及び通信方法
US10347238B2 (en) * 2017-10-27 2019-07-09 Adobe Inc. Text-based insertion and replacement in audio narration
US11114085B2 (en) * 2018-12-28 2021-09-07 Spotify Ab Text-to-speech from media content item snippets

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684423A (zh) * 2004-03-04 2005-10-19 索尼株式会社 信息提供控制方法和信息再现系统
CN102789796A (zh) * 2011-05-17 2012-11-21 索尼公司 再现设备、再现流文件的方法以及程序
CN103390016A (zh) * 2012-05-07 2013-11-13 Lg电子株式会社 显示与音频文件相关联的文本的方法以及电子设备

Also Published As

Publication number Publication date
US20240046917A1 (en) 2024-02-08
JP2020086003A (ja) 2020-06-04
JP7119939B2 (ja) 2022-08-17
US20200160834A1 (en) 2020-05-21
US11195508B2 (en) 2021-12-07
CN111277976A (zh) 2020-06-12
US20210350787A1 (en) 2021-11-11
US11837218B2 (en) 2023-12-05

Similar Documents

Publication Publication Date Title
US20090092042A1 (en) Navigation device and navigation system
JP6170942B2 (ja) 情報処理装置、および、そのブラウザ制御方法
JP6052610B2 (ja) 情報通信端末、およびその対話方法
CN104205038A (zh) 信息处理设备,信息处理方法,信息处理程序和终端设备
WO2014141676A1 (ja) 情報通信端末、対話提供方法
CN110837333A (zh) 调整多媒体文件的播放进度方法、装置、终端及存储介质
JP5300276B2 (ja) データ処理装置及び論理ドライブのマウント方法
JP2004101248A (ja) 移動体用コンテンツ提供システム
US9565304B2 (en) Method and apparatus for providing audio content, user terminal and computer readable recording medium
CN112165647A (zh) 音频数据的处理方法、装置、设备及存储介质
CN102047338B (zh) 优化媒体内容中的搜索功能
CN112738726B (zh) 定位方法、装置、终端及存储介质
CN112422614B (zh) 用于设备交互的方法、装置和介质
CN111277976B (zh) 信息处理设备、信息处理方法和程序
CN112530472B (zh) 音频与文本的同步方法、装置、可读介质和电子设备
CN114416212A (zh) 移动端应用程序数据资源处理方法及装置
CN102694613A (zh) 一种用于车载多媒体系统中的交通信息播报装置与方法
CN114827704A (zh) 与车辆的车载系统交互方法、存储介质和移动终端
US10269039B2 (en) Internet telematics service providing system and internet telematics service providing method for providing personalized web contents
JP2016119588A (ja) 音声情報修正システム、音声情報修正方法、及び音声情報修正プログラム
JP2008294839A (ja) デジタル放送受信システム
CN111046830B (zh) 车载阅读播放方法及电子设备
CN111294321B (zh) 信息处理方法和装置
JP6533072B2 (ja) ナビゲーション装置、プログラムおよびナビゲーションシステム
JP2008128931A (ja) 車載情報端末

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant