CN111386567A - 信息处理装置、信息处理方法和程序 - Google Patents

信息处理装置、信息处理方法和程序 Download PDF

Info

Publication number
CN111386567A
CN111386567A CN201880075058.9A CN201880075058A CN111386567A CN 111386567 A CN111386567 A CN 111386567A CN 201880075058 A CN201880075058 A CN 201880075058A CN 111386567 A CN111386567 A CN 111386567A
Authority
CN
China
Prior art keywords
audio data
unit
phrase
reproduction time
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201880075058.9A
Other languages
English (en)
Inventor
福永大辅
田中义己
菅沼久浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN111386567A publication Critical patent/CN111386567A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【问题】提供一种信息处理装置,利用该信息处理装置,可以在接收音频数据的同时在再现音频数据时可靠地确保用于接收音频数据的时间。【解决方案】一种信息处理装置,包括:音频缓冲单元;再现时间计算单元;位置决定单元;以及插入单元。音频缓冲单元保留在经由传输路径从另一装置接收到的第一音频数据中尚未再现的第一音频数据。再现时间计算单元基于保留在音频缓冲单元中的第一音频数据的状态和/或传输路径的状态来计算在第一音频数据的再现期间被插入和播放的第二音频数据的再现时间。位置决定单元决定第二音频数据在第一音频数据中的插入位置。插入单元控制在由位置决定单元决定的第一音频数据中的插入位置处插入对应于由再现时间计算单元计算出的再现时间的第二音频数据的处理。

Description

信息处理装置、信息处理方法和程序
技术领域
本公开涉及信息处理装置、信息处理方法和程序。
背景技术
传统上已经提出了各种技术来再现经由网络从服务器接收到的音频数据。例如,服务器经由网络将在服务器侧生成的音频数据发送至客户终端。然后,现有技术使客户终端接收从服务器侧发送的所有音频数据,并且此后开始再现该音频数据。然而,在接收到的音频数据具有长的再现时间的情况下,在客户终端开始再现音频数据之前需要花费时间。
下面的专利文献1公开了一种技术,该技术用于使得客户终端在接收与此相关的音频数据的同时连续地再现音频数据。具体地,服务器经由网络将在服务器侧生成的音频数据发送至客户终端。然后,客户终端将接收到的音频数据临时累积在缓冲区中,并且在接收音频数据的同时提取并连续再现在缓冲区中累积的音频数据。
引用文献列表
专利文献
PTL 1:日本未审查专利申请公开号2012-205066。
发明内容
本发明要解决的问题
然而,在上述技术中,网络的不稳定状态导致音频数据接收速度低于音频数据再现速度,并且音频缓冲区中累积的所有音频数据都被再现(也称为音频缓冲区耗尽),这有时会中断音频数据的再现。
因此,本公开提出了一种新颖且改进的信息处理装置、信息处理方法和程序,它们使得可以在接收音频数据的同时再现音频数据时稳定地确保用于接收音频数据的时间。
解决问题的手段
根据本公开,提供了一种信息处理装置,包括:音频缓冲单元;再现时间计算单元;位置决定单元;以及插入单元。音频缓冲单元保留在经由传输路径从另一装置接收到的第一音频数据中尚未再现的第一音频数据。再现时间计算单元基于保留在音频缓冲单元中的第一音频数据的状态或传输路径的状态中的至少任何一者来计算第二音频数据的再现时间。在第一音频数据被再现的同时,第二音频数据将被插入和再现。位置决定单元决定第二音频数据在第一音频数据中的插入位置。插入单元控制在第一音频数据中的插入位置处插入第二音频数据的处理。插入位置由位置决定单元决定。第二音频数据对应于由再现时间计算单元计算出的再现时间。
另外,根据本公开,提供了一种由处理器执行的信息处理方法。该信息处理方法包括:保留在经由传输路径从另一装置接收到的第一音频数据中尚未再现的第一音频数据;基于保留在音频缓冲单元中的第一音频数据的状态和传输路径的状态中的至少任何一者来计算第二音频数据的再现时间;决定第二音频数据在第一音频数据中的插入位置;以及控制在第一音频数据中的插入位置处插入第二音频数据的处理。第二音频数据在第一音频数据被再现的同时被插入和再现。插入位置由位置决定单元决定。第二音频数据对应于由再现时间计算单元计算出的再现时间。
根据本公开,一种用于使计算机用作音频缓冲单元、再现时间计算单元、位置决定单元和插入单元的程序。音频缓冲单元保留在经由传输路径从另一装置接收到的第一音频数据中尚未再现的第一音频数据。再现时间计算单元基于保留在音频缓冲单元中的第一音频数据的状态和传输路径的状态中的至少任何一者来计算第二音频数据的再现时间。,第二音频数据在第一音频数据被再现的同时被插入和再现。位置决定单元决定第二音频数据在第一音频数据中的插入位置。插入单元控制在第一音频数据中的插入位置处插入第二音频数据的处理。插入位置由位置决定单元决定。第二音频数据对应于由再现时间计算单元计算出的再现时间。
本发明的效果
根据如上所述的本公开,可以在接收音频数据的同时再现音频数据时确保用于接收音频数据的时间。
需指出,上述效果不一定是限制性的。除了上述效果之外,或者代替上述效果,可以施加本说明书中指示的任何效果或可以从本说明书中理解的其他效果。
附图说明
图1为示出根据本公开的实施例的信息处理系统的概述的示例图。
图2为示出根据本公开的第一实施例的客户终端的配置示例的框图。
图3为示出将短语插入音频数据中的示例的示例图。
图4为示出根据实施例的服务器的配置示例的框图。
图5为示出根据比较例的客户终端的配置示例的框图。
图6为示出根据本公开的第一实施例的短语插入处理的流程图。
图7为示出根据本公开的第二实施例的客户终端的配置示例的框图。
图8为示出根据本公开的第二实施例的服务器的配置示例的框图。
图9为示出根据本公开的第二实施例的短语插入处理的流程图。
图10为示出根据本公开的第三实施例的客户终端的配置示例的框图。
图11为示出根据本公开的第三实施例的服务器的配置示例的框图。
图12为示出根据本公开的第三实施例的短语插入处理的流程图。
图13为示出根据本公开的第四实施例的客户终端的配置示例的框图。
图14为示出根据本公开的第四实施例的服务器的配置示例的框图。
图15为示出根据本公开的第四实施例的短语插入处理的流程图。
图16为示出根据本公开的第五实施例的客户终端的配置示例的框图。
图17为示出音频数据中的短语的替换示例的示例图。
图18为示出根据本公开的第五实施例的短语替换处理的流程图。
图19为示出根据本公开的实施例的客户终端的硬件配置示例的框图。
具体实施方式
下面参考附图详细描述本公开的优选实施例。需指出,在本说明书和附图中,具有基本上相同的功能配置的部件由相同的附图标记表示,因此省略了其多余的描述。
需指出,按以下顺序给出描述。
1.本公开的概述
2.第一实施例
3.第二实施例
4.第三实施例
5.第四实施例
6.第五实施例
7.修改示例
8.应用示例
9.硬件配置
10.结论
<<1.本公开的概述>>
下面基于音频数据通过使用生成音频数据等的服务器以及将短语插入从服务器接收到的音频数据等中的客户终端作为示例来描述根据本公开的实施例的信息处理系统。下面参考图1描述根据本公开的实施例的信息处理系统的概述。
图1为示出根据本公开的实施例的信息处理系统的概述的示例图。如图1所示,客户终端10经由网络14(传输路径)联接至服务器30。
(1)客户终端10
客户终端10为信息处理装置,其再现从服务器30接收到的音频数据(第一音频数据)。例如,客户终端10经由网络14从服务器30接收音频数据,并且再现接收到的音频数据以将音频数据的内容通知用户。
另外,客户终端10具有将短语插入音频数据的功能。需指出,以下还将要插入音频数据中的短语称为插入短语(第二音频数据)。插入短语为被插入音频数据中以防止音频数据的再现被中断的短语。另外,除了在短语和短语之间插入短语的处理之外,本公开的实施例中的插入处理还包括删除特定短语并在删除的短语的位置处插入另一个短语的处理。以下还涉及上述删除短语并在删除的短语的位置处插入另一短语以作为替换的处理。
另外,客户终端10具有计算防止音频数据的再现被中断所必需的插入短语的再现时间的功能。例如,客户终端10基于被再现的音频数据的状态和网络14的状态中的至少任意一者,来计算插入到正在被再现的音频数据中以用于再现的待插入的短语的再现时间。
另外,客户终端10可以具有决定插入短语被插入的插入位置的功能。例如,客户终端10分析从服务器30接收到的音频数据,以决定插入短语被插入的插入位置。另外,例如,客户终端10可以从服务器30接收与音频数据相对应的句子数据(文本数据),并且分析句子数据以决定插入短语被插入的插入位置。需指出,可能不是客户终端10,而是服务器30具有上述决定插入短语被插入的插入位置的功能。
需指出,客户终端10通常被实现为物理上独立的装置。另外,客户终端10的功能可以被实现为应用程序,并且被安装在诸如智能电话、平板终端、PC、可穿戴终端或代理装置的终端装置中。即,客户终端10可以实现为任何终端装置。
(2)服务器30
服务器30为信息处理装置,其向客户终端10提供音频数据和关于音频数据的信息,并且具有生成要提供给客户终端10的音频数据的功能。例如,服务器30生成音频数据,并且经由网络14将生成的音频数据发送至客户终端10。
另外,服务器30可以具有生成要提供给客户终端10的句子数据的功能。例如,服务器30分析由服务器30生成的音频数据,以将音频数据转换为文本并生成句子数据。需指出,在上述示例中,已经描述了服务器30生成音频数据然后生成句子数据的示例。然而,服务器30还可以更早地生成句子数据,并且分析所生成的句子数据以生成音频数据。
另外,服务器30可以具有决定插入短语被插入到音频数据中的插入位置的功能。例如,服务器30分析音频数据以决定插入短语被插入的插入位置。需指出,以下还涉及与插入位置有关的信息,该插入位置为通过分析作为无声区间信息的音频数据而决定的插入短语被插入的插入位置。无声区间信息为例如关于音频数据中包括的无声区间的信息。另外,服务器30可以分析句子数据以决定插入短语被插入的插入位置。需指出,以下还涉及与插入位置有关的信息,该插入位置为通过分析作为句子信息的句子数据而决定的插入短语被插入的插入位置。句子信息为例如关于句子数据中的短语定界的信息。
(3)网络14
网络14为信息的有线或无线传输路径。网络14包括例如因特网,蜂窝通信网络,无线LAN(局域网),蓝牙(注册商标),LAN,电话线等。在网络14中,信息可以像无线电广播一样被双向发送或单向发送。
上面已经参考图1描述了根据本公开的实施例的信息处理系统的概述。接下来,描述根据本公开的第一实施例的信息处理系统。
<<2.第一实施例>>
在根据本公开的第一实施例的信息处理系统中,服务器30生成音频数据,并将所生成的音频数据发送至客户终端10。然后,接收音频数据的客户终端10执行以下处理:确定是否在音频数据中插入短语,决定要插入音频数据中的短语的插入位置,以及在插入位置处插入短语。
<2.1.配置示例>
(2.1.1.客户终端10-1)
下面参考图2和图3描述根据本公开的第一实施例的客户终端10-1的配置示例。如图2所示,客户终端10-1包括通信单元121,音频缓冲单元126,再现时间决定单元128,无声区间检测单元132,存储单元136,短语插入单元140和音频数据再现单元144。
(1)通信单元121
通信单元121为用于联接客户终端10-1和服务器30-1的接口,并且具有用于客户终端10-1与服务器30-1执行信息通信的功能。例如,通信单元121接收由与服务器30-1通信的服务器30-1生成的音频数据。然后,通信单元121将接收到的音频数据输出到音频缓冲单元126。
(2)音频缓冲单元126
音频缓冲单元126具有临时保留音频数据的功能。例如,在从通信单元121接收到音频数据时,音频缓冲单元126保留接收到的音频数据。然后,将保留在音频缓冲单元126中的音频数据进行以下描述的插入短语并最终由音频数据再现单元144再现的处理。需指出,由音频数据再现单元144所再现的音频数据从音频缓冲单元126中保留的音频数据中减去。即,音频缓冲单元126保留在从服务器30接收到的音频数据中尚未再现的音频数据。另外,音频缓冲单元126将音频数据发送至再现时间决定单元128和短语插入单元140,以用于进行短语的插入处理。
(3)再现时间决定单元128
再现时间决定单元128具有计算插入短语的再现时间的功能。例如,再现时间决定单元128基于从音频缓冲单元126接收到的音频数据的状态和网络14的状态中的至少任何一者,来计算插入短语的再现时间。音频数据的状态包括保留在音频缓冲单元126中的音频数据量、音频数据的增加或减少量等中的至少任何一者。另外,网络14的状态包括网络14的联接状态、网络14的通信速度等中的至少任何一者。音频数据量为保留在音频缓冲单元126中但尚未被再现的音频数据。通过从通信单元121接收音频数据来增加音频数据量,并且通过再现音频数据来减少音频数据量。再现时间决定单元128可以例如在基于音频数据量计算再现时间的情况下,基于下降到预定阈值以下的音频数据量为多少来计算再现时间。作为基本策略,随着音频缓冲区耗尽的可能性越高,再现时间决定单元128决定越长的再现时间。当音频缓冲区耗尽的可能性越低时,再现时间决定单元128决定越短的再现时间。这使得在音频缓冲区耗尽的可能性高的情况下,通过决定长的再现时间,可以减小音频缓冲区耗尽的可能性。相反,在音频缓冲区耗尽的可能性低的情况下,决定较短的再现时间使得可以减少由于插入短语而引起的再现声音的不自然感。需指出,音频缓冲区耗尽的可能性是基于从音频缓冲单元126接收到的音频数据的状态和网络14的状态中的至少任何一者来确定的。
另外,在网络具有高通信速度的情况下,接收到的音频数据量增加,并且因此音频数据量的增加或减少指示增加的趋势。在网络的通信速度低的情况下,接收到的音频数据量减少,并且因此音频数据量的增加或减少指示减少的趋势。在基于音频量的增加或减少来计算再现时间的情况下,再现时间决定单元128可以例如基于每单位时间减少的音频数据量来计算再现时间。
需指出,再现时间决定单元128监测音频数据的状态和网络14的状态。在确定每种状态的变化可能影响音频数据的再现的情况下,再现时间决定单元128开始上述计算再现时间的处理。再现时间决定单元128可以使用音频数据的状态或网络的状态作为确定标准。例如,在音频数据量和缓冲区容量的相对值低于阈值的情况下,音频缓冲区可能被耗尽。因此再现时间决定单元128可以确定音频数据的状态的变化会影响音频数据的再现。另外,例如,在音频数据的通信速度降低并且每单位时间接收到的音频数据量下降到每单位时间再现的音频数据量以下的情况下,音频数据量的增加或减少指示下降的趋势。这使得再现时间决定单元128确定音频数据的接收速度的变化会影响音频数据的再现。
另外,再现时间决定单元128还具有确定单元的功能,所述确定单元根据计算出的再现时间是否满足预定条件来确定是否在音频数据中插入插入短语。例如,描述了将条件“再现时间长于预定时间”用作预定条件的情况。例如,待插入的短语的再现时间长,意味着要确保防止声音被中断的音频数据的接收时间也很长。在尽管再现时间长而没有插入短语的情况下,不能确保音频数据的接收时间,从而增加了音频缓冲区耗尽的可能性。音频缓冲区的耗尽导致声音被中断,因此用户感到正在再现的声音被打断。因此,在再现时间长于预定时间的情况下,再现时间决定单元128确定有必要在音频数据中插入插入短语。然后,再现时间决定单元128将再现时间和将插入短语插入音频数据中的必要性作为确定结果发送至无声区间检测单元132。
另外,例如,待插入的短语的再现时间短,意味着要确保防止声音被中断的音频数据的接收时间也很短。如果要确保的音频数据的接收时间短,则在中断正再现的声音之前音频数据的可接收性的可能性较高,并且音频缓冲区耗尽的可能性较低。但是对于音频缓冲区耗尽,没有用户会感觉到正在再现的声音被打断了。因此,在再现时间短于预定时间的情况下,再现时间决定单元128确定没有必要在音频数据中插入任何插入短语。然后,再现时间决定单元128将任何插入短语插入音频数据中的非必要性作为确定结果发送至无声区间检测单元132。
需指出,上述预定时间可以为静态决定的。例如,可以根据音频缓冲区的大小静态地决定预定时间。
另外,可以动态地决定预定时间。例如,可以根据无声区间的出现率来动态地决定预定时间。在无声区间的出现率(每单位时间无声区间的数量)较低的情况下,几乎没有机会允许无声区间被插入。因此,如果无声区间的出现率低,则预定时间可以被决定为很小。这允许再现时间决定单元128频繁插入短语以准备音频缓冲区耗尽而没有出现无声区间。相对照地,在无声区间的出现率高的情况下,有很大的机会允许无声区间被插入。因此,如果无声区间的出现率低,则预定时间可以被决定为很大。这消除了再现时间决定单元128插入短语以准备音频缓冲区耗尽而没有出现无声区间的必要性。再现时间决定单元128仅必须在必要的时间插入短语。因此,可以减少短语的插入频率,并减少由短语的插入引起的再现声音的不自然感。
(4)无声区间检测单元132
无声区间检测单元132具有检测音频数据中的无声区间的功能。无声区间检测单元132将音频数据中的音量小于或等于预定值的区间检测为无声区间。需指出,无声区间为不包括声音(例如,说话语音)或音频数据中的音量小于或等于预定值的区间。无声区间检测单元132将检测到的无声区间确定为插入位置,并将包括与插入位置有关的信息的无声区间信息发送至短语插入单元140。无声区间检测单元132还将从再现时间决定单元128接收到的再现时间同时发送至短语插入单元140。需指出,例如尽管再现了音频数据,但是无声区间检测单元132将音频数据中的句子与句子之间为无声的区间检测为无声区间。
另外,无声区间检测单元132基于从再现时间决定单元128接收到的确定结果来确定上述检测无声区间的处理是否有必要。例如,在确定结果指示有必要插入插入短语的情况下,无声区间检测单元132执行检测无声区间的处理。另外,例如,在确定结果指示没必要插入任何插入短语的情况下,无声区间检测单元132不执行检测无声区间的处理,而是将指示没必要插入任何插入短语的信息发送至短语插入单元140。
(5)存储单元136
存储单元136具有存储关于插入短语的信息的功能。例如,如下面的表1所示,存储单元136存储关于“插入短语”、“长度”和“音频数据”的信息。“插入短语”为待插入音频数据中的短语。例如,诸如“er”和“well”的插入语被存储为插入短语。另外,“长度”为插入短语的再现时间。例如,插入短语“er”的再现时间为“2.0秒”。另外,“well”的再现时间为“3.0秒”。另外,“音频数据”是指插入短语的音频文件。例如,插入短语“er”的音频数据被存储为音频文件“0001.wav”。另外,插入短语“well”的音频数据被存储为音频文件“0002.wav”。在这里,每个音频文件名中的“.wav”为一种扩展名,每个扩展名指示音频数据的文件格式。需指出,存储在存储单元136中的音频数据的文件格式不受特别限制,但是可以存储具有任何文件格式的音频数据。另外,插入短语的长度也没有特别限制,但是可以存储具有任何长度的插入短语。
【表1】
表1插入短语的示例
插入短语 长度 音频数据
er 2.0秒 0001.wav
well 3.0秒 0002.wav
(6)短语插入单元140
短语插入单元140具有将插入短语插入音频数据中的功能。例如,短语插入单元140在从无声区间检测单元132接收到无声区间信息时,从存储单元136获取与从无声区间检测单元132同时接收到的再现时间相对应的插入短语。在这里,短语插入单元140从存储单元136获取具有与由再现时间决定单元128决定的再现时间相对应的“长度”的插入短语。具体地,短语插入单元140从存储单元136获取“长度”等于或大于由再现时间决定单元128决定的再现时间的长度的插入短语。例如,在1.0秒的再现时间的情况下,短语插入单元140从存储单元136获取表1中指示的“长度”为2.0秒的“er”。然后短语插入单元140可以从存储单元136获取表1中指示的“长度”为3.0秒的“well”。另外,例如,在2.5秒的再现时间的情况下,短语插入单元140从存储单元136获取表1中指示的“长度”为3.0秒的“well”。
然后,短语插入单元140基于从无声区间检测单元132获取的无声区间信息,将从存储单元136获取的插入短语插入在从音频缓冲单元126接收到的音频数据中的插入位置处。在插入了插入短语之后,短语插入单元140将插入了插入短语的音频数据发送至音频数据再现单元144。
在这里,参考图3描述短语插入单元140将插入短语插入音频数据中的具体示例。短语插入单元140将插入短语插入保留在图3所示的音频缓冲单元126中的音频数据40中。图3所示的音频数据40的波形的曲线图的横轴表示时间,而纵轴表示振幅。短语插入之前的音频数据40包括声音400和声音402,并且在声音400和声音402之间具有无声区间。短语插入单元140将插入短语500插入由无声区间检测单元132检测到的无声区间中。当短语插入单元140将插入短语插入音频数据40中时,生成音频数据50。音频数据50具有在声音400和声音402之间插入的插入短语500。音频数据40与音频数据50之间的比较于是表明在短语插入之后的音频数据50具有更长的再现时间,并且这使得客户终端10能够确保与插入的插入短语500的再现时间相对应的用于接收音频数据的时间。
需指出,短语插入单元140在一个插入位置处插入的插入短语的数量不限于一个,而是短语插入单元140可以插入任意数量的插入短语。在插入多个插入短语的情况下,短语插入单元140从存储单元136获取多个短语,以使多个短语的总“长度”等于或大于由再现时间决定单元128决定的再现时间的“长度”。
另外,在短语插入单元140在一个插入位置处插入多个短语的情况下,短语插入单元140可以连续地插入多个短语。具体地,即使短语插入单元140在4.0秒的再现时间的情况下仅获取表1中指示的“er”或“well”中的任何一个,插入短语的长度也不会超过再现时间。因此客户终端10接收音频数据的保证时间不足。然后短语插入单元140获取“er”和“well”,并像“er,well”一样连续插入它们,以使插入短语的总长度为5.0秒并且比再现时间更长。如上所述,短语插入单元140连续地插入多个插入短语,以允许客户终端10充分确保用于接收音频数据的时间。
(7)音频数据再现单元144
音频数据再现单元144具有再现音频数据的功能。例如,音频数据再现单元144再现从短语插入单元140接收到的音频数据,以将音频数据的内容通知用户。需指出,从短语插入单元140接收到的音频数据在某些情况下具有插入其中的插入短语,而在其他情况下没有插入其中的插入短语。
上面已经参考图2和图3描述了根据本公开的第一实施例的客户终端10-1的配置示例。接下来,描述根据本公开的第一实施例的服务器30-1的配置示例。
(2.1.2.服务器30-1)
下面参考图4描述根据本公开的第一实施例的服务器30-1的配置示例。如图4所示,服务器30-1包括通信单元321和音频数据生成单元348。
(1)通信单元321
通信单元321为用于联接服务器30-1和客户终端10-1的接口,并且具有用于服务器30-1执行与客户终端10-1的信息通信的功能。例如,通信单元321与客户终端10-1通信,发送由音频数据生成单元348生成的音频数据。
(2)音频数据生成单元348
音频数据生成单元348具有生成音频数据的功能。例如,音频数据生成单元348生成包括其用户被通知的信息的音频数据。具体地,音频数据生成单元348生成音频数据,该音频数据包括关于新闻的信息、关于用户的日程的信息、关于用户的请求的信息等。需指出,由音频数据生成单元348生成的音频数据的文件格式不受特别限制,但是可以生成具有任何格式的音频数据。
上面已经参考图4描述了根据本公开的第一实施例的服务器30-1的配置示例。接下来,描述根据比较例的信息处理系统的配置示例。
(2.1.3.比较例)
下面参考图5描述根据比较例的信息处理系统的配置示例。如图5所示,根据比较例的客户终端20包括通信单元221、音频缓冲单元226和音频数据再现单元244。需指出,根据比较例的信息处理系统包括服务器,该服务器具有与在(2.1.2服务器30-1)中描述的根据第一实施例的信息处理系统的服务器相同的配置和功能。因此,在本章中省略了根据比较例的服务器的配置示例的描述。
(1)通信单元221
通信单元221为用于联接客户终端20和服务器的接口,并且具有用于客户终端20执行与服务器的信息通信的功能。例如,通信单元221与服务器通信接收由服务器生成的音频数据。然后,通信单元221将接收到的音频数据输出到音频缓冲单元226。
(2)音频缓冲单元226
音频缓冲单元226的功能与在(2)(2.1.1客户终端10-1的)音频缓冲单元126中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,音频缓冲单元226将音频数据发送至音频数据再现单元244。
(3)音频数据再现单元244
音频数据再现单元244的功能与在(7)(2.1.1客户终端10-1的)音频数据再现单元144中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,音频数据再现单元244从音频缓冲单元226接收音频数据。
根据比较例的信息处理系统被配置为将从服务器接收到的音频数据保留在音频缓冲单元226中,并且与上述配置一样,在音频数据再现单元244中再现音频数据。另外,如上述配置中所述,根据比较例的信息处理系统不包括计算插入短语的再现时间的再现时间计算单元,决定将插入短语插入音频数据中的插入位置的位置决定单元,或者插入插入短语的插入单元。因此,即使在音频数据接收速度低于音频数据再现速度的情况下,根据比较例的信息处理系统也不能通过插入插入短语来调节音频数据的再现时间。这导致音频数据的再现被中断。
上面已经参考图5描述了根据比较例的信息处理系统的配置示例。接下来,描述根据本公开的第一实施例的信息处理系统的操作示例。
<2.2.操作示例>
下面参考图6描述根据本公开的第一实施例的信息处理系统的操作示例。图6为示出根据本公开的第一实施例的短语插入处理的流程图。
如图6所示,客户终端10-1重复该流程图的处理,直到音频数据的再现完成为止(步骤S1000)。首先,客户终端10-1的通信单元121从服务器30-1的通信单元321接收音频数据(步骤S1004)。由通信单元121接收的音频数据被临时保留在音频缓冲单元中。客户终端10-1的再现时间决定单元128基于音频缓冲单元126的音频数据的状态和网络的状态中的至少任何一者来决定待插入的短语的再现时间(步骤S1008)。在决定了再现时间之后,再现时间决定单元128基于再现时间是否满足预定条件来确认是否插入短语(步骤S1012)。在这里,预定条件表示例如再现时间是否比预先设定的预定时间短。在再现时间短于预定时间的情况下,再现时间决定单元128确定没必要插入任何短语(步骤S1012/否),并且在不将短语插入音频数据的情况下再现音频数据(步骤S1024)。
在再现时间长于预定时间的情况下,再现时间决定单元128确定有必要插入短语(步骤S1012/是),并且流程进入步骤S1016。当再现时间决定单元128确定有必要插入短语时,无声区间检测单元132在音频数据中检测无声区间(步骤S1016)。当无声区间检测单元132检测到无声区间时,短语插入单元140将从存储单元136获取的短语插入无声区间中(步骤S1020)。在短语插入之后,音频数据再现单元144再现音频数据(步骤S1024)。
上面已经参考图6描述了根据本公开的第一实施例的信息处理系统的操作示例。
上面已经参考图2至图6描述了根据本公开的第一实施例的信息处理系统。接下来,描述根据本公开的第二实施例的信息处理系统。
<<3.第二实施例>>
在根据第一实施例的信息处理系统中,客户终端10执行决定待插入音频数据中的短语的插入位置的处理,但是在根据第二实施例的信息处理系统中,上述处理由服务器30执行。
<3.1.配置示例>
(3.1.1.客户终端10-2)
下面参考图7描述根据本公开的第二实施例的客户终端10-2的配置示例。如图7所示,客户终端10-2包括通信单元122,音频缓冲单元126,再现时间决定单元128,存储单元136,短语插入单元140和音频数据再现单元144。客户终端10-2的配置与根据图2所示的第一实施例的客户终端10-1的配置相对应,但从该配置中移除了无声区间检测单元132。
(1)通信单元122
通信单元122为用于联接客户终端10-2和服务器30-2的接口,并且具有用于客户终端10-2与服务器30-2执行信息通信的功能。例如,通信单元122与服务器30-2通信接收由服务器30-2生成的音频数据。然后,通信单元122将接收到的音频数据输出到音频缓冲单元126。另外,例如,通信单元122与服务器30-2通信接收由服务器30-2检测到的无声区间信息。然后,通信单元122将接收到的无声区间信息输出至短语插入单元140。
(2)音频缓冲单元126
音频缓冲单元126的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
(3)再现时间决定单元128
再现时间决定单元128的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,再现时间决定单元128将再现时间和确定结果发送至短语插入单元140。
(4)存储单元136
存储单元136的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
(5)短语插入单元140
短语插入单元140的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,短语插入单元140从通信单元122接收无声区间信息,并且短语插入单元140从再现时间决定单元128接收再现时间。
(6)音频数据再现单元144
音频数据再现单元144的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
上面已经参考图7描述了根据本公开的第二实施例的客户终端10-2的配置示例。接下来,描述根据本公开的第二实施例的服务器30-2的配置示例。
(3.1.2.服务器30-2)
下面参考图8描述根据本公开的第二实施例的服务器30-2的配置示例。如图8所示,服务器30-2包括通信单元322、无声区间检测单元332和音频数据生成单元348。服务器30-2具有与根据图4所示的第一实施例的服务器30-1的配置相对应的配置,但在该配置中添加了无声区间检测单元332。
(1)通信单元322
通信单元322为用于联接服务器30-2和客户终端10-2的接口,并且具有用于服务器30-2执行与客户终端10-2的信息通信的功能。例如,通信单元322与客户终端10-2通信发送由音频数据生成单元348生成的音频数据。另外,例如,通信单元322与客户终端10-2通信发送由无声区间检测单元332检测到的无声区间信息。
(2)无声区间检测单元332
无声区间检测单元332的功能与(4)(2.1.1.客户终端10-1)的无声区间检测单元132中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,无声区间检测单元332从音频数据生成单元348接收音频数据,并且无声区间检测单元332将无声区间信息发送至通信单元322。
(3)音频数据生成单元348
音频数据生成单元348的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,音频数据生成单元348将音频数据发送至无声区间检测单元332。
上面已经参考图8描述了根据本公开的第二实施例的服务器30-2的配置示例。接下来,描述根据本公开的第二实施例的信息处理系统的操作示例。
<3.2.操作示例>
下面参考图9描述根据本公开的第二实施例的信息处理系统的操作示例。图9为示出根据本公开的第二实施例的短语插入处理的流程图。
如图9所示,客户终端10-2重复该流程图的处理,直到音频数据的再现完成为止(步骤S2000)。首先,客户终端10-2的通信单元122从服务器30-2的通信单元322接收音频数据和无声区间信息(步骤S2004)。由通信单元122接收的音频数据被临时保留在音频缓冲单元中。另外,由通信单元122接收的无声区间信息被输出至客户终端10-2的短语插入单元140。客户终端10-2的再现时间决定单元128基于音频缓冲单元126的音频数据的状态和网络的状态中的至少任何一者来决定待插入的短语的再现时间(步骤S2008)。在决定了再现时间之后,再现时间决定单元128基于再现时间是否满足预定条件来确认是否插入短语(步骤S2012)。在这里,预定条件表示例如再现时间是否比预先设定的预定时间短。在再现时间短于预定时间的情况下,再现时间决定单元128确定没必要插入任何短语(步骤S2012/否),并且在不将短语插入音频数据的情况下再现音频数据(步骤S2020)。
在再现时间长于预定时间的情况下,再现时间决定单元128确定有必要插入短语(步骤S2012/是),并且流程进入步骤S2016。短语插入单元140基于从通信单元122接收到的无声区间信息,将从存储单元136获取的短语插入无声区间(步骤S2016)。在短语插入之后,音频数据再现单元144再现音频数据(步骤S2020)。
上面已经参考图9描述了根据本公开的第二实施例的信息处理系统的操作示例。
上面已经参考图7至图9描述了根据本公开的第二实施例的信息处理系统。接下来,描述根据本公开的第三实施例的信息处理系统。
<<4.第三实施例>>
在根据本公开的第三实施例的信息处理系统中,服务器30生成音频数据和句子数据,并将所生成的音频数据和句子数据发送至客户终端10。然后,接收音频数据和句子数据的客户终端10执行以下处理:确定是否在音频数据中插入短语,决定要插入音频数据中的短语的插入位置,以及在插入位置处插入短语。
<4.1.配置示例>
(4.1.1.客户终端10-3)
下面参考图10描述根据本公开的第三实施例的客户终端10-3的配置示例。如图10所示,客户终端10-3包括通信单元123,音频缓冲单元126,再现时间决定单元128,句子分析单元152,存储单元136,短语插入单元140和音频数据再现单元144。
(1)通信单元123
通信单元123为用于联接客户终端10-3和服务器30-3的接口,并且具有用于客户终端10-3与服务器30-3执行信息通信的功能。例如,通信单元123服务器30-3通信接收由服务器30-3生成的音频数据。然后,通信单元123将接收到的音频数据输出到音频缓冲单元126。另外,例如,通信单元123与服务器30-3通信接收由服务器30-3生成的句子数据。然后,通信单元123将接收到的句子数据输出至句子分析单元152。
(2)音频缓冲单元126
音频缓冲单元126的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
(3)再现时间决定单元128
再现时间决定单元128的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,再现时间决定单元128将指示没必要在音频数据中插入插入短语或再现时间的信息以及确定结果发送至句子分析单元152。
(4)句子分析单元152
句子分析单元152具有检测句子数据的句子信息的功能。句子信息除了短语定界之外还包括标点符号、话题变更点等。句子分析单元152分析从通信单元123接收到的句子数据以检测句子数据的句子信息。然后,句子分析单元152基于检测到的句子信息来决定短语的插入位置,并将包括关于插入位置的信息的句子信息发送至短语插入单元140。句子分析单元152将从再现时间决定单元128接收到的再现时间同时发送至短语插入单元140。
另外,句子分析单元152基于从再现时间决定单元128接收到的确定结果来确定上述检测句子信息的处理是否有必要。例如,在确定结果指示有必要插入插入短语的情况下,句子分析单元152执行检测句子信息的处理。另外,例如,在确定结果指示没必要插入任何插入短语的情况下,句子分析单元152不执行检测句子信息的处理,而是将指示没必要插入任何插入短语的信息发送至短语插入单元140。
(5)存储单元136
存储单元136的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
(6)短语插入单元140
短语插入单元140的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,短语插入单元140基于从句子分析单元152接收到的句子信息,将插入短语插入从音频缓冲单元126接收到的音频数据中的短语定界处。需指出,短语插入单元140插入插入短语的插入位置不限于短语定界,而是可以为例如标点符号、话题变更点等。
(7)音频数据再现单元144
音频数据再现单元144的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
上面已经参考图10描述了根据本公开的第三实施例的客户终端10-3的配置示例。接下来,描述根据本公开的第三实施例的服务器30-3的配置示例。
(4.1.2.服务器30-3)
下面参考图11描述根据本公开的第三实施例的服务器30-3的配置示例。如图11所示,服务器30-3包括通信单元323、句子数据生成单元356和音频数据生成单元348。
(1)通信单元323
通信单元323为用于联接服务器30-3和客户终端10-3的接口,并且具有用于服务器30-3执行与客户终端10-3的信息通信的功能。例如,通信单元323与客户终端10-3通信发送由音频数据生成单元348生成的音频数据。另外,例如,通信单元323与客户终端10-3通信发送由句子数据生成单元356生成的句子数据。
(2)句子数据生成单元356
句子数据生成单元356具有生成句子数据的功能。另外,句子数据生成单元356还具有语音识别功能。例如,当句子数据生成单元356接收由音频数据生成单元348生成的音频数据时,句子数据生成单元356使用语音识别功能来分析音频数据并在分析结果的基础上将音频数据的内容转换为文本以生成句子数据。
(3)音频数据生成单元348
音频数据生成单元348的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,音频数据生成单元348将所生成的音频数据发送至句子数据生成单元356。
上面已经参考图11描述了根据本公开的第三实施例的服务器30-3的配置示例。需指出,在上述配置示例中,已经描述了音频数据生成单元348生成音频数据并且句子数据生成单元356从音频数据生成句子数据的示例,但是生成音频数据和句子数据的处理不限于上述示例。例如,可以采用以下处理:使句子数据生成单元356生成句子数据,并且使音频数据生成单元348从句子数据生成音频数据。通过在音频数据生成单元348中安装TTS(文本到语音)可以实现所述处理。使用TTS功能大声地阅读文本允许音频数据生成单元348生成音频数据。因此,句子数据生成单元356更早地生成句子数据,并且音频数据生成单元348利用TTS大声阅读句子数据,从而允许音频数据生成单元348生成音频数据。
接下来,描述根据本公开的第三实施例的信息处理系统的操作示例。
<4.2.操作示例>
下面参考图12描述根据本公开的第三实施例的信息处理系统的操作示例。图12为示出根据本公开的第三实施例的短语插入处理的流程图。
如图12所示,客户终端10-3重复该流程图的处理,直到音频数据的再现完成为止(步骤S3000)。首先,客户终端10-3的通信单元123从服务器30-3的通信单元323接收音频数据和句子数据(步骤S3004)。由通信单元123接收的音频数据被临时保留在音频缓冲单元中。另外,由通信单元123接收的句子数据被输出至句子分析单元152。客户终端10-3的再现时间决定单元128基于音频缓冲单元126的音频数据的状态和网络的状态来决定待插入的短语的再现时间(步骤S3008)。在决定了再现时间之后,再现时间决定单元128基于再现时间是否满足预定条件来确认是否插入短语(步骤S3012)。在这里,预定条件表示例如再现时间是否比预先设定的预定时间短。在再现时间短于预定时间的情况下,再现时间决定单元128确定没必要插入任何短语(步骤S3012/否),并且在不将短语插入音频数据的情况下再现音频数据(步骤S3024)。
在再现时间长于预定时间的情况下,再现时间决定单元128确定有必要插入短语(步骤S3012/是),并且流程进入步骤S3016。当再现时间决定单元128确定有必要插入短语时,句子分析单元152分析从通信单元123接收到的句子数据(步骤S3016)。短语插入单元140在接收到指示句子数据的分析结果的句子信息时,基于句子信息将从存储单元136获取的短语插入音频数据中的短语定界处(步骤S3020)。在短语插入之后,音频数据再现单元144再现音频数据(步骤S3024)。
上面已经参考图12描述了根据本公开的第三实施例的信息处理系统的操作示例。
上面已经参考图10至图12描述了根据本公开的第三实施例的信息处理系统。接下来,描述根据本公开的第四实施例的信息处理系统。
<<5.第四实施例>>
在根据第三实施例的信息处理系统中,客户终端10执行决定待插入音频数据中的短语的插入位置的处理,但是在根据第四实施例的信息处理系统中,上述处理由服务器30执行。
<5.1.配置示例>
(5.1.1.客户终端10-4)
下面参考图13描述根据本公开的第四实施例的客户终端13-4的配置示例。如图13所示,客户终端10-4包括通信单元124,音频缓冲单元126,再现时间决定单元128,存储单元136,短语插入单元140和音频数据再现单元144。
(1)通信单元124
通信单元124为用于联接客户终端10-4和服务器30-4的接口,并且具有用于客户终端10-4与服务器30-4执行信息通信的功能。例如,通信单元124与服务器30-4通信接收由服务器30-4生成的音频数据。然后,通信单元124将接收到的音频数据输出到音频缓冲单元126。另外,例如,通信单元124与服务器30-4通信接收指示由服务器30-4分析音频数据所获得的结果的句子信息。然后,通信单元124将接收到的句子信息输出至短语插入单元140。
(2)音频缓冲单元126
音频缓冲单元126的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
(3)再现时间决定单元128
再现时间决定单元128的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,再现时间决定单元128将再现时间和确定结果发送至短语插入单元140。
(4)存储单元136
存储单元136的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
(5)短语插入单元140
短语插入单元140的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,短语插入单元140从通信单元124接收句子信息,并且短语插入单元140从再现时间决定单元128接收再现时间。
(6)音频数据再现单元144
音频数据再现单元144的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
上面已经参考图13描述了根据本公开的第四实施例的客户终端13-4的配置示例。接下来,描述根据本公开的第四实施例的服务器30-4的配置示例。
(5.1.2.服务器30-4)
下面参考图14描述根据本公开的第四实施例的服务器30-4的配置示例。如图14所示,服务器30-4包括通信单元324、句子分析单元352和音频数据生成单元348。
(1)通信单元324
通信单元324为用于联接服务器30-4和客户终端10-4的接口,并且具有用于服务器30-4执行与客户终端10-4的信息通信的功能。例如,通信单元324与客户终端10-4通信发送由音频数据生成单元348生成的音频数据。另外,例如,通信单元324与客户终端10-4通信发送指示由句子分析单元352分析音频数据所获得的结果的句子信息。
(2)句子分析单元352
句子分析单元352的功能与(4)(4.1.1客户终端10-3的)句子分析单元152中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,句子分析单元352从音频数据生成单元348接收音频数据,并且句子分析单元352将句子信息发送至通信单元324。
(3)音频数据生成单元348
音频数据生成单元348的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
上面已经参考图14描述了根据本公开的第四实施例的服务器30-4的配置示例。接下来,描述根据本公开的第四实施例的信息处理系统的操作示例。
<5.2.操作示例>
下面参考图15描述根据本公开的第四实施例的信息处理系统的操作示例。图15为示出根据本公开的第四实施例的短语插入处理的流程图。
如图15所示,客户终端10-4重复该流程图的处理,直到音频数据的再现完成为止(步骤S4000)。首先,客户终端10-4的通信单元124从服务器30-4的通信单元324接收音频数据和句子信息(步骤S4004)。由通信单元124接收的音频数据被临时保留在音频缓冲单元中。另外,由通信单元124接收的句子信息被输出至客户终端10-4的短语插入单元140。客户终端10-4的再现时间决定单元128基于音频缓冲单元126的音频数据的状态和网络的状态来决定待插入的短语的再现时间(步骤S4008)。在决定了再现时间之后,再现时间决定单元128基于再现时间是否满足预定条件来确认是否插入短语(步骤S4012)。在这里,预定条件表示例如再现时间是否比预先设定的预定时间短。在再现时间短于预定时间的情况下,再现时间决定单元128确定没必要插入任何短语(步骤S4012/否),并且在不将短语插入音频数据的情况下再现音频数据(步骤S4020)。
在再现时间长于预定时间的情况下,再现时间决定单元128确定有必要插入短语(步骤S4012/是),并且流程进入步骤S4016。短语插入单元140基于从通信单元124接收到的句子信息,将从存储单元136获取的短语插入音频数据中(步骤S4016)。在短语插入之后,音频数据再现单元144再现音频数据(步骤S4020)。
上面已经参考图15描述了根据本公开的第四实施例的信息处理系统的操作示例。
上面已经参考图13至图15描述了根据本公开的第四实施例的信息处理系统。接下来,描述根据本公开的第五实施例的信息处理系统。
<<6.第五实施例>>
在根据第一至第四实施例的每个信息处理系统中已经描述了在音频数据中插入短语的示例,但是在根据第五实施例的信息处理系统中描述了替换音频数据中的短语的示例。
<6.1.配置示例>
(6.1.1.客户终端10-5)
下面参考图16和图17描述根据本公开的第五实施例的客户终端10-5的配置示例。如图16所示,客户终端10-5包括通信单元125,音频数据保存单元160,音频缓冲单元126,再现时间决定单元128,句子分析单元152,存储单元136,短语替换单元164和音频数据再现单元144。
(1)通信单元125
通信单元125为用于联接客户终端10-5和服务器30-5的接口,并且具有用于客户终端10-5与服务器30-5执行信息通信的功能。例如,通信单元125与服务器30-5通信接收由服务器30-5生成的音频数据。然后,通信单元125将接收到的音频数据输出到音频缓冲单元126。另外,例如,通信单元125与服务器30-5通信接收由服务器30-5生成的句子数据。然后,通信单元125将接收到的句子数据输出至句子分析单元152。
(2)音频数据保存单元160
音频数据保存单元160具有临时保存音频数据并从保存的音频数据获取插入短语的功能。例如,音频数据保存单元160临时保存并分析从通信单元125接收到的句子数据,并且检测可用作用于替换短语的插入短语的短语。具体地,在句子数据包括诸如“那个(that)”或“那里(there)”的指示词的情况下,音频数据保存单元160在句子数据中搜索在指示词之前存在并且由指示词所引用的短语。在作为搜索结果而找到的短语的再现时间长于相应的指示词的再现时间的情况下,将该短语检测为可用作插入短语的短语。然后音频数据保存单元160从音频数据中提取被确定为可使用的短语的声音,并且将所提取的声音作为音频数据高速缓存保存在存储单元136中。需指出,音频数据高速缓存为临时保存的高速缓存数据,并且因此可以在音频缓冲单元126完成音频数据的再现之后被删除。
(3)音频缓冲单元126
音频缓冲单元的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,音频缓冲单元126从音频数据保存单元160接收音频数据。另外,不同之处还在于,音频缓冲单元126将音频数据发送至再现时间决定单元128和短语替换单元164。
(4)再现时间决定单元128
再现时间决定单元的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。然而,不同之处在于,再现时间决定单元128将再现时间和确定结果发送至句子分析单元152。
(5)句子分析单元152
句子分析单元152具有基于句子数据检测替换目标短语并从检测到的替换目标中确定要替换的短语的功能。例如,每个替换目标短语为句子数据中包括的指示词。另外,要被替换的短语为被替换以使得可以确保用于接收音频数据的时间的短语。例如,句子分析单元152分析从通信单元125接收到的句子数据以检测作为替换目标的可替换短语。然后,句子分析单元152基于从再现时间决定单元128接收到的再现时间和保存在存储单元136中的音频数据高速缓存的长度,决定要从替换目标中替换的短语。在决定了要替换的短语之后,句子分析单元152将作为与要替换的短语有关的信息的替换信息发送至短语替换单元164。
另外,句子分析单元152基于从再现时间决定单元128接收到的确定结果来确定检测用作替换目标的短语的上述处理是否有必要。例如,在确定结果指示有必要插入插入短语的情况下,句子分析单元152执行检测用作替换目标的短语的处理。另外,例如,在确定结果指示没必要插入任何插入短语的情况下,句子分析单元152不执行检测用作替换目标的短语的处理,而是将指示没必要插入任何插入短语的信息发送至短语插入单元140。
(6)存储单元136
存储单元136具有存储关于用于替换音频数据中的短语的插入短语的信息的功能。例如,如下面的表2所示,存储单元136存储关于“插入短语”、“长度”和“音频数据”的信息。“插入短语”为用于替换音频数据中的短语的短语。例如,诸如“AAA药房BBB分公司”和“CCC县DDD区”的短语被存储为插入短语。另外,“长度”为插入短语的再现时间。例如,插入短语“AAA药房BBB分公司”的再现时间为“3.0秒”。另外,“CCC县DDD区”的再现时间为“2.0秒”。另外,“音频数据”是指插入短语的音频文件。例如,插入短语“AAA药房BBB分公司”的音频数据被存储为音频文件“20171023103516.wav”。另外,插入短语“CCC县DDD区”的音频数据被存储为音频文件“20171023103602.wav”。需指出,在上述示例中,将音频数据保存单元160获取音频数据的日期和时间设置为音频数据的文件名。然而,音频数据的文件名不限于音频数据的获取日期和时间,而是可以设置任何文件名。另外,存储在存储单元136中的音频数据的文件格式不受特别限制,但是可以存储具有任何文件格式的音频数据。另外,插入短语的长度也没有特别限制,但是可以存储具有任何长度的插入短语。
【表2】
表2.音频数据高速缓存的示例
Figure BDA0002499936470000301
(7)短语替换单元164
短语替换单元164具有替换音频数据中的短语的功能。例如,短语替换单元164在从句子分析单元152接收到替换信息时,从存储单元136获取与替换信息相对应的插入短语。然后短语替换单元164基于替换信息替换音频数据中的短语。
在这里,参考图17描述了短语替换单元164替换音频数据中的短语的具体示例。短语替换单元164替换在图17所示的音频缓冲单元126中保留的音频数据60中的短语。图17所示的音频数据60的波形的曲线图的横轴表示时间,而纵轴表示振幅。短语替换之前的音频数据60包括声音600和声音602。短语替换单元164替换由句子分析单元152决定的替换目标短语。在图17所示的示例中,如果替换目标短语包括在声音602中,则短语替换单元164替换声音602中包括的替换目标短语以生成声音700。短语替换后的音频数据70包括声音700。然后音频数据60和音频数据70之间的比较指示短语替换之后的音频数据70具有更长的再现时间,并且这允许客户终端10确保用于接收音频数据的与替换目标短语和用于替换的短语之间的再现时间差的时间。
(8)音频数据再现单元144
音频数据再现单元的功能与<2.1.配置示例>中描述的功能相同,并且在本章中省略其描述。
上面已经参考图16和图17描述了根据本公开的第五实施例的客户终端10-5的配置示例。接下来,描述根据本公开的第五实施例的服务器30-5的配置示例。
(6.1.2.服务器30-5)
根据本公开的第五实施例的服务器30-5的配置示例与在(4.1.2.服务器30-3)中描述的服务器30-3的配置示例相同,并且在本章中省略其描述。
上面已经描述了根据本公开的第五实施例的服务器30-5的配置示例。接下来,描述根据本公开的第五实施例的信息处理系统的操作示例。
<6.2.操作示例>
下面参考图18描述根据本公开的第五实施例的信息处理系统的操作示例。图18为示出根据本公开的第五实施例的短语替换处理的流程图。
如图18所示,客户终端10-5重复该流程图的处理,直到音频数据的再现完成为止(步骤S5000)。首先,客户终端10-5的通信单元125从服务器30-5的通信单元325接收音频数据和句子数据(步骤S5004)。由通信单元125接收到的音频数据被临时保存在音频数据保存单元160中,然后被保留在音频缓冲单元126中。另外,由通信单元125接收的句子数据被输出至句子分析单元152。客户终端10-5的再现时间决定单元128基于音频缓冲单元126的音频数据的状态和网络的状态来决定插入短语的再现时间(步骤S5008)。在决定了再现时间之后,再现时间决定单元128基于再现时间是否满足预定条件来确认是否用插入短语进行替换(步骤S5012)。在这里,预定条件表示例如再现时间是否比预先设定的预定时间短。在再现时间短于预定时间的情况下,再现时间决定单元128确定没必要替换任何短语(步骤S5012/否),并且在不在音频数据中替换任何短语的情况下再现音频数据(步骤S5024)。
在再现时间长于预定时间的情况下,再现时间决定单元128确定有必要替换短语(步骤S5012/是),并且流程进入步骤S5016。当再现时间决定单元128确定有必要替换短语时,句子分析单元152分析从通信单元125接收到的句子数据(步骤S5016)。当通过分析句子数据获取句子信息时,短语替换单元164基于句子信息,用从存储单元136获取的短语替换音频数据中包括的目标短语(步骤5020)。在短语替换之后,音频数据再现单元144再现音频数据(步骤S5024)。
上面已经参考图18描述了根据本公开的第五实施例的信息处理系统的操作示例。
上面已经参考图16至图18描述了根据本公开的第五实施例的信息处理系统。接下来,描述本公开的实施例的修改示例。
<<7.修改示例>>
下面描述本公开的实施例的修改示例。需指出,以下描述的各个修改示例可以单独地应用于本公开的实施例,或者可以组合地应用于本公开的实施例。另外,可以应用各个变型来代替在本公开的实施例中描述的配置,或者除了在本公开的实施例中描述的配置之外,还可以应用各个修改。
在上述各个实施例中,已经描述了将音频数据中的无声区间决定为插入位置的方法、将音频数据中的短语定界决定为插入位置的方法以及将音频数据中的可替换短语的位置决定为插入位置的方法。客户终端10可以包括能够执行上述多种方法以切换决定插入位置的方法的部件。例如,假定客户终端10具有将无声区间决定为插入位置以作为处理模式1的功能,将短语定界决定为插入位置以作为处理模式2的功能,以及将可替换短语的位置决定为插入位置以作为处理模式3的功能。在设置了处理模式1时,无声区间检测单元132未能检测到无声区间并且无法决定插入位置的情况下,客户终端10通过将处理模式1切换为处理模式2来切换插入短语的方法。然后,在处理模式2中,在句子分析单元152成功地将短语之间的短语定界决定为插入位置的情况下,短语插入单元140在短语定界处插入短语。另外,在处理模式2中,在句子分析单元152无法将短语定界决定为插入位置的情况下,客户终端10可以将处理模式2切换为处理模式3。
如上所述,客户终端10能够切换决定插入位置的方法。因此,在不能以某种决定插入位置的方法来决定插入位置的情况下,客户终端10将决定插入位置的方法切换为另一种决定插入位置的方法。这允许客户终端10以另一种决定插入位置的方法来决定插入位置。
需指出,切换处理模式的顺序不限于上述示例。例如,可以根据短语的插入位置的检测状态以任何顺序切换各个处理模式。另外,可以同时执行多个模式中的各个处理以检测多个插入位置,然后可以在更佳的插入位置处插入短语。
上面已经描述了本公开的实施例的修改示例。接下来,描述根据本公开的实施例的信息处理系统的应用示例。
<<8.应用示例>>
下面描述根据本公开的实施例的信息处理系统的应用示例。
<8.1.第一实施例和第二实施例的应用示例>
下面描述在音频数据的无声区间中插入短语的第一实施例和第二实施例中描述的情况的应用示例。
(8.1.1.根据通信条件插入插入语的代理装置)
下面描述将第一实施例或第二实施例应用于交互式代理系统的示例。在这里,交互式代理系统为对用户的输入做出包括适当信息的响应的系统。对于交互式代理系统,将客户终端10的功能实现为应用程序的代理装置被用作客户终端10。代理装置能够在听觉上响应用户的输入。另外,假定代理装置经由网络联接至功能与服务器30的功能相同的服务器。需指出,服务器生成音频数据以供代理装置响应用户的输入,将音频数据经由网络发送至代理装置,并且代理装置在交互式代理系统中再现音频数据。
作为特定的应用示例,描述了以下情况:在代理装置正在响应用户的同时通信条件劣化,并且音频数据的再现将被中断。在上述情况下,与第一实施例或第二实施例中一样,交互式代理系统将短语插入音频数据中的适当的无声区间中。
例如,交互式代理系统更改音频数据“东京今天是晴天。东京明天将下雨。”转换为音频数据“东京今天是晴天。好啦,东京明天将下雨。”如上所述,交互式代理系统能够将短语插入音频数据中的适当的无声区间中。这允许交互式代理系统稳定地确保用于接收音频数据的时间,同时防止与代理装置交互的用户感觉到声音被打断。
(8.1.2.重复插入短语的代理装置)
以下描述上述代理装置重复插入短语的示例。例如,交互式代理装置将插入短语插入音频数据“东京今天是晴天。东京明天将下雨。”中以将音频数据变更为音频数据“东京今天是晴天。好啦,东京明天将下雨。”然而,在确定尽管一次将插入短语插入音频数据中仍然不能及时接收数据的情况下,代理装置可以进一步插入插入短语。例如,可以在“好啦”之后再插入“请稍等片刻”,以将音频数据更改为“东京今天是晴天。好啦,请稍等片刻。东京明天将下雨。”如上所述,代理装置能够重复插入插入短语。因此,代理装置重复插入短语,从而即使在确定尽管一次插入了短语之后再现时间仍然不足的情况下,也能够稳定地确保用于接收音频数据的时间,同时防止用户感到声音被打断。
(8.1.3.听觉报告不良通信条件下的音频新闻阅读器)
下面描述将本公开的实施例应用于大声阅读新闻并以听觉方式输出新闻的音频新闻阅读器的示例。在本应用示例中,音频新闻阅读器对应于客户终端10。另外,假定音频新闻阅读器经由网络联接至功能与服务器30的功能相同的服务器。需指出,音频新闻阅读器接收并再现由服务器生成的音频数据,以通知用户新闻。
作为特定的应用示例,描述了在音频新闻阅读器正在再现音频数据并且音频数据的再现将被中断的同时通信条件劣化的情况。在上述情况下,与第一实施例或第二实施例中一样,音频新闻阅读器将短语插入音频数据中的适当的无声区间中。通常,音频新闻阅读器在音频数据中插入插入语。然而,在本应用示例的情况下,音频新闻阅读器可以插入指示声音的再现被中断的声音。例如,音频新闻阅读器可以在未及时接收音频数据的时刻插入声音“由于不良的通信条件,音频阅读已停止。请稍等片刻。”以通知用户不良的通信条件。如上所述,音频新闻阅读器能够将音频数据的再现中断的原因插入音频数据中。因此,音频新闻阅读器能够将中断声音的原因通知用户,从而使用户对中断声音的压力减小。
<8.2.第三实施例和第四实施例的应用示例>
下面描述在第三实施例和第四实施例中描述的在音频数据中的插入语定界处插入短语的情况的应用示例。
(8.2.1.根据通信条件插入插入语的代理装置)
下面描述将第三实施例或第四实施例应用于上述交互式代理系统的示例。作为特定的应用示例,描述了以下情况:在代理装置正在响应用户的同时通信条件劣化,并且音频数据的再现将被中断。在上述情况下,与第三实施例或第四实施例一样,交互式代理系统在音频数据中的适当短语定界处插入短语。需指出,音频数据比无声区间具有更多的短语定界。因此,在代理装置在短语定界处插入短语的情况下,与在(8.1.1.根据通信条件插入插入语的代理装置)中将短语插入无声区间中的情况相比,可以在更自然的位置处插入短语。例如,代理装置能够在音频数据“东京今天是晴天”中的短语定界处将插入语“好啦”插入,以将音频数据变更为音频数据“好啦,东京今天是晴天。”如上所述,交互式代理系统能够在音频数据中的适当短语定界处插入短语。这允许交互式代理系统稳定地确保用于接收音频数据的时间,同时防止与代理装置交互的用户感觉到声音被打断。
<8.3.第五实施例的应用示例>
下面描述在第五实施例中描述的音频数据中的短语被替换的情况的应用示例。
(8.3.1.根据通信条件替换短语的交互式代理)
下面描述将第五实施例应用于上述交互式代理系统的示例。作为特定的应用示例,描述了以下情况:在代理装置正在响应用户的同时通信条件劣化,并且音频数据的再现将被中断。在上述情况下,与第五实施例中一样,交互式代理系统用另一个短语替换音频数据中的短语。例如,代理装置用“EEE药房FFF分公司”替换音频数据“最近的药房为EEE药房FFF分公司。到达那里需要十分钟。”中的“那里”。然后,代理装置再现音频数据“最近的药房为EEE药房FFF分公司。到达EEE药房FFF分公司需要十分钟。”。如上所述,交互式代理系统能够将音频数据中的短语替换为另一短语。这允许交互式代理系统稳定地确保用于接收音频数据的时间,同时防止与代理装置交互的用户感觉到声音被打断。
<8.4.用户和代理装置的对话示例>
下面描述代理装置大声阅读新闻以作为对用户输入的响应的特定对话示例。例如,当用户说“告诉我新闻,代理”时,代理装置答复“当然。您想要哪种类型新闻?”。当用户说“经济新闻”时,接下来,代理装置肯定回答“确定。这是最新的经济新闻。”并大声阅读有关经济的新闻。在大声阅读新闻的同时似乎没有及时接收到音频数据时,代理装置在音频数据中插入短语。然后,代理装置继续大声阅读新闻,例如“八家主要的电气制造商已宣布财务业绩。现在正在接收数据。请稍等片刻。GGG公司的财务业绩为…”。然后,代理装置在音频数据中插入短语“现在正在接收数据”,从而可以确保接收音频数据的时间。
另外,下面描述代理装置大声阅读时间表以作为对用户输入的响应的特定对话示例。例如,当用户说“代理,告诉我明天的时间表”时,代理装置大声读出时间表。如果在大声读出时间表的同时似乎没有及时接收到音频数据,则代理装置在音频数据中插入短语。然后,代理装置回复“确定。您将于明天10点在HHH大楼与III公司开会,然后于13点移到JJJ大楼开会,好啦,请稍等片刻。之后,您将在18点吃晚饭。”然后,代理装置将短语“好啦,请稍等片刻。”插入音频数据中,从而可以确保接收音频数据的时间。
上面已经描述了根据本公开的实施例的信息处理系统的应用示例。接下来,描述根据本公开的实施例的硬件配置。
<<9.硬件配置>>
通过下面描述的客户终端10的软件和硬件之间的协作,实现了诸如信息处理装置的短语插入处理和短语替换处理的上述信息处理。
图19为示出客户终端10的硬件配置的框图。客户终端10包括CPU(中央处理单元)101、ROM(只读存储器)103和RAM(随机存取存储器)105。另外,客户终端10包括输入装置107、显示装置109、音频输出装置111、存储装置113和通信装置115。
CPU 101用作算术处理装置和控制装置,并且根据各种程序控制客户终端10的整体操作。另外,CPU 101可以为微处理器。ROM 103存储CPU101使用的程序、算术参数等。RAM105临时存储在CPU 101的执行中使用的程序、在执行中适当改变的参数等。它们通过包括CPU总线等的主机总线彼此联接。CPU 101、ROM 103和RAM 105可以与软件协作来实现参考图2描述的客户终端10的功能。
输入装置107包括诸如触摸面板、按钮、摄像头、麦克风、传感器、开关和用于用户输入信息的操纵杆的输入装置,基于用户的输入生成输入信号并将输入信号输出到CPU101的输入控制电路等。客户终端10的用户操作输入装置107以将各种数据输入到客户终端10,并发出关于处理操作的指令。
例如,显示装置109包括诸如CRT(阴极射线管)显示器、液晶显示器(LCD)、投影仪、有机发光二极管(OLED)装置和灯的显示单元。另外,音频输出装置111包括诸如扬声器和耳机的音频输出装置。
存储装置113为用于数据存储的装置。存储装置113可以包括存储介质、在该存储介质中记录数据的记录装置、从该存储介质中读出数据的读出装置、删除在该存储介质中重新编码的数据的删除装置等。例如,存储装置113包括HDD(硬盘驱动器)或SSD(固态存储驱动器)。可替代地,存储装置113包括具有等效功能的存储器等。该存储装置113驱动存储器,并存储由CPU 101执行的程序和各种数据。
例如,通信装置115为包括用于联接至网络14的通信装置等的通信接口。通信接口的示例包括诸如蓝牙(注册商标)或ZigBee(注册商标)的近场通信接口,或者诸如无线LAN(局域网)、Wi-Fi(注册商标)或移动通信网络(LTE或3G)的通信接口。另外,通信装置115可以为执行有线通信的有线通信装置。
上面已经参考图19描述了客户终端10的硬件配置。
<<10.结论>>
如上所述,根据本公开的信息处理装置能够临时保留经由网络从服务器接收的音频数据。另外,信息处理装置基于保留的音频数据的状态和网络的状态中的至少任何一者,能够计算插入到正在被再现的音频数据中以用于再现的待插入的短语的再现时间。另外,信息处理装置能够决定在音频数据中插入短语被插入的插入位置,并且在插入位置处插入与计算出的再现时间相对应的插入短语。如上所述,可以提供一种新颖且改进的信息处理装置、信息处理方法和程序,它们可以在接收音频数据的同时再现音频数据时稳定地确保用于接收音频数据的时间。
上面已经参考附图详细描述了本公开的优选实施例,但是本公开的技术范围不限于这样的实施例。本领域技术人员可以在所附权利要求书的范围内找到各种改变和修改,并且应当理解,它们将自然地落入本公开的技术范围内。
另外,可以通过使用软件、硬件以及软件和硬件的组合中的任何一者来实现本文描述的每个装置的一系列处理。该软件中包括的程序被预先存储在例如设置在每个装置内部或外部的记录介质(非暂时性介质:非暂时性介质)中。然后,每个程序例如在由计算机执行时由RAM读取,并由诸如CPU的处理器执行。
另外,在本说明书中通过使用流程图和顺序图描述的处理不必一定以所示顺序执行。一些处理步骤可以并行执行。另外,可以采用附加的处理步骤,并且可以省略一些处理步骤。
另外,本文描述的效果仅是说明性和示例性的,而不是限制性的。即,除了上述效果之外或者代替上述效果,根据本文的描述,根据本公开的技术可以发挥对于本领域技术人员显而易见的其他效果。
需指出,以下配置也落入本公开的技术范围内。
(1)一种信息处理装置,包括:
音频缓冲单元,音频缓冲单元保留在经由传输路径从另一装置接收到的第一音频数据中尚未再现的第一音频数据;
再现时间计算单元,再现时间计算单元基于保留在音频缓冲单元中的第一音频数据的状态和传输路径的状态中的至少任何一者来计算第二音频数据的再现时间,所述第二音频数据在所述第一音频数据被再现的同时被插入并被再现;
位置决定单元,位置决定单元决定第二音频数据在第一音频数据中的插入位置;以及
插入单元,插入单元控制将第二音频数据插入第一音频数据中的插入位置处的处理,插入位置由位置决定单元决定,第二音频数据对应于由再现时间计算单元计算出的再现时间。
(2)根据(1)所述的信息处理装置,其中,位置决定单元将无声区间决定为插入位置。
(3)根据(2)所述的信息处理装置,还包括无声区间检测单元,无声区间检测单元检测包括在第一音频数据中的无声区间。
(4)根据(1)所述的信息处理装置,其中,位置决定单元基于句子信息来决定插入位置。
(5)根据(4)所述的信息处理装置,还包括句子分析单元,句子分析单元获取第一音频数据的句子信息。
(6)根据(5)所述的信息处理装置,其中,
位置决定单元基于句子信息将短语定界决定为插入位置,短语定界包括在第一音频数据中,以及
插入单元将第二音频数据插入在插入位置处。
(7)根据(5)所述的信息处理装置,其中,
位置决定单元基于句子信息将短语决定为插入位置,短语包括在第一音频数据中,以及
插入单元删除被决定为插入位置的短语,并且插入第二音频数据而来代替删除的短语。
(8)根据(7)所述的信息处理装置,其中,第二音频数据包括过去的第一音频数据。
(9)根据(8)所述的信息处理装置,其中,第二音频数据包括过去的第一音频数据,第一音频数据包括具有与要被删除的短语的含义相似的含义的短语,并且具有比要被删除的短语的再现时间更长的再现时间。
(10)根据(1)至(9)中的任一项所述的信息处理装置,还包括确定单元,确定单元确定是否将第二音频数据插入第一音频数据中,其中
确定单元根据再现时间是否满足预定条件来确定是否将第二音频数据插入第一音频数据中。
(11)根据(1)所述的信息处理装置,其中,在位置决定单元未能决定插入位置的情况下,位置决定单元切换决定第二音频数据的插入位置的方法。
(12)根据(11)所述的信息处理装置,其中,在位置决定单元未能将无声区间决定为插入位置的情况下,位置决定单元将无声区间决定为所述插入位置的方法切换为将短语定界决定为插入位置的方法。
(13)根据(1)所述的信息处理装置,其中,保留在音频缓冲单元中的第一音频数据的状态包括保留在所述音频缓冲单元中的所述第一音频数据的量或增加量或减少量中的至少任一者。
(14)根据(1)至(11)中的任一项所述的信息处理装置,还包括存储单元,存储单元存储要由插入单元插入第一音频数据中的第二音频数据。
(15)一种由处理器执行的信息处理方法,所述信息处理方法包括:
保留在经由传输路径从另一装置接收到的所述第一音频数据中尚未再现的所述第一音频数据;
基于保留在音频缓冲单元中的所述第一音频数据的状态和传输路径的状态中的至少任何一者来计算第二音频数据的再现时间,在第一音频数据被再现的同时,第二音频数据将被插入并被再现;
决定第二音频数据在第一音频数据中的插入位置;以及
控制将第二音频数据插入第一音频数据中的插入位置处的处理,插入位置由位置决定单元决定,第二音频数据对应于由再现时间计算单元计算出的再现时间。
(16)一种使计算机用作以下装置的程序:
音频缓冲单元,音频缓冲单元保留在经由传输路径从另一装置接收到的第一音频数据中尚未再现的第一音频数据,
再现时间计算单元,再现时间计算单元基于保留在音频缓冲单元中的第一音频数据的状态和传输路径的状态中的至少任何一者来计算第二音频数据的再现时间,第二音频数据在所述第一音频数据被再现的同时被插入并被再现,
位置决定单元,位置决定单元决定第二音频数据在第一音频数据中的插入位置,以及
插入单元,插入单元控制将第二音频数据插入第一音频数据中的插入位置处的处理,插入位置由位置决定单元决定,第二音频数据对应于由再现时间计算单元计算出的再现时间。
附图标记列表
10 客户终端
14 网络
30 服务器
121 通信单元
122 通信单元
123 通信单元
124 通信单元
125 通信单元
126 音频缓冲单元
128 再现时间决定单元
132 无声区间检测单元
136 存储单元
140短语插入单元
144音频数据再现单元
152句子分析单元
160音频数据保存单元
164短语替换单元
221通信单元
226音频缓冲单元
244音频数据再现单元
321通信单元
322通信单元
323通信单元
324通信单元
325通信单元
332无声区间检测单元
348音频数据生成单元
352句子分析单元
356句子数据生成单元。

Claims (16)

1.一种信息处理装置,包括:
音频缓冲单元,保留经由传输路径从另一装置接收到的第一音频数据中尚未再现的第一音频数据;
再现时间计算单元,基于保留在所述音频缓冲单元中的所述第一音频数据的状态和所述传输路径的状态中的至少任何一者来计算第二音频数据的再现时间,所述第二音频数据在所述第一音频数据被再现的同时被插入并被再现;
位置决定单元,决定所述第二音频数据在所述第一音频数据中的插入位置;以及
插入单元,控制将所述第二音频数据插入所述第一音频数据中的所述插入位置处的处理,所述插入位置由所述位置决定单元决定,所述第二音频数据对应于由所述再现时间计算单元计算出的所述再现时间。
2.根据权利要求1所述的信息处理装置,其中,所述位置决定单元将无声区间决定为所述插入位置。
3.根据权利要求2所述的信息处理装置,还包括无声区间检测单元,所述无声区间检测单元检测包括在所述第一音频数据中的所述无声区间。
4.根据权利要求1所述的信息处理装置,其中,所述位置决定单元基于句子信息来决定所述插入位置。
5.根据权利要求4所述的信息处理装置,还包括句子分析单元,所述句子分析单元获取所述第一音频数据的句子信息。
6.根据权利要求5所述的信息处理装置,其中:
所述位置决定单元基于所述句子信息将短语定界决定为所述插入位置,所述短语定界包括在所述第一音频数据中,以及
所述插入单元将所述第二音频数据插入在所述插入位置处。
7.根据权利要求5所述的信息处理装置,其中:
所述位置决定单元基于所述句子信息将短语决定为所述插入位置,所述短语包括在所述第一音频数据中,以及
所述插入单元删除被决定为所述插入位置的短语,并且插入所述第二音频数据来代替所删除的短语。
8.根据权利要求7所述的信息处理装置,其中,所述第二音频数据包括过去的所述第一音频数据。
9.根据权利要求8所述的信息处理装置,其中,所述第二音频数据包括过去的所述第一音频数据,所述第一音频数据包括具有与要被删除的短语的含义相似的含义的短语,并且具有比要被删除的所述短语的再现时间更长的再现时间。
10.根据权利要求1所述的信息处理装置,还包括确定单元,所述确定单元确定是否将所述第二音频数据插入所述第一音频数据中,其中
所述确定单元根据所述再现时间是否满足预定条件来确定是否将所述第二音频数据插入所述第一音频数据中。
11.根据权利要求1所述的信息处理装置,其中,在所述位置决定单元未能决定所述插入位置的情况下,所述位置决定单元切换决定所述第二音频数据的所述插入位置的方法。
12.根据权利要求11所述的信息处理装置,其中,在所述位置决定单元未能将无声区间决定为所述插入位置的情况下,所述位置决定单元将所述无声区间决定为所述插入位置的方法切换为将短语定界决定为所述插入位置的方法。
13.根据权利要求1所述的信息处理装置,其中,保留在所述音频缓冲单元中的所述第一音频数据的状态包括保留在所述音频缓冲单元中的所述第一音频数据的量或增加量或减少量中的至少任一者。
14.根据权利要求1所述的信息处理装置,还包括存储单元,所述存储单元存储要由所述插入单元插入所述第一音频数据中的所述第二音频数据。
15.一种由处理器执行的信息处理方法,所述信息处理方法包括:
保留在经由传输路径从另一装置接收到的所述第一音频数据中尚未再现的所述第一音频数据;
基于保留在音频缓冲单元中的所述第一音频数据的状态和所述传输路径的状态中的至少任何一者来计算第二音频数据的再现时间,所述第二音频数据在所述第一音频数据被再现的同时被插入并被再现;
决定所述第二音频数据在所述第一音频数据中的插入位置;以及
控制将所述第二音频数据插入所述第一音频数据中的所述插入位置处的处理,所述插入位置由位置决定单元决定,所述第二音频数据对应于由再现时间计算单元计算出的所述再现时间。
16.一种使计算机用作以下装置的程序:
音频缓冲单元,保留在经由传输路径从另一装置接收到的第一音频数据中尚未再现的所述第一音频数据,
再现时间计算单元,基于保留在所述音频缓冲单元中的所述第一音频数据的状态和所述传输路径的状态中的至少任何一者来计算第二音频数据的再现时间,所述第二音频数据在所述第一音频数据被再现的同时被插入和再现,
位置决定单元,决定所述第二音频数据在所述第一音频数据中的插入位置,以及
插入单元,控制将所述第二音频数据插入所述第一音频数据中的所述插入位置处的处理,所述插入位置由所述位置决定单元决定,所述第二音频数据对应于由所述再现时间计算单元计算出的所述再现时间。
CN201880075058.9A 2017-11-30 2018-08-31 信息处理装置、信息处理方法和程序 Withdrawn CN111386567A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-230802 2017-11-30
JP2017230802 2017-11-30
PCT/JP2018/032466 WO2019106902A1 (ja) 2017-11-30 2018-08-31 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
CN111386567A true CN111386567A (zh) 2020-07-07

Family

ID=66664779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880075058.9A Withdrawn CN111386567A (zh) 2017-11-30 2018-08-31 信息处理装置、信息处理方法和程序

Country Status (5)

Country Link
US (1) US11302344B2 (zh)
JP (1) JP7207322B2 (zh)
CN (1) CN111386567A (zh)
DE (1) DE112018006118T5 (zh)
WO (1) WO2019106902A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3595041B2 (ja) * 1995-09-13 2004-12-02 株式会社東芝 音声合成システムおよび音声合成方法
US7716358B2 (en) * 2000-09-12 2010-05-11 Wag Acquisition, Llc Streaming media buffering system
JP2002271391A (ja) 2001-03-08 2002-09-20 Nec Eng Ltd ダイナミック・ジッタ・バッファ制御方法
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US7783773B2 (en) * 2006-07-24 2010-08-24 Microsoft Corporation Glitch-free media streaming
US8069051B2 (en) * 2007-09-25 2011-11-29 Apple Inc. Zero-gap playback using predictive mixing
JP5691721B2 (ja) 2011-03-25 2015-04-01 三菱電機株式会社 音声データ処理装置
JP6636303B2 (ja) 2015-10-29 2020-01-29 シャープ株式会社 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体

Also Published As

Publication number Publication date
US20200402528A1 (en) 2020-12-24
US11302344B2 (en) 2022-04-12
WO2019106902A1 (ja) 2019-06-06
JPWO2019106902A1 (ja) 2020-12-03
DE112018006118T5 (de) 2020-08-13
JP7207322B2 (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
US8909534B1 (en) Speech recognition training
US8874440B2 (en) Apparatus and method for detecting speech
US9418662B2 (en) Method, apparatus and computer program product for providing compound models for speech recognition adaptation
JP2006154724A (ja) 対話システム、対話方法、及びコンピュータプログラム
US9330682B2 (en) Apparatus and method for discriminating speech, and computer readable medium
CN103426449B (zh) 通过适应性自动快速音频回放减轻音频中断的影响
CN110136715B (zh) 语音识别方法和装置
JP7308335B2 (ja) 車載音声機器のテスト方法、装置、電子機器及び記憶媒体
CN110289015B (zh) 一种音频处理方法、装置、服务器、存储介质及系统
KR102652892B1 (ko) 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응
EP2806415B1 (en) Voice processing device and voice processing method
JP6737141B2 (ja) 音声処理方法、音声処理装置、及び音声処理プログラム
US8868419B2 (en) Generalizing text content summary from speech content
EP2743923A1 (en) Voice processing device, voice processing method
US20130238327A1 (en) Speech recognition processing device and speech recognition processing method
US20210321000A1 (en) Method and apparatus for predicting customer behavior
CN111386567A (zh) 信息处理装置、信息处理方法和程序
CN112863496B (zh) 一种语音端点检测方法以及装置
JP2015045689A (ja) 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
KR20200109832A (ko) 자동 음성 인식에서 대기 시간을 감소시키는 방법
JP2005024869A (ja) 音声応答装置
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
CN113763921B (zh) 用于纠正文本的方法和装置
CN113053403B (zh) 一种语音评测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200707