CN109643551A - 信息处理装置、信息处理方法和程序 - Google Patents

信息处理装置、信息处理方法和程序 Download PDF

Info

Publication number
CN109643551A
CN109643551A CN201780051273.0A CN201780051273A CN109643551A CN 109643551 A CN109643551 A CN 109643551A CN 201780051273 A CN201780051273 A CN 201780051273A CN 109643551 A CN109643551 A CN 109643551A
Authority
CN
China
Prior art keywords
audio
identification
frequency information
processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780051273.0A
Other languages
English (en)
Inventor
河野真
河野真一
滝祐平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN109643551A publication Critical patent/CN109643551A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及使能够改善语音输入的信息处理装置、信息处理方法和程序。基于从语音信息检测到的特定无声时段和话语特征来选择正常模式下的语音识别处理或特殊模式下的语音识别处理,然后输出由所选择的语音识别处理识别的语音识别结果以及指示通过其获得语音识别结果的该语音识别处理的语音识别结果信息。该技术可以应用于例如经由网络提供语音识别处理的语音识别系统。

Description

信息处理装置、信息处理方法和程序
技术领域
本发明涉及一种信息处理装置、信息处理方法和程序,并且具体涉及能够进行更优选的音频输入的信息处理装置、信息处理方法和程序。
背景技术
近年来,使用音频输入的用户界面的利用已经非常广泛,并且实现能够实现更优选的音频输入的音频识别处理是很重要的。
通常,在音频识别处理中,执行提取关于音频信息的特征量的处理,并且,例如,提取例如梅尔频率倒频谱系数(MFCC)的特征量。然后,基于从音频信息提取的特征量,音频识别引擎参考声学模型、识别词典和语言模型执行音频识别处理,并输出从音频识别的字符串。
例如,专利文献1公开了一种音频识别系统,其基于在音频识别中的针对未指定数量的用户的用户分类来选择要用于音频识别的声学模型。
现有技术文献
专利文献
专利文献1:日本专利申请公开号2000-347684
发明内容
本发明要解决的问题
顺便提及,在用于在游戏聊天、实时分发平台等中输入消息的应用中,不仅可以输入具有正常单词和短语的句子,而且可以输入未在识别词典中列出的特殊字符串,例如标识(ID)、缩写、专有名词或网络俚语。难以对这样的特殊字符串精确地执行音频识别处理,并且难以执行优选的音频输入。
本发明是针对这种情况而提出的,并且其旨在使执行更优选的音频输入成为可能。
问题的解决方案
本发明的一个方面的信息处理装置包括:话语特征检测单元,获取通过用户的话语获得的音频信息,并从音频信息检测话语的特征;特定无声时段检测单元,在检测其中音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;选择单元,基于已经由话语特征检测单元从音频信息检测到的话语的特征和已经由特定无声时段检测单元从音频信息检测到的特定无声时段,来选择要对音频信息执行的音频识别处理;以及输出处理单元,将通过已经由选择单元选择的音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,音频识别结果信息指示已经获得音频识别结果的音频识别处理。
本公开的一个方面的信息处理方法或程序包括以下步骤:获取通过用户的话语获得的音频信息,并从音频信息中检测话语的特征;在检测其中音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;基于已经从音频信息检测到的话语的特征和已经从音频信息检测到的特定无声时段,选择要对音频信息执行的音频识别处理;以及将通过已经选择的音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,音频识别结果信息指示已经获得音频识别结果的音频识别处理。
在本公开的一个方面中,在获取由用户的话语获得的音频信息、从语音信息检测话语的特征以及检测其中音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段。然后,基于已经从音频信息检测到的话语的特征和已经从音频信息检测到的特定无声时段选择要对音频信息执行的音频识别处理,并且将通过音频识别处理识别的音频识别结果与指示已经被执行的音频识别处理的音频识别结果信息一起输出。
本发明的效果
根据本公开的一个方面,可以执行更优选的音频输入。
附图说明
图1是示出根据应用本技术的实施方式的音频识别系统的配置示例的框图。
图2是示出音频识别服务器的配置示例的框图。
图3是示出字符串数字转换表的示例的图。
图4是示出音频识别处理的基本用户界面的示例的图。
图5是用于说明音量水平的比较的图。
图6是示出正常模式的音频识别处理中的用户界面的示例的图。
图7是用于说明音量水平的比较和特定无声时段的检测的图。
图8是示出一字符模式和大写字母转换模式下的用户界面的示例的图。
图9是示出音频识别结果的示例的图。
图10是用于说明音量水平的比较和特定无声时段的检测的图。
图11是示出一字符模式和数字转换模式下的用户界面的示例的图。
图12是示出音频识别结果的示例的图。
图13是说明音频识别处理的流程图。
图14是示出日语的音频识别处理中的用户界面的示例的图。
图15是示出用于实现音频识别处理的API的示例的图。
图16是示出强调和显示音频识别结果的示例的图。
图17是示出强调和显示音频识别结果的另一示例的图。
图18是示出应用本技术的计算机的实施方式的配置示例的框图。
具体实施方式
下面将参考附图详细描述应用本技术的具体实施方式。
<音频识别系统的配置示例>
图1是示出根据应用本技术的实施方式的音频识别系统的配置示例的框图。
如图1所示,多个(在图1的示例中为N个)客户终端13-1至13-N和音频识别服务器14经由网络12(例如因特网)连接到音频识别系统11。注意,客户终端13-1至13-N彼此类似地配置,并且在下文中,在不需要区分彼此的情况下适当地称为客户终端13。
客户终端13设置有用于输入由用户的话语给出的音频并获取音频信息的音频信息获取设备(例如麦克风),并且经由网络12将由音频信息获取设备获取的音频信息发送到音频识别服务器14。此外,客户终端13接收从音频识别服务器14发送的音频识别结果,并将该结果呈现给用户。例如,客户终端13使视频输出设备显示表示音频识别结果的用户界面,并且从音频输出设备输出表示音频识别结果的合成音频。
音频识别服务器14对经由网络12从客户终端13发送的音频信息执行音频识别处理。然后,音频识别服务器14经由网络12将从音频信息识别的单词串等作为音频识别结果发送到客户终端13。此时,音频识别服务器14不仅可以将音频识别结果发送到已经发送了音频信息的客户终端13,而且还可以将音频识别结果发送到例如与客户终端13的用户通信的另一用户的客户终端13。
音频识别系统11按上述配置,通过客户终端13的用户的话语获得的音频信息被发送到音频识别服务器14,在音频识别服务器14中执行音频识别处理,并且音频识别结果被发送到客户终端13。因此,例如,在音频识别服务器14中实现最新的高性能音频识别处理,使得音频识别系统11可以提供音频识别处理,即使每个客户终端13的处理能力低也能够实现更优选的音频输入。
<音频识别服务器的第一配置示例>
图2是示出音频识别服务器14的第一配置示例的框图。
如图2所示,音频识别服务器14包括通信单元21、输入声音处理单元22、话语特征检测单元23、特定无声时段检测单元24、噪声检测单元25、音频识别模式切换处理单元26、正常模式音频识别单元27、特殊模式音频识别单元28和音频识别结果输出处理单元29。
通信单元21经由图1中的网络12与客户终端13执行各种类型的通信。例如,通信单元21接收从客户终端13发送的音频信息,并将该音频信息提供给输入声音处理单元22。此外,通信单元21将从音频识别结果输出处理单元27提供的音频识别结果信息发送到客户终端13。
针对从通信单元21提供的音频信息,输入声音处理单元22执行在正常模式音频识别单元27和特殊模式音频识别单元28中执行音频识别之前所需的各种预处理。例如,输入声音处理单元22排除音频信息中的无声部分和仅包括噪声的部分,执行用于从音频信息中检测包括由话语给出的音频的话语部分的语音活动检测(VAD)处理,并且获取话语部分的音频信息。然后,输入声音处理单元22将话语部分的音频信息提供给话语特征检测单元23、特定无声时段检测单元24、噪声检测单元25和音频识别模式切换处理单元26。
话语特征检测单元23从输入声音处理单元22提供的话语部分的音频信息中检测用户的话语的特征,并将指示所检测到的话语的特征的话语特征检测结果提供给音频识别模式切换处理单元26。
例如,话语特征检测单元23将基于音频信息的音频的音量水平作为话语的特征来检测,并且将基于音频信息的音频的音量水平与正常时间的预设音量水平之间的比较结果设置为话语特征检测结果。此外,例如,话语特征检测单元23将基于音频信息的音频的输入速度作为话语的特征来检测,并且将通过与在此之前的音频的输入速度进行相对比较(变得快于或慢于在此之前的速度)而获得的比较结果设置为话语特征检测结果。此外,例如,话语特征检测单元23将基于音频信息的音频的频率作为话语的特征来检测,并且将通过与在此之前的音频的频率进行相对比较(变得高于或低于在此之前的频率)而获得的比较结果设置为话语特征检测结果。
特定无声时段检测单元24从输入声音处理单元22提供的话语部分的音频信息中,检测在输入声音处理单元22从音频信息中检测话语部分的VAD处理中未被确定为无声时段的极短无声时段作为特定无声时段。例如,特定无声时段是当字母的话语被逐个字符执行时发生在每个字母的话语结尾的短无声时段,这被称为所谓的间隔。然后,特定无声时段检测单元24将指示已经从话语部分的音频信息检测到特定无声时段的定时和间隔的特定无声时段检测结果提供给音频识别模式切换处理单元26。
噪声检测单元25检测从输入声音处理单元22提供的话语部分的音频信息中包括的噪声的音量水平,并将检测到的噪声的音量水平提供给音频识别模式切换处理单元26。
音频识别模式切换处理单元26基于从话语特征检测单元23提供的话语特征检测结果、从特定无声时段检测单元24提供的特定无声时段检测结果以及从噪声检测单元25提供的噪声的音量水平来执行切换音频识别处理的处理。
例如,基于话语特征检测结果,在基于音频信息的音频的音量水平低于正常时间的音量水平的情况下,音频识别模式切换处理单元26选择正常模式的音频识别处理。另一方面,基于话语特征检测结果在基于音频信息的话语的音量水平高于正常时间的音量水平,并且基于特定无声时段检测结果在特定无声时段以预定间隔被反复检测到的情况下,音频识别模式切换处理单元26认为已经产生用于执行特殊模式的音频识别处理的条件,并且选择特殊模式的音频识别处理。
此外,与基于音频信息的音频的音量水平高于正常时间的音量水平的情况类似,基于话语特征检测结果,在基于音频信息的音频的输入速度相对慢的情况下,并且在基于音频信息的音频的频率相对高的情况下,音频识别模式切换处理单元26认为已经产生了执行特殊模式的音频识别处理的条件,并且选择特殊模式的音频识别处理。
这里,例如,在用户以大于正常的音量说话以在间隔之后重复短话语和间隔的情况下,可以认为正在执行逐个字符的音频的输入,例如ID的输入。因此,在这种情况下,优选的是音频识别模式切换处理单元26选择如上所述的用于执行逐个字符的音频识别的特殊模式音频识别处理。
此外,在噪声的音量水平超过预设的预定音量水平的情况下,音频识别模式切换处理单元26避免特殊模式的音频识别处理的选择。换句话说,在噪声大的情况下,认为特殊模式的音频识别处理的识别精度劣化,因此优选的是不选择特殊模式的音频识别处理。
然后,在选择了正常模式的音频识别处理的情况下,音频识别模式切换处理单元26将从输入声音处理单元22提供的话语部分的音频信息提供给正常模式音频识别单元27。另一方面,在选择了特殊模式的音频识别处理的情况下,音频识别模式切换处理单元26将从输入声音处理单元22提供的话语部分的音频信息提供给特殊模式音频识别单元28。
例如,与常规情况类似,正常模式音频识别单元27参考一般识别词典并且对从音频识别模式切换处理单元26提供的音频信息执行音频识别处理。然后,正常模式音频识别单元27将例如从音频信息识别的字符串作为音频识别结果提供给音频识别结果输出处理单元29。
特殊模式音频识别单元28执行用于根据从音频识别模式切换处理单元26提供的音频信息识别诸如ID、缩写、专有名词或网络俚语(下文中适当地称为特殊字符)的特殊字符串的特殊模式的音频识别处理。特殊模式的音频识别处理的示例包括用于执行逐个字符的音频识别的一字符模式、用于将音频识别结果转换为字母的大写字母的大写字母转换模式、用于将音频识别结果的单词转换为数字的数字转换模式等。
例如,在特定无声时段被以预定间隔重复检测到的情况下,特殊模式音频识别单元28认为正在执行逐个字符的音频的输入(例如ID的输入),并且在一字符模式下执行特殊模式的音频识别处理。此外,在一字符模式下基于音频信息的音频的音量水平超过正常时间的音量水平的情况下,特殊模式音频识别单元28在用于将识别的一个字符转换为字母的大写字母的大写字母转换模式下执行特殊模式的音频识别处理。此外,在特殊模式音频识别单元28参考如图3所示的字符串数字转换表,并且通过音频识别识别的单词被登记在字符串数字转换表中的情况下,特殊模式音频识别单元28在用于将识别的单词转换成数字的数字转换模式下执行特殊模式的音频识别处理。
音频识别结果输出处理单元29生成指示其中获得了音频识别结果的音频识别处理的音频识别结果信息,并将音频识别结果和信息与从正常模式音频识别单元27或特殊模式音频识别单元28提供的音频识别结果一起提供给通信单元21。例如,音频识别结果输出处理单元29生成使显示使得客户终端13的用户识别音频识别结果和音频识别处理的用户界面的显示信息、用于输出用于识别音频识别结果和音频识别处理的合成音频的合成音频信息等,作为音频识别结果信息。
音频识别服务器14以这种方式配置,并且关于经由网络12从客户终端13发送的音频信息,可以通过切换正常模式的音频识别处理或特殊模式的音频识别处理来执行任一种音频识别处理。然后,音频识别服务器14可以将通过执行音频识别处理而获得的音频识别结果信息经由网络12发送到客户终端13,并且可以将其中已经获得音频识别结果的音频识别处理与音频识别结果一起呈现给用户。
因此,音频识别服务器14可以通过特殊模式的音频识别处理来识别例如不能通过仅参考一般识别词典来识别的特殊字符,并且提供更优选的音频输入。
例如,通常,由于音频识别的技术特性(通过使用其中登记了短语的识别词典进行识别的特性),对识别词典中未列出的特殊字符(例如ID、缩写、专有名词或网络俚语)执行音频识别更加困难。此外,这些特殊字符经常根据使用场景等在表达方法中改变,并且将所有特殊字符登记在识别词典中是不现实的。
具体地,缩写“lol”有时用于英语短语“大声笑(laughing out loud)”,并且作为缩写“lol”的发音,在某些情况下,字母被逐个字符“L、O、L”地读出,,或者在某些情况下,“lol”被作为一个单词发音。此外,由于例如“LOLOLOLOL”、“lolz”、“lul”等作为缩写“lol”的变体(符号差异)的细微的差别,符号可能改变。除了该示例之外,还可以使用类似的缩写,并且在字典中反映其所有缩写是极其困难的。此外,由于ID、缩写、专有名词、网络俚语等与日俱增,因此认为在词典中反映它们的成本太高。此外,仅由社交网络等的特定组的成员使用的单词通常不反映在识别词典中。
另一方面,当产生用于执行上述特殊模式的音频识别处理的条件时,特殊模式音频识别单元28执行特殊模式的音频识别处理,使得音频识别服务器14相比常规情况下能够更准确地对特殊字符执行音频识别。因此,即使在正常对话和具有特殊字符的话语同时存在的情况下,音频识别服务器14也可以通过适当地选择音频识别处理来提供更优选的音频输入。
<音频识别系统的音频识别处理>
将参考图4至图12描述由音频识别系统11提供的音频识别处理。
这里,在图4至图12中,将关于客户终端13的用户所说的音频信息“Let's startthis battle BTX505”,给出在音频识别服务器14中执行的音频识别处理的描述。
例如,在客户终端13的视频输出设备的屏幕上,显示表示用户的话语状态的图标51。当未检测到用户的话语时,如图4的上部所示,图标51中的麦克风被淡淡地显示(通过在图4的示例中的虚线)。然后,当客户终端13的音频信息获取设备检测到用户的话语时,如图4的下部所示,图标51中的麦克风的显示变深,用于显示从用户的话语中识别出的字符的显示字段52被显示在图标51下方。
图5示出了将音频信息“Let's start this battle BTX505”中的直到“Let'sstart this battle”的音频信息提供给音频识别服务器14的状态。首先,音频识别服务器14的话语特征检测单元23比较音量水平作为从音频信息“Let's start this battle”检测话语特征的处理。在图5的示例中,音频信息“Let's start this battle”的音量水平等于或低于正常时间的音量水平,并且话语特征检测单元23将指示音量水平等于或低于正常时间的音量水平的话语特征检测结果提供给音频识别模式切换处理单元26。
然后,音频识别模式切换处理单元26根据音频信息“Let's start this battle”的音量水平等于或低于正常模式下的音量水平的话语特征检测结果,确定在正常模式下执行关于音频信息“Let's start this battle”的音频识别。在此基础上,音频识别模式切换处理单元26将音频信息“Let’s start this battle”提供给正常模式音频识别单元27,并且正常模式音频识别单元27执行正常模式的音频识别处理。
例如,正常模式音频识别单元27将字符串“Let’s start this battle”作为正常模式的音频识别处理的音频识别结果提供给音频识别结果输出处理单元29。因此,音频识别结果输出处理单元29生成音频识别结果信息并将音频识别结果信息提供给通信单元21,音频识别结果信息用于输出使客户终端13的用户识别已经获得了音频识别结果“Let’sstart this battle”的用户界面。
因此,客户终端13基于通过正常模式的音频识别处理获得的音频识别结果来显示用户界面。例如,如图6所示,显示用于动态显示的用户界面,其中在通过正常模式的音频识别处理的识别期间的音频识别结果出现在图标51的麦克风周围。此外,在通过正常模式的音频识别处理的识别期间的单词被顺序地显示在显示字段52上。换句话说,如图6的上侧所示,在显示字段52中显示识别过程中的音频识别结果“Let's start...”。然后,当关于音频信息“Let’s start this battle”的所有音频识别完成时,音频识别结果“Let’s startthis battle”显示在显示字段52中,如图6的下侧所示。
接下来,图7示出了将音频信息“Let’s start this battle BTX505”中的音频信息“Let’s start this battle”之后直到音频信息“BTX”的音频信息提供给音频识别服务器14的状态。注意,在对音频信息“BTX”执行正常模式中的音频识别处理的情况下,如图所示获得音频识别结果“bee tee ecs”。
首先,话语特征检测单元23比较音量水平作为从音频信息“BTX”检测话语特征的处理。在图7的示例中,音频信息“BTX”的音量水平超过正常时间的音量水平,并且话语特征检测单元23将指示音量水平超过正常时间的音量水平的话语特征检测结果提供给音频识别模式切换处理单元26。
此外,特定无声时段检测单元24执行从音频信息“BTX”检测特定无声时段的处理。在图7的示例中,由空心箭头所示的时段被检测为特定无声时段,并且特定无声时段检测单元24将指示已经检测到特定无声时段的定时和间隔的特定无声时段检测结果提供给音频识别模式切换处理单元26。
然后,音频识别模式切换处理单元26基于从话语特征检测单元23提供的话语特征检测结果和从特定无声时段检测单元24提供的特定无声时段检测结果来确定是否执行特殊模式的音频识别处理。在图7所示的示例中,音频识别模式切换处理单元26基于音量水平超过正常时间的音量水平和以预定定时和间隔检测到特定无声时段的事实来确定执行特殊模式的音频识别处理。
因此,音频识别模式切换处理单元26将音频信息“BTX”提供给特殊模式音频识别单元28,并且特殊模式音频识别单元28执行特殊模式的音频识别处理。
例如,特殊模式音频识别单元28将大写字母“BTX”的字母作为通过执行特殊模式(一字符模式和大写字母转换模式)的音频识别处理而获得的音频识别结果提供给音频识别结果输出处理单元29。因此,音频识别结果输出处理单元29生成音频识别结果信息并将音频识别结果信息提供给通信单元21,音频识别结果信息用于输出使客户终端13的用户识别已经获得大写字母“BTX”的音频识别结果的用户界面。
因此,客户终端13基于通过特殊模式的音频识别处理获得的音频识别结果来显示用户界面。换句话说,如图8所示,在图标51的下侧显示指示一字符模式的音频识别处理的标记“1个字符”和指示特殊模式的音频识别处理中的大写字母转换模式的音频识别处理的标记“大写字母”。然后,显示用于动态显示的用户界面,在动态显示中在通过一字符模式和大写字母转换模式的音频识别处理的识别期间的音频识别结果在图标51的麦克风周围移动的同时从小写字母转换为大写字母。
图8示出了其中小写字母“b”被转换为大写字母“B”的用户界面的示例。然而,对于随后的大写字母“T”和大写字母“X”重复类似的处理。然后,当关于音频信息“BTX”的所有音频识别完成时,音频识别结果“Let’s start this BTX”显示在显示字段52中,如图9所示。
接着,图10示出其中在音频信息“Let’s start this battle BTX505”中的音频信息“Let’s start this battle BTX”之后向音频识别服务器14提供音频信息“505”的状态。注意,在对音频信息“505”执行正常模式的音频识别处理的情况下,如图所示获得音频识别结果“five zero five”。
首先,话语特征检测单元23比较音量水平作为从音频信息“505”检测话语特征的处理。在图10的示例中,音频信息“505”的音量水平超过正常时间的音量水平,并且话语特征检测单元23将指示音量水平超过正常时间的音量水平的话语特征检测结果提供给音频识别模式切换处理单元26。
此外,特定无声时段检测单元24执行从音频信息“505”检测特定无声时段的处理。在图10的示例中,由空心箭头所示的时段被检测为特定无声时段,并且特定无声时段检测单元24将指示已经检测到特定无声时段的定时和间隔的特定无声时段检测结果提供给音频识别模式切换处理单元26。
然后,音频识别模式切换处理单元26基于从话语特征检测单元23提供的话语特征检测结果和从特定无声时段检测单元24提供的特定无声时段检测结果来确定是否执行特殊模式的音频识别处理。在图10所示的示例中,音频识别模式切换处理单元26基于音量水平超过正常时间的音量水平,并且以预定定时和间隔检测到特定无声时段的事实来确定执行特殊模式的音频识别处理。
因此,音频识别模式切换处理单元26将音频信息“BTX”提供给特殊模式音频识别单元28,并且特殊模式音频识别单元28执行特殊模式的音频识别处理。
例如,特殊模式音频识别单元28向音频识别结果输出处理单元29提供数字“505”作为通过执行特殊模式(一字符模式和数字转换模式)的音频识别处理而获得的音频识别结果。因此,音频识别结果输出处理单元29生成音频识别结果信息并将音频识别结果信息提供给通信单元21,音频识别结果信息用于输出使客户终端13的用户识别出已经获得数字“505”的音频识别结果的用户界面。
因此,客户终端13基于通过特殊模式的音频识别处理获得的音频识别结果来显示用户界面。换句话说,如图11所示,在图标51的下侧显示指示一字符模式的音频识别处理的标记“1个字符”和指示特殊模式的音频识别处理中的数字转换模式的音频识别处理的标记“数字”。然后,显示用于动态显示的用户界面,在动态显示中在通过一字符模式和数字转换模式的音频识别处理的识别期间的音频识别结果在图标51的麦克风周围移动的同时从单词转换为数字。
图11示出了其中单词“five”被转换为数字“5”的用户界面的示例。然而,对于随后的数字“0”和数字“5”重复类似的处理。然后,当完成关于音频信息“505”的所有音频识别时,如图12所示,在显示字段52中显示音频识别结果“Let’s start this battle BTX505”。
<音频识别处理的描述>
图13是说明在音频识别服务器14中执行的音频识别处理的流程图。
例如,通信单元21经由网络12接收从客户终端13发送的音频信息,并将该音频信息提供给输入声音处理单元22,并且然后处理开始。在步骤S11中,输入声音处理单元22执行从通信单元21提供的音频信息中检测包括由客户终端13的用户所说的音频的话语部分的处理。
在步骤S12中,输入声音处理单元22根据步骤S11的处理中的话语部分的检测结果,确定客户终端13的用户的话语是否已经开始。在步骤S12中,在输入声音处理单元22确定话语尚未开始的情况下,处理返回到步骤S11,并且处理处于待机状态,直到确定话语已经开始。
另一方面,在步骤S12中,在输入声音处理单元22确定客户终端13的用户的话语已经开始的情况下,处理前进到步骤S13。此时,输入声音处理单元22开始将话语部分的音频信息提供给话语特征检测单元23、特定无声时段检测单元24、噪声检测单元25和音频识别模式切换处理单元26。
在步骤S13中,话语特征检测单元23执行从输入声音处理单元22提供的话语部分的音频信息检测话语特征的处理,并将话语特征检测结果提供给音频识别模式切换处理单元26。例如,话语特征检测结果包括音频信息的音量水平与正常时间的音量水平之间的比较结果、音频信息的音频速度相对降低的检测结果、音频信息的音频频率相对增加的检测结果等。
在步骤S14中,特定无声时段检测单元24执行从输入声音处理单元22提供的话语部分的音频信息检测特定无声时段的处理,并且在检测到特定无声时段的情况下将特定无声时段检测结果提供给音频识别模式切换处理单元26。例如,特定无声时段检测结果包括特定无声时段检测单元24已经检测到的特定无声时段的定时和间隔。
在步骤S15中,噪声检测单元25执行从输入声音处理单元22提供的话语部分的音频信息检测噪声的处理,并且在检测到预定水平或更高水平的噪声的情况下,将指示已经检测到噪声的噪声检测结果提供给音频识别模式切换处理单元26。
在步骤S16中,音频识别模式切换处理单元26基于话语特征检测结果、特定无声时段和噪声检测结果来确定是否已经产生了用于执行特殊模式的音频识别处理的条件。例如,在基于音频信息的音频的音量水平大于正常时间的音量水平并且在预定时段(例如,1至2秒)中检测到两次以上的特定无声时段的情况下,音频识别模式切换处理单元26确定已经产生了用于在特殊模式下执行音频识别处理的条件。
类似地,在基于音频信息的音频输入速度相对慢,并且在预定时段中检测到两次以上的特定无声时段的情况下,音频识别模式切换处理单元26确定已经产生了用于在特殊模式中执行音频识别处理的条件。此外,在基于音频信息的音频的频率相对高、并且在预定时段中检测到两次以上的特定无声时段的情况下,音频识别模式切换处理单元26确定已经产生了用于执行特殊模式的音频识别处理的条件。例如,当说出特殊字符(例如ID)时,用户通常倾向于以比正常对话更大的语音说话、以较慢的语调说话或以较高的语音说话。因此,在上述条件下优选的是选择特殊模式的音频识别处理。此外,在噪声检测结果指示检测到预定水平或更高水平的噪声的情况下,音频识别模式切换处理单元26不选择特殊模式的音频识别处理,并且使执行正常模式的音频识别处理。
在步骤S16中,在音频识别模式切换处理单元26确定没有发生用于执行特殊模式的音频识别处理的条件的情况下,处理前进到步骤S17。
在步骤S17中,音频识别模式切换处理单元26将从输入声音处理单元22提供的话语部分的音频信息提供给正常模式音频识别单元27,并且正常模式音频识别单元27执行正常模式的音频识别处理。
在步骤S18中,正常模式音频识别单元27例如在每次从音频信息识别单词时,将单词作为音频识别结果提供给音频识别结果输出处理单元29。音频识别结果输出处理单元29生成音频识别结果信息并将音频识别结果信息提供给通信单元21,该音频识别结果信息用于输出使客户终端13的用户识别出其为通过正常模式的音频识别处理获得的音频识别结果的用户界面。因此,在客户终端13中,显示如上参考图6所述的用户界面。
在步骤S19中,音频识别模式切换处理单元26确定正常模式的音频识别处理是否结束。例如,与步骤S16类似,音频识别模式切换处理单元26持续监视是否已经产生用于执行特殊模式的音频识别处理的条件,并且当已经产生用于执行特殊模式的音频识别处理的条件时,音频识别模式切换处理单元26确定正常模式的音频识别处理结束。此外,例如,还有当输入声音处理单元22已经停止提供话语部分的音频信息时,音频识别模式切换处理单元26确定正常模式的音频识别处理结束。
在步骤S19中,在音频识别模式切换处理单元26确定正常模式的音频识别处理未结束的情况下,处理返回到步骤S17,并且此后重复类似的处理。另一方面,在步骤S19中,在音频识别模式切换处理单元26确定正常模式的音频识别处理结束的情况下,处理前进到步骤S20。
在步骤S20中,正常模式音频识别单元27向音频识别结果输出处理单元29提供从正常模式的音频识别处理开始直到音频识别处理结束的时段内的音频识别结果。音频识别结果输出处理单元29生成用于输出向用户呈现音频识别结果的用户界面的音频识别结果信息,并将该音频识别结果信息提供给通信单元21。因此,此时,客户终端13显示指示通过正常模式的音频识别处理识别的音频识别结果的用户界面。
另一方面,在步骤S16中,在音频识别模式切换处理单元26确定已经产生用于执行特殊模式的音频识别处理的条件的情况下,处理前进到步骤S21。
在步骤S21中,音频识别模式切换处理单元26将从输入声音处理单元22提供的话语部分的音频信息提供给特殊模式音频识别单元28,并且特殊模式音频识别单元28执行特殊模式的音频识别处理。
在步骤S22中,特殊模式音频识别单元28参考如图3所示的字符串数字转换表,并且确定音频识别结果是否是数字。
在步骤S22中,在特殊模式音频识别单元28确定音频识别结果是数字的情况下,处理前进到步骤S23,并且特殊模式音频识别单元28将音频识别结果转换为数字。
另一方面,在步骤S22中,在特殊模式音频识别单元28确定音频识别结果不是数字的情况下,处理前进到步骤S24,并且特殊模式音频识别单元28将音频识别结果改变为特殊字符。
在步骤S23或S24的处理之后,处理前进到步骤S25,例如,在每次从音频信息识别数字或特殊字符时,特殊模式音频识别单元28将音频识别结果提供给音频识别结果输出处理单元29。音频识别结果输出处理单元29生成音频识别结果信息并将音频识别结果信息提供给通信单元21,该音频识别结果信息用于输出使客户终端13的用户识别出其为通过特殊模式的音频识别处理获得的音频识别结果的用户界面。因此,在客户终端13中,显示如上参考图8和图11所述的用户界面。
在步骤S26中,音频识别模式切换处理单元26确定特殊模式的音频识别处理是否结束。例如,音频识别模式切换处理单元26持续监视在步骤S16中已经产生的用于执行特殊模式的音频识别处理的条件是否继续,并且当用于执行特殊模式的音频识别处理的条件不再继续时,音频识别模式切换处理单元26确定特殊模式的音频识别处理结束。此外,例如,当输入声音处理单元22已经停止提供话语部分的音频信息时,音频识别模式切换处理单元26确定特殊模式的音频识别处理结束。
在步骤S26中,在音频识别模式切换处理单元26确定特殊模式的音频识别处理未结束的情况下,处理返回到步骤S21,并且此后重复类似的处理。另一方面,在步骤S26中,在音频识别模式切换处理单元26确定特殊模式的音频识别处理结束的情况下,处理前进到步骤S27。
在步骤S27中,特殊模式音频识别单元28向音频识别结果输出处理单元29提供从特殊模式的音频识别处理开始直到音频识别处理结束的时段内的音频识别结果。音频识别结果输出处理单元29生成用于输出向用户呈现音频识别结果的用户界面的音频识别结果信息,并将该音频识别结果信息提供给通信单元21。因此,此时,客户终端13显示指示通过特殊模式的音频识别处理识别的音频识别结果的用户界面。
在步骤S20或S27的处理之后,处理前进到步骤S28,并且输入声音处理单元22确定客户终端13的用户的话语是否已经结束。在步骤S28中,在输入声音处理单元22确定话语尚未结束的情况下,处理返回到步骤S13,并且此后重复类似的处理。
另一方面,在步骤S28中,在输入声音处理单元22确定客户终端13的用户的话语已经结束的情况下,结束音频识别处理。
如上所述,音频识别服务器14可以基于话语特征检测结果、特定无声时段和噪声检测结果来切换正常模式的音频识别处理和特殊模式的音频识别处理。因此,音频识别服务器14可以在在正常对话的中间包括特殊字符的情况下执行适当的音频识别处理,从而可以提供更优选的音频输入。
<日语的音频识别处理>
音频识别系统11可以处理日语的音频识别处理。
如上所述,在英语的音频识别处理中,在特殊模式音频识别单元28中执行大写字母转换模式。另一方面,例如,在日语的音频识别处理中,可以在特殊模式音频识别单元28中执行转换模式以转换为平假名或片假名。
例如,在特定无声时段检测单元24从音频信息检测特定无声时段的情况下,音频识别模式切换处理单元26确定用户需要逐个字符的音频识别,并且特殊模式音频识别单元28执行一字符模式的音频识别处理。
此时,当话语特征检测单元23检测到音频信息的音量水平等于或低于正常时间的音量水平时,特殊模式音频识别单元28执行平假名模式下的音频识别处理。因此,如图14中的A所示,在图标51的下侧显示指示一字符模式的音频识别处理的标记“一个字符”和指示特殊模式的音频识别处理中的平假名模式的音频识别处理的标记“平假名”。
另一方面,当话语特征检测单元23检测到音频信息的音量水平超过正常时间的音量水平时,特殊模式音频识别单元28执行片假名模式下的音频识别处理。因此,如图14中的B所示,在图标51的下侧显示指示一字符模式的音频识别处理的标记“1个字符”和指示特殊模式的音频识别处理中的片假名模式的音频识别处理的标记“片假名”。
以这种方式,音频识别系统11可以执行适合于每种语言的特殊模式的音频识别处理。
<音频识别系统的API>
图15示出了用于实现音频识别系统11的音频识别处理的应用编程接口(API)的示例。
首先,当在客户终端13中检测到用户的话语开始时,从客户终端13向音频识别服务器14发送指示音频识别处理的开始的开始命令(Start())。
接着,从客户终端13向音频识别服务器14顺序地发送客户发送数据(send ClientData(Data))。在客户发送数据中,例如,如上所述的音频信息“Let’s start thisbattle”、音频信息“BTX”和音频信息“505”被存储为数据。
然后,在音频识别服务器14中执行音频识别处理之后,从音频识别服务器14向客户终端13顺序地发送服务器发送数据(send Server Data(result Data))。在服务器发送数据中,例如,如上所述的音频识别结果“Let’s start this battle”、音频识别结果“BTX”和音频识别结果“505”被存储为数据。此外,每个音频识别结果包括数据编号(result_data_num)、文本(result_text)和模式信息(recognition_mode)。
在客户终端13和音频识别服务器14之间执行这种数据发送和接收。此后,当在客户终端13中检测到用户的话语结束时,从客户终端13向音频识别服务器14发送指示音频识别处理结束的停止命令(stop())。
利用如上所述的API,可以实现音频识别系统11的音频识别处理。
<音频识别结果的显示示例>
将参考图16和图17描述客户终端13中的音频识别结果的显示示例。
如图16所示,例如,在客户终端13中,可以在聊天应用中采用音频识别。图16示出了其中响应于用户名为“PSZ09”的评论“Are you ready?”返回用户名为“VVX99”的评论“Let’s start this battle BTX505”,并且执行用户名为“BTX505”的评论“Yeeeeees”的示例。
此时,在客户终端13中保持了其中登记了用于聊天的用户名的好友列表,并且例如在用户名“VVX99”的好友列表中登记了用户名“PSZ09”和用户名“BTX505”等。因此,在获得在好友列表中登记的用户名作为音频识别结果的情况下,客户终端13可以强调并显示用户名。
在图16所示的示例中,用户名为“VVX99”的评论“Let's start this battleBTX505”中的用户名“BTX505”被修饰为用粗体强调。
类似地,图17示出了其中通过在显示字段52中的高亮显示来强调用户名“BTX505”的示例。
以这种方式,在客户终端13中强调并显示在好友列表中登记的用户名,用户可以容易地从视觉上识别音频识别结果是用户名。注意,例如,音频识别结果输出处理单元29可以通过音频识别结果信息指定用户名的这种强调和显示,并且使客户终端13执行强调和显示。
此外,与用户名类似,客户终端13强调并显示通过由特殊模式音频识别单元28执行特殊模式的音频识别处理而获得的音频识别结果,以帮助用户识别音频识别结果是特殊字符,例如缩写或数字。以这种方式,用户一目了然地识别出特殊字符,从而顺利地进行通信,并且用户很容易专注于原来的工作。
此外,客户终端13可以通过各种方法来强调音频识别结果,例如,通过改变字符的颜色、改变大小或高亮显示。注意,在通过合成音频输出音频识别结果的情况下,客户终端13可以以正常音量输出正常模式的音频识别处理的音频识别结果,并且可以以大于正常的音量输出特殊模式的音频识别处理的音频识别结果。可选地,可以改变输出特殊模式的音频识别处理的音频识别结果时的声音质量。这使得用户容易识别特殊字符等。
如上所述,音频识别结果输出处理单元29可以在正常模式的音频识别处理的音频识别结果和特殊模式的音频识别处理的音频识别结果之间生成用于改变用户界面的表示的音频识别结果信息。
注意,例如,在即使重复多次正常模式的音频识别处理,也提供类似的音频信息的情况下,换句话说,用户重复相同的话语,音频识别模式切换处理单元26可以确定音频识别结果是错误的,并且执行特殊模式的音频识别处理。此外,在提供用户执行删除对同一音频识别结果的所有音频输入的操作的信息的情况下,可以确定音频识别结果是错误的。因此,在这种情况下,例如,即使音频识别模式切换处理单元26执行正常模式的音频识别处理三次,当所有音频输入的删除被重复执行时,针对接下来要提供的音频信息,音频识别模式切换处理单元26可以执行特殊模式的音频识别处理。
此外,例如,音频识别模式切换处理单元26可以根据要进行音频输入的文本栏的属性来确定特殊模式的音频识别处理的选择。例如,用于输入邮政编码的文本栏具有仅输入数字的属性,使得音频识别模式切换处理单元26可以在特殊模式的音频识别处理中确定执行数字转换模式。
顺便提及,在如上所述针对用户名“BTX505”的音频识别结果“BTX”和音频识别结果“505”中的一个音频识别结果的可靠性较低的情况下,特殊模式音频识别单元28可以仅显示音频识别结果之一。换句话说,针对这样的用户名,在仅显示正确的音频识别结果的部分的情况下,而不显示部分错误的音频识别结果的情况下,用户可以更顺利地识别它是用户名。
此外,例如,在客户终端13中执行用于指示关于特殊模式的音频识别处理的指令的操作的情况下,音频识别模式切换处理单元26可以根据该操作将模式切换到特殊模式的音频识别处理。
此外,在音频识别系统11中,不是仅连接一个音频识别服务器14,例如,可以连接多个音频识别服务器14,使得每个音频识别服务器14可以同时执行相同音频信息的音频识别处理。在这种情况下,可以提供用户界面,使得多个音频识别结果以附加的可靠性被呈现,并且可以由用户选择。
注意,参考上述流程图描述的每个处理不需要总是按照流程图中描述的顺序按时间顺序执行,而是可以并行地或单独地执行(例如,并行处理或对象的处理)。此外,该程序可以由一个中央处理单元(CPU)处理,或者由多个CPU通过分布式处理来处理。
此外,还可以通过硬件执行上述一系列处理(信息处理方法)。然而,这一系列处理也可以通过软件来执行。在通过软件执行一系列处理的情况下,包括在软件中的程序从其中记录程序的程序记录介质安装到并入专用硬件中的计算机或例如可以通过安装各种程序来执行各种功能的通用个人计算机等。
图18是示出通过程序执行上述一系列处理的计算机的硬件配置的示例的框图。
这里,图18中所示的计算机101对应于例如图1中的客户终端13,并且图18示出了其中可以由客户终端13单独执行处理而无需经由网络12进行处理的配置示例。
计算机101包括音频信息获取设备102、视频输出设备103、音频输出设备104、CPU105、存储器106、存储设备107以及网络输入和输出设备108。此外,与图2所示的音频识别服务器14类似,计算机101包括通信单元21、输入声音处理单元22、话语特征检测单元23、特定无声时段检测单元24、噪声检测单元25、音频识别模式切换处理单元26、正常模式音频识别单元27、特殊模式音频识别单元28以及音频识别结果输出处理单元29。
例如,音频信息获取设备102包括麦克风,视频输出设备103包括显示器,并且音频输出设备104包括扬声器。此外,网络输入和输出设备108对应于图2的通信单元21,并且,例如,可以根据局域网(LAN)的标准执行通信。
然后,在计算机101中,CPU 105将存储在存储设备107中的程序读到存储器106并执行该程序,从而执行上述一系列处理。
注意,要由CPU 105执行的程序可以通过被记录在包括例如磁盘(包括软盘)、光盘(紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD)等)、磁光盘、半导体存储器等的封装介质中来提供,或者可以通过利用网络输入和输出设备108经由有线或无线传输介质来提供。
注意,本技术可以采用以下配置。
(1)
一种信息处理装置,包括:
话语特征检测单元,获取通过用户的话语获得的音频信息,并从音频信息检测话语的特征;
特定无声时段检测单元,在检测其中音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;
选择单元,基于已经由话语特征检测单元从音频信息检测到的话语的特征和已经由特定无声时段检测单元从音频信息检测到的特定无声时段来选择要对音频信息执行的音频识别处理;以及
输出处理单元,将通过已经由选择单元选择的音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,音频识别结果信息指示已经获得音频识别结果的音频识别处理。
(2)
上述(1)描述的信息处理装置,其中,
选择单元选择用于识别正常字符串的正常模式的音频识别处理或用于识别特殊字符串的特殊模式的音频识别处理,来作为对音频信息执行的音频识别处理。
(3)
上述(2)描述的信息处理装置,其中,
在确定已经由话语特征检测单元从音频信息中检测到特定特征、并且确定已经由特定无声时段检测单元从音频信息中以预定间隔重复检测到特定无声时段的情况下,选择单元选择特殊模式的音频识别处理。
(4)
上述(3)描述的信息处理装置,其中,
话语特征检测单元将基于音频信息的音频的音量水平作为话语的特征来检测,并且
在音频的音量水平超过预设的预定音量水平的情况下,选择单元确定已经从音频信息中检测到特定特征。
(5)
上述(3)或(4)描述的信息处理装置,其中,
话语特征检测单元将基于音频信息的音频的输入速度作为话语的特征来检测,并且
在已经发生其中由话语特征检测单元检测到的音频的输入速度变得相对慢的变化的情况下,选择单元确定已经从音频信息中检测到特定特征。
(6)
上述(3)至(5)中任一项描述的信息处理装置,其中,
话语特征检测单元将基于音频信息的音频的频率作为话语的特征来检测,并且
在已经发生由话语特征检测单元检测到的音频的频率变得相对高的变化的情况下,选择单元确定已经从音频信息中检测到特定特征。
(7)
上述(2)至(6)中任一项描述的信息处理装置,其中,
在特殊模式的音频识别处理中,通过音频识别所识别的单词被转换成数字并被输出。
(8)
上述(2)至(7)中任一项描述的信息处理装置,其中,
在特殊模式的音频识别处理中,通过音频识别所识别的字母被逐个字符地转换成大写字母并被输出。
(9)
上述(2)至(8)中任一项描述的信息处理装置,其中,
在特殊模式的音频识别处理中,通过音频识别所识别的每一个字符被转换成片假名并被输出。
(10)
上述(2)至(9)中任一项描述的信息处理装置,
还包括噪声检测单元,噪声检测单元检测包括在音频信息中的噪声的音量水平,
其中,在噪声的音量水平超过预设的预定音量水平的情况下,选择单元避免选择特殊模式的音频识别处理。
(11)
上述(2)至(10)中任一项描述的信息处理装置,其中,
输出处理单元在正常模式的音频识别处理的音频识别结果和特殊模式的音频识别处理的音频识别结果之间改变用户界面的表示。
(12)
上述(1)至(11)中任一项的信息处理装置,还包括:
通信单元,经由网络与另一装置通信;以及
输入声音处理单元,执行检测其中音频信息包括音频的话语部分的处理,
其中,通信单元
获取经由网络从另一装置发送的音频信息,将音频信息提供给输入声音处理单元,并且
将从输出处理单元输出的音频识别结果信息经由网络发送到另一装置。
(13)
一种信息处理方法,包括以下步骤:
获取由用户的话语获得的音频信息,并从音频信息检测话语的特征;
在检测其中音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;
基于已经从音频信息检测到的话语的特征和已经从音频信息检测到的特定无声时段,选择要对音频信息执行的音频识别处理;以及
将通过已经选择的音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,音频识别结果信息指示已经获得音频识别结果的音频识别处理。
(14)
一种程序,使计算机执行信息处理,该信息处理包括以下步骤:
获取通过用户的话语获得的音频信息,并从音频信息检测话语的特征;
在检测其中音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;
基于已经从音频信息检测到的话语的特征和已经从音频信息检测到的特定无声时段,选择要对音频信息执行的音频识别处理;以及
将通过已经选择的音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,该音频识别结果信息指示已经获得音频识别结果的音频识别处理。
注意,本实施方式不限于上述实施方式,并且在不背离本公开的主旨的情况下可以进行各种修改。
参考符号列表
11 音频识别系统
12 网络
13 客户终端
14 音频识别服务器
21 通信单元
22 输入声音处理单元
23 话语特征检测单元
24 特定无声时段检测单元
25 噪声检测单元
26 音频识别模式切换处理单元
27 正常模式音频识别单元
28 特殊模式音频识别单元
29 音频识别结果输出处理单元
51 图标
52 显示字段
101 计算机
102 音频信息获取设备
103 视频输出设备
104 音频输出设备
105 CPU
106 存储器
107 存储设备
108 网络输入和输出设备。

Claims (14)

1.一种信息处理装置,包括:
话语特征检测单元,获取通过用户的话语获得的音频信息,并从所述音频信息检测所述话语的特征;
特定无声时段检测单元,在检测其中所述音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;
选择单元,基于已经由所述话语特征检测单元从所述音频信息检测到的所述话语的特征和已经由所述特定无声时段检测单元从所述音频信息检测到的所述特定无声时段来选择要对所述音频信息执行的音频识别处理;以及
输出处理单元,将通过已经由所述选择单元选择的所述音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,所述音频识别结果信息指示已经获得所述音频识别结果的所述音频识别处理。
2.根据权利要求1所述的信息处理装置,其中,
所述选择单元选择用于识别正常字符串的正常模式的音频识别处理或用于识别特殊字符串的特殊模式的音频识别处理,来作为对所述音频信息执行的所述音频识别处理。
3.根据权利要求2所述的信息处理装置,其中,
在确定已经由所述话语特征检测单元从所述音频信息中检测到特定特征、并且确定已经由所述特定无声时段检测单元从所述音频信息中以预定间隔重复检测到所述特定无声时段的情况下,所述选择单元选择所述特殊模式的所述音频识别处理。
4.根据权利要求3所述的信息处理装置,其中,
所述话语特征检测单元将基于所述音频信息的所述音频的音量水平作为所述话语的特征来检测,并且
在所述音频的所述音量水平超过预设的预定音量水平的情况下,所述选择单元确定已经从所述音频信息中检测到所述特定特征。
5.根据权利要求3所述的信息处理装置,其中,
所述话语特征检测单元将基于所述音频信息的所述音频的输入速度作为所述话语的特征来检测,并且
在已经发生其中由所述话语特征检测单元检测到的所述音频的所述输入速度变得相对慢的变化的情况下,所述选择单元确定已经从所述音频信息中检测到所述特定特征。
6.根据权利要求3所述的信息处理装置,其中,
所述话语特征检测单元将基于所述音频信息的所述音频的频率作为所述话语的特征来检测,并且
在已经发生由所述话语特征检测单元检测的所述音频的频率变得相对高的变化的情况下,所述选择单元确定已经从所述音频信息中检测到所述特定特征。
7.根据权利要求2所述的信息处理装置,其中,
在所述特殊模式的所述音频识别处理中,通过音频识别所识别的单词被转换成数字并被输出。
8.根据权利要求2所述的信息处理装置,其中,
在所述特殊模式的所述音频识别处理中,通过音频识别所识别的字母被逐个字符地转换成大写字母并被输出。
9.根据权利要求2所述的信息处理装置,其中,
在所述特殊模式的所述音频识别处理中,通过音频识别所识别的每一字符被转换成片假名并被输出。
10.根据权利要求2所述的信息处理装置,其中,
还包括噪声检测单元,所述噪声检测单元检测包括在所述音频信息中的噪声的音量水平,
其中,在所述噪声的所述音量水平超过预设的预定音量水平的情况下,所述选择单元避免选择所述特殊模式的所述音频识别处理。
11.根据权利要求2所述的信息处理装置,其中,
所述输出处理单元在所述正常模式的所述音频识别处理的音频识别结果和所述特殊模式的所述音频识别处理的音频识别结果之间改变用户界面的表示。
12.根据权利要求1所述的信息处理装置,还包括:
通信单元,经由网络与另一装置通信;以及
输入声音处理单元,执行检测其中所述音频信息包括音频的话语部分的处理,
其中,所述通信单元
获取经由所述网络从所述另一装置发送的所述音频信息,将所述音频信息提供给所述输入声音处理单元,并且
将从所述输出处理单元输出的所述音频识别结果信息经由所述网络发送到所述另一装置。
13.一种信息处理方法,包括以下步骤:
获取通过用户的话语获得的音频信息,并从所述音频信息检测所述话语的特征;
在检测其中所述音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;
基于已经从所述音频信息检测到的所述话语的特征和已经从所述音频信息检测到的所述特定无声时段,选择要对所述音频信息执行的音频识别处理;以及
将通过已经选择的所述音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,所述音频识别结果信息指示已经获得所述音频识别结果的所述音频识别处理。
14.一种程序,使计算机执行信息处理,所述信息处理包括以下步骤:
获取通过用户的话语获得的音频信息,并从所述音频信息检测所述话语的特征;
在检测其中所述音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;
基于已经从所述音频信息检测到的所述话语的特征和已经从所述音频信息检测到的所述特定无声时段,选择要对所述音频信息执行的音频识别处理;以及
将通过已经选择的所述音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,所述音频识别结果信息指示已经获得所述音频识别结果的所述音频识别处理。
CN201780051273.0A 2016-08-31 2017-08-17 信息处理装置、信息处理方法和程序 Withdrawn CN109643551A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-170307 2016-08-31
JP2016170307 2016-08-31
PCT/JP2017/029492 WO2018043138A1 (ja) 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN109643551A true CN109643551A (zh) 2019-04-16

Family

ID=61300546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780051273.0A Withdrawn CN109643551A (zh) 2016-08-31 2017-08-17 信息处理装置、信息处理方法和程序

Country Status (5)

Country Link
US (1) US20200320976A1 (zh)
EP (1) EP3509062B1 (zh)
JP (1) JPWO2018043138A1 (zh)
CN (1) CN109643551A (zh)
WO (1) WO2018043138A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789955B2 (en) * 2018-11-16 2020-09-29 Google Llc Contextual denormalization for automatic speech recognition
EP3948854B1 (en) * 2019-04-16 2024-01-31 Google LLC Joint endpointing and automatic speech recognition
CN110166816B (zh) * 2019-05-29 2020-09-29 上海松鼠课堂人工智能科技有限公司 用于人工智能教育的基于语音识别的视频编辑方法和系统
JP6730760B2 (ja) * 2020-03-05 2020-07-29 株式会社オープンエイト サーバおよびプログラム、動画配信システム
US11417337B1 (en) * 2021-08-12 2022-08-16 Cresta Intelligence Inc. Initiating conversation monitoring system action based on conversational content
JP2023180622A (ja) * 2022-06-10 2023-12-21 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
JPS6048099A (ja) * 1983-08-26 1985-03-15 松下電器産業株式会社 音声認識装置
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5794196A (en) * 1995-06-30 1998-08-11 Kurzweil Applied Intelligence, Inc. Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
JP2000347684A (ja) 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム
JP3906327B2 (ja) * 2002-03-29 2007-04-18 独立行政法人産業技術総合研究所 音声入力モード変換システム

Also Published As

Publication number Publication date
WO2018043138A1 (ja) 2018-03-08
EP3509062A1 (en) 2019-07-10
JPWO2018043138A1 (ja) 2019-06-24
EP3509062B1 (en) 2020-05-27
EP3509062A4 (en) 2019-08-07
US20200320976A1 (en) 2020-10-08

Similar Documents

Publication Publication Date Title
CN109643551A (zh) 信息处理装置、信息处理方法和程序
US10210861B1 (en) Conversational agent pipeline trained on synthetic data
EP3210205B1 (en) Sound sample verification for generating sound detection model
US9984679B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US8606581B1 (en) Multi-pass speech recognition
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
US20120290298A1 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
CN102708855B (zh) 利用话音识别器反馈来进行语音活动检测
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
US20060235699A1 (en) Automating input when testing voice-enabled applications
JP2019061662A (ja) 情報を抽出する方法及び装置
Alon et al. Contextual speech recognition with difficult negative training examples
CN108648750A (zh) 混合模型语音识别
CN104008752B (zh) 语音识别装置及方法、以及半导体集成电路装置
JP4729902B2 (ja) 音声対話システム
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
CN105845133A (zh) 语音信号处理方法及装置
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
WO2018016143A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
US6952674B2 (en) Selecting an acoustic model in a speech recognition system
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
CN111414748A (zh) 话务数据处理方法及装置
CN103928024B (zh) 一种语音查询方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190416

WW01 Invention patent application withdrawn after publication