CN109478405A - 信息处理设备、信息处理方法以及程序 - Google Patents

信息处理设备、信息处理方法以及程序 Download PDF

Info

Publication number
CN109478405A
CN109478405A CN201780043940.0A CN201780043940A CN109478405A CN 109478405 A CN109478405 A CN 109478405A CN 201780043940 A CN201780043940 A CN 201780043940A CN 109478405 A CN109478405 A CN 109478405A
Authority
CN
China
Prior art keywords
voice
section
information processing
processing equipment
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780043940.0A
Other languages
English (en)
Inventor
河野真
河野真一
泷祐平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN109478405A publication Critical patent/CN109478405A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

为了提供能够更适当地确定用于基于收集到的语音的语音识别而指定的字符串组的整合的单元的信息处理设备、信息处理方法以及程序。一种信息处理设备,包括:获取单元,其获取与收集到的语音的声音属性的变化有关的检测结果;以及确定单元,其基于检测结果确定基于语音的语音识别而指定的字符串组的整合的单元。

Description

信息处理设备、信息处理方法以及程序
技术领域
本公开内容涉及信息处理设备、信息处理方法以及程序。
背景技术
常规地,已经提出了与自然语言处理有关的各种技术。例如,在下面的专利文献1中,公开了一种基于用户从多个单词和短语中选择的单词和短语来撰写句子的技术。
此外,已经提出了与语音识别有关的各种技术。利用语音识别,可以在用户说话时将语音转换成字符串。
引用列表
专利文献
专利文献1:JP 2012-53634A
发明内容
技术问题
顺便提及,还期望使从收集到的语音的语音识别结果获取的字符串组分组成多个组。然而,在传统技术中,无论收集到的语音的声音属性如何都固定地确定字符串组的簇段。为此,在传统技术中,例如,可能在一些字符串组中不恰当地确定簇段。
因此,本公开内容提出了一种新的且经改进的信息处理设备、信息处理方法以及程序,其使得能够适当地确定基于收集到的语音的语音识别而指定的字符串组的簇段。
问题的解决方案
根据本公开内容,提供了一种信息处理设备,包括:获取单元,其获取与收集到的语音的声音属性的变化有关的检测结果;以及确定单元,其基于检测结果确定与基于语音的语音识别而指定的字符串组有关的簇段。
此外,根据本公开内容,提供了一种信息处理方法,包括:获取与收集到的语音的声音属性的变化有关的检测结果;以及由处理器基于检测结果确定与基于语音的语音识别而指定的字符串组有关的簇段。
此外,根据本公开内容,提供了一种使计算机用作以下的程序:获取单元,其获取与收集到的语音的声音属性的变化有关的检测结果;以及确定单元,其基于检测结果确定与基于语音的语音识别而指定的字符串组有关的簇段。
发明的有益效果
如上所述,根据本公开内容,可以适当地确定基于收集到的语音的语音识别而指定的字符串组的簇段。此外,本文描述的效果并不必是限制性的,并且可以应用本公开内容中描述的任何效果。
附图说明
[图1]图1是描述根据本公开内容的实施方式的信息处理系统的配置示例的图。
[图2]图2是示出根据本公开内容的比较示例的与从语音识别结果获取的字符串组32有关地确定簇段的示例的图。
[图3]图3是示出根据本公开内容的实施方式的服务器10的配置示例的功能框图。
[图4]图4是示出根据实施方式的簇段的确定示例的部分的图。
[图5]图5是示出根据实施方式的簇段的确定示例的部分的图。
[图6]图6是示出根据实施方式的簇段的显示示例的图。
[图7]图7是示出根据实施方式的操作示例的部分的流程图。
[图8]图8是示出根据实施方式的操作示例的部分的流程图。
[图9]图9是描述根据本公开内容的实施方式的服务器10的硬件配置示例的图。
具体实施方式
在下文中,将参照附图详细描述本公开内容的(一个或多个)优选实施方式。注意,在本说明书和附图中,使用相同的附图标记来表示具有基本相同的功能和结构的结构元件,并且省略了对这些结构元件的重复说明。
此外,在本说明书和附图中存在下述情况:通过向相同的附图标记附加不同的字母来将具有基本相同的功能配置的多个部件彼此区分开。在一个示例中,如果需要,则区分具有基本相同的功能配置的多个部件,如服务器10a和服务器10b。然而,当不存在对具有基本相同的功能配置的多个部件彼此区分的特定需求时,则仅向其附加同一附图标记。在一个示例中,当不存在区分服务器10a和服务器10b的特定需求时,则将它们简称为服务器10。
此外,将根据以下列出的项的顺序来描述“具体实施方式”。
1.信息处理系统的配置
2.对实施方式的详细描述
3.硬件配置
4.修改示例
<<信息处理系统的配置>>
首先,参照图1给出了对根据本公开内容的实施方式的信息处理系统的配置的描述。如图1所示,信息处理系统包括服务器10、终端20和通信网络22。
<1-1.终端20>
终端20是用户使用的信息处理终端。例如,终端20能够在用户讲话时收集语音并且显示显示画面。
如图1所示,终端20包括例如声音收集单元200和操作显示单元202。声音收集单元200例如是麦克风。声音收集单元200检测外部声音(空气振动),并且将它们转换为电信号。
操作显示单元202包括显示单元和操作单元,显示单元显示显示画面,操作单元检测用户的触摸操作。显示单元包括例如LCD(液晶显示器)设备和OLED(有机发光二极管)设备。此外,操作单元包括例如触摸板。
此外,终端20能够经由以下描述的通信网络22与其他设备进行通信。例如,终端20经由通信网络22将由声音收集单元200收集到的语音数据发送到服务器10。注意,终端20可以例如向服务器10集中发送在单个语音输入时的语音数据,或者,以预定时间间隔每当收集语音时发送,可以顺序地(实时地)向服务器10发送仅在相关时间处收集到的语音。
{1-1-1.修改示例}
注意,图1中示出了终端20是智能电话的示例。但是,这并非是限制性的。例如,终端20可以是通用PC(个人计算机)、平板型终端、游戏机、智能电话以外的电话设备、便携式音乐播放器、电视接收器、机器人或者例如HMD(头戴式显示器)、头戴式耳机或诸如智能手表的可穿戴设备。
此外,终端20的配置不限于上述示例。例如,终端20可以不包括操作显示单元202。在该情况下,包括上述显示单元和上述操作单元的另一设备(未示出)可以连接至通信网络22。注意,上述显示单元和上述操作单元可以包括在同一设备中,或者每个单元可以包括在单独的设备中。
<1-2.服务器10>
服务器10是根据本公开内容的信息处理设备的示例。服务器10具有语音识别功能。例如,服务器10能够对经由通信网络22从终端20接收的语音数据执行语音识别(云语音识别)。此外,服务器10能够对从语音识别结果获取的字符串组执行各种类型的语言处理。此处,字符串组是一个或更多个字符串。
此外,服务器10能够基于对字符串组执行的语言处理的结果来确定与字符串组有关的一个或更多个簇段(在下文中,称为“簇段”)。此处,簇段包括一个或更多个字符。例如,簇段可以包括一个或更多个术语。更具体地,在语言是英语、德语等的情况下,簇段可以包括一个或更多个单词,而在语言是日语的情况下,簇段可以包括一个或更多个短语。
<1-3.通信网络22>
通信网络22是用于从连接到通信网络22的设备发送的信息的有线或无线传输路径。例如,通信网络22可以包括电话线网络、因特网、诸如卫星通信网络的公共线路网络、各种类型的LAN(局域网)例如以太网(注册商标)、WAN(广域网)等。此外,通信网络22可以包括专用线路网络,例如IP-VPN(因特网协议-虚拟专用网络)。
<1-4.对问题的概述>
如上所述,已给出了对根据本实施方式的信息处理系统的配置的描述。此处,为了清楚地表示本实施方式的特征,给出了根据本公开内容的比较示例的簇段的确定方法的描述。在本比较示例中,针对从收集到的语音的语音识别结果获取的字符串组,仅使用对字符段组的语言处理的结果来确定簇段。然而,在该方法中存在的问题是,无论用户的意图如何都可以确定簇段。
此处,参照图2,给出了上述内容的更详细描述。图2是示出根据本比较示例的簇段的确定示例的图。在图2所示的示例中,用户首先发出“我每天开你的车到机场”的语音30。在该情况下,在本比较示例中,对语音30的语音数据执行语音识别,并且将得到的数据转换成字符串组32。注意,图2示出了语音识别中语音中的“每天”的声音被错误地识别为“兄弟”的示例。
此后,在本比较示例中,对字符串组32执行语言处理,并且如图2所示,仅基于语言处理的结果确定多个簇段400。
顺便提及,在图2所示的示例中,在用户正常讲话的情况下,与“到机场”对应的语音和与“每天”对应的语音通常可以在声音属性(例如,声音速度、音量等)上不同,或者可以包括被确定为两个语音之间的部分中的无声状态的时段。因此,通常并且希望“到机场”和“兄弟”各自被确定为单独的簇段。
然而,在本比较示例中,仅基于语言处理结果(即,包括在字符串组32中的语法信息)来确定簇段,并且因此,确定“到机场兄弟”的簇段400c。此外,在该情况下,即使当用户希望仅修改“兄弟”时,用户也必须删除整个簇段400c,这需要大量劳力。
因此,以上述情况作为主要观点设计出了根据本实施方式的服务器10。根据本公开内容的服务器10获取与收集到的语音的声音属性的变化有关的检测结果,并且基于检测结果确定与基于检测结果从语音的语音识别结果获取的字符串组有关的簇段。因此,这样确定簇段以适应收集到的语音的声音属性,并且因此,可以更适当地确定字符串组的簇段。例如,可以确定反映讲话者意图的簇段。
<<2.对实施方式的详细描述>>
<2-1.配置>
接下来,给出对根据本实施方式的配置的详细描述。图3是示出根据本实施方式的服务器10的配置示例的功能框图。如图3所示,服务器10包括控制器100、通信单元120和存储单元122。
{2-1-1.控制器100}
控制器100通过使用硬件例如内置于服务器10中的稍后描述的CPU(中央处理单元)150和稍后描述的RAM(随机存取存储器)154来整体地控制服务器10的操作。此外,如图3所示,控制器100包括声音分析单元102、确定单元104、语音识别单元106和显示控制器108。
{2-1-2.声音分析单元102}
(2-1-2-1.声音属性的检测)
声音分析单元102是根据本公开内容的获取单元的示例。声音分析单元102检测与从终端20接收到的语音数据的声音属性有关的信息。例如,声音分析单元102基于与从终端20接收到的语音数据对应的语音波形来检测声音属性的变化。此处,声音属性可以包括例如声音速度、音量、音调(频率)等。
图4是示出基于语音30的语音数据检测声音属性的变化的示例的图,该语音30与图2所示的示例的语音30相同。如图4所示,声音分析单元102首先例如基于从终端20接收到的并且与语音30的语音数据对应的语音波形34,来检测速度的波形36。此后,声音分析单元102基于速度的波形36检测每个定时处的声音速度的变化。
注意,在从终端20顺序地(渐渐地)接收在单个语音输入时的语音数据的情况下,声音分析单元102还能够在每次接收到相关语音数据时顺序地检测相关的声音属性。
(2-1-2-2.“停顿(停顿)的检测示例”)
此外,声音分析单元102基于接收到的语音数据检测被确定为无声状态(下文中,称为“停顿”)的时段的存在或不存在。此处,“停顿”可以是一个或更多个单位时间持续的时段。在单位时间中,具有幅度不小于第一阈值的语音数据的幅度的过零次数小于第二阈值。注意,在单位时间中,在具有幅度不小于第一阈值的语音数据的幅度的过零次数不小于第二阈值的情况下,可以确定为声音存在状态。可替选地,“停顿”可以是语音期间的短无声时段(短停顿)例如在语音期间进行呼吸的时段,或与作为语音目标的句子中的标点符号对应的语音定时。
例如,在图4所示的示例中,声音分析单元102基于语音波形34检测“停顿”360a和“停顿”360b。注意,在从终端20顺序地(渐渐地)接收在单个语音输入时的语音数据的情况下,声音分析单元102还能够在每次接收到相关语音数据时顺序地检测“停顿”。
(2-1-3.确定单元104)
确定单元104基于声音分析单元102的与接收到的语音数据的声音属性的变化有关的检测结果,确定从语音数据的语音识别结果获取的字符串组的簇段。例如,确定单元104首先基于与声音属性的变化有关的检测结果指定声音属性满足预定条件的一个或更多个区间。此后,对于指定的一个或更多个区间中的每一个,确定单元104基于与该区间对应的语音,确定从由稍后描述的语音识别单元106识别的结果中获取的字符串组作为簇段。注意,满足预定条件的区间可以对应于与(由确定单元104确定的)簇段对应的语音部分。
(2-1-3-1.指定区间的示例)
-确定示例1
此处,给出了对满足预定条件的区间的具体示例的描述。例如,该区间可以是从预定开始定时直到紧接在检测到如下值的定时之前的时间的时间段,其中,该值与在开始定时处的声音属性的检测值的差的绝对值大于预定阈值。注意,预定开始定时可以是语音数据中的声音的第一检测定时、紧接在前一“停顿”的结束定时之后的时间、紧接在该区间的前一相邻区间的结束定时之后的时间等
例如,在图4所示的示例中,在作为从时间t0至时间t1的时段的区间L1内的每个定时处的声音速度的检测值与时间t0处的声音速度的检测值之间的差的绝对值不大于预定阈值。此外,紧接在时间t1之后的时间处的声音速度的检测值与在时间t0处的声音速度的检测值之间的差的绝对值大于预定阈值。在该情况下,确定单元104将区间L1指定为满足预定条件的区间。类似地,声音分析单元102分别将区间L2和区间L3指定为满足预定条件的区间。
-确定示例2
可替选地,满足预定条件的区间可以是相邻“停顿”之间的时段,或者是比该时段略短的时段(例如,开始定时比该时段的开始时间晚预定时间段并且结束定时比该时段的结束时间早预定时间段)。例如,在图4所示的示例中,确定单元104将与直到首次检测到“停顿”360的时段对应的区间L1、与“停顿”360a与“停顿”360b之间的时段对应的区间L2以及与从最终“停顿”360(即“停顿”360b)的结束时间到语音数据的结束时间的时段对应的区间L3中的每一个指定为满足预定条件的区间。
-确定示例3
可替选地,满足预定条件的区间可以是连续区间,其中声音属性的检测值的上限值与下限值之间的差不大于预定阈值。
(2-1-3-2.簇段的确定示例)
接下来,参照图5,给出确定单元104的上述功能的详细描述。图5是示出从图4所示的语音30的语音数据的语音识别结果获取的字符串组的簇段的确定示例的图。在图5所示的示例中,确定单元104首先将区间L1、区间L2和区间L3中的每一个区间指定为满足预定条件的区间。此后,如图5所示,确定单元104将从与区间L1对应的语音的语音识别结果获取的字符串组识别为簇段400a。类似地,确定单元104将从与区间L2和区间L3中的每一个区间对应的语音的语音识别结果获取的字符串组中的每一个字符串组确定为单个簇段400。根据确定示例,通过在语音上反映声音属性来确定簇段。例如,如图5所示,“到机场”和“兄弟”分别被确定为单独的簇段。结果,例如,在针对每个簇段编辑字符串的应用中,在用户希望将“兄弟”修改为“每天”的情况下,用户可以仅删除“兄弟”,从而不需要删除“到机场”。因此,用户的修改操作变得便利。
此外,在用户将确定的簇段修改成另一字符串组的情况下,修改后的簇段和字符串组可以彼此关联,并且可以被登记(作为学习数据)。注意,学习数据可以存储在例如存储单元122中。
{2-1-4.语音识别单元106}
语音识别单元106基于由确定单元104指定的区间对接收到的语音数据执行语音识别。例如,对于由确定单元104指定的多个区间中的每一个,语音识别单元106对与该区间对应的语音执行语音识别。
在图5所示的示例中,对于由确定单元104指定的区间L1、区间L2和区间L3中的每一个,语音识别单元106对与相应区间对应的语音执行语音识别。例如,语音识别单元106对与区间L1对应的语音执行语音识别,并且然后将语音转换成字符串组(“我开你的车”)。
{2-1-5.显示控制器108}
显示控制器108执行控制以使由确定单元104确定的一个或更多个簇段显示在终端20上。
此外,对于一个或更多个簇段中的每一个簇段,显示控制器108还能够使与簇段关联的修改候选的字符串组进一步显示在(终端20的)显示画面上。例如,可以准备上述学习数据,即由彼此关联并且登记的过去确定的簇段和由用户在簇段上修改的字符串组产生的数据。在该情况下,例如,显示控制器108首先确认由确定单元104确定的全部簇段中的每一个是否被存储在学习数据中。此后,在至少任何簇段被存储在学习数据中的情况下,显示控制器108从学习数据中提取已经与簇段关联并且被登记的过去已被修改的字符串组,并且使字符串组显示在显示画面上。
图6是示出显示画面40上的多个簇段400的显示示例的图。注意,图6示出了显示图5所示的三个簇段400的示例。此外,在图6中,用户过去将“兄弟”的簇段400c修改为“每天”的事实被存储在学习数据中。
在该情况下,如图6所示,显示控制器108彼此区分(例如,通过用框封闭,如图6所示)由确定单元104确定的三个簇段400,以使簇段显示在显示画面40上。此外,显示控制器108使与“兄弟”关联的“每天”作为修改候选410的字符串组显示在与簇段400c的显示位置有关的位置(例如,接近和低于显示位置,如图6所示)处。根据该显示示例,在“兄弟”不是用户想要的字符串组的情况下,用户能够通过选择,例如修改候选410的字符串组来容易地将“兄弟”修改为“每天”。
{2-1-6.通信单元120}
通信单元120例如经由通信网络22向另一设备发送信息以及从另一设备接收信息。例如,通信单元120从终端20接收语音数据。此外,通信单元120向终端20发送控制信息以根据显示控制器108的控制使得显示一个或更多个确定的簇段。
{2-1-7.存储单元122}
存储单元122存储各种数据和各种类型的软件。
<2-2.操作>
以上描述了本实施方式的配置。接下来,参照图7和图8给出根据本实施方式的操作的描述。注意,描述了在用户向终端20执行字符串组的语音输入的场景下的操作示例。此外,下面给出终端20向服务器10集中发送在单个语音输入时的语音数据的示例的描述。
图7是根据本实施方式的操作示例的部分的流程图。如图7所示,例如,终端20首先基于用户对终端20的预定操作来启动语音输入应用(S101)。此后,用户对终端20讲话,并且声音收集单元200收集语音的声音(S103)。
接下来,终端20将收集到的语音发送到服务器10(S105)。
此后,服务器10的声音分析单元102将极短时间ΔT设置为分析目标的时段T(S107)。
接下来,声音分析单元102确定是否在时段T中检测到接收到的语音数据中的“停顿”(S109)。在检测到“停顿”(S109:是)的情况下,服务器10执行稍后描述的S121的处理。
相反,在时段T中未检测到“停顿”(S109:否)的情况下,声音分析单元102接下来检测时段T中的语音数据中的声音属性(例如,声音速度、音量等)(S111)。
接下来,声音分析单元102确定检测到的声音属性的检测值是否均在预定范围内(S113)。例如,声音分析单元102确定在满足上述预定条件的区间的开始定时处检测到的声音速度与在S111中检测到的声音速度的差的绝对值是否在预定范围内。
在检测到的声音属性的检测值(至少一种检测值)在预定范围之外(S113:否)的情况下,服务器10执行稍后描述的S121的处理。
相反,在检测到的声音属性的检测值(全部类型的检测值)在预定范围内(S113:是)的情况下,声音分析单元102临时保持在接收到的语音数据的时间段T中的声音信息(S115)。此后,声音分析单元102将ΔT与T相加(S117)。此后,服务器10再次执行S109之后的处理。
此处,参照图8,给出S121之后的处理的描述。如图8所示,语音识别单元106对当前由声音分析单元102保持的声音信息执行语音识别,并且将声音信息转换成字符串组(S121)。
接下来,声音分析单元102消除已经保持的声音信息(S123)。
接下来,确定单元104将在S121中转换的字符串组确定为单个簇段(S125)。
此后,声音分析单元102确定对全部语音数据的语音识别是否已经结束(S127)。在对全部语音数据的语音识别尚未结束(S127:否)的情况下,声音分析单元102将ΔT与T相加(S129)。此后,服务器10再次执行S109之后的处理。
相反,在对全部语音数据的语音识别已经结束(S127:是)的情况下,并且由用户执行结束语音输入的操作(S131:是),终端20结束语音输入应用程序(S133)。此后,本操作结束。
相反,在不执行结束语音输入的操作(S131:否)的情况下,再次执行S103之后的处理。
<2-3.效果>
如上所述,根据本公开内容,服务器10获取与收集到的语音的声音属性的变化有关的检测结果,并且基于检测结果确定从语音的语音识别结果获取的字符串组的簇段。因此,这样确定簇段以适应收集到的语音的声音属性,并且因此,可以更适当地确定字符串组的簇段。
通常,当用户正常讲话时,与簇段对应的语音的声音属性(例如,声音速度、音量等)可以针对用户想要的簇段中的每一个(针对语音的语音识别结果)而不同。可替选地,可以在与用户想要的各个簇段对应的语音的区间之间包括“停顿”。因此,服务器10利用与收集到的语音的声音属性的变化有关的检测结果来确定簇段,可以确定反映讲话者意图的簇段。例如,如图4和图5所示的示例中,例如,即使在语音的一部分的识别结果包括错误的情况下,仍然可以确定反映讲话者意图的簇段,这与本公开内容的比较示例不同。结果,用户对簇段的修改操作变得容易,并且因此,例如,在语音识别结果包括错误的情况下,便利性很高。
此外,根据本实施方式,获得了这样的效果:在确定与讲话者的意图不同的簇段的情况下,讲话者有意地改变讲话方式(例如,改变声音属性、提供“停顿”等),从而,当讲话者想要时新确定簇段。
<<3.硬件配置>>
接下来参照图9给出了对根据本实施方式的服务器10的硬件配置的描述。如图9所示,服务器10包括CPU 150、ROM(只读存储器)152、RAM 154、总线156、接口158、存储设备160以及通信部162。
CPU 150用作算术运算处理器和控制设备,并且根据各种程序控制服务器10中的整体操作。此外,CPU 150实现控制器100的功能。注意,CPU 150包括诸如微处理器的处理器。
ROM 152存储控制数据,例如CPU 150使用的程序、操作参数等。
例如,RAM 154临时存储由CPU 150执行的程序。
总线156包括CPU总线等。总线156将CPU 150、ROM 152和RAM 154相互连接。
用总线156将接口158与存储设备160和通信部162连接。
存储设备160是用作存储单元122的数据存储设备。存储设备160包括例如存储介质、使数据被记录在存储介质中的记录设备、从存储介质读取数据的读取设备或者删除存储介质中记录的数据的删除设备等。
通信部162是通信接口,其包括例如连接至通信网络22的通信设备等。此外,通信部162可以是兼容无线LAN的通信部、兼容LTE(长期演进)的通信部或者执行有线通信的有线通信部。通信部162用作通信单元120。
<<4.修改示例>>
上面参照附图描述了本公开内容的(一个或多个)优选实施方式,而本公开内容不限于上述示例。本领域技术人员可以在所附权利要求书的范围内发现各种变化和修改,并且应当理解,这些变化和修改会自然地归入本公开内容的技术范围内。
<4-1.修改示例1>
例如,服务器10(确定单元104)还能够基于预定条件动态地确定从接收到的语音数据的语音识别结果获取的字符串组的簇段。例如,确定单元104还可以基于包括在接收到的语音数据中的噪声(例如,噪声水平等)的检测结果来动态地确定字符串组的簇段。
可替选地,例如,讲话者的属性信息(性别、年龄等)和讲出的声音的频率(或频率的特征)可以彼此关联并且因此可以被登记。在该情况下,确定单元104还能够基于接收到的语音数据的声音的频率的检测结果来指定讲话者的属性信息。此外,确定单元104可以基于指定的属性信息动态地确定字符串组的簇段。这使得可以确定进一步反映讲话者的属性的簇段。因此,可以根据用户的意图来确定簇段。
<4-2.修改示例2>
注意,还考虑了进行包括多种语言的语音的场景。此处,作为另一修改示例,服务器10(确定单元104)可以基于在接收的语音数据中的第一语言的语音的声音与第二语言的语音的声音之间的切换的检测结果来动态地确定字符串组的簇段。例如,确定单元104可以确定多个簇段使得形成单独的簇段,其中切换处的一部分作为它们之间的边界。
<4-3.修改示例3>
此外,根据本实施方式的信息处理系统的配置不限于图1所示的示例。例如,在图1中服务器10被示为单个服务器;但是这并非是限制性的。多个计算机可以协同操作以由此实现服务器10的上述功能。此外,在图1中终端20被示为单个终端;但是这并非是限制性的。该信息处理系统可以包括多个终端20。
<4-4.修改示例4>
此外,根据本实施方式的服务器10的配置不限于图3所示的示例。例如,声音分析单元102、语言识别单元106和显示控制器108中的至少一个可以被包括在能够与服务器10进行通信的另一设备比如终端20中,而不是被包括在服务器10中。
<4-5.修改示例5>
此外,在上述实施方式中,描述了根据本公开内容的信息处理设备是服务器10的示例;但是本公开内容不限于该示例。例如,在终端20具有至少确定单元104的功能的情况下,信息处理设备可以是终端20。在该情况下,例如,终端20首先检测收集到的语音数据的声音的属性的变化,从而指定满足上述预定条件的一个或更多个区间(即,与簇段对应的语音区间)。此后,终端20将指定的一个或更多个区间的语音数据和信息发送到服务器10。此后,服务器10基于接收到的一个或更多个区间的每条信息对所接收到的语音数据执行语音识别,并且将语音数据转换成字符串组。此后,服务器10将多个经转换的字符串组中的每一个发送到终端20。这使得能够获得与上述实施方式类似的效果。
此外,终端20可以包括在上述控制器100中包括的全部组成元件。在该情况下,可以不必设置服务器10。
<4-6.修改示例6>
此外,上述实施方式的操作中的步骤不一定按照所描述的顺序执行。在一个示例中,可以按照经适当改变的顺序来执行这些步骤。此外,这些步骤可以并行执行或部分地单独执行,而不是按时间顺序执行。此外,可以省略所描述的一些步骤,或者可以添加附加步骤。
此外,根据上述实施方式,例如可以提供一种计算机程序,其用于使硬件例如CPU150、ROM 152和RAM 154执行与根据上述实施方式的服务器10的每个配置等效的功能。此外,提供了其上记录有该计算机程序的记录介质。
此外,在本说明书中描述的效果仅是说明性或示例性的效果,而不是限制性的。即,连同或代替上述效果,根据本公开内容的技术可以实现本领域技术人员根据本说明书的描述而清楚的其他效果。
此外,本公开内容也可以配置如下。
(1)一种信息处理设备,包括:
获取单元,其获取与收集到的语音的声音属性的变化有关的检测结果;以及
确定单元,其基于所述检测结果确定与基于所述语音的语音识别而指定的字符串组有关的簇段。
(2)根据(1)所述的信息处理设备,其中,所述声音属性包括声音速度。
(3)根据(1)或(2)所述的信息处理设备,其中,所述声音属性包括音量。
(4)根据(1)至(3)中的任意一项所述的信息处理设备,其中,所述声音属性包括声音频率。
(5)根据(1)至(4)中的任意一项所述的信息处理设备,其中,与所述语音的声音属性的变化有关的检测结果包括被确定为无声状态的预定时段的检测结果。
(6)根据(5)所述的信息处理设备,其中,被确定为所述无声状态的预定时段是幅度不小于第一阈值的声音的幅度的过零次数小于第二阈值的一个或更多个预定单位时段所持续的时段。
(7)根据(1)至(6)中的任意一项所述的信息处理设备,其中,所述确定单元基于所述检测结果指定所述声音属性满足预定条件的一个或更多个区间,并且基于所指定的一个或更多个区间确定与所述字符串组有关的簇段。
(8)根据(7)的信息处理设备,其中,所述确定单元将根据与所述区间对应的语音的识别结果的字符串组确定为单个簇段。
(9)根据(8)所述的信息处理设备,其中,所述区间是根据从所述区间的开始定时到检测到以下值的定时为止的间隔的时段,所述值与在所述开始定时处检测到的所述声音属性的值的差的绝对值大于预定阈值。
(10)根据(8)所述的信息处理设备,其中,所述区间的开始定时是根据检测到在前的被确定为无声状态的预定时段的结束的定时的定时。
(11)根据(8)所述的信息处理设备,其中,所述区间是根据被确定为无声状态的第一时段与被确定为所述无声状态的第二时段之间的间隔的时段。
(12)根据(8)所述的信息处理设备,其中,所述区间是所述声音属性的检测值的上限值与下限值之间的差的绝对值不大于预定阈值的连续的区间。
(13)根据(8)至(12)中的任意一项所述的信息处理设备,其中,所述获取单元进一步获取所述语音,
所述信息处理设备还包括语音识别单元,所述语音识别单元对与所述区间对应的语音执行识别,并且
所述确定单元基于由所述语音识别单元的识别结果确定与所述字符串组有关的簇段。
(14)根据(13)所述的信息处理设备,其中,
所述确定单元基于所述检测结果指定多个所述区间,
所述语音识别单元对与所述多个区间中的每一个区间对应的语音分别执行识别,并且
所述确定单元针对所述多个所述区间中的每一个区间,分别将根据由所述语音识别单元对与所述区间对应的语音的识别结果的字符串组确定为单个簇段。
(15)根据(1)至(14)中的任意一项所述的信息处理设备,其中,所述确定单元还基于所述语音中包括的噪声的检测结果,来确定与所述字符串组有关的簇段。
(16)根据(1)至(15)中的任意一项所述的信息处理设备,其中,所述确认单元还基于与基于所述检测结果指定的所述语音的讲话者有关的信息,来确定与所述字符串组有关的簇段。
(17)根据(1)至(16)中的任意一项所述的信息处理设备,其中,所述语音包括第一语言的语音和第二语言的语音,并且
所述确定单元还基于在所述第一语言的语音与所述第二语言的语音之间的切换的检测结果,来确定与所述字符串组有关的簇段。
(18)根据(1)至(17)中的任意一项所述的信息处理设备,还包括:
显示控制器,其使由所述确定单元确定的一个或更多个簇段显示在显示画面上,其中,
所述显示控制器还基于所述一个或更多个簇段中的每一个簇段使修改候选的字符串组显示在所述显示画面上。
(19)一种信息处理方法,包括:
获取与收集到的语音的声音属性的变化有关的检测结果;以及
由处理器基于所述检测结果确定与基于所述语音的语音识别而指定的字符串组有关的簇段。
(20)一种程序,所述程序使计算机用作:
获取单元,其获取与收集到的语音的声音属性的变化有关的检测结果;以及
确定单元,其基于所述检测结果确定与基于所述语音的语音识别而指定的字符串组有关的簇段。
附图标记列表
10 服务器
20 终端
22 通信网络
100 控制器
102 声音分析单元
104 确定单元
106 语音识别单元
108 显示控制器
120 通信单元
122 存储单元
200 声音收集单元
202 操作显示单元

Claims (20)

1.一种信息处理设备,包括:
获取单元,其获取与收集到的语音的声音属性的变化有关的检测结果;以及
确定单元,其基于所述检测结果确定与基于所述语音的语音识别而指定的字符串组有关的簇段。
2.根据权利要求1所述的信息处理设备,其中,所述声音属性包括声音速度。
3.根据权利要求1所述的信息处理设备,其中,所述声音属性包括音量。
4.根据权利要求1所述的信息处理设备,其中,所述声音属性包括声音频率。
5.根据权利要求1所述的信息处理设备,其中,与所述语音的声音属性的变化有关的检测结果包括被确定为无声状态的预定时段的检测结果。
6.根据权利要求5所述的信息处理设备,其中,被确定为所述无声状态的预定时段是幅度不小于第一阈值的声音的幅度的过零次数小于第二阈值的一个或更多个预定单位时段所持续的时段。
7.根据权利要求1所述的信息处理设备,其中,所述确定单元基于所述检测结果指定所述声音属性满足预定条件的一个或更多个区间,并且基于所指定的一个或更多个区间确定与所述字符串组有关的簇段。
8.根据权利要求7所述的信息处理设备,其中,所述确定单元将根据与所述区间对应的语音的识别结果的字符串组确定为单个簇段。
9.根据权利要求8所述的信息处理设备,其中,所述区间是根据从所述区间的开始定时到检测到以下值的定时为止的间隔的时段,所述值与在所述开始定时处检测到的所述声音属性的值的差的绝对值大于预定阈值。
10.根据权利要求8所述的信息处理设备,其中,所述区间的开始定时是根据检测到在前的被确定为无声状态的预定时段的结束的定时的定时。
11.根据权利要求8所述的信息处理设备,其中,所述区间是根据被确定为无声状态的第一时段与被确定为所述无声状态的第二时段之间的间隔的时段。
12.根据权利要求8所述的信息处理设备,其中,所述区间是所述声音属性的检测值的上限值与下限值之间的差的绝对值不大于预定阈值的连续的区间。
13.根据权利要求8所述的信息处理设备,其中,
所述获取单元进一步获取所述语音,
所述信息处理设备还包括语音识别单元,所述语音识别单元对与所述区间对应的语音执行识别,并且
所述确定单元基于由所述语音识别单元的识别结果确定与所述字符串组有关的簇段。
14.根据权利要求13所述的信息处理设备,其中,
所述确定单元基于所述检测结果指定多个所述区间,
所述语音识别单元对与所述多个区间中的每一个区间对应的语音分别执行识别,并且
所述确定单元针对所述多个所述区间中的每一个区间,分别将根据由所述语音识别单元对与所述区间对应的语音的识别结果的字符串组确定为单个簇段。
15.根据权利要求1所述的信息处理设备,其中,所述确定单元还基于所述语音中包括的噪声的检测结果,来确定与所述字符串组有关的簇段。
16.根据权利要求1所述的信息处理设备,其中,所述确认单元还基于与基于所述检测结果指定的所述语音的讲话者有关的信息,来确定与所述字符串组有关的簇段。
17.根据权利要求1所述的信息处理设备,其中,
所述语音包括第一语言的语音和第二语言的语音,并且
所述确定单元还基于在所述第一语言的语音与所述第二语言的语音之间的切换的检测结果,来确定与所述字符串组有关的簇段。
18.根据权利要求1所述的信息处理设备,还包括:
显示控制器,其使由所述确定单元确定的一个或更多个簇段显示在显示画面上,其中,
所述显示控制器还基于所述一个或更多个簇段中的每一个簇段使修改候选的字符串组显示在所述显示画面上。
19.一种信息处理方法,包括:
获取与收集到的语音的声音属性的变化有关的检测结果;以及
由处理器基于所述检测结果确定与基于所述语音的语音识别而指定的字符串组有关的簇段。
20.一种程序,所述程序使计算机用作:
获取单元,其获取与收集到的语音的声音属性的变化有关的检测结果;以及
确定单元,其基于所述检测结果确定与基于所述语音的语音识别而指定的字符串组有关的簇段。
CN201780043940.0A 2016-07-22 2017-04-14 信息处理设备、信息处理方法以及程序 Withdrawn CN109478405A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016144328 2016-07-22
JP2016-144328 2016-07-22
PCT/JP2017/015373 WO2018016143A1 (ja) 2016-07-22 2017-04-14 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
CN109478405A true CN109478405A (zh) 2019-03-15

Family

ID=60992000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780043940.0A Withdrawn CN109478405A (zh) 2016-07-22 2017-04-14 信息处理设备、信息处理方法以及程序

Country Status (5)

Country Link
US (1) US10878814B2 (zh)
EP (1) EP3489948A4 (zh)
JP (1) JP6930538B2 (zh)
CN (1) CN109478405A (zh)
WO (1) WO2018016143A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114207681A (zh) * 2019-08-02 2022-03-18 索尼集团公司 信息处理设备、方法和程序

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11049502B1 (en) * 2020-03-18 2021-06-29 Sas Institute Inc. Speech audio pre-processing segmentation
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11373655B2 (en) * 2020-03-18 2022-06-28 Sas Institute Inc. Dual use of acoustic model in speech-to-text framework

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5961900A (ja) * 1982-09-30 1984-04-09 シャープ株式会社 音声入力装置
JP2656069B2 (ja) * 1988-05-13 1997-09-24 富士通株式会社 音声検出装置
JPH02296297A (ja) * 1989-05-10 1990-12-06 Nec Corp 音声認識装置
JP3633254B2 (ja) * 1998-01-14 2005-03-30 株式会社日立製作所 音声認識システムおよびそのプログラムを記録した記録媒体
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
JP4352875B2 (ja) * 2003-11-25 2009-10-28 パナソニック電工株式会社 音声区間検出器
JP2005241833A (ja) * 2004-02-25 2005-09-08 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
JP4941381B2 (ja) * 2008-03-31 2012-05-30 富士通株式会社 使用判断プログラム、情報提供装置および使用判断方法
KR20140002900A (ko) * 2012-06-28 2014-01-09 삼성전자주식회사 단말의 음원 재생 방법 및 그 단말
JP6229287B2 (ja) * 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2016028254A1 (en) * 2014-08-18 2016-02-25 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
JP6464650B2 (ja) * 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114207681A (zh) * 2019-08-02 2022-03-18 索尼集团公司 信息处理设备、方法和程序

Also Published As

Publication number Publication date
JP6930538B2 (ja) 2021-09-01
EP3489948A4 (en) 2019-08-14
WO2018016143A1 (ja) 2018-01-25
US10878814B2 (en) 2020-12-29
EP3489948A1 (en) 2019-05-29
US20190304452A1 (en) 2019-10-03
JPWO2018016143A1 (ja) 2019-06-27

Similar Documents

Publication Publication Date Title
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
US11443755B1 (en) Automated voice assistant personality selector
US11075862B2 (en) Evaluating retraining recommendations for an automated conversational service
CN106201424B (zh) 一种信息交互方法、装置及电子设备
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN108153800B (zh) 信息处理方法、信息处理装置以及记录介质
CN107622770A (zh) 语音唤醒方法及装置
US20060206333A1 (en) Speaker-dependent dialog adaptation
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN109478405A (zh) 信息处理设备、信息处理方法以及程序
WO2019124647A1 (ko) 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN107767869A (zh) 用于提供语音服务的方法和装置
CN103236259A (zh) 语音识别处理及反馈系统、语音回复方法
CN111179935B (zh) 一种语音质检的方法和设备
CN109074805A (zh) 信息处理设备、信息处理方法和程序
US20240153483A1 (en) Systems and methods for generating synthesized speech responses to voice inputs
CN106599110A (zh) 基于人工智能的语音搜索方法及装置
US20220058213A1 (en) Systems and methods for identifying dynamic types in voice queries
CN111145733A (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
US20190317648A1 (en) System enabling audio-based navigation and presentation of a website
US9754593B2 (en) Sound envelope deconstruction to identify words and speakers in continuous speech
CN109074809A (zh) 信息处理设备、信息处理方法和程序
CN107180629A (zh) 一种语音采集识别方法与系统
JP6867939B2 (ja) 計算機、言語解析方法、及びプログラム
KR102620070B1 (ko) 상황 인지에 따른 자율발화 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190315