CN109313894A - 信息处理装置与信息处理方法 - Google Patents

信息处理装置与信息处理方法 Download PDF

Info

Publication number
CN109313894A
CN109313894A CN201780037397.3A CN201780037397A CN109313894A CN 109313894 A CN109313894 A CN 109313894A CN 201780037397 A CN201780037397 A CN 201780037397A CN 109313894 A CN109313894 A CN 109313894A
Authority
CN
China
Prior art keywords
information
pronunciation
unit
character position
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780037397.3A
Other languages
English (en)
Inventor
河野真
河野真一
滝祐平
中川佑辅
加藤亚由美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN109313894A publication Critical patent/CN109313894A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

[问题]要对识别的句子实现更灵活的校正。[解决方案]提供了一种信息处理装置,该信息处理装置具有:比较单元,对从采集的第一语音产生信息获得的第一声音相关信息与从采集的第二语音产生信息获得的第二声音相关信息进行比较;以及设置单元,基于比较单元的比较结果来设置新的定界位置,该新的定界位置不同于与对应于第一语音产生信息的字符转换的结果。还提供了一种信息处理装置,该信息处理装置具有:接收单元,接收关于新的定界位置的信息,该新的定界位置不同于与对应于采集的第一语音产生信息的字符转换的结果;以及输出控制单元,控制新的转换结果的输出,该新的转换结果是通过基于该新的定界位置的字符转换而获得的,该新的定界位置是基于对从采集的第一语音产生信息获得的第一声音相关信息与从采集的第二语音产生信息获得的第二声音相关信息进行比较而获得的结果来设定的。

Description

信息处理装置与信息处理方法
技术领域
本公开涉及一种信息处理装置和信息处理方法。
背景技术
现在正在开发识别用户的发音并执行与所识别的语音输入相对应的处理的各种装置。此外,已知一种基于重新输入的发音来校正识别结果中的错误(如果有的话)的技术。在一个实例中,专利文献1公开了一种语音识别装置,该语音识别装置通过从输入语音中的每个预定片段的识别候选中选择最可能的识别候选来校正识别结果。
引用列表
专利文献
专利文献1:JP 2007-093789A。
发明内容
技术问题
然而,在专利文献1中公开的语音识别装置中,在错误地设置了预定片段的情况下,即便用户反复多次发言,也可能难以获得用户预期的识别结果。
鉴于此,本公开提供了一种信息处理装置和一种信息处理方法,能够实现对识别句子的更灵活的校正。
问题的解决方案
根据本公开,提供了一种信息处理装置,该信息处理装置包括:比较单元,被配置为对从采集的第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较;以及设置单元,被配置为基于通过所述比较单元获得的比较结果来设置新的间隔符位置,所述新的间隔符位置不同于与所述第一发音信息相关联的字符转换的结果。
此外,根据本公开,提供了一种信息处理装置,该信息处理装置包括:接收单元,被配置为接收与新的间隔符位置相关的信息,所述新的间隔符位置不同于与采集的第一发音信息相关联的字符转换的结果;以及输出控制单元,被配置为控制新的转换结果的输出,所述新的转换结果是通过基于所述新的间隔符位置执行字符转换而获得的。所述新的间隔符位置是基于通过对从采集的所述第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较而获得的结果来设定的。
此外,根据本公开,提供了一种信息处理方法,该信息处理方法包括:由处理器对从采集的第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较;以及基于通过比较所述第一声音相关信息与所述第二声音相关信息而获得的结果来设置新的间隔符位置,所述新的间隔符位置不同于与所述第一发音信息相关联的字符转换的结果不同。
此外,根据本公开,提供了一种信息处理方法,该信息处理方法包括:由处理器接收与新的间隔符位置相关的信息,所述新的间隔符位置不同于与采集的第一发音信息相关联的字符转换的结果;以及控制新的转换结果的输出,所述新的转换结果是通过基于所述新的间隔符位置执行字符转换而获得的。所述新的间隔符位置是基于通过对从采集的所述第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较而获得的结果来设定的。
本发明的有利效果
根据如上所述的本公开,能够更灵活地校正识别的句子。
应注意,上述效果不一定是限定性的。利用或代替上述效果,可以实现本说明书中描述的任何一种效果或者可以从本说明书中领会的其他效果。
附图说明
[图1]图1是示出了根据本公开的实施方式的系统的示例性配置的示图。
[图2]图2是根据本实施方式的信息处理终端的功能框图。
[图3]图3是根据本实施方式的信息处理服务器的功能框图。
[图4A]图4A是示出用于描述根据本实施方式的基于新的间隔符位置的字符转换。
[图4B]图4B是示出用于描述根据本实施方式的基于新的间隔符位置的字符转换。
[图5]图5是示出了根据本实施方式的间隔符位置的置信度的实例的示图。
[图6A]图6A是示出用于描述根据本实施方式的基于新的间隔符位置的字符转换的另一个实例。
[图6B]图6B是示出用于描述根据本实施方式的基于新的间隔符位置的字符转换的另一个实例。
[图6C]图6C是示出用于描述根据本实施方式的基于新的间隔符位置的字符转换的另一个实例。
[图7]图7是示出了根据本实施方式的由信息处理服务器对第一发音信息的处理流程的流程图。
[图8]图8是示出了根据本实施方式由信息处理服务器基于目标信息对新的间隔符位置的设置流程的流程图。
[图9]图9是示出了根据本实施方式的由信息处理服务器对第二发音信息的设置流程的流程图。
[图10]图10是示出了根据本实施方式由信息处理服务器仅基于发音信息设置新的间隔符位置的流程的流程图。
[图11]图11是根据本公开的示例性硬件配置。
具体实施方式
在下文中,将参考附图详细描述本公开的优选实施方式。应注意,在本说明书和附图中,具有基本上相同的功能和结构的结构元件用相同的参考数字表示,并且省略了这些结构元件的重复说明。
应注意,在本描述和附图中,具有基本上相同的功能和结构的结构元件有时使用相同的参考标记后的不同字母来彼此区分。然而,在不需要特别区分具有基本上相同的功能和结构的结构元件的情况下,仅附上相同的参考标记。
此外,将按以下顺序给出描述。
1.实施方式
1.1.根据本公开的实施方式的概述
1.2.系统的示例性配置
1.3.信息处理终端10的功能配置的实例
1.4.信息处理服务器20的功能配置的实例
1.5.基于新的间隔符位置的字符转换的具体实例
1.6.在信息处理服务器20中的操作流程
2.示例性硬件配置
3.结束语
<1.实施方式>
[1.1.根据本公开的实施方式的概述]
在各种游戏控制台、智能电话应用、自主机器人等中,如今正在使用识别用户的发音并基于发音执行处理的语音识别技术。在一个实例中,采用语音识别技术的装置还能够输入由用户发出的语音作为文本来代替诸如键盘等输入装置。如上所述的装置的使用能够使得用户显着减少通过使用键盘等输入文本所引起的负担。
同时,在使用语音识别输入文本时获得用户非预期的输出结果的情况下,需要提供用于校正输出结果的器件。此外,在输出结果的字符转换是在不同于用户预期的间隔符位置处执行的情况下,不具有上述用于校正间隔符位置的器件的装置即使在用户反复发言的情况下,也将难以获得用户预期的输出结果。
根据本公开的信息处理装置是集中于上述要点来构思的,并且使得可以基于输入的发音信息来校正执行字符转换的间隔符位置。以下描述给出了根据本公开的信息处理装置的特征以及由这些特征产生的效果。
[1.2.系统的示例性配置]
现在描述根据本实施方式的系统的示例性配置。图1是示出了根据本实施方式的系统的示例性配置的示图。参考图1,根据本实施方式的信息处理系统包括信息处理终端10和信息处理服务器20。此外,信息处理终端10和信息处理服务器20经由网络30连接,使得它们可以彼此通信。
(信息处理终端10)
根据本实施方式的信息处理终端10是具有采集关于用户的发音的信息的功能的信息处理装置。此外,信息处理终端10具有将通过执行与发音信息相关联的字符转换而获得的结果呈现给用户的功能。
因此,在一个实例中,根据本实施方式的信息处理终端10能够将采集的发音信息发送到信息处理服务器20,并且接收通过基于该发音信息执行字符转换而获得的结果。
此外,信息处理终端10可以以各种形式实现。在一个实例中,信息处理终端10优选地是移动电话、智能电话、平板计算机、个人计算机(PC)、游戏控制台(game console)、视频播放器或可穿戴装置。
(信息处理服务器20)
根据本实施方式的信息处理服务器20是具有基于由信息处理终端10采集的发音信息执行字符转换的功能的信息处理装置。此外,根据本实施方式的信息处理服务器20具有基于重新输入的发音信息改变执行字符转换的间隔符位置的功能。在这种情况下,在一个实例中,根据本实施方式的信息处理服务器20优选地设置新的间隔符位置,该新的间隔符位置与通过执行与预先采集的发音信息相关联的字符转换而获得的结果不同。稍后将详细描述根据本实施方式的信息处理服务器20的上述功能。
(网络30)
网络30具有连接信息处理终端10和信息处理服务器20的功能。网络30优选地包括:公共线路网络(诸如互联网、电话线网络或卫星通信网络等)、包括以太网(注册商标)的各种局域网(LAN)和广域网(WAN)等。此外,网络30优选地包括诸如互联网协议-虚拟专用网络(IP-VPN)等专用线路网络。此外,网络30优选地包括诸如Wi-Fi(注册商标)或蓝牙(注册商标)等无线通信网络。
以上描述了根据本实施方式的系统的示例性配置。此外,尽管参考图1的上述描述旨在示出信息处理终端10和信息处理服务器20被实现为独立的信息处理装置的情况,然而根据本实施方式的系统的示例性配置不限于这样的实例。根据本实施方式的信息处理终端10和信息处理服务器20可以被实现为一个信息处理装置。
同时,信息处理终端10和信息处理服务器20的每个功能可以由多个(例如三个以上)信息处理装置实现。取决于要处理的信息量、系统规格、操作条件等,根据本实施方式的系统的示例性配置可以灵活变形。
[1.3.信息处理终端10的功能配置的实例]
现在详细描述根据本实施方式的信息处理终端10的功能配置的实例。图2是根据本实施方式的信息处理终端10的功能框图。参考图2,根据本实施方式的信息处理终端10包括输入单元110、终端控制单元120、输出单元130和服务器通信单元140。此外,根据本实施方式的输入单元110包括语音采集单元112和操作获取单元114。此外,根据本实施方式的输出单元130包括显示单元132和语音输出单元134。
现在,集中于部件的特征来详细描述上述相应部件。此外,图2中所示的功能配置仅仅是说明性的,并且根据本实施方式的信息处理终端10可以进一步包括除图2中所示的功能配置之外的功能配置。可以取决于装置的特征、操作条件等适当地改变根据本实施方式的信息处理终端10的功能配置。
(输入单元110)
输入单元110具有检测用户的各种类型的输入的功能。因此,输入单元110优选地包括用于检测用户的发音或用户的输入操作的各种传感器或装置。具体地,在本实施方式中,输入单元110可以包括语音采集单元112和操作获取单元114。
((语音采集单元112))
语音采集单元112具有采集关于用户发音的信息的功能。除了用户发出的语音之外,上述发音信息还可以包括周围环境声音等。在一个实例中,语音采集单元112可以被配置为将用户语音或环境声音转换为电信号的麦克风。
进一步地,根据本实施方式的语音采集单元112能够采集第一发音信息和第二发音信息。这里,第一发音信息可以是新采集的发音信息,第二发音信息可以是在获取第一发音信息之后获取的发音信息。在一个实例中,根据本实施方式的第二发音信息可以是在采集第一发音信息之后的预定时间内采集的发音信息。
((操作获取单元114))
操作获取单元114具有检测用户在信息处理终端10上的各种输入操作的功能。在一个实例中,根据本实施方式的操作获取单元114能够检测用户对从字符转换获得的结果进行删除的操作。在这种情况下,操作获取单元114能够基于检测到的输入操作生成用于指定第一发音信息的目标信息。稍后将详细描述根据本实施方式的目标信息。
在一个实例中,操作获取单元114可以被配置为各种按钮、键盘、计算机鼠标、开关等。此外,操作获取单元114优选地被配置为通常可用作显示装置的触摸面板。
(终端控制单元120)
终端控制单元120具有控制由信息处理终端10执行的每个处理的功能。在一个实例中,终端控制单元120可以控制从输出单元130的各种输出。根据本实施方式的终端控制单元120具体地能够控制通过基于由信息处理服务器20设置的间隔符位置执行的字符转换而获得的转换结果的输出。在这种情况下,终端控制单元120可以使输出单元130以彼此关联的方式输出转换结果和间隔符位置。
(输出单元130)
输出单元130具有在终端控制单元120的控制下输出与发音信息相关联的字符转换的结果的功能。因此,根据本实施方式的输出单元130优选地包括用于输出转换结果的各种装置。具体地,在本实施方式中,输出单元130优选地包括显示单元132和语音输出单元134。
((显示单元134))
显示单元132具有基于接收到的响应信息,与视觉信息一起执行输出的功能。在一个实例中,该功能优选地通过阴极射线管(CRT)显示装置、液晶显示(LCD)装置或有机发光二极管(OLED)装置来实现。此外,显示单元132优选地具有用作接受用户操作的输入单元的功能。在一个实例中,可以通过触摸面板实现用作输入单元的功能。
((语音输出单元134))
语音输出单元134具有将电信号转换为声音并将其输出的功能。具体地,语音输出单元134具有基于接收到的响应信息中包含的语音信息将语音呈现给用户的功能。语音输出单元134优选地包括具有上述功能的扬声器、放大器等。
(服务器通信单元140)
服务器通信单元140具有经由网络30来与信息处理服务器20通信的功能。在一个实例中,根据本实施方式的服务器通信单元140优选地发送上述的第一发音信息和第二发音信息。此外,服务器通信单元140可以接收与新的间隔符位置相关的信息或者接收与基于新的间隔符位置的新的转换结果相关的信息,该新的间隔符位置与通过执行与第一发音信息相关联的字符转换而获得的结果不同。
此外,根据本实施方式的服务器通信单元140能够发送用于指定第一发音信息的目标信息,并且接收与基于目标信息设置的新的间隔符位置相关的信息。
以上详细描述了根据本实施方式的信息处理终端10的功能配置的实例。如上所述,根据本实施方式的信息处理终端10能够接收与新的间隔符位置相关的信息并且控制通过基于新的间隔符位置执行的字符转换而获得的转换结果的输出,该新的间隔符位置与通过执行与第一发音信息相关联的字符转换而获得的结果不同。根据本实施方式的信息处理终端10的上述功能使得可以向用户呈现通过执行字符转换而获得的结果,其中校正了用户非预期的间隔符位置。
此外,上述功能配置仅是说明性的,并且根据本实施方式的信息处理终端10的功能配置不限于该实例。根据本实施方式的信息处理终端10优选地还具有用于实现信息处理服务器20的各种功能的部件。在一个实例中,信息处理终端10可以被配置为包括语音识别单元210、比较单元220、设置单元230、转换单元240和存储单元250中的部分或全部,稍后将对这些单元进行描述。可以灵活地改变根据本实施方式的信息处理终端10的功能配置。
[1.4.信息处理服务器20的功能配置的实例]
现在详细描述根据本实施方式的信息处理服务器20的功能配置的实例。图3是根据本实施方式的信息处理服务器20的功能框图。参考图3,根据本实施方式的信息处理服务器20包括语音识别单元210、比较单元220、设置单元230、转换单元240、存储单元250和终端通信单元260。现在,集中于部件的特征来详细描述上述相应部件。
(语音识别单元210)
语音识别单元210具有基于由信息处理终端10的语音采集单元112采集的发音信息执行语音识别的功能。具体地,语音识别单元210优选地基于接收到的第一发音信息或第二发音信息执行语音识别。此外,语音识别单元210能够使声音相关信息与基于发音信息的语音识别的结果一起存储在存储单元250中。这里,上述声音相关信息优选地是在提取的音素或语音识别结果中的读取信息。此外,语音识别单元210优选地将语音识别结果和声音相关信息发送到比较单元220。
(比较单元220)
比较单元220具有将从采集的第一发音信息获得的第一声音相关信息与从第二发音信息获得的第二声音相关信息进行比较的功能。具体地,根据本实施方式的比较单元220能够确定第一声音相关信息和第二声音相关信息是否相似或相同。在这种情况下,在一个实例中,比较单元220优选地基于相似性超过预定阈值的事实,来确定第一声音相关信息与第二声音相关信息之间的相似性。
进一步地,比较单元220优选地基于由操作获取单元114生成的上述目标信息来比较第一声音相关信息与第二声音相关信息。换句话说,根据本实施方式的比较单元220能够基于目标信息来指定要用于与第二发音信息进行比较的第一发音信息。此外,比较单元220使存储单元250存储通过比较第一发音信息与第二发音信息而获得的结果。此外,比较单元220优选地将比较结果发送到设置单元230。
(设置单元230)
设置单元230具有相对于由语音识别单元210获得的语音识别结果来设置间隔符位置的功能。这里,根据本实施方式的间隔符位置优选地以短语、诸如单词等字符串、诸如重音短语等音素串、音素、音节为单位来设置。具体地,根据本实施方式的设置单元230能够基于由比较单元220获得的比较结果来设置新的间隔符位置,该新的间隔符位置与通过执行与第一发音信息相关联的字符转换而获得的结果不同。在一个实例中,设置单元230能够基于比较结果指示相似或相同的事实来执行上述处理。稍后将详细描述设置单元230的上述功能。此外,设置单元230能够使存储单元250存储与设置的间隔符位置相关的信息。设置单元230优选地将与间隔符位置相关的信息发送至转换单元240。
(转换单元240)
转换单元240具有基于由设置单元230设置的新的间隔符位置来执行字符转换的功能。在这种情况下,根据本实施方式的转换单元240基于上述的新的间隔符位置优选地执行与第二发音信息相关联的字符转换。换句话说,根据本实施方式的转换单元240相对于通过基于所采集的第二发音信息执行语音识别而获得的结果,能够基于新的间隔符位置执行字符转换。
进一步地,根据本实施方式的转换单元240基于上述的新的间隔符位置优选地执行与第一发音信息相关联的字符转换。换句话说,根据本实施方式的转换单元240能够基于新的间隔符位置重新转换从第一发音信息识别的经转换的句子。稍后将详细描述由转换单元240执行的字符转换。此外,转换单元240能够使存储单元250存储通过执行字符转换而获得的结果。转换单元240优选地将通过执行字符转换而获得的结果发送到终端通信单元260。
(存储单元250)
存储单元250具有存储从信息处理终端10接收的各种信息或由信息处理服务器20的每个部件生成的信息的功能。在一个实例中,根据本实施方式的存储单元250能够存储基于第一发音信息和第二发音信息的语音识别结果、由比较单元220获得的比较结果、与由设置单元230设置的间隔符位置相关的信息、由转换单元240执行的字符转换的结果等。
(终端通信单元260)
终端通信单元260具有经由网络30来与信息处理终端10通信的功能。在一个实例中,根据本实施方式的终端通信单元260能够接收所采集的第一发音信息和第二发音信息。此外,终端通信单元260优选地接收由操作获取单元114生成的目标信息。
此外,根据本实施方式的终端通信单元260能够发送与由设置单元230设置的新的间隔符位置相关的信息。此外,终端通信单元260能够发送由转换单元240执行的字符转换的结果。
以上详细描述了根据本实施方式的信息处理服务器20的功能配置的实例。如上所述,根据本实施方式的信息处理服务器20能够将采集的第一发音信息与第二发音信息进行比较,并且基于比较结果设置关于语音识别结果的新的间隔符位置。此外,根据本实施方式的信息处理服务器20能够基于所设置的新间隔符位置执行字符转换。根据本实施方式的信息处理终端10的上述功能使得可以灵活地校正用户非预期的间隔符位置,从而实现更准确的语音识别。
此外,上述功能配置仅是说明性的,并且根据本实施方式的信息处理服务器20的功能配置不限于该实例。如上所述,包含在根据本实施方式的信息处理服务器20中的部分或全部部件优选地被实现为信息处理终端10的功能。此外,信息处理服务器20的一些相应部件能够被实现为另一装置的功能。可以灵活地改变根据本实施方式的信息处理终端10的功能配置。
[1.5.基于新的间隔符位置的字符转换的具体实例]
现在描述根据本实施方式的基于新的间隔符位置的字符转换的具体实例。图4A和图4B是示出用于描述基于新的间隔符位置的字符转换的示图。参考图4A,用户首先给出新的发音U1。在该实例中,描述了发音U1是“I am writing a tag sentence(我正在写标签句子)”的情况作为实例。
然后,根据本实施方式的信息处理服务器20接收关于发音U1的第一发音信息,并基于第一发音信息执行语音识别。图4A示出了根据发音U1识别的声音相关信息R1。在图4A所示的实例中,声音相关信息R1被表示为“Siam fighting a tag Sentence(Siam战斗标签句子)”,这代表发音U1被错误地识别。此外,在图4A中,声音相关信息R1被表示为字符串,但是根据本实施方式的声音相关信息可以是音素串等。
然后,信息处理服务器20对声音相关信息R1执行字符转换和间隔符位置设置,并将字符转换结果和与间隔符位置相关的信息发送至信息处理终端10。此外,信息处理终端10接收上述信息并使显示单元132显示其。参考图4A,信息处理终端10的显示单元132基于由信息处理服务器20设置的间隔符位置显示两个短语P1a和P1b。此外,表示用户执行的输入操作的输入位置的插入符号C1优选地一起显示在显示单元132上。
这里,用户检查显示在显示单元132上的识别结果,并执行删除错误识别结果的操作。在这种情况下,在一个实例中,用户能够执行对每个短语的删除操作。在图4A所示的实例中,用户首先删除短语P1b,然后删除短语P1a。用户可以使用操作获取单元114执行该删除操作。此外,在这种情况下,操作获取单元114基于所删除的短语生成目标信息。此外,信息处理终端10的服务器通信单元140将由操作获取单元114生成的目标信息发送至信息处理服务器20。
随后,参考图4B继续描述基于新的间隔符位置的字符转换。此外,在图4A所示的处理之后优选地执行图4B中所示的一系列程序。参考图4B,用户在上述删除处理之后给出发音U2。这里,在一个实例中,发音U2可以是“I am writing a tag sentence(我正在写标签句子)”其类似于被错误地识别的发音U1。换句话说,用户删除错误识别的句子,然后重新输入相同的发音以获得正确的识别结果。
然后,信息处理服务器20接收关于发音U2的第二发音信息,并执行基于第二发音信息的语音识别。图4B示出了发音U2的声音相关信息R12。在这种情况下,信息处理服务器20的比较单元220将从发音U1识别的声音相关信息R1与从发音U2识别的声音相关信息R2进行比较,并确定两者是否相似或相同。换句话说,根据本实施方式的比较单元220能够确定是否重新输入发音U2以校正基于发音U1的识别结果。在该实例的情况下,声音相关信息R1和R2是相同的,因此比较单元220确定发音U2是针对发音U1重新输入的发音。
此外,在这种情况下,比较单元220优选地基于由操作获取单元114生成的目标信息来确定要与发音U2进行比较的目标。换句话说,比较单元220能够将与删除的短语相关联的发音信息指定为第一发音信息。
然后,信息处理服务器20的设置单元230基于由比较单元220获得的确定结果来设置新的间隔符位置,该新的间隔符位置与从发音U1识别的声音相关信息R1不同。图4B示出了基于由设置单元230设置的新的间隔符位置的声音相关信息R3。然后,信息处理服务器20的转换单元240基于由设置单元230设置的新的间隔符位置来执行字符转换。
在这种情况下,根据本实施方式的设置单元230和转换单元240优选地基于间隔符位置的置信度来执行上述处理。图5是示出了间隔符位置的置信度的实例的示图。图5示出了在输入发音为“I am writing a tag sentence(我正在写标签句子)”的情况下间隔符位置的变化和置信度。根据本实施方式的设置单元230和转换单元240优选地基于如图5所示的间隔符位置的置信度分别设置间隔符位置和执行字符转换。
具体地,根据本实施方式的设置单元230在设置间隔符位置时能够采用具有更高置信度水平的间隔符位置。在一个实例中,在图4A中所示的实例的情况下,设置单元230采用具有最高置信度(置信度水平为0.98)的间隔符位置,并设置从发音U1识别的声音相关信息R1的间隔符位置。
进一步地,在重新设置间隔符位置时,根据本实施方式的设置单元230优选地排除针对从第一发音信息识别的声音相关信息所设置的间隔符位置,并且通过采用具有最高置信度水平的间隔符位置来设置从第二发音信息识别的声音相关信息的间隔符位置。在图4B所示的实例中,设置单元230排除针对从发音U1识别的声音相关信息R1所采用的间隔符位置,并采用具有最高置信度(置信度水平为0.95)的间隔符位置,从而设置从发音U2识别的声音相关信息R3的间隔符位置。如上所述通过根据本实施方式的设置单元230设置间隔符位置,使得能够以更高的准确度实现语音识别。
进一步地,信息处理服务器20将关于如上所述设置的新的间隔符位置的信息和字符转换的结果发送至信息处理终端10。信息处理终端10接收上述信息并使显示单元132显示其。参考图4B,信息处理终端10的显示单元132显示基于新设置的间隔符位置的三个短语P2a、P2b和P2c。如上所述,根据本实施方式的信息处理终端10和信息处理服务器20使得可以灵活地校正用户非预期的间隔符位置,从而以更高的准确度实现语音识别。
随后参考图6A至图6C描述根据本实施方式的基于新的间隔符位置的字符转换的另一实例。在参考图4A和图4B描述的实例中,描述了识别英语中的发音信息的情况,但是根据本实施方式的信息处理服务器20能够执行运用各种语言的处理。根据本实施方式的信息处理服务器20能够对诸如日语等具有多种符号系统(notation system)的语言执行识别处理。以下描述给出了在用户说日语的情况下设置间隔符位置的实例。此外,以下描述是集中于与上面参考图4A和图4B描述的实例的不同之处给出的。
参考图6A,用户首先给出新的发音U3。在该实例中,描述发音U3是“Koregamenippai(这是一碗面)”的情况作为实例。然后,根据本实施方式的信息处理服务器20接收关于发音U3的第一发音信息,并基于第一发音信息执行语音识别。图6A示出了发音U3的声音相关信息R4。在图6A所示的实例中,声音相关信息R4被表示为“Koregamenippai”,这代表发音U3被正确地识别。此外,在图6A中,声音相关信息R4被表示为字符串,但是根据本实施方式的声音相关信息可以是音素串等。
然后,信息处理服务器20对声音相关信息R4执行字符转换和间隔符位置设置,并将字符转换结果和关于间隔符位置的信息发送至信息处理终端10。此外,信息处理终端10接收上述信息并使显示单元132显示其。参考图6A,信息处理终端10的显示单元132基于由信息处理服务器20设置的间隔符位置显示两个短语P3a和P3b。在图6A中,短语P3a和P3b分别转换为内容“Korega”(英语中的“This is(这是)”)和“Menippai”(英语中的“a bowl ofnoodle(一碗面)”)。如上所述,在诸如日语等具有多种符号系统的语言中,假设基于间隔符位置对字符串进行二次转换。
然而,这里,在用户预期发音U3是“Koregamenippai”(英语中的“this screen isfull(此屏幕已满)”)的情况下,即使正确识别出声音相关信息R4,也执行了取决于要设置的间隔符位置的错误的字符转换。在这种情况下,如在图4A中所示的实例中,用户可以删除短语P3b,然后删除短语P3a。在这种情况下,操作获取单元114基于删除的短语生成目标信息,并且服务器通信单元140将由操作获取单元114生成的目标信息发送至信息处理服务器20。
在执行上述删除处理之后,用户能够再次给出发音以获得正确的识别结果,但是在这种情况下,用户还能够通过以短语或单词为单位划分发音来输入发音,以获得基于预期的间隔符位置的识别结果。图6B示出了用户通过以短语为单位划分发音来输入发音的情况的实例。
然而,已知典型的语音识别对于短的发音具有低的识别准确度。参考图6B,用户以预期的短语为单位输入发音U4至U6。在这个实例中,发音U4至U6可以分别是“Kore”、“Gamen”和““Ippai”。然而,在基于发音U4至U6分别识别的声音相关信息R5至R7时,这些发音相应地被识别为“Re”、“Re gamen”和“Re kamen ppai”,发现这些不符合用户的预期。
为了避免如上所述的这种误识别,即使在用户用日语输入发音的情况下,用户也可以输入整个发音而不将其划分。即使在输入诸如日语等具有多种符号系统的语言的情况下,根据本实施方式的信息处理服务器20也能够重新设置间隔符位置。
图6C示出了用户重新输入整个发音的情况的实例。在图6A所示的处理之后优选地执行图6C中所示的一系列程序。参考图6C,用户在删除处理之后执行发音U7。这里,发音U7可以是“Koregamenippai”,其类似于被错误地转换的发音U3。此外,从发音U7识别的声音相关信息R8被正确地识别,其类似于从发音U4识别的声音相关信息R4。因此,信息处理服务器20的比较单元220优选地确定声音相关信息R4和R8彼此相同。
然后,信息处理服务器20的设置单元230和转换单元240基于间隔符位置的置信度来执行新的间隔符位置的设置和字符转换,其类似于参考图4A和图4B描述的实例。在这种情况下,设置单元230和转换单元240优选地对声音相关信息R4或R8中的任一者执行上述处理。换句话说,根据本实施方式的设置单元230和转换单元240优选地分别执行从对应于第二发音信息的发音U7识别的声音相关信息R8的间隔符位置的设置,以及基于该间隔符位置的字符转换。另一方面,设置单元230和转换单元240优选地分别执行从对应于第一发音信息的发音U4识别的声音相关信息R4的新的间隔符位置的重新设置,以及基于该新的间隔符位置的字符转换。在这种情况下,使用现有的处理结果可以减轻处理负担。
进一步地,信息处理终端10接收关于如上所述设置的新的间隔符位置和字符转换结果的信息,并且基于该信息控制显示单元132的显示,这类似于参考图4A和图4B描述的实例。参考图6C,信息处理终端10的显示单元132显示基于新设置的间隔符位置的两个短语P4a和P4b。如上所述,即使在发音语言具有多种符号系统的情况下,根据本实施方式的信息处理服务器20也能够灵活地校正用户非预期的间隔符位置。
以上描述了根据本实施方式的基于新的间隔符位置的字符转换的具体实例。此外,尽管以上描述给出了比较单元220基于目标信息指定第一发音信息的情况作为实例,然而根据本实施方式的对第一发音信息的指定不限于该实例。根据本实施方式的比较单元220优选地将存储在存储单元250中的多条发音信息与第二发音信息进行比较,并将具有最高置信度的发音信息指定为第一发音信息。在这种情况下,即使在不执行用户的删除操作的情况下,也可以仅通过重新输入发音来实现基于用户预期的间隔符位置的语音识别。
进一步地,尽管以上描述给出了第一发音信息是一条信息的情况作为实例,但是根据本实施方式的第一发音信息可以是多条信息。在这种情况下,根据本实施方式的设置单元230优选地设置与为该多条第一发音信息中的每一个设置的间隔符位置不同的新的间隔符位置。
进一步地,根据本实施方式的由用户执行的输入操作的实例包括转换结果的确认操作等。在这种情况下,根据本实施方式的信息处理服务器20能够基于在执行上述确认操作之前输入的第二发音信息来执行处理。由信息处理服务器20基于用户的确认操作的执行可以使得处理用户期望重复输入相同句子等的情况。
进一步地,尽管以上描述给出了由显示单元132输出基于用户的发音信息的识别结果的情况作为实例,但是根据本实施方式的识别结果可以由语音输出单元134输出。根据本实施方式的终端控制单元120还能够使语音输出单元134基于字符转换结果和从信息处理服务器20接收的与间隔符位置相关的信息,来输出人工语音等。
[1.6.在信息处理服务器20中的操作流程]
现在描述根据本实施方式的信息处理服务器20的操作流程。
(第一发音信息的处理流程)
首先参考图7描述关于第一发音信息的处理流程。图7是示出信息处理服务器20对第一发音信息的处理流程的流程图。
参考图7,信息处理服务器20的终端通信单元260首先接收由信息处理终端10采集的第一发音信息(S1110)。
然后,语音识别单元210基于第一发音信息获取声音相关信息(S1120)。
语音识别单元210基于第一发音信息随后执行语音识别(1130)。
然后,设置单元230基于步骤S1130中的语音识别的结果来设置间隔符位置(S1140)。此外,间隔符位置的设置优选地根据语音识别单元210的功能来实现。在这种情况下,语音识别单元210能够执行语音识别作为语音识别的处理。
(基于目标信息的新的间隔符位置的设置流程)
现在参考图8描述基于目标信息的新的间隔符位置的设置流程。图8是示出了由信息处理服务器20执行的基于目标信息的新的间隔符位置的设置流程的流程图。
参考图8,终端通信单元260首先接收由信息处理终端10采集的第二发音信息和目标信息(S1210)。
然后,比较单元220基于在步骤S1210中接收的目标信息指定第一发音信息(S1220)。
然后,信息处理服务器20执行关于第二发音信息的处理流程(S1230)。稍后将详细描述关于第二发音信息的处理流程。
然后,比较单元220比较关于在步骤S1220中指定的第一发音信息的声音相关信息与关于在步骤S1230中获取的第二发音信息的声音相关信息之间的相似性(S1240)。在这种情况下,比较单元220可以仅比较关于第一发音信息的声音相关信息与关于第二发音信息的声音相关信息,或者可以比较从这两者识别的字符串。
比较单元220随后确定关于第一发音信息的声音相关信息与关于第二发音信息的声音相关信息是否相似或相同(S1250)。
这里,在这两条声音相关信息彼此相同的情况下(S1250中“是”),则设置单元230设置新的间隔符位置(S1260)。在这种情况下,设置单元230优选地基于间隔符位置的置信度来设置新的间隔符位置。
然后,转换单元240基于在步骤S1260中设置的新的间隔符位置来执行字符转换(S1270)。在口语是日语的情况下,转换单元240能够基于新的间隔符位置执行汉字的再转换。
(关于第二发音信息的处理流程)
现在参考图9描述关于第二发音信息的处理流程。图9是示出信息处理服务器20对第二发音信息执行的处理流程的流程图。以下描述的处理可以对应于图8中的步骤S1230。
参考图9,首先,信息处理服务器20的语音识别单元210获取由终端通信单元260接收的第二发音信息(S1231)。
然后,语音识别单元210基于第二发音信息获取声音相关信息(S1232)。
语音识别单元210基于第二发音信息随后执行语音识别(1233)。此外,不必执行步骤S1233中的语音识别。根据本实施方式的比较单元220能够仅使用关于在步骤S1232中获取的第二发音信息的声音相关信息来执行图8中的步骤S1240和S1250的处理。
(仅基于发音信息的新的间隔符位置的设置流程)
现在参考图10描述仅基于发音信息设置新的间隔符位置的流程。图10是示出了由信息处理服务器20仅基于发音信息设置新的间隔符位置的流程的流程图。
参考图10,首先,信息处理服务器20的终端通信单元260接收由信息处理终端10采集的发音信息和目标信息(S1310)。此外,在执行步骤S1310时不接收目标信息,这与图8中所示的情况不同,因此,不指定所接收的发音信息是第一发音信息还是第二发音信息。
然后,信息处理服务器20执行关于在步骤S1310中接收的发音信息的处理流程(S1320)。这里,关于步骤S1320中的发音信息的处理流程优选地与关于参考图9描述的第二发音信息的处理流程相同,因此省略其描述。
然后,比较单元220将关于在步骤S1320中获取的发音信息的声音相关信息与存储在存储单元250中的多条声音相关信息进行比较(S1330)。在这种情况下,比较单元220可以仅在声音相关信息之间进行比较,或者可以在识别的字符串之间进行比较。
比较单元220随后确定是否存在与在步骤S1320中获取的关于发声信息的声音相关信息相似或相同的声音相关信息(S1340)。
这里,在存在与关于在步骤S1320中获取的发声信息的声音相关信息相似或相同的声音相关信息的情况下(S1340中“是”),则设置单元230设置新的间隔符位置(S1350)。
然后,转换单元240基于在步骤S1350中设置的新的间隔符位置执行字符转换(S1360)。
另一方面,在不存在与关于在步骤S1320中获取的发声信息的声音相关信息相似或相同的声音相关信息的情况下(S1340中“否”),则比较单元220确定在步骤S1310接收到的发声信息是新输入的信息(S1370)。换句话说,比较单元220能够将在步骤S1310中接收的发音信息确定为第一发音信息。
然后,设置单元230设置与在步骤S1310中接收的发音信息相关联的间隔符位置(S1380)。
<2.示例性硬件配置>
现在描述根据本公开的信息处理终端10和信息处理服务器20共同的硬件配置的实例。图11是示出了根据本公开的信息处理终端10和信息处理服务器20的硬件配置的实例的框图。参考图11,在一个实例中,信息处理终端10和信息处理服务器20包括CPU 871、ROM872、RAM 873、主机总线874、桥接器875、外部总线876、接口877、输入装置878、输出装置879、存储器880、驱动器881、连接端口882和通信装置883。此外,这里示出的硬件配置是说明性的,并且可以省略一些部件。此外,还可以包括除这里所示部件之外的部件。
(CPU 871)
在一个实例中,CPU 871用作算术处理单元或控制装置,并且基于记录在ROM 872、RAM 873、存储器880或可移除记录介质901中的各种程序来控制每个部件的部分或全部操作。
(ROM 872和RAM 873)
ROM 872是用于存储读入CPU 871中的程序、用于操作的数据等的器件。在一个实例中,RAM 873临时或永久地存储要读取到CPU 871中的程序、在执行程序时适当改变的各种参数等。
(主机总线874、桥接器875、外部总线876和接口877)
在一个实例中,CPU 871、ROM 872和RAM 873经由能够高速数据传输的主机总线874相互连接。另一方面,在一个实例中,主机总线874经由桥接器875连接至具有相对低的数据传输速度的外部总线876。此外,外部总线876经由接口877连接至各种部件。
(输入装置878)
输入装置878的实例包括鼠标、键盘、触摸面板、按钮、开关、杆等。此外,输入装置878的实例包括能够使用红外线或其他无线电波发送控制信号的遥控器(下文中称为遥控器)。此外,输入装置878包括诸如麦克风等语音输入装置。
(输出装置879)
输出装置879是能够在视觉上或听觉上向用户通知所获取的信息的装置,其包括诸如阴极射线管(CRT)、LCD或有机EL等显示装置、诸如扬声器或耳机等音频输出装置、打印机、移动电话、传真机等。
(存储器880)
存储器880是用于存储各种类型的数据的装置。存储器880的实例包括诸如硬盘驱动器(HDD)等磁存储装置、半导体存储装置、光学存储装置、磁光存储装置等。
(驱动器881)
驱动器881是读取记录在诸如磁盘、光盘、磁光盘或半导体存储器等可移除记录介质901上的信息或将信息写入可移除记录介质901的装置。
(可移除记录介质901)
可移除记录介质901的实例包括DVD介质、蓝光(注册商标)介质、HD DVD介质、各种半导体存储介质等。当然,在一个实例中,可移除记录介质901优选地是安装有非接触式IC芯片的IC卡或电子装置。
(连接端口882)
连接端口882是用于与诸如通用串行总线(USB)端口、IEEE 1394端口、小型计算机系统接口(SCSI)、RS-232C端口或光学音频终端等外部连接装置902连接的端口。
(外部连接装置902)
外部连接装置902的实例包括打印机、便携式音乐播放器、数字相机、数字视频相机、IC记录器等。
(通信装置883)
通信装置883是用于与网络连接的通信装置,并且其实例包括用于有线或无线LAN的通信卡、蓝牙(注册商标)或无线USB(WUSB)、用于光学通信的路由器、用于非对称数字用户线(ADSL)的路由器、或用于各种通信的调制解调器。
<3.结束语>
如上所述,根据本公开的信息处理终端10能够接收与新的间隔符位置相关的信息,新的间隔符位置与第一发音信息相关联的字符转换的结果不同的,并且控制通过基于新的间隔符位置执行的字符转换而获得的新的转换结果的输出。此外,根据本公开的信息处理服务器20能够将采集的第一发音信息与第二发音信息进行比较,并且基于比较结果设置关于语音识别的结果的新的间隔符位置。此外,信息处理服务器20能够基于所设置的新的间隔符位置执行字符转换。这样的配置使得可以更灵活地校正所识别的句子。
以上参考附图描述了本公开的(多个)优选实施方式,然而本公开不限于以上实例。本领域技术人员可以在所附权利要求的范围内找到各种变更和修改,并且应理解,这些变更和修改将自然地落入本公开的技术范围内。
进一步地,本说明书中的信息处理服务器20的处理中的相应步骤在时间顺序方面不一定按照流程图中所示的顺序执行。在一个实例中,信息处理服务器20的处理中的相应步骤能够以与流程图中所示的顺序不同的顺序处理,或者也可以并行处理。
进一步地,本说明书中描述的效果仅仅是说明性或示例性的效果,而不是限制性的。也就是说,利用或代替上述效果,根据本公开的技术可以从本说明书的描述中实现本领域技术人员清楚的其他效果。
此外,本技术还可以如下进行配置。
(1)
一种信息处理装置,包括:
比较单元,被配置为对从采集的第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较;以及
设置单元,被配置为基于通过所述比较单元获得的比较结果来设置新的间隔符位置,所述新的间隔符位置不同于与所述第一发音信息相关联的字符转换的结果。
(2)
根据(1)所述的信息处理装置,还包括:
转换单元,被配置为基于所述新的间隔符位置来执行字符转换。
(3)
根据(2)所述的信息处理装置,
其中,转换单元基于新的间隔符位置来执行与第二发音信息相关联的字符转换。
(4)
根据(2)或(3)所述的信息处理装置,
其中,转换单元基于新的间隔符位置来执行与第一发音信息相关联的字符转换。
(5)
根据(1)至(4)中任一项所述的信息处理装置,还包括:
接收单元,被配置为接收第一发音信息和第二发音信息。
(6)
根据(5)所述的信息处理装置,
其中,所述接收单元接收用于指定所述第一发音信息的目标信息,并且
所述比较单元基于所述目标信息来比较所述第一声音相关信息与所述第二声音相关信息。
(7)
根据(1)至(6)中任一项所述的信息处理装置,还包括:
发送单元,被配置为发送与由设置单元设置的所述新的间隔符位置相关的信息。
(8)
根据(7)所述的信息处理装置,
其中,发送单元发送基于新的间隔符位置的字符转换的结果。
(9)
根据(1)至(8)中任一项所述的信息处理装置,还包括:
语音识别单元,被配置为基于第一发音信息或第二发音信息来执行语音识别。
(10)
一种信息处理装置,包括:
接收单元,被配置为接收与新的间隔符位置相关的信息,所述新的间隔符位置不同于与采集的第一发音信息相关联的字符转换的结果;以及
输出控制单元,被配置为控制新的转换结果的输出,所述新的转换结果是通过基于所述新的间隔符位置执行字符转换而获得的,
其中,所述新的间隔符位置是基于通过对从采集的所述第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较而获得的结果来设定的。
(11)
根据(10)所述的信息处理装置,
其中,输出控制单元使输出单元以彼此关联的方式对新的转换结果和新的间隔符位置进行输出。
(12)
根据(10)或(11)所述的信息处理装置,还包括:
发送单元,被配置为发送第一发音信息和第二发音信息。
(13)
根据(12)所述的信息处理装置,
其中,所述发送单元发送用于指定所述第一发音信息的目标信息,并且
所述接收单元基于所述目标信息来接收与设定的所述新的间隔符位置相关的信息。
(14)
根据(10)至(13)中任一项所述的信息处理装置,
其中,接收单元接收新的转换结果。
(15)
根据(10)至(13)中任一项所述的信息处理装置,还包括:
转换单元,被配置为基于所述新的间隔符位置来执行字符转换。
(16)
根据(13)所述的信息处理装置,还包括:
操作获取单元,被配置为检测用户的输入操作并且基于所述输入操作生成所述目标信息。
(17)
根据(10)至(16)中任一项所述的信息处理装置,还包括:
输出单元,基于所述输出控制单元的控制来输出所述新的转换结果。
(18)
根据(10)至(17)中任一项所述的信息处理装置,还包括:
语音采集单元,被配置为采集所述第一发音信息和所述第二发音信息,
其中,所述第二发音信息是在获取到所述第一发音信息之后获取的。
(19)
一种信息处理方法,包括:
由处理器对从采集的第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较;以及
基于通过比较所述第一声音相关信息与所述第二声音相关信息而获得的结果来设置新的间隔符位置,所述新的间隔符位置不同于与所述第一发音信息相关联的字符转换的结果不同。
(20)
一种信息处理方法,包括:
由处理器接收与新的间隔符位置相关的信息,所述新的间隔符位置不同于与采集的第一发音信息相关联的字符转换的结果;以及
控制新的转换结果的输出,所述新的转换结果是通过基于所述新的间隔符位置执行字符转换而获得的,
其中,所述新的间隔符位置是基于通过对从采集的所述第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较而获得的结果来设定的。
参考符号列表
10 信息处理终端
110 输入单元
112 语音采集单元
114 操作获取单元
120 终端控制单元
130 输出单元
132 显示单元
134 语音输出单元
140 服务器通信单元
20 信息处理服务器
210 语音识别单元
220 比较单元
230 设置单元
240 转换单元
250 存储单元
260 终端通信单元。

Claims (20)

1.一种信息处理装置,包括:
比较单元,被配置为对从采集的第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较;以及
设置单元,被配置为基于通过所述比较单元获得的比较结果来设置新的间隔符位置,所述新的间隔符位置不同于与所述第一发音信息对应的字符转换的结果。
2.根据权利要求1所述的信息处理装置,还包括:
转换单元,被配置为基于所述新的间隔符位置来执行字符转换。
3.根据权利要求2所述的信息处理装置,
其中,所述转换单元基于所述新的间隔符位置来执行与所述第二发音信息对应的字符转换。
4.根据权利要求2所述的信息处理装置,
其中,所述转换单元基于所述新的间隔符位置来执行与所述第一发音信息对应的字符转换。
5.根据权利要求1所述的信息处理装置,还包括:
接收单元,被配置为接收所述第一发音信息和所述第二发音信息。
6.根据权利要求5所述的信息处理装置,
其中,所述接收单元接收用于指定所述第一发音信息的目标信息,并且
所述比较单元基于所述目标信息来比较所述第一声音相关信息与所述第二声音相关信息。
7.根据权利要求1所述的信息处理装置,还包括:
发送单元,被配置为发送与所述新的间隔符位置相关的信息。
8.根据权利要求7所述的信息处理装置,
其中,所述发送单元发送基于所述新的间隔符位置的字符转换的结果。
9.根据权利要求1所述的信息处理装置,还包括:
语音识别单元,被配置为基于所述第一发音信息或所述第二发音信息来执行语音识别。
10.一种信息处理装置,包括:
接收单元,被配置为接收与新的间隔符位置相关的信息,所述新的间隔符位置不同于与采集的第一发音信息对应的字符转换的结果;以及
输出控制单元,被配置为控制新的转换结果的输出,所述新的转换结果是通过基于所述新的间隔符位置执行字符转换而获得的,
其中,所述新的间隔符位置是基于通过对从采集的所述第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较而获得的结果来设定的。
11.根据权利要求10所述的信息处理装置,
其中,所述输出控制单元使输出单元对所述新的转换结果和所述新的间隔符位置进行关联并进行输出。
12.根据权利要求10所述的信息处理装置,还包括:
发送单元,被配置为发送所述第一发音信息和所述第二发音信息。
13.根据权利要求12所述的信息处理装置,
其中,所述发送单元发送用于指定所述第一发音信息的目标信息,并且
所述接收单元基于所述目标信息来接收与设定的所述新的间隔符位置相关的信息。
14.根据权利要求10所述的信息处理装置,
其中,所述接收单元接收所述新的转换结果。
15.根据权利要求10所述的信息处理装置,还包括:
转换单元,被配置为基于所述新的间隔符位置来执行字符转换。
16.根据权利要求13所述的信息处理装置,还包括:
操作获取单元,被配置为检测用户的输入操作并且基于所述输入操作生成所述目标信息。
17.根据权利要求10所述的信息处理装置,还包括:
输出单元,基于所述输出控制单元的控制来输出所述新的转换结果。
18.根据权利要求10所述的信息处理装置,还包括:
语音采集单元,被配置为采集所述第一发音信息和所述第二发音信息,
其中,所述第二发音信息是在获取到所述第一发音信息之后获取的。
19.一种信息处理方法,包括:
由处理器对从采集的第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较;以及
基于通过比较所述第一声音相关信息与所述第二声音相关信息而获得的结果来设置新的间隔符位置,所述新的间隔符位置不同于与所述第一发音信息对应的字符转换的结果。
20.一种信息处理方法,包括:
由处理器接收与新的间隔符位置相关的信息,所述新的间隔符位置不同于与采集的第一发音信息对应的字符转换的结果;以及
控制新的转换结果的输出,所述新的转换结果是通过基于所述新的间隔符位置执行字符转换而获得的,
其中,所述新的间隔符位置是基于通过对从采集的所述第一发音信息获得的第一声音相关信息与从采集的第二发音信息获得的第二声音相关信息进行比较而获得的结果来设定的。
CN201780037397.3A 2016-06-21 2017-04-10 信息处理装置与信息处理方法 Withdrawn CN109313894A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016122437 2016-06-21
JP2016-122437 2016-06-21
PCT/JP2017/014717 WO2017221516A1 (ja) 2016-06-21 2017-04-10 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
CN109313894A true CN109313894A (zh) 2019-02-05

Family

ID=60784276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780037397.3A Withdrawn CN109313894A (zh) 2016-06-21 2017-04-10 信息处理装置与信息处理方法

Country Status (5)

Country Link
US (1) US11217266B2 (zh)
EP (1) EP3474275A4 (zh)
JP (1) JP6852734B2 (zh)
CN (1) CN109313894A (zh)
WO (1) WO2017221516A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11437025B2 (en) * 2018-10-04 2022-09-06 Google Llc Cross-lingual speech recognition
KR102321806B1 (ko) * 2019-08-27 2021-11-05 엘지전자 주식회사 음성신호 및 텍스트가 매칭된 데이터베이스의 구축방법 및 이를 위한 시스템, 이를 기록한 컴퓨터 판독 가능한 기록매체

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03148750A (ja) * 1989-11-06 1991-06-25 Fujitsu Ltd 音声ワープロ
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
JPH11149294A (ja) * 1997-11-17 1999-06-02 Toyota Motor Corp 音声認識装置および音声認識方法
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US6770572B1 (en) * 1999-01-26 2004-08-03 Alliedsignal Inc. Use of multifunctional si-based oligomer/polymer for the surface modification of nanoporous silica films
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US7047193B1 (en) * 2002-09-13 2006-05-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
JP4225128B2 (ja) * 2003-06-13 2009-02-18 ソニー株式会社 規則音声合成装置及び規則音声合成方法
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7469205B2 (en) * 2004-06-30 2008-12-23 Marvell International Ltd. Apparatus and methods for pronunciation lexicon compression
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
JP2007057714A (ja) * 2005-08-23 2007-03-08 Nec Corp 話者識別器更新データを生成する装置、方法、プログラムおよび話者識別器を更新する装置、方法、プログラム
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP2008051895A (ja) * 2006-08-22 2008-03-06 Casio Comput Co Ltd 音声認識装置および音声認識処理プログラム
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
EP2019383A1 (en) * 2007-07-25 2009-01-28 Dybuster AG Device and method for computer-assisted learning
US8498870B2 (en) * 2008-01-24 2013-07-30 Siemens Medical Solutions Usa, Inc. Medical ontology based data and voice command processing system
US8185396B2 (en) * 2008-07-11 2012-05-22 Research In Motion Limited Facilitating text-to-speech conversion of a domain name or a network address containing a domain name
US9280971B2 (en) * 2009-02-27 2016-03-08 Blackberry Limited Mobile wireless communications device with speech to text conversion and related methods
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8682670B2 (en) * 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
US9087039B2 (en) * 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching
US20130257732A1 (en) * 2012-03-29 2013-10-03 Robert Duffield Adaptive virtual keyboard
US8612213B1 (en) * 2012-10-16 2013-12-17 Google Inc. Correction of errors in character strings that include a word delimiter
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9324319B2 (en) * 2013-05-21 2016-04-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
EP3100174A1 (de) * 2014-01-28 2016-12-07 Somol Zorzin GmbH Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
US20150364140A1 (en) * 2014-06-13 2015-12-17 Sony Corporation Portable Electronic Equipment and Method of Operating a User Interface
JP5943436B2 (ja) * 2014-06-30 2016-07-05 シナノケンシ株式会社 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
US9880997B2 (en) * 2014-07-23 2018-01-30 Accenture Global Services Limited Inferring type classifications from natural language text
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
CN107209552B (zh) * 2014-09-02 2020-10-27 托比股份公司 基于凝视的文本输入系统和方法
US9940016B2 (en) * 2014-09-13 2018-04-10 Microsoft Technology Licensing, Llc Disambiguation of keyboard input
KR102267405B1 (ko) * 2014-11-21 2021-06-22 삼성전자주식회사 음성 인식 장치 및 음성 인식 장치의 제어 방법
KR102351366B1 (ko) * 2015-01-26 2022-01-14 삼성전자주식회사 음성 인식 방법 및 장치
US10019984B2 (en) * 2015-02-27 2018-07-10 Microsoft Technology Licensing, Llc Speech recognition error diagnosis
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
KR102018331B1 (ko) * 2016-01-08 2019-09-04 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
US10109217B2 (en) * 2016-03-27 2018-10-23 Ya-Mei TSENG Speech assessment device and method for a multisyllabic-word learning machine, and a method for visualizing continuous audio

Also Published As

Publication number Publication date
JP6852734B2 (ja) 2021-03-31
US20200302950A1 (en) 2020-09-24
WO2017221516A1 (ja) 2017-12-28
EP3474275A4 (en) 2019-11-06
JPWO2017221516A1 (ja) 2019-04-18
US11217266B2 (en) 2022-01-04
EP3474275A1 (en) 2019-04-24

Similar Documents

Publication Publication Date Title
US10629175B2 (en) Smart detecting and feedback system for smart piano
US11462213B2 (en) Information processing apparatus, information processing method, and program
TWI508057B (zh) 語音辨識系統以及方法
JP5636888B2 (ja) 情報処理装置、プログラムおよびコマンド生成方法
WO2020223007A1 (en) Video tagging by correlating visual features to sound tags
WO2020122653A1 (en) Electronic apparatus and controlling method thereof
EP3410433A1 (en) Information processing device, information processing method, and program
CN110199256A (zh) 计算设备、计算方法、以及计算机程序
WO2018016139A1 (ja) 情報処理装置、および情報処理方法
WO2021029523A1 (en) Techniques for learning effective musical features for generative and retrieval-based applications
CN109313894A (zh) 信息处理装置与信息处理方法
EP3509062B1 (en) Audio recognition device, audio recognition method, and program
CN104361787A (zh) 信号转换系统和信号转换方法
Singh et al. A low-cost wearable Indian sign language interpretation system
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
KR101691782B1 (ko) 얼굴인식을 이용한 인증장치 및 그 인증방법
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2017211430A (ja) 情報処理装置および情報処理方法
US20200234187A1 (en) Information processing apparatus, information processing method, and program
CN113257246B (zh) 提示方法、装置、设备、系统及存储介质
JP7468360B2 (ja) 情報処理装置および情報処理方法
US20220138625A1 (en) Information processing apparatus, information processing method, and program
US20220083596A1 (en) Information processing apparatus and information processing method
WO2017208356A1 (ja) IoT制御システム、IoT制御方法及びプログラム
JP6822261B2 (ja) 情報処理装置、プログラムおよび情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190205

WW01 Invention patent application withdrawn after publication