CN101567189A

CN101567189A - 声音识别结果修正装置、方法以及系统

Info

Publication number: CN101567189A
Application number: CNA2009101350590A
Authority: CN
Inventors: 张志鹏; 仲信彦; 中岛悠辅
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-04-22
Filing date: 2009-04-22
Publication date: 2009-10-28
Anticipated expiration: 2029-04-22
Also published as: JP2010055044A; TWI427620B; JP4709887B2; CN101567189B; TW200951940A

Abstract

本发明提供声音识别结果修正装置、方法以及系统，在识别结果存在错误的情况下，不用花费用户的劳力和时间就能够修正识别错误。对服务器装置(120)发送声音的特征量数据。然后，在服务器装置(120)中进行识别处理，接收部(235)从服务器装置(120)接收识别结果。错误区间指定部(240)根据可靠度等指定在接收到的识别结果中产生了识别错误的错误区间。然后，错误区间特征量提取部(260)提取错误区间的特征量数据，修正部(270)对提取出的错误区间中的识别结果进行再次识别处理，从而进行修正处理。

Description

声音识别结果修正装置、方法以及系统

技术领域

本发明涉及用于修正声音识别后的数据的声音识别结果修正装置、声音识别结果修正方法以及声音识别结果修正系统。

背景技术

公知有在日本特开2003-295893号公报(专利文献1)中记载了如下技术：将在便携终端中输入的声音输出到服务器，在该服务器中识别声音，在这里将识别结果发送到便携终端，由此，能够在便携终端中取得声音结果。

但是，在服务器中识别的识别结果存在错误的情况下，没有考虑进行其修正。一般在识别结果存在错误的情况下，考虑通过用户以手动输入的方式进行操作从而进行修正，但是，花费大量劳力和时间。例如，用户掌握作为识别结果的文章，识别错误，指定该错误的位置，然后进行修正，花费劳力和时间。

发明内容

因此，本发明的目的在于提供如下的声音识别结果修正装置、声音识别结果修正方法以及声音识别结果修正系统：在识别结果存在错误的情况下，不用花费用户的劳力和时间就能够修正识别错误。

为了解决上述课题，本发明的声音识别结果修正装置具有：输入单元，其输入声音；计算单元，其根据由所述输入单元输入的声音，计算特征量数据；存储单元，其存储由所述计算单元计算出的特征量数据；取得单元，其取得针对由所述输入单元输入的声音的识别结果；指定单元，其指定在由所述取得单元识别的识别结果中产生了识别错误的错误区间；以及修正单元，其从存储在所述存储单元中的特征量数据中提取与所述指定单元所指定的错误区间对应的特征量数据，使用该提取出的特征量数据进行再次识别，由此，执行由所述取得单元得到的识别结果的修正。

并且，本发明的声音识别结果修正方法具有以下步骤：输入步骤，其输入声音；计算步骤，其根据由所述输入步骤输入的声音，计算特征量数据；存储步骤，其存储由所述计算步骤计算出的特征量数据；取得步骤，其取得针对由所述输入步骤输入的声音的识别结果；指定步骤，其指定在由所述取得步骤识别的识别结果中产生了识别错误的错误区间；以及修正步骤，其从在所述存储步骤中存储的特征量数据中提取与所述指定步骤所指定的错误区间对应的特征量数据，使用该提取出的特征量数据进行再次识别，由此，执行由所述取得步骤得到的识别结果的修正。

根据本发明，存储所输入的声音的特征量数据，并且，在针对该声音进行识别的识别结果中，指定产生了识别错误的错误区间。然后，对所指定的错误区间中的特征量数据进行再次识别，从而修正识别结果。由此，能够简单地进行修正处理以修正识别结果中必要的部分，并且，能够得到正确的识别结果。由此，不会给用户造成负担，能够简单地进行修正处理，能够得到正确的声音识别结果。

并且，在本发明的声音识别结果修正装置中，优选所述取得单元包括：发送单元，其向声音识别装置发送由所述输入单元输入的声音；以及接收单元，其接收在所述声音识别装置中识别的识别结果，所述指定单元指定在所述接收单元所接收的识别结果中产生了识别错误的错误区间。

根据本发明，向声音识别装置发送所输入的声音，并接收在该声音识别装置中识别的识别结果。然后，在接收到的识别结果中指定产生了识别错误的错误区间，修正所指定的错误区间中的识别结果。由此，能够简单地修正声音识别的错误以修正识别结果中必要的部分，能够得到正确的识别结果。

并且，在本发明的声音识别结果修正装置中，优选所述指定单元通过受理用户操作来指定错误区间。

根据本发明，能够通过受理用户操作来指定错误区间，能够更简单地指定错误区间，并且，能够得到正确的声音识别结果。

并且，在本发明的声音识别结果修正装置中，优选所述指定单元根据所述识别结果所附加的识别结果的可靠度来判断错误区间，指定该判断的错误区间。

根据本发明，根据识别结果所附加的识别结果的可靠度来判断错误区间，并指定该判断的错误区间，由此，能够自动指定错误区间，能够更简单地指定错误区间。

并且，在本发明的声音识别结果修正装置中，优选所述指定单元计算所述识别结果的可靠度，根据该可靠度来判断错误区间，指定该判断的错误区间。

根据本发明，能够计算识别结果的可靠度，根据该可靠度判断错误区间，指定该判断的错误区间，能够更简单地指定错误区间。进而，即使在服务器装置等中进行声音识别的情况下，也可以不使该服务器装置计算可靠度，能够提供使用更便利的装置。

并且，本发明的声音识别结果修正装置优选还具有确定单元，该确定单元用于确定形成所述指定单元所指定的错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果，所述修正单元将由所述确定单元确定的识别结果作为约束条件，根据该约束条件，从所述存储单元中提取与包含错误区间前面的单词、后面的单词在内的区间对应的特征量数据，对提取出的特征量数据进行识别处理。

根据本发明，能够确定形成所指定的错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果，将所确定的识别结果作为约束条件，根据该约束条件，进行预先存储的特征量数据的识别处理。由此，能够进行更准确的识别处理，由此，能够得到正确的声音识别结果。

并且，本发明的声音识别结果修正装置优选还具有确定单元，该确定单元用于确定形成由所述指定单元指定的错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果，所述修正单元将所述确定单元所确定的识别结果作为约束条件，根据该约束条件，从所述存储单元中提取与错误区间对应的特征量数据，对提取出的特征量数据进行识别处理。

根据本发明，能够确定形成所指定的错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果，将所确定的识别结果作为约束条件，根据该约束条件，进行预先存储的特征量数据的识别处理。即，在本发明中，能够仅使用错误区间的特征量数据来进行识别处理。由此，能够进行更准确的识别处理，由此，能够得到正确的声音识别结果。

并且，本发明的声音识别结果修正装置优选还具有单词信息确定单元，该单词信息确定单元用于确定识别结果中的单词的单词信息，该识别结果形成用于确定由所述指定单元指定的错误区间前面至少一个单词的信息即单词信息、或后面至少一个单词的单词信息、或所述前面的单词的单词信息和后面的单词的单词信息双方中的任一种，所述修正单元将由所述单词信息确定单元确定的单词信息作为约束条件，根据该约束条件，从所述存储单元中提取与包含错误区间前面的单词、后面的单词在内的区间对应的特征量数据，对提取出的特征量数据进行识别处理。

根据本发明，将用于确定单词的单词信息作为约束条件，进行修正处理，由此，能够进行更准确的识别处理。

例如，作为单词信息，优选包含表示单词词类的词类信息和表示单词读法的读音信息的任意一个或多个。

并且，本发明的声音识别结果修正装置优选还具有未知词判定单元，该未知词判定单元根据所述单词信息，判定形成由所述指定单元指定的错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果的单词是否是未知词，当所述未知词判定单元判定为所述识别结果的单词为未知词时，所述修正单元根据所述单词信息进行识别结果的修正处理。

根据本发明，在是未知词的情况下，将单词信息作为约束条件来进行识别处理，由此，能够得到更准确的声音识别结果。

并且，本发明的声音识别结果修正装置优选还具有连接概率存储单元，该连接概率存储单元存储单词彼此之间的连接概率，所述修正单元通过进行修正处理，生成该错误区间的单词与其前后或一方的单词的连接概率，使用该连接概率来更新存储在所述连接概率存储单元中的连接概率。

根据本发明，存储单词彼此之间的连接概率，每当对其进行修正处理时，改变连接概率，所以，通过计算并更新该连接概率，能够得到更准确的声音识别结果。

并且，本发明的声音识别结果修正装置优选还具有约束条件存储单元，该约束条件存储单元存储由所述单词信息确定单元确定的单词信息或由所述确定单元确定的单词作为约束条件，所述修正单元根据存储在所述约束条件存储单元中的约束条件，进行修正处理。

由此，存储作为约束条件的单词或单词信息，能够根据需要进行基于所存储的约束条件的修正处理，不需要每当进行修正处理时生成约束条件，能够进行迅速的修正处理(声音识别处理)。

并且，本发明的声音识别结果修正装置优选还具有受理单元，该受理单元从用户受理文字信息，所述修正单元将所述受理单元所受理的文字信息作为约束条件，进行错误区间中的识别结果的修正处理。

根据本发明，用户能够直接指定作为约束条件的文字，能够进行更准确的识别处理，由此，能够得到正确的声音识别结果。

并且，本发明的声音识别结果修正装置优选还具有时间信息计算单元，该时间信息计算单元根据由接收单元接收的识别结果和存储在所述存储单元中的特征量数据，计算识别结果中的经过时间，所述指定单元根据由所述时间信息计算单元计算出的时间信息，指定错误区间。

根据本发明，能够根据接收到的识别结果和所存储的特征量数据，计算识别结果中的经过时间，根据该时间信息来指定错误区间。由此，即使在识别结果中不包含时间信息的情况下，也能够提取与错误区间对应的适当的特征量数据。

并且，本发明的声音识别结果修正装置优选还具有显示单元，该显示单元显示由所述修正单元修正的识别结果，所述显示单元不显示由所述取得单元取得的识别结果。由此，不显示可能存在识别错误的识别结果，所以，不会对用户造成误解。

并且，本发明的声音识别结果修正装置优选在所述修正单元进行再次识别而得到的识别结果和所述取得单元所取得的识别结果相同的情况下，或者这些识别结果分别包含的时间信息产生偏差的情况下，判断为识别错误，所述显示单元不显示识别结果。由此，能够防止显示错误的识别结果。

并且，在本发明的声音识别结果修正装置中，优选所述指定单元通过用户操作来指定错误区间的起点，根据对由所述取得单元取得的识别结果附加的识别结果的可靠度，指定错误区间的终点。由此，能够实现符合用户的输入习惯的修正方法，能够提供使用便利的装置。

并且，在本发明的声音识别结果修正装置中，优选所述指定单元通过用户操作来指定错误区间的起点，从该起点隔开规定识别单位数量来指定错误区间的终点。由此，能够实现符合用户的输入习惯的修正方法，能够提供使用便利的装置。

并且，在本发明的声音识别结果修正装置中，优选所述指定单元通过用户操作来指定错误区间的起点，根据由所述取得单元取得的识别结果中的规定的发音记号，指定错误区间的终点。由此，能够实现符合用户的输入习惯的修正方法，能够提供使用便利的装置。

并且，在本发明的声音识别结果修正装置中，优选所述取得单元在取得识别结果时，取得多个识别候选作为识别结果，所述指定单元通过用户操作来指定错误区间的起点，根据由所述取得单元取得的识别候选的数量来指定终点。由此，能够指定基于识别结果的可靠度的终点，能够有效地实现修正处理。

并且，在本发明的声音识别结果修正装置中，优选该声音识别结果修正装置还具有计算单元，该计算单元计算包含由所述计算单元计算出的特征量数据的错误区间在内的区间的平均值，所述修正单元从提取出的特征量数据中减去由所述计算单元计算出的平均值，将通过该减法运算得到的数据作为特征量数据，进行再次识别处理。由此，能够对去除了麦克风等输入声音的集音装置的特性后的声音进行修正处理，能够实现更准确的修正(声音识别)。

并且，在本发明的声音识别结果修正装置中，该声音识别结果修正装置具有：输入单元，其输入声音；取得单元，其取得针对由所述输入单元输入的声音的识别结果；指定单元，其指定在由所述取得单元识别的识别结果中产生了识别错误的错误区间；通知单元，其向外部服务器通知所述指定单元所指定的错误区间，由此向所述外部服务器委托该错误区间的再次识别处理；以及接收单元，其根据所述通知单元的委托，接收在所述外部服务器中再次识别的错误区间的识别结果。

并且，在本发明的声音识别结果修正方法中，该声音识别结果修正方法具有以下步骤：输入步骤，其输入声音；取得步骤，其取得针对由所述输入步骤输入的声音的识别结果；指定步骤，其指定在由所述取得步骤识别的识别结果中产生了识别错误的错误区间；通知步骤，其向外部服务器通知由所述指定步骤指定的错误区间，由此向所述外部服务器委托该错误区间的再次识别处理；以及接收步骤，其根据所述通知步骤的委托，接收在所述外部服务器中再次识别的错误区间的识别结果。

并且，本发明的声音识别结果修正装置优选具有子字区间指定单元，该子字区间指定单元在由所述取得单元取得的识别结果中指定子字区间，所述修正单元从所述存储单元中提取在由所述指定单元指定的错误区间中进一步与所述子字区间指定单元所指定的子字区间对应的特征量数据，使用该提取出的特征量数据进行再次识别，由此，执行由所述取得单元得到的识别结果的修正。

由此，能够使用与子字区间对应的特征量数据来执行识别结果的修正，能够进行更准确的修正处理。即，能够进行基于子字区间这样的未知词的区间的再次识别。

并且，本发明的声音识别结果修正装置优选还具有分割单元，该分割单元根据由所述子字区间指定单元指定的子字区间，将所述取得单元所取得的识别结果分割为多个区间，所述修正单元按照所述分割单元所分割的各个分割区间，执行识别结果的修正。

由此，将识别结果分割为多个区间，从而能够缩短识别对象，能够进行更准确的识别处理。

并且，本发明的声音识别结果修正装置中的分割单元优选对识别结果进行分割，使得将子字区间的终点作为一个分割区间的终点，并且，将子字区间的起点作为所述一个分割区间的下一分割区间的起点。

由此，子字区间包含在任意分割区间中。由此，进行识别处理时一定包含子字区间，从而能够将子字文字串作为约束条件来进行识别处理。

并且，本发明的声音识别结果修正装置中的修正单元优选按照所述分割单元所分割的各个分割区间，执行识别结果的修正，并且，将所述子字区间作为各分割区间的修正中的约束条件。

由此，进行识别处理时一定包含子字区间，从而能够将子字文字串作为约束条件来进行识别处理。

并且，在本发明的声音识别结果修正装置中，优选修正单元保持包含由所述子字区间指定单元指定的子字区间所记述的子字文字串在内的假说，来作为识别的搜索过程，从该假说中选择最终的识别结果，从而执行修正。

由此，能够进行必须使用子字文字串的识别处理。

并且，本发明的声音识别结果修正装置优选还具有辞典追加单元，该辞典追加单元在识别处理用的辞典数据库中追加由所述子字区间指定单元指定的子字区间中的子字文字串。

由此，能够蓄积子字文字串，在今后的识别处理中有效使用，能够进行更准确的识别处理。

本发明的声音识别结果修正装置优选还具有由用户生成的辞典数据库，所述修正单元使用根据所述辞典数据库对子字文字串进行转换后的文字串，进行修正处理。

并且，本发明的声音识别结果修正系统具有上述声音识别结果修正装置；以及服务器装置，其根据从所述声音识别结果修正装置发送的声音进行声音识别，向所述声音识别结果修正装置发送识别结果。该声音识别结果修正系统仅是范畴不同，在作用效果方面与上述声音识别结果修正装置相同。

根据本发明，能够简单地进行修正处理以修正识别结果中必要的部分，并且，能够得到正确的识别结果。

附图说明

图1是包含作为本实施方式的声音识别结果修正装置的客户端装置110(包含110a～110k)的通信系统的系统结构图。

图2是示出客户端装置110的功能的框图。

图3是客户端装置110的硬件结构图。

图4是示出声音识别结果所包含的各种信息的概念的概念图，(a)是以日语发音为例，(b)是以汉语发音为例。

图5(a)示出指定了错误区间前后上下文时的概念图，(b)是示出根据约束条件进行识别处理时的概念的概念图。

图6是示出客户端装置110的动作的流程图。

图7是示出包含错误区间的指定在内的修正处理的详细处理的流程图。

图8是示出通过用户输入来受理错误区间的客户端装置110a的功能的框图。

图9是示出客户端装置110a的处理的流程图。

图10是示出客户端装置110a中的通过用户输入来指定错误区间时的详细处理的流程图。

图11是示出该客户端装置110b的功能的框图。

图12是示出客户端装置110b的处理的流程图。

图13是示出客户端装置110b中的指定错误区间时的详细处理的流程图。

图14是示出客户端装置110c的功能的框图。

图15是示出客户端装置110c的处理的流程图。

图16是示出客户端装置110d的功能的框图。

图17是示出客户端装置110d的处理的流程图。

图18是示出客户端装置110f的功能的框图。

图19是示出客户端装置110f的处理的流程图。

图20是示出客户端装置110g的功能的框图。

图21是示出客户端装置110g的处理的流程图。

图22是示出客户端装置110h的功能的框图。

图23是示出客户端装置110i的功能的框图。

图24是示出对指定单词信息作为约束条件的部分进行修正处理时的概念的概念图。

图25是示出客户端装置110的变形例的框图。

图26是示出客户端装置110k的功能的框图。

图27是示出客户端装置110k的动作的流程图。

图28是说明讲话内容、识别结果、分割区间的对应的说明图，(a)是以日语发音为例，(b)是以汉语发音为例。

图29是声音识别中的搜索过程的概念图。

具体实施方式

一边参照附图一边说明本发明的实施方式。在可能的情况下，对同一部分标注同一标号，并省略重复的说明。

<第1实施方式>

图1是通信系统的系统结构图，该通信系统具有作为本实施方式的声音识别结果修正装置的客户端装置110、和识别从客户端装置110发送的声音并将其结果回复给客户端装置110的服务器装置120。在本实施方式中，客户端装置110例如是便携电话等便携终端，能够输入用户发出的声音，使用无线通信将所输入的声音发送到服务器装置120，接收来自服务器装置120的回复即识别结果。

服务器装置120具有声音识别部，使用音响模型、语言模型等数据库对所输入的声音进行声音识别，将该识别结果回复到客户端装置110。

接着，说明该客户端装置110的结构。图2是示出客户端装置110的功能的框图。该客户端装置110构成为包含：特征量计算部210(输入单元、计算单元)、特征量压缩部220、发送部225(取得单元、发送单元)、特征量保存部230(存储单元)、接收部235(取得单元、接收单元)、错误区间指定部240(指定单元)、错误区间前后上下文指定部250(确定单元)、错误区间特征量提取部260、修正部270(修正单元)、音响模型保持部281、语言模型保持部282、辞典保持部283、统合部280、以及显示部290。

图3是客户端装置110的硬件结构图。如图3所示，图2所示的客户端装置110在物理上构成为包含CPU 11、作为主存储装置的RAM 12和ROM 13、作为输入设备的键盘和鼠标等输入装置14、显示器等输出装置15、网卡等作为数据收发设备的通信模块16、硬盘等辅助存储装置17等在内的计算机系统。通过在图3所示的CPU 11、RAM 12等硬件上读入规定的计算机软件，从而在CPU 11的控制下使输入装置14、输出装置15、通信模块16动作，并且，进行RAM 12和辅助存储装置17中的数据的读出和写入，由此，能够实现在图2中说明的各功能。下面，根据图2所示的功能框来说明各功能框。

特征量计算部210是如下的部分：输入从麦克风(未图示)输入的用户的声音，根据该输入的声音来计算声音识别频谱、即表示音响特征的特征量数据。例如，特征量计算部210计算表示以MFCC(Mel FrequencyCepstrum Coefficient：MEL频标倒谱系数)这种频率表现的音响特征的特征量数据。

特征量压缩部220是对在特征量计算部210中计算出的特征量数据进行压缩的部分。

发送部225是将在特征量压缩部220中压缩的压缩特征量数据发送到服务器装置120的部分。该发送部225使用HTTP(Hyper Text TransferProtocol：超文本传输协议)、MRCP(Media Resource Control Protocol：媒体资源控制协议)、SIP(Session Initiation Protocol：会话初始化协议)等进行发送处理。并且，在该服务器装置120中，使用这些协议进行接收处理，并进行回复处理。进而，在该服务器装置120中，能够对压缩特征量数据进行解冻，能够使用特征量数据进行声音识别处理。该特征量压缩部220用于进行数据压缩以减轻通信量，所以，该发送部225也能够发送未压缩的原始的特征量数据。

特征量保存部230是临时存储在特征量计算部210中计算出的特征量数据的部分。

接收部235是接收从服务器装置120回复的声音识别结果的部分。在该声音识别结果中包含有文本数据、时间信息和可靠度信息，时间信息表示文本数据的每个识别单位的经过时间，可靠度信息是表示该识别结果的合理概率的信息。

例如，作为识别结果，接收图4所示的信息。在图4中，对应地记载了讲话内容、识别内容、声音区间、可靠度，但是，实际上不包含讲话内容。这里，声音区间所示的数字表示帧的索引，示出其识别单位的最初的帧的索引。这里，1帧是10msec左右。并且，可靠度表示在服务器装置120中识别的声音识别结果的每个识别单位的可靠度，是表示正确程度的数值。针对识别结果使用概率等生成可靠度，在服务器装置120中附加给所识别的单词单位。例如，作为可靠度的生成方法，记载于以下的参考文献。

参考文献：李晃伸、河原達也、鹿野清宏、“2-パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”、情報処理学会研究報告，2003-SLP-49-48，2003-12

在图4(a)中示出，例如作为识别结果的“壳れて”由33帧～57帧构成，其可靠度为0.86。

错误区间指定部240是根据由接收部235接收的声音识别结果来指定错误区间的部分。该错误区间指定部240例如能够根据从服务器装置120发送的声音识别结果所包含的可靠度信息，来指定错误区间。

例如，在图4(a)中示出，作为识别结果，文本数据为905(きゅうまるご)，时间信息为9帧(9msec)，其可靠度为0.59，并且示出在其他位置，作为识别结果的“どこ”的可靠度为0.04。而且，该错误区间指定部240判断为可靠度在规定阈值以下的部分为错误，能够指定该区间作为错误区间。例如，在设定为可靠度在0.2以下的部分为错误的情况下，判断为“どこ”、“で”、“豆腐”的部分为错误，能够指定该部分作为错误区间。该阈值是预先在客户端装置110侧设定的数值。另外，也可以通过声音的个人差异、杂音(噪声)量、或可靠度的计算方法而设定为可变。即，在杂音多的情况下，可靠度进一步降低，所以将阈值设定为较低，并且，在声音识别结果所附加的可靠度整体较低或整体较高的情况下，也可以根据该可靠度的高低来代替。例如，也可以根据可靠度的中央值来设定阈值，或根据平均值来设定阈值。

图4(b)与图4(a)同样，可以通过相同的原理，判断为“柔道”、“突起”的部分为错误，能够指定该部分作为错误区间。

另外，客户端装置110具有用于计算识别结果的可靠度信息的可靠度计算部(未图示)，错误区间指定部240也可以根据在客户端装置110内计算出的可靠度信息来指定错误区间。

错误区间前后上下文指定部250是根据在错误区间指定部240中指定的错误区间来指定在该错误区间前后识别的单词(至少一个识别单位)的部分。下面，以仅利用前后1个单词的情况为例进行说明。图5(a)示出指定了在错误区间前后识别的一个识别单位(错误区间前后上下文)时的概念图。如图5(a)所示，在识别结果的错误区间的前后指定错误区间前的单词的声音区间、错误区间后的单词的声音区间。

错误区间特征量提取部260是从特征量保存部230中提取由错误区间前后上下文指定部250指定的错误区间(也可以包含前后的至少一个识别单位)的特征量数据的部分。

修正部270是对由错误区间特征量提取部260提取出的特征量数据再次进行声音识别的部分。该修正部270使用音响模型保持部281、语言模型保持部282和辞典保持部283进行声音识别。进而，该修正部270将由错误区间前后上下文指定部250指定的前后的声音区间所示的单词(前后上下文)作为约束条件，进行声音识别。图5(b)示出根据由错误区间前后上下文指定部250指定的单词进行识别处理时的概念图。如图5(b)所示，在将错误区间前面的区间的单词W1和后面的区间的单词W2作为约束条件的情况下，识别候选被限制。由此，能够提高识别精度。在图5(b)的例子中，作为识别候选，能够圈入A～Z，能够从该圈入的后方中选择适当的候选，能够有效地进行识别处理。

并且，修正部270也可以根据与前后单词的接续关系、活用形等来进行修正处理。例如，修正部270也可以提取多个针对错误区间的单词的识别候选A～Z，根据其前后单词W1和W2的接续关系，按照每个修正候选来计算分数，将分数高的修正候选作为识别结果。

并且，即使在语言模型保持部282和辞典保持部283中不包含前面的区间的单词W1和后面的区间的单词W2的情况下，修正部270也能够将用于确定该单词的单词信息和用于确定前后单词的单词信息作为约束条件，来进行修正处理(再次声音识别处理)。

例如，客户端装置110从服务器装置120接收表示单词W1、单词W2各自的词类的词类信息作为单词信息，修正部270将单词W1、单词W2各自的词类信息作为约束条件，来进行修正处理。由此，能够进行更准确的修正处理、即声音识别处理。具体而言，错误区间指定部240从在接收部235中接收的声音识别结果所附加的单词信息中提取错误区间的前后(或任一方)的单词信息，将其输出到修正部270。在修正部270中，对将该单词信息作为约束条件而指定的部分进行修正处理。图24示出其概念图。如图24所示，对应于单词W1将词类信息A(例如助词)设定为约束条件，对应于单词W2将词类信息B(例如动词)设定为约束条件。修正部270以分别满足词类信息A和词类信息B的方式进行修正处理，由此能够进行更准确的声音识别处理。

另外，作为单词信息，不限于词类信息，例如，也可以是读法等用于确定单词以外的单词的信息。

并且，在声音识别结果中不包含必要的单词信息的情况下，使用公知的词素解析系统(例如“茶筅”、“Mecab”)、日语接续解析工具(例如“南瓜”)等对作为识别对象的文章进行解析，由此，能够生成单词信息。即，在图25所示的客户端装置110的变形例中，新附加单词信息解析部251，单词信息解析部251由如上所述的词素解析系统、日语接续解析工具等构成，能够对声音识别结果进行解析。然后，将解析结果输出到错误区间前后上下文指定部250，错误区间前后上下文指定部250能够根据该单词信息提取错误区间前后的单词的单词信息，并将其输出到修正部270。

可以利用客户端装置110或服务器装置120进行生成上述单词信息的处理，但是，如在服务器装置120中进行那样输出指示并接收处理结果，能够降低客户端装置110中的处理量。

在单词W1和W2是未知词的情况下，上述处理特别有效。未知词是不包含在语言模型保持部282和辞典保持部283中的单词。例如，修正部270(未知词判定单元)判定单词W1和W2是否是未知词，在是未知词的情况下，将从服务器装置120送出的识别结果所包含的单词信息作为约束条件，进行修正处理。

并且，也可以在客户端装置110中登记该约束条件。即，在图25所示的客户端装置110的变形例中，也可以将所指定的错误区间的单词及其前后(或至少一方)的单词、或设置了该单词信息的单词作为约束条件，并存储在约束条件存储部285(约束条件存储单元)中。由此，在与在错误区间指定部240中指定的错误区间中的单词相同、且其前后的单词相同的情况下，修正部270能够根据存储在约束条件存储部285中的约束条件，进行修正处理。由此，能够迅速进行该处理。即，即使在下次及以后检测出未知词，通过仅读出已经登记的约束条件，就能够应用约束条件。不需要新生成约束条件，所以，能够以更少的处理来设定约束条件。

并且，也可以根据在修正部270中修正的结果，来更新该错误区间中的单词及其前后单词的连接概率。即，连接概率存储在发挥连接概率存储单元的功能的语言模型保持部282和辞典保持部283中，可以适当地在语言模型保持部282和辞典保持部283中更新每次修正处理时在修正部270中计算并生成的连接概率。

并且，修正部270判断再次识别的识别结果和该错误区间中的在服务器装置120中识别的识别结果是否相同，此时，优选不将识别结果输出到统合部280，不在显示部290中显示识别结果。

并且，在修正部270进行识别而得到的识别结果和该错误区间中的服务器装置120识别的识别结果之间，在一个识别单位中产生了偏差的情况下，同样判断为识别错误，优选不将识别结果输出到统合部280，不在显示部290上显示识别结果。

例如，在图4(a)中的声音区间和识别结果的对应关系不同的情况下，更具体而言，在声音区间中，作为服务器装置120中的识别结果，帧索引为0-9、此时为“905(きゅうまるご)”的情况下，在修正部270中的再次识别中，帧索引为0-15、为“90555(きゅうまるごごご)”的情况下，该声音区间和识别结果的对应关系在识别结果和再次识别结果之间产生偏差。因此，能够判断为识别错误。该情况下，修正部270进行不输出等的处理，不在显示部290上显示识别结果。

进而，修正部270在能够判断为上述识别错误的情况下，在从用户受理文字信息的受理部(未图示)中输入文字后，修正部270也可以将受理的文字(例如日文假名)作为约束条件，进行错误区间中的识别结果的修正处理。即，在针对错误区间的识别结果输入某些文字的情况下，可以以该文字为前提，进行剩余部分中的识别处理。该情况下，进行识别错误的判断时，能够在受理部中受理文字输入。

另外，修正部270进行与在服务器装置120中进行的识别处理不同的声音识别处理，由此，能够防止再次进行错误的识别。例如，更换音响模型、语言模型、辞典来进行识别处理。

音响模型保持部281是对应地存储音素及其频谱的数据库。语言模型保持部282是存储表示单词、文字等的连续概率的统计信息的部分。辞典保持部283保持音素和文本的数据库，例如是存储HMM(HiddenMarcov Model：隐马尔可夫模型)的部分。

统合部280是对在接收部235中接收的声音识别结果中的错误区间外的文本数据和在修正部270中再次识别的文本数据进行统合的部分。该统合部280根据表示对在修正部270中再次识别的文本数据进行统合的位置的错误区间(时间信息)，进行统合。

显示部290是显示在统合部280中进行统合而得到的文本数据的部分。另外，显示部290优选在内容中构成为显示在服务器装置120中识别的结果。并且，在修正部270中再次识别的结果和错误区间中的在服务器装置120中识别的识别结果相同的情况下，优选以不显示该识别结果的方式进行显示，并且，该情况下，也可以显示无法识别。进而，在修正部270进行再次识别而得到的识别结果和服务器装置120进行识别而得到的识别结果之间，时间信息产生偏差的情况下，也有可能出现错误，所以，优选不进行显示，并显示无法识别。

并且，不需要始终执行再次识别处理，也可以根据错误区间的长度，判断是否执行再次识别处理。例如，在错误区间为1个文字的情况下，不执行再次识别处理，进行基于文字输入等其他方法的修正。

说明这样构成的客户端装置110的动作。图6是示出客户端装置110的动作的流程图。通过特征量计算部210提取经由麦克风输入的声音的特征数据(S101)。然后，在特征量保存部230中保存特征量数据(S102)。接着，通过特征量压缩部220对特征量数据进行压缩(S103)。通过发送部225将压缩后的压缩特征量数据发送到服务器装置120(S104)。

接着，在服务器装置120中进行声音识别，从服务器装置120发送该识别结果，通过接收部235进行接收(S105)。然后，通过错误区间指定部240从声音识别结果中指定错误区间，根据该指定的错误区间来指定前后上下文(S106)。根据包含该前后上下文的错误区间，通过错误区间特征量提取部260从特征量保存部230中提取特征量数据(S107)。根据这里提取出的特征量数据，通过修正部270再次进行声音识别，生成错误区间中的文本数据(S108)。然后，对错误区间中的文本数据和在接收部235中接收的文本数据进行统合，在显示部290中显示进行正确识别而得到的文本数据(S109)。

接着，进一步详细说明上述S106～S108中的处理。图7是示出其详细处理的流程图。适当参照图5(a)进行说明。

通过错误区间指定部240，根据识别结果来指定错误区间(S201(S106))。根据该错误区间，通过错误区间前后上下文指定部250指定并保存错误区间的前面的单词W1(图5(a))(S202)。并且，通过错误区间前后上下文指定部250指定并存储错误区间的后面的单词W2(图5(a))(S203)。接着，通过错误区间前后上下文指定部250指定该单词W1的开始时间T1(图5(a))(S204)，并且，指定单词W2的结束时间T2(图5(a))，分别进行保存(S205)。

这样，通过错误区间特征量提取部260提取在错误区间中进一步加上其前后各一个单词(一个识别单位)而得到的错误区间、即从开始时间T1到结束时间T2的区间的特征量数据(S206(S107))。在修正部270中设定将单词W1作为起点并将单词W2作为终点的约束条件(S207)。然后，根据该约束条件，基于修正部270对特征量数据进行识别处理，执行修正处理(S208)。

如以上说明的那样，在本实施方式的客户端装置110中，说明其作用效果。在该客户端装置110中，特征量计算部210计算所输入的声音的特征量数据，特征量压缩部220将特征量数据发送给作为声音识别装置的服务器装置120。另一方面，特征量保存部230保存特征量数据。

然后，在服务器装置120中进行识别处理，接收部235从服务器装置120接收识别结果。错误区间指定部240在接收到的识别结果中指定发生了识别错误的错误区间。该错误区间指定部240能够根据可靠度进行判断。然后，错误区间特征量提取部260提取错误区间的特征量数据，修正部270针对提取出的错误区间中的识别结果进行再次识别处理，由此进行修正处理。即，在统合部280中，对再次识别的结果和在接收部235中接收到的识别结果进行统合，由此进行修正处理，显示部290能够显示修正后的识别结果。由此，能够简单地修正声音识别的错误以修正识别结果中必要的部分，能够得到正确的识别结果。例如，最多能够削减错误单词的70％。并且，能够修正未知词的错误的60％以上。另外，既可以从服务器装置120接收可靠度，也可以在客户端装置110中计算可靠度。

进而，该客户端装置110能够使用错误区间前后上下文指定部250进行基于约束条件的修正处理(再次识别处理)。即，固定错误区间前后的单词，进行基于该固定单词的识别处理，由此，能够得到精度更高的识别结果。

另外，在本实施方式或以下所示的其他实施方式中，在服务器装置120中进行第一次的识别处理，但是不限于此，也可以在客户端装置110中进行第一次的识别处理，在服务器装置120中进行第二次的识别处理。此时，当然在服务器装置120中进行错误区间的指定处理等。例如，该情况下，客户端装置110具有根据在特征量计算部210中计算出的特征量数据进行识别处理的识别处理部，并且，发送部225向服务器装置120发送这里的识别结果和特征量数据。

在服务器装置120中，具有相当于客户端装置110中的错误区间指定部240、错误区间前后上下文指定部250、特征量保存部230、错误区间特征量提取部260、修正部270的各部，在特征量保存部中存储从客户端装置110发送的特征量数据，根据识别结果进行错误区间的指定和错误区间前后上下文的指定，根据这些，进行之前保存的特征量数据的修正处理(识别处理)。向客户端装置110发送这样处理后的识别结果。

并且，在本实施方式或以下所示的其他实施方式中，使用由错误区间前后上下文指定部250确定的约束条件来进行再次识别(修正处理)，但是，该情况下，也可以仅利用错误区间的特征量数据。也可以不使用这种约束条件，而进行再次识别处理。

并且，优选能够在服务器装置120中更换识别方法和本实施方式(或以下所示的其他实施方式)中的识别方法。即，在服务器装置120中，需要识别不确定的多个用户的声音，所以，需要是通用的。例如，使在服务器装置120中使用的音响模型保持部、语言模型保持部和辞典保持部中的各模型数据、辞典数量为大容量，在音响模型中加大音素数量、在语言模型中加大单词数量等，使各模型数据、辞典数量为大容量，能够应对所有用户。

另一方面，客户端装置110中的修正部270不需要应对所有用户，使用与该客户端装置110的用户的声音一致的音响模型、语言模型和辞典。因此，该客户端装置110需要参考修正处理、识别处理和邮件生成时的文字输入处理，适当更新各模型、辞典。

并且，客户端装置110还具有显示由修正部270修正的识别结果的显示部290，该显示部290不显示在服务器装置120中识别的识别结果。由此，不显示可能存在识别错误的识别结果，所以，不会对用户造成误解。

并且，在客户端装置110中，在修正部270中进行再次识别而得到的识别结果和由接收部235接收到的识别结果相同的情况下，或者在这些识别结果各自所包含的时间信息中产生偏差的情况下，修正部270判断为识别错误，显示部290不显示识别结果。由此，能够防止显示错误的识别结果。具体而言，最多能够削减错误单词的70％。并且，能够修正未知词的错误的60％以上。

<第2实施方式>

接着，对构成为不根据可靠度自动判断错误区间而通过用户手动进行判断的客户端装置110a进行说明。图8是示出通过用户输入来受理错误区间的客户端装置110a的功能的框图。如图8所示，该客户端装置110a构成为包含：特征量计算部210、特征量压缩部220、特征量保存部230、发送部225、接收部235、操作部236、结果保存部237、用户输入检测部238、错误区间指定部240a、错误区间前后上下文指定部250、错误区间特征量提取部260、修正部270、统合部280、音响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部290。该客户端装置110a与客户端装置110同样，通过图3所示的硬件来实现。

该客户端装置110a与客户端装置110的不同点在于，具有操作部236、结果保存部237、用户输入检测部238、错误区间指定部240a。下面，以该不同点为中心进行说明。

操作部236是受理用户输入的部分。用户能够一边确认显示在显示部290上的识别结果，一边指定错误区间。操作部236能够受理该指定。

结果保存部237是保存由接收部235接收的声音识别结果的部分。在显示部290上显示所保存的声音识别结果，以使用户能够视认。

用户输入检测部238是检测由操作部236受理的用户输入的部分，将所输入的错误区间输出到错误区间指定部240a。

错误区间指定部240a是根据从用户输入检测部238输入的错误区间来指定该区间的部分。

接着，说明这样构成的客户端装置110a的处理。图9是示出客户端装置110a的处理的流程图。通过特征量计算部210提取经由麦克风输入的声音的特征数据(S101)。然后，在特征量保存部230中保存特征量数据(S102)。接着，通过特征量压缩部220对特征量数据进行压缩(S103)。通过发送部225将压缩后的压缩特征量数据发送到服务器装置120(S104)。

接着，在服务器装置120中进行声音识别，从服务器装置120发送该识别结果，由接收部235接收并临时保存，并且，在显示部290上显示该识别结果(S105a)。然后，用户根据显示在显示部290上的识别结果来判断错误区间，输入该错误区间。然后，通过用户输入检测部238检测该输入，通过错误区间指定部240指定错误区间。然后，根据该指定的错误区间来指定前后上下文(S106a)。根据包含该前后上下文的错误区间，通过错误区间特征量提取部260提取特征量数据(S107)，通过修正部270再次进行声音识别，生成错误区间中的文本数据(S108)。然后，对错误区间中的文本数据和在接收部235中接收的文本数据进行统合，在显示部290中显示正确的文本数据(S109)。

接着，进一步详细说明上述S105a～S108中的处理。图10是示出客户端装置110a中的通过用户输入来指定错误区间时的详细处理的流程图。

通过接收部235接收识别结果，并将其显示在显示部290上(S301)。用户一边确认显示在显示部290上的识别结果，一边指定错误区间，通过用户输入检测部238检测该错误区间的起点位置，并临时保存(S302)。然后，通过错误区间前后上下文指定部250指定并保存错误区间的前面的单词W1(S303)，指定并保存所保存的单词W1的开始时间T1(S304)。

并且，通过用户输入检测部238检测由用户指定的错误区间的终点位置，并临时保存(S305)。然后，通过错误区间前后上下文指定部250指定并保存错误区间的后面的单词W2(S306)，指定并保存所保存的单词W2的结束时间T2(S307)。

这些处理之后，通过错误区间特征量提取部260提取开始时间T1～结束时间T2的特征量数据(S308)。在修正部270中设定将单词W1作为起点并将单词W2作为终点的约束条件(S309)。然后，根据该约束条件，基于修正部270对特征量数据进行识别处理，执行修正处理(S310)。

通过这种处理，能够指定基于用户输入的错误区间，由此，能够进行再次识别的识别结果的修正处理。

在这种客户端装置110a中，显示部290显示识别结果，用户视认该识别结果，并且，用户通过对操作部236进行操作，从而能够指定错误区间、即希望修正的位置。由此，能够简单地进行修正处理以修正识别结果中必要的部分，并且，能够得到正确的识别结果。

<第3实施方式>

接着，对在从服务器装置120发送的识别结果中不包含时间信息的情况下也能够正确地指定错误区间的客户端装置110b进行说明。图11是示出该客户端装置110b的功能的框图。该客户端装置110b构成为包含：特征量计算部210、特征量压缩部220、发送部225、特征量保存部230、接收部235、时间信息计算部239、错误区间指定部240、错误区间特征量提取部260、错误区间前后上下文指定部250、修正部270、音响模型保持部281、语言模型保持部282、以及辞典保持部283。该客户端装置110b与第1实施方式的客户端装置110同样，通过图3所示的硬件来实现。

并且，与第1实施方式的客户端装置110的不同点在于，该客户端装置110b从服务器装置120接收不包含经过信息的识别结果，然后，在时间信息计算部239中，根据作为识别结果的文本数据自动计算经过时间(帧索引)。下面，以该不同点为中心说明客户端装置110b。

时间信息计算部239是使用在接收部235中接收的识别结果中的文本数据和存储在特征量保存部230中的特征量数据来计算文本数据中的经过时间的部分。更具体而言，时间信息计算部239对所输入的文本数据和存储在特征量保存部230中的特征量数据进行比较，由此，在将文本数据的一个单词或一个识别单位转换为频率数据的情况下，判断到特征量数据的哪个部分为止一致，由此，能够计算文本数据中的经过时间。例如，在到特征量数据的10帧为止与文本数据的一个单词一致的情况下，该一个单词具有10帧的经过时间。

错误区间指定部240b能够使用由时间信息计算部239计算出的经过时间和文本数据来指定错误区间。该错误区间指定部240b根据识别结果所包含的可靠度信息来判断错误区间。另外，也可以如第2实施方式那样，通过用户输入来指定错误区间。

错误区间前后上下文指定部250根据这样由错误区间指定部240b指定的错误区间，指定包含前后的上下文在内的错误区间，错误区间特征量提取部260提取该错误区间的声音数据，然后，修正部270再次进行识别处理，由此，能够进行修正处理。

接着，说明该客户端装置110b的处理。图12是示出客户端装置110b的处理的流程图。通过特征量计算部210提取经由麦克风输入的声音的特征数据(S101)。然后，在特征量保存部230中保存特征量数据(S102)。接着，通过特征量压缩部220对特征量数据进行压缩(S103)。通过发送部225将压缩后的压缩特征量数据发送到服务器装置120(S104)。

接着，在服务器装置120中进行声音识别，从服务器装置120发送该识别结果(不包含经过时间)，通过接收部235进行接收(S105)。然后，根据声音识别结果和特征量保存部230的特征量数据，通过时间信息计算部239计算经过时间，使用该经过时间和声音识别结果，通过错误区间指定部240指定错误区间。通过错误区间前后上下文指定部250，根据该指定的错误区间指定前后上下文(S106b)。根据包含该前后上下文的错误区间，通过错误区间特征量提取部260提取特征量数据(S107)，通过修正部270再次进行声音识别，生成错误区间中的文本数据(S108)。然后，对错误区间中的文本数据和在接收部235中接收的文本数据进行统合，在显示部290中显示正确的文本数据(S109)。

接着，说明包含S106b的更详细的处理。图13是示出S105～S108中的详细处理的流程图。

通过接收部235接收不包含经过时间的识别结果(S401)，在时间信息计算部239中计算文本数据中的经过时间(S402)。通过错误区间指定部240根据识别结果来指定错误区间(S403)。根据该错误区间，通过错误区间前后上下文指定部250指定并保存错误区间的前面的单词W1(图5(a))(S404)。并且，通过错误区间前后上下文指定部250指定并存储错误区间的后面的单词W2(图5(a))(S405)。接着，通过错误区间前后上下文指定部250指定该单词W1的开始时间T1(图5(a))(S406)，并且，指定单词W2的结束时间T2(图5(a))(S407)。

这样，通过错误区间特征量提取部260提取在错误区间中进一步加上其前后各一个单词而得到的错误区间、即从开始时间T1到结束时间T2的区间的特征量数据(S408)。在修正部270中设定将单词W1作为起点并将单词W2作为终点的约束条件(S409)。然后，根据该约束条件，基于修正部270对特征量数据进行识别处理，执行修正处理(S410)。

根据该客户端装置110b，时间信息计算部239根据由接收部235接收的识别结果和存储在特征量保存部230中的特征量数据，计算识别结果中的经过时间。然后，错误区间指定部240能够根据该时间信息来指定错误区间。能够根据这里指定的错误区间来指定其前后上下文，然后，根据该特征量数据进行修正处理。由此，即使在识别结果中没有包含时间信息的情况下，也能够指定适当的错误区间。

<第4实施方式>

接着，对仅根据在服务器装置120中进行声音识别而得到的识别结果来进行修正处理的客户端装置110c进行说明。图14是示出客户端装置110c的功能的框图。该客户端装置110c构成为包含：特征量计算部210、特征量压缩部220、错误区间指定部240、错误区间前后上下文指定部250、修正部270a、以及语言DB保持部284。该客户端装置110c与客户端装置110同样，通过图3所示的硬件来实现。

该客户端装置110c与客户端装置110相比，不同点在于，构成为不存储通过声音输入而得到的特征量数据，并且，在修正处理时再次使用该特征量数据，具体而言，不同点在于，不具有特征量保存部230、错误区间特征量提取部260、音响模型保持部281、语言模型保持部282、以及辞典保持部283。下面，根据不同点进行说明。

特征量计算部210根据声音输入来计算特征量数据，特征量压缩部220对特征量数据进行压缩并将其发送到服务器装置120。然后，接收部235从服务器装置120接收识别结果。错误区间指定部240通过可靠度信息或用户操作来指定错误区间，错误区间前后上下文指定部250指定其前后上下文，指定错误区间。

修正部270a根据存储在语言DB保持部284中的数据库，对由包含前后的上下文在内的错误区间所指定的文本数据进行转换处理。该语言DB保持部284存储与语言模型保持部282大致相同的信息，存储各个音节的连续概率。

进而，该修正部270a将可能在错误区间中出现的单词串w(Wi、Wi+1…Wj)列入表中。这里，单词串w的数量限制为K。设限制数量K为与错误单词数量P相同或与P接近的一定范围(K＝P-c～P+c)。

进而，修正部270a计算将已经列入表中的全部单词串限定为前后单词W1和W2时的似然。即，针对全部W系列，利用在终端保存的语言DB，使用以下的式(1)求出似然。

单词串(W1 w W2)的似然P(w1 w w2)＝P(W1、Wi、Wi+1…Wj、W2)＝P(W1)*P(Wi/W1)…*P(W2/Wj)…(1)

进而，计算错误区间的单词串和候选的距离，将该距离相加。该情况下，成为以下的式(2)的计算式。

单词串(W1 w W2)的似然P(w1 w w2)＝P(W1、Wi、Wi+1…Wj、W2)*P(Wi、Wi+1…Wj、Werror)…(2)

P(Wi、Wi+1…Wj、Werror)表示错误单词串Werror和候选串Wi、Wi+1…Wj之间的距离。

该式的P(Wn/Wm)将N-gram模型中的Bi-gram作为对象，表示接着Wm出现Wn的概率。这里，利用Bi-gram的例子进行说明，但是，也可以利用其他N-gram模型。

统合部280对这样由修正部270a转换的文本数据和接收到的识别结果中的文本数据进行统合，显示部290显示统合并修正后的文本数据。另外，也可以在统合之前，将使用由修正部270a计算出的似然进行排序的候选列入表中，并由用户选择，也可以自动决定似然最高的候选。

接着，说明这样构成的客户端装置110c的处理。图15是示出客户端装置110c的处理的流程图。根据声音输入的声音数据，通过特征量计算部210计算特征量数据，将由特征量压缩部220压缩后的特征量数据发送到服务器装置120(S502)。

通过接收部235接收在服务器装置120中进行声音识别后的识别结果(S502)，通过错误区间指定部240指定错误区间(S503)。关于这里的错误区间的指定，可以基于可靠度进行，也可以通过用户输入来指定。

然后，通过错误区间前后上下文指定部250指定错误区间的前后上下文(单词)(S504)。然后，通过修正部270a进行再次转换处理，此时，将错误区间的候选列入表中(S505)。这里，通过修正部270a计算各候选的似然(S506)，进行基于似然的排序处(S507)，在显示部290上显示排序处理后的候选组(S508)。

在该客户端装置110c中，特征量计算部210根据所输入的声音计算特征量数据，特征量压缩部220对该特征量数据进行压缩，发送部225将其发送到服务器装置120。在服务器装置120中，进行声音识别，接收部235接收其识别结果。然后，修正部270a根据在错误区间指定部240、错误区间前后上下文指定部250中指定的错误区间，进行修正处理。然后，统合部280进行统合处理后，显示部290显示修正后的识别结果。由此，能够简单地修正声音识别的错误以修正识别结果中必要的部分，能够得到正确的识别结果。另外，在该实施方式中，与第1实施方式相比，不存储特征量数据，并且在再次识别处理中不使用该特征量数据，利用这点，能够简化其结构。

<第5实施方式>

接着，说明不是在服务器装置120中进行声音识别的分散型处理，而是在客户端装置110d中进行第一声音识别和第二声音识别的形式。

图16是示出客户端装置110d的功能结构的框图。客户端装置110d构成为包含：特征量计算部210、第一识别部226(取得单元)、语言模型保持部227、辞典保持部228、音响模型保持部229、特征量保存部230、错误区间指定部240、错误区间前后上下文指定部250、错误区间特征量提取部260、修正部270、音响模型保持部281、语言模型保持部282、辞典保持部283、统合部280、以及显示部290。该客户端装置110d与客户端装置110同样，通过图3所示的硬件来实现。

该客户端装置110d与第1实施方式的客户端装置110的不同点在于，没有用于与服务器装置120进行通信的结构这点、以及具有第一识别部226、语言模型保持部227、辞典保持部228、音响模型保持部229这点。下面，以不同点为中心进行说明。

第一识别部226使用语言模型保持部227、辞典保持部228和音响模型保持部229，对在特征量计算部210中计算出的特征量数据进行声音识别。

语言模型保持部227是存储表示单词、文字等的连续概率的统计信息的部分。辞典保持部228保持音素和文本的数据库，例如是存储HMM(Hidden Marcov Model)的部分。音响模型保持部229是对应地存储音素及其频谱的数据库。

错误区间指定部240输入在上述第一识别部226中识别的识别结果，指定错误区间。错误区间前后上下文指定部250指定错误区间的前后上下文，错误区间特征量提取部260提取包含前后上下文在内的错误区间的特征量数据。然后，修正部270根据特征量数据再次进行识别处理。该修正部270发挥第二识别部的功能。

然后，统合部280进行统合处理后，显示部290能够显示修正后的识别结果。

接着，说明该客户端装置110d的动作。图17是示出客户端装置110d的处理的流程图。通过特征量计算部210计算所输入的声音的特征量数据(S601)，在特征量保存部230中保存计算出的特征量数据(S602)。与该保存处理平行地，通过第一识别部226进行声音识别(S603)。

通过错误区间指定部240和错误区间前后上下文指定部250，指定由第一识别部226进行声音识别后的识别结果的错误区间(S604)。通过错误区间特征量提取部260，从特征量保存部230中提取该指定的错误区间(包含前后上下文)的特征量数据(S605)。然后，通过修正部270再次识别错误区间的声音(S606)。通过统合部280对这里识别的识别结果进行统合，通过显示部290显示识别结果(S607)。

这样，在客户端装置110d内，通过第一识别部226和第二识别部(修正部)270进行识别处理，所以，能够进行更准确的声音识别。另外，优选在第一识别部226和第二识别部中采取不同的识别方法。由此，针对在第一识别部226中没有识别的声音，也可以在第二识别部270中对其进行补充，作为整体，能够期待正确的声音识别结果。

根据客户端装置110d，在特征量计算部210中根据所输入的声音计算特征量数据，在特征量保存部230中对其进行存储。另一方面，第一识别部226根据特征量数据进行声音识别处理，错误区间指定部240和错误区间前后上下文指定部250在所识别的识别结果中指定产生识别错误的错误区间。然后，修正部270(第二识别部)修正所指定的错误区间中的识别结果。由此，能够简单地进行修正处理以修正识别结果中必要的部分，并且，能够得到正确的识别结果。并且，在客户端装置110d内进行二次识别处理，由此，不需要使用服务器装置120。

<第6实施方式>

接着，说明第2实施方式的变形例即第6实施方式。根据该实施方式，其特征在于，自动判断错误区间的终点。

图18是示出第6实施方式的客户端装置110f的功能结构的框图。客户端装置110f构成为包含：特征量计算部210、特征量压缩部220、特征量保存部230、发送部225、接收部235、操作部236、结果保存部237、用户输入检测部238、错误区间指定部240c、终点判断部241、错误区间前后上下文指定部250、错误区间特征量提取部260、修正部270、统合部280、音响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部290。该客户端装置110f与客户端装置110同样，通过图3所示的硬件来实现。

该客户端装置110f与第2实施方式的不同点在于，在错误区间指定部240c中仅受理错误区间的起点，终点判断部241根据规定条件来判断错误区间的终点。下面，根据图18所示的框图，以与第2实施方式的不同点为中心进行说明。

与第2实施方式所示的结构同样，在客户端装置110f中，接收部235接收在服务器装置120中进行识别的识别结果，结果保存部237保存该识别结果。然后，显示部290显示该识别结果，同时，用户一边查看在该显示部290上显示的识别结果，一边对操作部236进行操作，由此指定错误区间的起点。用户输入检测部238检测该起点，将其输出到错误区间指定部240c。

错误区间指定部240c根据由用户指定的起点和在终点判断部241中判断的终点，指定错误区间。在判断错误区间的终点时，当错误区间指定部240c检测到由用户指定了起点的情况后，将该意思输出到终点判断部241，指示终点的判断。

终点判断部241是根据来自错误区间指定部240c的指示来自动判断错误区间的终点的部分。例如，终点判断部241对在接收部25中接收并在结果保存部237中保存的声音识别结果所包含的可靠度信息和预先设定的阈值进行比较，将可靠度超过阈值的单词(或可靠度最高的单词)作为错误的终点。然后，终点判断部241将判断的终点输出到错误区间指定部240c，由此，错误区间指定部240c能够指定错误区间。

例如，按照以下的声音为例进行说明。另外，这里，为了便于说明，作为错误区间的起点，指定了“活性化”。

<讲话内容>

“この目標を達成するためには、皆さんの協力が必要です。”

<声音识别结果>

“この目標を活性化のためには、皆さんの協力が必要です。”

这里，试着将声音识别结果划分为单词单位。另外，“/”表示单词的划分。

“この/目標/を/活性化/の/ため/に/は、/皆/さん/の/協力/が/必要/です。”

作为该声音识别结果，在“活性化”的可靠度为0.1、“の”的可靠度为0.01、“ため”的可靠度为0.4、“に”的可靠度为0.6的情况下，在将阈值设为0.5的情况下，能够判断为“活性化/の/ため/に”中的“に”为终点。

另外，终点判断部241能够将可靠度为阈值以上的单词的前一个(在上面例示中为“ため”)判断为终点，但是，在指定错误区间方面，结果只要包含错误部分即可，所以，能够采用任意的方法。

这种错误区间的指定方法符合用户日常的修正习惯，所以，使用便利。即，例如在汉字转换中，在用户指定错误的情况下，认为通常是首先输入起点，接着删除错误，输入正确的单词串。上述错误区间的指定方法也是在输入起点后，自动确定终点，所以，应用该操作方法时，能够进行不使用户感觉到不舒服的操作。

并且，终点判断部241在判断终点时，不限于上述方法。例如，也可以是根据特定发音记号来判断终点的方法、设错误起点开始后第M个单词为终点的方法。这里，基于特定发音记号的方法是根据讲话中的停顿来进行判断的方法，也可以根据在词组边界出现的短停顿(逗点)、讲话最后出现的长停顿(句点)来进行判断。由此，利用句子的划分来进行判断，能够期待更准确的声音识别。

以下示出其具体例。以声音是与上述内容相同的以下内容为例进行说明。

<讲话内容>

<声音识别结果>

用户对操作部236进行操作，由此，当设定“この目標を”的后面为错误区间的起点后，终点判断部241将与该部分最近的停顿(逗点部分)判断为终点。错误区间指定部240c能够根据该终点来指定错误区间。在上述例子中，作为错误区间的终点，指定了“ためには、”中的“、”的部分。另外，“、”的部分实际上不是声音，而是存在一瞬间的状态。

另外，作为特定发音，除了逗点、句点以外，也可以是“え～”、“あの～”(日语中的感叹词)这样的发音、或“ます”、“です”(日语中的终助词)这样的单词。

接着，示出将错误起点移动的第M个单词作为终点的方法的例子。以下所示的句子示出了以单词为单位进行划分后的状态。另外，“/”表示单词的划分。

例如，在设起点为“活性化”的情况下，在M＝3的情况下，“活性化/の/ため”中的“ため”为终点的单词。因此，错误区间指定部240c能够指定“活性化/の/ため”作为错误区间。另外，当然也可以不是M＝3。

接着，示出将识别结果的候选数量(竞争数量)少的单词作为终点的方法的例子。例如，使用以下的例子进行说明。

在“この/目標/を/活性化/の/ため”中，列举以下的候选。

“活性化”：“だれ”、“沢山”、“お勧め”

“の”：“か”、“ある”

“ため”：-(没有候选)该候选数量反映了该区间的可疑度，可靠性越低，从服务器装置120发送越多的候选。另外，在该例子中构成为，在服务器装置120中，代替发送可靠度信息，而直接向客户端装置110发送根据可靠度信息得到的其他候选。

该情况下，“ため”没有候选，所以，能够认为只有“ため”的可靠度高。由此，在该例子中，作为错误区间，能够判断为“ため”之前的“の”为错误区间的终点。另外，作为错误区间的终点，不限于其之前的单词，也可以具有某种程度的宽度。

另外，在“今年/大会/在/日本/柔道/突起/举行”中，例如列举以下的候选。

“北海道”：“柔道”、“拜见”、“别的”

“如期”：“突起”、“路基”、“提起”、“体积”

“举行”：“举行”。

如上所述，关于终点位置，考虑了基于可靠度的方法、利用特定发音记号(或发音)的方法、将从起点到第M个作为错误区间的方法，但是，也可以是这些方法的组合，即，使这些多个方法的修正结果为N-best形式或从多个方法的识别结果中选择一个识别结果的形式。该情况下，按照识别结果的分数的顺序，列表显示识别结果，用户可以从该列表中选择任意的识别结果。

这样，根据错误区间指定部240c指定的错误区间，错误区间前后上下文指定部250指定包含其前后的区间，错误区间特征量提取部260从特征量保存部230中提取该特征量数据，修正部270对该特征量数据进行再次识别处理，由此，进行修正处理。

接着，说明这样构成的客户端装置110f的动作。图19是示出客户端装置110f的处理的流程图。

通过特征量计算部210提取经由麦克风输入的声音的特征数据(S101)。然后，在特征量保存部230中保存特征量数据(S102)。接着，通过特征量压缩部220对特征量数据进行压缩(S103)。通过发送部225将压缩后的压缩特征量数据发送到服务器装置120(S104)。

接着，在服务器装置120中进行声音识别，从服务器装置120发送该识别结果，由接收部235接收并临时保存，并且，在显示部290上显示该识别结果(S105a)。然后，用户根据显示在显示部290上的识别结果来判断错误区间的起点，通过对操作部236进行操作来指定该起点。然后，通过用户输入检测部238检测到指定了起点后，通过终点判断部241自动判断错误区间的终点。例如，根据声音识别结果所包含的可靠度进行判断，将出现了预先确定的发音记号的位置判断为终点，进而，将起点后的第M个(M为预先确定的任意的值)判断为终点。

然后，通过错误区间指定部240c这样指定起点和终点。然后，根据该指定的错误区间指定前后上下文(S106c)。根据包含该前后上下文的错误区间，通过错误区间特征量提取部260提取特征量数据(S107)，通过修正部270再次进行声音识别，生成错误区间中的文本数据(S108)。然后，对错误区间中的文本数据和在接收部235中接收的文本数据进行统合，在显示部290中显示正确的文本数据(S109)。

另外，关于包含S106c在内的S105a～S108的处理，进行与图10所示的流程图大致同样的处理，但是，关于S305的处理，终点判断部241自动判断错误区间的终点位置并保存，这点不同。

如上所述，根据该实施方式，这种错误区间的指定方法符合用户日常的修正习惯，能够提供使用非常便利的装置。

<第7实施方式>

接着，说明第7实施方式。根据该实施方式，用户在错误区间中指定开头的文字，从而将该指定的文字作为约束条件，更正确地进行声音识别。

图20是示出第7实施方式的客户端装置110g的功能结构的框图。客户端装置110g构成为包含：特征量计算部210、特征量压缩部220、特征量保存部230、发送部225、接收部235、操作部236、结果保存部237、用户输入检测部238、错误区间指定部240a、错误区间前后上下文指定部250a、错误区间特征量提取部260、修正部270、统合部280、音响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部290。该客户端装置110g与客户端装置110同样，通过图3所示的硬件来实现。

该客户端装置110g在如下方面具有特征：操作部236从用户受理错误区间中的修正后的文字作为约束条件，错误区间前后上下文指定部250a在错误区间前后指定上下文和在操作部236中受理的修正后的文字，修正部270将这些错误区间前后上下文和修正后的文字作为约束条件进行再次识别处理，从而进行修正处理。

即，操作部236从用户受理用于指定错误区间的输入，然后，受理错误区间中的修正后的文字输入。

错误区间前后上下文指定部250a进行与上述第1实施方式中的错误区间前后上下文指定部250大致相同的处理，指定在错误区间前后所识别的单词(一个识别单位)，并且，指定在操作部236中受理的修正后的文字。

修正部270根据在错误区间特征量提取部260中提取出的特征量数据和在错误区间前后上下文指定部250a中指定的约束条件，进行再次识别处理，能够执行修正处理。

例如，根据以下的例子来说明上述处理。

<讲话内容>

<声音识别结果>

该情况下，用户对操作部236进行操作，由此，在错误区间的起点(在上述例子中为“この目標を”后面的位置)输入正确的文字内容。应该输入的假名串是“たつせいするために”。以下的例子是以输入作为输入开头的一部分的“た”的情况为例进行说明。另外，通过与上述同样的方法，决定了错误区间的起点，并决定错误区间的终点。

当用户经由操作部236输入“た”后，错误区间前后上下文指定部250a将“この目標を”作为前后上下文，将所输入的文字“た”作为约束条件，即，将“この目標を”设定为识别特征量数据时的约束条件。

这样，向用户提示将用户的文字输入内容作为约束条件而再次进行了声音识别的识别结果，由此，能够提示更准确的识别结果。另外，关于修正方法，除了声音识别，也可以并用关键文字输入方法。例如，作为关键文字输入方法，考虑假名汉字转换。在假名汉字转换中，具有如下功能：将输入文字内容与辞典进行比较，来预测其转换结果。例如当输入“た”后，根据数据库，按顺序将“た”开头的单词串列入表中，向用户提示。

这里，利用该功能，列表显示假名汉字转换的数据库的候选和通过声音识别得到的候选，根据这些列表，用户可以选择任意的候选。关于列表显示的顺序，可以是转换结果或识别结果所附加的分数顺序，也可以是基于如下分数的顺序：对基于假名汉字转换的候选和基于声音识别的候选进行比较，对分别针对完全一致或部分一致的候选附加的分数进行合计而得到的分数。例如，在假名汉字转换的候选A1“達成”的分数为50，声音识别结果的候选B1“達成する”的分数为80的情况下，候选A1和候选B1部分一致，所以，根据在各分数中乘以规定系数并进行合计而得到的分数，进行显示。另外，在完全一致的情况下，不需要进行乘以规定系数这样的调整处理。并且，在用户选择了假名汉字转换的候选A1“達成”的阶段，将“この目標を達成”作为约束条件，对相当于还未确定的剩余的“する”的特征量数据进行再次识别，重新显示候选列表。

接着，说明这样构成的客户端装置110g的动作。图21是示出客户端装置110g的处理的流程图。

接着，在服务器装置120中进行声音识别，从服务器装置120发送该识别结果，由接收部235接收并临时保存，并且，在显示部290上显示该识别结果(S105a)。然后，用户根据显示在显示部290上的识别结果来指定错误区间(S106d)。进而，用户对操作部236进行用于修正错误区间中的识别结果的文字输入。在操作部236中，受理文字输入后，将其输出到错误区间前后上下文指定部250a，错误区间前后上下文指定部250a根据所输入的文字和该指定的错误区间来指定前后上下文。根据包含该前后上下文的错误区间，通过错误区间特征量提取部260提取特征量数据(S107)，通过修正部270再次进行声音识别，生成错误区间中的文本数据(S108)。然后，对错误区间中的文本数据和在接收部235中接收的文本数据进行统合，在显示部290中显示正确的文本数据(S109)。

另外，关于包含S 106d在内的S105a～S108的处理，进行与图10所示的流程图大致同样的处理。进而，在本实施方式中，除了图10的流程图中的各处理，还需要在S309中进行将在操作部236中受理的文字设定为约束条件的处理。另外，需要在S309之前完成作为约束条件的文字的输入受理。

如上所述，根据该实施方式，除了前后上下文，还设定从用户指定的文字作为约束条件，由此，能够进行更准确的声音识别。

<第8实施方式>

接着，说明第8实施方式。根据该实施方式，设在修正部270中再次识别的结果不是与再次识别前的识别结果相同的识别结果。

图22是示出第8实施方式的客户端装置110h的功能结构的框图。客户端装置110h构成为包含：特征量计算部210、特征量压缩部220、特征量保存部230、发送部225、接收部235、操作部236、结果保存部237、用户输入检测部238、错误区间指定部240a、错误区间前后上下文指定部250、错误区间特征量提取部260、修正部270b、统合部280、音响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部290。该客户端装置110h与客户端装置110同样，通过图3所示的硬件来实现。下面，以与图2的客户端装置110的不同点为中心进行说明。

修正部270b与图3中的修正部270同样，是进行再次识别处理等的部分。进而，修正部270b根据存储在结果保存部237中的识别结果，进行再次识别处理，以便不会得到同样的识别错误。即，修正部270b对在错误区间指定部240a中指定的错误区间中的识别结果进行比较，为了不会得到同样的识别结果，在再次识别的搜索过程中，进行从候选中排除包含错误区间中的识别结果在内的路径的处理。作为排除处理，修正部270b以使针对错误区间的特征量数据的候选中的假说的概率极小化的方式乘以规定系数，由此，不选择结果为极小的候选。另外，在上述方法中，从识别结果的候选中排除再次识别时可能成为错误的候选(例如“活性化”)，但是不限于此，在提示再次识别的识别结果时，也可以不显示可能成为错误的识别结果的一个候选(例如“活性化”)。

另外，该客户端装置110h执行与图8所示的流程图大致相同的处理。另外，关于在S108的错误区间的识别处理，进行从其候选中排除的识别处理以便不显示相同的识别结果，这点不同。

如上所述，由于作为修正对象的单词错误，所以，再次识别后的结果中不应当输出作为修正对象的单词，因此，在该实施方式中，能够不显示这种修正结果。

<第9实施方式>

接着，说明第9实施方式。根据该实施方式，在错误区间特征量提取部260提取的特征量数据的错误区间中计算平均值，使用从特征量数据中减去该平均值后的数据，进行再次识别处理。

说明其具体结构。图23是示出第9实施方式的客户端装置110i的功能的框图。该客户端装置110i构成为包含：特征量计算部210、特征量压缩部220、特征量保存部230、发送部225、接收部235、错误区间指定部240、错误区间前后上下文指定部250、错误区间特征量提取部260、平均值计算部261(计算单元)、特征标准化部262(修正单元)、修正部270(修正单元)、统合部280、音响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部290。该客户端装置110i与客户端装置110同样，通过图3所示的硬件来实现。下面，以与图2的客户端装置110的不同点、即平均值计算部261和特征标准化部262为中心进行说明。

平均值计算部261是计算在错误区间特征量提取部260中提取的特征量数据中的错误区间的平均值(或包含错误区间前后在内的平均值)的部分。更具体而言，平均值计算部261按照错误区间中的各识别单位的频率对输出值(大小)进行累计相加。然后，利用其识别单位数量去除进行累计相加而得到的输出值，从而计算平均值。例如，“活性化/の/ため”的错误区间中的识别单位是利用斜线“/”划分的部分。各个识别单位即识别帧n由频率fn1～fn12构成，设其输出值为gn1～gn12时，能够利用频率f1的平均值g1＝∑gn1/n(在上述例子中n＝1～3)进行表示。

即，在设构成“活性化”的频率为f11～f112(输出值为g11～g112)、构成“の”的频率为f21～f212(输出值为g21～g212)、构成“ため”的频率为f31～f312(输出值为g31～g312)的情况下，利用(g11+g21+g31)/3来计算频率f1的平均值。

特征标准化部262进行如下处理：从由各频率构成的特征量数据中减去在平均值计算部261中计算出的各频率的平均值。然后，修正部270对进行减法而得到的数据进行再次识别处理，由此，能够进行修正处理。

在本实施方式中，使用在平均值计算部261中计算出的平均值来修正特征量数据，由此，例如能够成为去除了用于向特征量计算部210输入声音的麦克风等集音装置的特性后的数据。即，能够去除麦克风集音时的噪声，能够更准确地对声音进行修正(识别处理)。另外，在上述实施方式中，应用了在错误区间特征量提取部260中提取出的错误区间，但是，也可以利用包含该错误区间在内的一定长度的区间的特征量数据。

并且，上述平均值计算部261和特征标准化部262能够分别应用于上述第2实施方式～第8实施方式。

<第10实施方式>

在上述第1实施方式～第9实施方式所记载的作为声音识别结果修正装置的客户端装置110～110i中，修正部270进行修正处理(再次识别处理)，但是不限于此。即，也可以构成为向服务器装置120通知错误区间指定部240指定的错误区间，由此，在服务器装置120中再次进行修正处理，接收部235接收该修正结果。服务器装置120中的再次修正处理采用上述客户端装置110的修正部270中的修正处理。作为客户端装置110中的通知处理的具体例子，考虑错误区间指定部240计算在错误区间指定部240中指定的错误区间的时间信息或包含其前后的单词在内的时间信息，发送部225向服务器装置120通知该时间信息。在服务器装置120中，进行与最初进行的识别处理不同的声音识别处理，由此防止再次进行错误的识别。例如，更换音响模型、语言模型、辞典来进行识别处理。

<第11实施方式>

接着，说明第11实施方式的客户端装置110k。该第11实施方式的客户端装置110k识别子字区间，使用该子字区间所记述的子字文字串进行修正处理。图26是示出该客户端装置110k的功能的框图。

该客户端装置110k构成为包含：特征量计算部210、特征量压缩部220、发送部225、特征量保存部230、接收部235、错误区间指定部240、子字区间指定部242、分割部243、错误区间特征量提取部260、辞典追加部265、修正部270、统合部280、音响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部290。

与第1实施方式的不同点在于，包含子字区间指定部242、分割部243和辞典追加部265。下面，以该不同点为中心说明其结构。

子字区间指定部242是从在错误区间指定部240中指定的错误区间指定包含子字文字串在内的区间的部分。在子字文字串中，作为其属性信息，附加表示是未知词的“subword”，子字区间指定部242能够根据该属性信息来指定子字区间。

例如，图28(a)示出如下的图：在服务器装置120中根据讲话内容而识别的识别结果。根据图28(a)，在“サンヨウムセン”中附加“subword”作为属性信息，子字区间指定部242根据该属性信息将“サンヨウムセン”识别为子字文字串，能够指定该文字串部分作为子字区间。

另外，在图28(a)中，在根据讲话内容而识别的识别结果的识别单位中附加帧索引。与上述同样，1帧是10msec左右。并且，在图28(a)中，错误区间指定部240能够根据与上述同样的处理来指定错误区间，能够将“では”(第2个识别单位)到“が”(第8个识别单位)指定为错误区间。

分割部243是如下的部分：以由子字区间指定部242指定的子字区间所包含的子字文字串为边界，分割由错误区间指定部240指定的错误区间。根据图28(a)所示的例子，根据子字文字串即“サンヨウムセン”分割为区间1和区间2。即，将第2个识别单位即“では”到第5个识别单位即“サンヨウムセン”、即称为帧索引的100msec到500msec分割为区间1，将第5个识别单位即“サンヨウムセン”到第8个识别单位即“が”、即称为帧索引的300msec到600msec分割为区间2。

辞典追加部265是在辞典保持部283中追加由子字区间指定部242指定的子字文字串的部分。在图28(a)的例子中，将“サンヨウムセン”作为一个单词，新追加到辞典保持部283中。并且，在该辞典保持部283中追加子字的读音，并且，在语言模型保持部282中追加子字和其他单词的连接概率。语言模型保持部282中的连接概率的值可以利用事先准备的子字专用的分类。并且，子字模型的文字串几乎都是固有名词，所以，也可以利用名词(固有名词)的分类的值。

通过这种结构，错误区间特征量提取部260根据由分割部243分割而得到的区间1和区间2，提取保存在特征量保存部230中的特征量数据。然后，修正部270对与各个区间对应的特征量数据进行再次识别处理，由此，执行修正处理。具体而言，以图28(a)为例，区间1的修正结果为“では電気メ一カのサンヨウムセン”，区间2的修正结果为“サンヨウムセンの製品は評判が”。

统合部280根据以在修正部270中修正而得到的识别结果(区间1和区间2)为边界的子字文字串进行统合处理，并且，与在接收部235中接收的识别结果进行统合，在显示部290上进行显示。以图28(a)为例，作为统合结果，最终的错误区间的文本为“では電気メ一カのサンヨウムセンの製品は評判が”。

另外，参照图28(b)，可以了解在汉语发音的情况下，以子字为边界的分割方法，如图28(b)所示，这里的子字为“Bulang”，因此可以进行如上所述的分割。

接着，说明这样构成的客户端装置110k的动作。图27是示出客户端装置110k的动作的流程图。

在S101～S105中，进行与图6所示的客户端装置110相同的处理。即，通过特征量计算部210提取经由麦克风输入的声音的特征数据(S101)。然后，在特征量保存部230中保存特征量数据(S102)。接着，通过特征量压缩部220对特征量数据进行压缩(S103)。通过发送部225将压缩后的压缩特征量数据发送到服务器装置120(S104)。然后，在服务器装置120中进行声音识别，从服务器装置120发送该识别结果，通过接收部235进行接收(S105)。然后，通过错误区间指定部240从声音识别结果中指定错误区间(S106)。另外，也可以根据该指定的错误区间来指定前后上下文。

接着，通过子字区间指定部242指定并确定子字区间(S701)。另外，此时，在位于子字区间中的子字文字串位于客户端装置110k所具有的用户辞典(例如，假名汉字转换辞典中用户登记的单词、地址薄或电话薄中登记的姓名等)中的情况下，也可以进行置换为该单词的处理。然后，通过分割部243，以子字区间为边界分割错误区间(S702)。进行该分割处理，并且，通过辞典追加部265在辞典保持部283中保持所指定的子字文字串(S703)。

然后，通过错误区间特征量提取部260提取错误区间的特征量数据和子字区间的特征量数据(S107a)，通过修正部270对错误区间和子字区间的特征量数据进行再次识别，从而进行修正处理(S108a)。然后，对错误区间中的文本数据和在接收部235中接收的文本数据进行统合，在显示部290中显示进行正确识别而得到的文本数据(S109)。另外，在统合时，以边界的单词为基准连接区间1和区间2的结果。并且，在根据用户辞典对上述子字文字串进行转换的情况下，修正部270也可以将转换后的文字串作为约束条件来进行声音识别处理，由此，进行修正处理。

在本实施方式中，以子字的文字串位于服务器的识别结果中为前提进行了说明，但是，也可以在客户端装置110k中生成该子字的文字串。该情况下，在图27的处理S106中的错误区间指定处理后，生成子字文字串，然后进行子字区间确定处理。并且，客户端装置110k中的上述图27的处理也可以在服务器或其他装置中进行。进而，关于修正方法，说明了通过识别来进行修正的方法，但是，也可以是其他方法、例如基于文字串间的相似度的方法。该情况下，不需要特征量保存部230和保存音响特征量数据的处理(S102)，不需要错误区间特征量提取部260、修正部270和利用音响特征来识别(S108a)。

进而，在子字的文字串位于辞典保持部283中的情况下，也可以利用辞典保持部283中的信息。例如，在辞典保持部283中存在与“サンヨウムセン”对应的单词、例如“三洋無線”的情况下，不在子字辞典中进行追加。

并且，在之前的例子中，在分割区间时，也可以在区间1和区间2中分别包含子字区间，但是，这不是必须的，各分割区间中也可以不包含子字。即，也可以将第2个单词“では”到第5个子字文字串的开始分割为区间1，将第5个子字文字串结束到第8个单词结束的“が”分割为区间2。该情况下，也可以不进行向辞典追加子字的文字串的追加处理。

接着，说明本实施方式的客户端装置110k的作用效果。在该客户端装置110k中，接收部235从服务器装置120接收识别结果，错误区间指定部240指定错误区间。进而，子字区间指定部242指定错误区间中的子字区间。能够通过从服务器装置120发送的识别结果所附加的属性信息对其进行判断。然后，修正部270从特征量保存部230中提取与子字区间指定部242所指定的子字区间对应的特征量数据，使用该提取出的特征量数据进行再次识别，由此，执行识别结果的修正。由此，能够这对子字这种未知词进行修正处理。即，能够基于子字区间这样的未知词区间进行再次识别。

并且，在本实施方式的客户端装置110k中，分割部243根据由子字区间指定部240指定的子字区间，将识别结果分割为多个区间。然后，修正部270按照分割部243所分割的各个分割区间，执行识别结果的修正。由此，能够缩短识别对象，能够进行更准确的识别处理。

并且，在客户端装置110k中，分割部243对识别结果进行分割，以使子字区间的终点为一个分割区间的终点，并且，子字区间的起点为所述一个分割区间下一分割区间的起点。然后，修正部270按照分割部243所分割的各个分割区间，执行识别结果的修正，并且，将子字区间作为各分割区间的修正中的约束条件。由此，子字区间包含在任意分割区间中。由此，进行识别处理时一定包含子字区间，从而能够将子字文字串作为约束条件来进行识别处理。

并且，在客户端装置110k中，辞典追加部265在识别处理用的辞典保持部283中追加由子字区间指定部242指定的子字区间中的子字文字串。由此，能够蓄积子字文字串，在今后的识别处理中有效使用，能够进行更准确的识别处理。

<第12实施方式>

在第11实施方式中，说明了以子字文字串为边界进行分割的方法，但是，在本实施方式中，说明即使不进行分割，在再次识别的情况下也必须使用子字文字串的方法。本实施方式采用与上述第11实施方式相同的装置结构。

图29是声音识别中的搜索过程的概念图，图29(a)是示出包含子字文字串即“サンヨウムセン”的搜索过程的概念图，图29(b)是示出将子字文字串作为约束条件的多个区间中的搜索过程的概念图。

一般地，在声音识别搜索过程中计算全部路径的假说的似然，保存中途的结果，最终按照似然从大到小的顺序生成结果。实际上，考虑分数的方面，利用在中途将搜索范围缩小到一定范围以内的方法。在本实施方式中，在由子字区间指定部242指定的子字区间位于规定区间(例如2秒～3秒的期间)的情况下，修正部270使用该子字区间所记述的子字文字串进行识别处理，使得与其他路径相比，提高在搜索过程中出现子字文字串的路径的位次，最终优先输出包含子字文字串的识别结果。例如，通过修正部270得到以下的搜索路径并保持。

路径1：最近/では/玄関/で/待ち合わせ

路径2：昨日/の/会議/は/世界/中

路径3：最近/では/単価/高い/サンヨウムセン

路径4：最近/では/電気メ一カ/の/サンヨウムセン

其中的路径3和路径4中存在“サンヨウムセン”，所以，修正部270进行处理，以使与路径1、路径2相比，提高这两个路径的位次。如果这里缩小范围，则不保留路径1和路径2，而保留路径3和路径4。进而，也可以判断“サンヨウムセン”的出现位置，缩小到限定在接近位于原来的识别结果中的“サンヨウムセン”的出现位置(300ms～500ms)的一定范围内的路径。并且，与最终识别结果中没有出现“サンヨウムセン”的候选相比，也可以优先输出出现了“サンヨウムセン”的候选。

如上所述，在客户端装置110k中，修正部270将包含由子字区间指定部242指定的子字区间所记述的子字文字串的假说作为识别的搜索过程，提高优先位次并保持，从该假说中选择最终的识别结果，从而执行修正。由此，能够进行必须使用子字文字串的识别处理。

Claims

1.一种声音识别结果修正装置，其特征在于，该声音识别结果修正装置具有：

输入单元，其输入声音；

计算单元，其根据由所述输入单元输入的声音，计算特征量数据；

存储单元，其存储由所述计算单元计算出的特征量数据；

取得单元，其取得针对由所述输入单元输入的声音的识别结果；

指定单元，其指定在由所述取得单元识别的识别结果中产生了识别错误的错误区间；以及

修正单元，其从存储在所述存储单元中的特征量数据中提取与所述指定单元所指定的错误区间对应的特征量数据，使用该提取出的特征量数据进行再次识别，由此，执行由所述取得单元得到的识别结果的修正。

2.根据权利要求1所述的声音识别结果修正装置，其特征在于，

所述取得单元包括：

发送单元，其向声音识别装置发送由所述输入单元输入的声音；以及

接收单元，其接收在所述声音识别装置中识别的识别结果，

所述指定单元指定在由所述接收单元接收的识别结果中产生了识别错误的错误区间。

3.根据权利要求1或2所述的声音识别结果修正装置，其特征在于，

所述指定单元通过受理用户操作来指定错误区间。

4.根据权利要求1～3中的任一项所述的声音识别结果修正装置，其特征在于，

所述指定单元根据所述识别结果所附加的识别结果的可靠度来判断错误区间，并指定该判断的错误区间。

5.根据权利要求1～3中的任一项所述的声音识别结果修正装置，其特征在于，

所述指定单元计算所述识别结果的可靠度，根据该可靠度判断错误区间，并指定该判断的错误区间。

6.根据权利要求1～5中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有确定单元，该确定单元用于确定形成由所述指定单元指定的错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果，

所述修正单元将所述确定单元所确定的识别结果作为约束条件，根据该约束条件，从所述存储单元中提取与包含错误区间前面的单词、后面的单词在内的区间对应的特征量数据，对提取出的特征量数据进行识别处理。

7.根据权利要求1～5中的任一项所述的声音识别结果修正装置，其特征在于，

所述修正单元将所述确定单元所确定的识别结果作为约束条件，根据该约束条件，从所述存储单元中提取与错误区间对应的特征量数据，对提取出的特征量数据进行识别处理。

8.根据权利要求1～7中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有单词信息确定单元，该单词信息确定单元用于确定识别结果中的单词的单词信息，该识别结果形成用于确定由所述指定单元指定的错误区间前面至少一个单词的信息即单词信息、或后面至少一个单词的单词信息、或所述前面的单词的单词信息和后面的单词的单词信息双方中的任一种，

所述修正单元将所述单词信息确定单元所确定的单词信息作为约束条件，根据该约束条件，从所述存储单元中提取与包含错误区间前面的单词、后面的单词在内的区间对应的特征量数据，对提取出的特征量数据进行识别处理。

9.根据权利要求8所述的声音识别结果修正装置，其特征在于，

所述单词信息包含表示单词词类的词类信息和表示单词读法的读音信息的任意一个或多个。

10.根据权利要求8或9所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有未知词判定单元，该未知词判定单元根据所述单词信息，判定形成由所述指定单元指定的错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果的单词是否是未知词，

当所述未知词判定单元判定为所述识别结果的单词为未知词时，所述修正单元根据所述单词信息进行识别结果的修正处理。

11.根据权利要求1～10中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有连接概率存储单元，该连接概率存储单元存储单词彼此之间的连接概率，

所述修正单元通过进行修正处理，生成该错误区间的单词与其前后或一方的单词的连接概率，使用该连接概率来更新存储在所述连接概率存储单元中的连接概率。

12.根据权利要求6～11中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有约束条件存储单元，该约束条件存储单元存储由所述单词信息确定单元确定的单词信息或由所述确定单元确定的单词来作为约束条件，

所述修正单元根据存储在所述约束条件存储单元中的约束条件，进行修正处理。

13.根据权利要求1～12中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有受理单元，该受理单元从用户受理文字信息，

所述修正单元将所述受理单元所受理的文字信息作为约束条件，进行错误区间中的识别结果的修正处理。

14.根据权利要求1～13中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有时间信息计算单元，该时间信息计算单元根据由接收单元接收的识别结果和存储在所述存储单元中的特征量数据，计算识别结果中的经过时间，

所述指定单元根据由所述时间信息计算单元计算出的时间信息，指定错误区间。

15.根据权利要求1～14中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有显示单元，该显示单元显示由所述修正单元修正的识别结果，

所述显示单元不显示所述取得单元所取得的识别结果。

16.根据权利要求15所述的声音识别结果修正装置，其特征在于，

在所述修正单元进行再次识别而得到的识别结果和所述取得单元所取得的识别结果相同的情况下，或者这些识别结果分别包含的时间信息产生偏差的情况下，判断为识别错误，所述显示单元不显示识别结果。

17.根据权利要求3所述的声音识别结果修正装置，其特征在于，

所述指定单元通过用户操作来指定错误区间的起点，根据对所述取得单元所取得的识别结果附加的识别结果的可靠度，指定错误区间的终点。

18.根据权利要求3所述的声音识别结果修正装置，其特征在于，

所述指定单元通过用户操作来指定错误区间的起点，从该起点隔开规定识别单位数量来指定错误区间的终点。

19.根据权利要求3所述的声音识别结果修正装置，其特征在于，

所述指定单元通过用户操作来指定错误区间的起点，根据由所述取得单元取得的识别结果中的规定的发音记号，指定错误区间的终点。

20.根据权利要求3所述的声音识别结果修正装置，其特征在于，

所述取得单元在取得识别结果时，取得多个识别候选作为识别结果，

所述指定单元通过用户操作来指定错误区间的起点，根据由所述取得单元取得的识别候选的数量来指定终点。

21.根据权利要求1～20中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有计算单元，该计算单元计算包含由所述计算单元计算出的特征量数据的错误区间在内的区间的平均值，

所述修正单元从提取出的特征量数据中减去由所述计算单元计算出的平均值，将通过该减法运算得到的数据作为特征量数据，进行再次识别处理。

22.一种声音识别结果修正装置，其特征在于，该声音识别结果修正装置具有：

输入单元，其输入声音；

指定单元，其指定在由所述取得单元识别的识别结果中产生了识别错误的错误区间；

通知单元，其向外部服务器通知由所述指定单元指定的错误区间，由此向所述外部服务器委托该错误区间的再次识别处理；以及

接收单元，其根据所述通知单元的委托，接收在所述外部服务器中再次识别的错误区间的识别结果。

23.一种声音识别结果修正方法，其特征在于，该声音识别结果修正方法具有以下步骤：

输入步骤，其输入声音；

计算步骤，其根据由所述输入步骤输入的声音，计算特征量数据；

存储步骤，其存储由所述计算步骤计算出的特征量数据；

取得步骤，其取得针对由所述输入步骤输入的声音的识别结果；

指定步骤，其指定在由所述取得步骤识别的识别结果中产生了识别错误的错误区间；以及

修正步骤，其从在所述存储步骤中存储的特征量数据中提取与所述指定步骤所指定的错误区间对应的特征量数据，使用该提取出的特征量数据进行再次识别，由此，执行由所述取得步骤得到的识别结果的修正。

24.一种声音识别结果修正方法，其特征在于，该声音识别结果修正方法具有以下步骤：

输入步骤，其输入声音；

指定步骤，其指定在由所述取得步骤识别的识别结果中产生了识别错误的错误区间；

通知步骤，其向外部服务器通知由所述指定步骤指定的错误区间，由此向所述外部服务器委托该错误区间的再次识别处理；以及

接收步骤，其根据所述通知步骤的委托，接收在所述外部服务器中再次识别的错误区间的识别结果。

25.根据权利要求1～22中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置具有子字区间指定单元，该子字区间指定单元在所述取得单元所取得的识别结果中指定子字区间，

所述修正单元从所述存储单元中提取在所述指定单元所指定的错误区间中进一步与所述子字区间指定单元所指定的子字区间相对应的特征量数据，使用该提取出的特征量数据进行再次识别，由此，执行所述取得单元所得到的识别结果的修正。

26.根据权利要求25所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有分割单元，该分割单元根据由所述子字区间指定单元指定的子字区间，将所述取得单元所取得的识别结果分割为多个区间，

所述修正单元按照所述分割单元所分割的各个分割区间，执行识别结果的修正。

27.根据权利要求26所述的声音识别结果修正装置，其特征在于，

所述分割单元对识别结果进行分割，使得将子字区间的终点作为一个分割区间的终点，并且，将子字区间的起点作为所述一个分割区间的下一分割区间的起点。

28.根据权利要求27所述的声音识别结果修正装置，其特征在于，

所述修正单元按照所述分割单元所分割的各个分割区间，执行识别结果的修正，并且，将所述子字区间作为各分割区间的修正中的约束条件。

29.根据权利要求25所述的声音识别结果修正装置，其特征在于，

所述修正单元保持包含由所述子字区间指定单元指定的子字区间所记述的子字文字串在内的假说，来作为识别的搜索过程，从该假说中选择最终的识别结果，从而执行修正。

30.根据权利要求25～29中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有辞典追加单元，该辞典追加单元在识别处理用的辞典数据库中追加由所述子字区间指定单元指定的子字区间中的子字文字串。

31.根据权利要求25～30中的任一项所述的声音识别结果修正装置，其特征在于，

该声音识别结果修正装置还具有由用户生成的辞典数据库，

所述修正单元使用根据所述辞典数据库对子字文字串进行转换后的文字串，进行修正处理。

32.一种声音识别结果修正系统，其特征在于，该声音识别结果修正系统包括：

权利要求1～22或25～31中的任一项所述的声音识别结果修正装置；以及

服务器装置，其根据从所述声音识别结果修正装置发送的声音来进行声音识别，并向所述声音识别结果修正装置发送识别结果。