CN113362817A

CN113362817A - 声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序

Info

Publication number: CN113362817A
Application number: CN202010922258.2A
Authority: CN
Inventors: 芦川平; 藤村浩司; 岩田宪治
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-03-04
Filing date: 2020-09-04
Publication date: 2021-09-07
Also published as: JP7111758B2; US20210280168A1; US11620981B2; JP2021139994A

Abstract

实施方式涉及声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序。提供自动地纠正声音识别结果的错误的声音识别纠错技术。根据实施方式，纠错部计算作为对新的一系列的声音数据进行声音识别而得到的结果的纠错对象的声音识别结果列和修正网络保持部中保持的修正网络的差分，如果表示该差分的值在阈值以下，则使用修正网络进行针对纠错对象的声音识别结果列中的声音识别的错误部分的纠错，生成声音识别纠错结果列。

Description

声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序

本申请以日本专利申请2020-036631(申请日：2020年3月4日)为基础，从该申请享受优先的利益。本申请通过参照该申请而包含该申请的所有内容。

技术领域

实施方式涉及声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序。

背景技术

声音识别装置是利用大词汇量连续声音识别技术识别人类的声音的装置，用于输入支持、声音对话等。

在该声音识别装置中，由于发声时的环境、说法方式、未知词等理由，存在声音识别结果中包含错误的可能性。因此，提出了利用过去的修正历史、与特定的项目对应的数据库来校正识别结果的声音识别纠错技术。

然而，在以往的声音识别纠错技术中，无法自动地纠正声音识别结果的错误的情况较多。

发明内容

本发明想要解决的问题在于提供一种自动地纠正声音识别结果的错误的声音识别纠错技术。

实施方式的声音识别纠错装置具备修正网络保持部和纠错部。修正网络保持部保存修正网络，该修正网络是将作为对一系列的声音数据进行声音识别而得到的结果的声音识别结果列和针对该声音识别结果列的基于用户的修正结果关联起来的。纠错部计算作为对新的一系列的声音数据进行声音识别而得到的结果的纠错对象的声音识别结果列和上述修正网络保持部中保持的上述修正网络的差分，如果表示上述差分的值在阈值以下，则使用上述修正网络进行针对上述纠错对象的声音识别结果列中的声音识别的错误部分的纠错，生成声音识别纠错结果列。

根据上述结构的声音识别纠错装置，能够自动地纠正声音识别结果的错误。

附图说明

图1是示出第1实施方式所涉及的声音识别纠错装置的结构的框图。

图2是示出声音识别纠错装置的硬件结构的一个例子的框图。

图3是示出声音识别纠错装置的处理功能的过程的流程图。

图4是示出图3中的修正网络追加/更新处理的详细的处理过程的流程图。

图5是示出识别结果文本、修正语句文本以及差分信息的一个例子的图。

图6是示出修正网络FST的一个例子的图。

图7是示出与图6的例子对应的预读表的内容例的图。

图8是示出以单词为单位进行处理的情况下的修正网络FST的一个例子的图。

图9是示出以单词为单位进行处理的情况下的词格的一个例子的图。

图10是示出以单词为单位进行处理的情况下的混淆网络的一个例子的图。

图11是示出第2实施方式所涉及的声音识别纠错装置的结构的框图。

图12A是示出表示第2实施方式所涉及的声音识别纠错装置的处理的过程的流程图的第1部分的图。

图12B是示出表示第2实施方式所涉及的声音识别纠错装置的处理的过程的流程图的第2部分的图。

(符号说明)

10、50：声音识别纠错装置；11：声音取得部；12：识别部；13：修正语句取得部；14、51：生成部；15、52：修正网络保持部；16：纠错部；17、53：提示部；20：修正网络FST；21、31、41：节点；22、32、42：弧线；30：识别结果词格；40：识别结果混淆网络；54：对话处理部；55：变换规则保持部；56：合成部；101：控制装置；102：主存储装置；103：辅助存储装置；104：显示装置；105：输入装置；106：通信装置；107：总线。

具体实施方式

以下参照附图详细说明实施方式。

实施方式所涉及的声音识别纠错装置例如设想在自动字幕系统、报告代理系统中使用。自动字幕系统是将听觉障碍者作为对象、识别声音并自动地进行字符化而显示的系统。报告代理系统具有用户以自然地会话的方式说话从而系统听到应报告的内容而制作为报告书的功能。

(第1实施方式)

图1是示出本实施方式所涉及的声音识别纠错装置10的结构的框图。声音识别纠错装置10具备声音取得部11、识别部12、修正语句取得部13、生成部14、修正网络保持部15、纠错部16以及提示部17。

声音取得部11取得与用户说出的语句对应的一系列的声音数据。例如，声音取得部11通过对由麦克风收集的实时的声音逐次进行数字化，能够取得一系列的声音数据。另外，声音取得部11也可以通过从预先录音在记录介质中的声音文件读出一系列的声音数据来取得该一系列的声音数据。

识别部12根据由声音取得部11取得的一系列的声音数据进行已知的声音识别处理而生成声音识别结果列。由该识别部12生成的声音识别结果列也可以是文本(text)、或者作为候补网络的词格(lattice)、或者混淆网络(confusion net)中的至少任意一个。文本是存在构成说出的语句的可能性的1个以上的字符或单词。词格是将存在构成说出的语句的可能性的1个以上的字符或单词表现为有向图形的图形。关于词格，即使多个字符或单词是相互相同的字符或单词，在多个字符或单词的开始时刻、结束时刻相互不同时，也将多个字符或单词记录为相互不同的弧线，所以包含冗长的弧线。混淆网络与词格同样地用图形型的数据结构表示多个字符或单词的候补。混淆网络通过将词格内属于接近的时间带的相同标签缩减为1个标签并且将词格内属于接近的时间带的不同标签集中而生成1个对立候补群组，能够从词格变换而得到。

修正语句取得部13例如取得用户对由识别部12生成的声音识别结果列进行手动修正而得到的修正语句。

生成部14根据由识别部12生成的声音识别结果列和由修正语句取得部13取得的修正语句来生成修正网络，将该修正网络保存即追加到修正网络保持部15。修正网络是指将针对一系列的声音数据的声音识别结果列和针对该声音识别结果列的修正语句关联起来的网络。另外，在修正网络保持部15中已经保存有针对相同的声音识别结果列的修正网络的情况下，生成部14使新生成的修正网络覆盖该已经保存的修正网络。由此，修正网络保持部15中保存的修正网络能够被更新。

修正网络保持部15保存有修正网络。

纠错部16根据由识别部12生成的声音识别结果列和由生成部14生成并保存在修正网络保持部15中的修正网络，生成声音识别结果列的纠错语句。

提示部17对用户提示由纠错部16生成的声音识别结果列的纠错语句。因此，提示部17能够具备显示装置。另外，提示部17可以通过将声音识别结果列的纠错语句经由网络发送给外部装置，在该外部装置中对该外部装置的用户提示纠错语句。

此外，修正语句取得部13能够具备用于输入针对声音识别结果列中的需要修正的部分的修正语句的输入装置。另外，修正语句取得部13可以将声音识别结果列经由网络发送给外部装置，并接收从外部装置发送来的修正语句。也可以由识别部12将声音识别结果列发送给外部装置，修正语句取得部13接收来自外部装置的修正语句。另外，修正语句取得部13可以取得用户对由提示部17提示的声音识别结果列的纠错语句进行手动修正而得到的修正语句。由此，生成部14还能够根据由纠错部16生成的声音识别结果列的纠错语句和由修正语句取得部13取得的修正语句，对修正网络进行追加或更新。

图2是示出声音识别纠错装置10的硬件结构的一个例子的框图。声音识别纠错装置10具备控制装置101、主存储装置102、辅助存储装置103、显示装置104、输入装置105以及通信装置106。控制装置101、主存储装置102、辅助存储装置103、显示装置104、输入装置105以及通信装置106经由总线107连接。

控制装置101执行从辅助存储装置103读出到主存储装置102的程序。控制装置101例如是CPU等1个以上的处理器。主存储装置102是ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)等存储器。辅助存储装置103是SSD(SolidState Drive，固态驱动器)等存储卡、HDD(Hard Disk Drive，硬盘驱动器)等非易失性的存储装置。

显示装置104显示信息。显示装置104例如是液晶显示器。输入装置105受理信息的输入。输入装置105例如是键盘及鼠标等。此外，显示装置104及输入装置105也可以是兼具显示功能和输入功能的液晶触摸面板等。另外，输入装置105能够包括声音输入用的麦克风。通信装置106与其他装置进行通信。

由控制装置101执行的程序能够通过可安装的形式或可执行的形式的文件存储到CD-ROM、存储卡、CD-R以及DVD(Digital Versatile Disk，数字通用光盘)等可由计算机读取的存储介质，提供为计算机程序产品。

另外，由控制装置101执行的程序也可以储存到与因特网等网络连接的计算机上。在该情况下，声音识别纠错装置10能够通过使用通信装置106经由网络将该程序下载到辅助存储装置103上而进行利用。另外，声音识别纠错装置10也可以构成为不下载执行的程序而将其经由因特网等网络读出到主存储装置102而进行利用。

另外，由控制装置101执行的程序也可以构成为预先嵌入到主存储装置102的ROM等而提供。

由控制装置101执行的程序成为声音识别纠错装置10的功能结构中的包括能够通过程序实现的功能的模块结构。

关于通过程序实现的功能，通过控制装置101从辅助存储装置103等存储介质读出并执行程序，将通过程序实现的功能加载到主存储装置102。即，在主存储装置102上生成通过程序实现的功能。

此外，声音识别纠错装置10的功能的一部分也可以通过ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)、FPGA(Field Programmable Gate Array，现场可编程门阵列)以及GPU(Graphics Processing Unit，图形处理单元)等IC(Integrated Circuit，集成电路)、即通过硬件而实现。IC例如是执行专用的处理的处理器。

另外，在使用多个处理器实现各功能的情况下，各处理器既可以实现各功能中的1个功能，也可以实现各功能中的2个以上功能。

另外，声音识别纠错装置10的动作方式可以是任意的。也可以使声音识别纠错装置10例如作为网络上的云系统进行动作。

以下详细说明声音识别纠错装置10的动作。图3是示出通过作为控制装置101的处理器执行声音识别纠错程序而实现的声音识别纠错装置10的处理功能的过程的流程图。

首先，声音取得部11取得声音数据(步骤S11)。例如，声音取得部11通过输入装置105的麦克风收集声音并生成声音数据，从而取得声音数据。

接下来，识别部12对由声音取得部11取得的声音数据进行已知的声音识别处理，生成声音识别结果列(步骤S12)。生成的声音识别结果列是文本(字符列)、或者作为候补网络的词格、或者混淆网络中的至少任意一个。作为声音识别结果列，能够得到从第1候补直至第n候补(n为2以上的整数)的多个候补，关于利用至哪个位的候补，既可以预先决定，也可以使用户能够任意地设定。词格、混淆网络能够将这些多个候补包括在1个词格或混淆网络中。在声音识别结果列是文本的情况下，分别生成多个候补文本。以下，为了简化说明，以生成第1候补文本作为声音识别结果列的情况为例子进行说明。

纠错部16首先取得作为由识别部12生成的声音识别结果列的识别结果文本(步骤S13)。然后，纠错部16根据该取得的识别结果文本和在辅助存储装置103中构成的修正网络保持部15中保存的修正网络，生成纠正声音识别结果列的识别错误的纠错文本。具体而言，纠错部16搜索由识别部12生成的识别结果文本与修正网络保持部15中保存的修正网络的差分，例如最短路径(步骤S14)。然后，纠错部16判断该最小的最短路径的得分(最短路径得分)是否在某阈值以下(步骤S15)。如果最短路径得分在阈值以下，则纠错部16根据识别结果文本和修正网络的最短路径，生成纠错文本(步骤S16)。

提示部17通过显示装置104对用户提示声音识别结果列的纠错文本，该声音识别结果列的纠错文本是由纠错部16生成的声音识别纠错结果列(步骤S17)。另外，提示部17在纠错部16在上述步骤S15中判断为最短路径得分大于阈值的情况下，通过显示装置104提示作为由识别部12生成的声音识别结果列的识别结果文本(步骤S18)。此外，代替基于显示装置104的提示，提示部17也可以通过通信装置106经由网络对外部装置提示识别结果文本或纠错文本。

修正语句取得部13判断是否由用户对通过提示部17提示的识别结果文本或纠错文本进行了手动修正(步骤S19)。这例如能够根据是否存在基于输入装置105的用户操作的修正操作、或者是否通过通信装置106接收到了来自外部装置的修正语句文本来判断。如果未进行手动修正，则声音识别纠错装置10结束该流程图所示的处理。

相对于此，在判断为进行了手动修正的情况下，修正语句取得部13取得作为手动修正的结果的修正语句文本(步骤S20)。

生成部14执行修正网络追加/更新处理(步骤S21)。在该修正网络追加/更新处理中，生成部14根据作为通过提示部17提示的文本的识别结果文本或纠错文本以及由修正语句取得部13取得的修正语句文本，生成并更新修正网络。具体而言，找出识别结果文本或纠错文本与修正语句文本的最短路径，如果最短路径得分在某阈值以下，则对修正网络追加识别结果文本或纠错文本和修正语句文本。如果生成部14结束了该修正网络追加/更新处理，则声音识别纠错装置10结束该流程图所示的处理。

图4是示出上述步骤S21的修正网络追加/更新处理的详细的处理过程的流程图。修正网络能够利用在声音识别中也利用的有限状态转换器(Finite State Transducer：FST)。FST是由表示状态的节点和表示节点间的迁移的弧线构成的、能够在弧线中具有输入信息和输出信息的转换器。另外，在弧线中，还能够将输入及输出中的某一方或两方设为空，输入为空的情况被称为ε迁移。

生成部14使用作为声音识别结果列的第1候补的字符列的识别结果文本或者对该识别结果文本中的错误进行自动纠正而得到的纠错文本、以及作为用户的手动修正结果的修正语句文本，生成/更新修正网络。在该修正网络的生成/更新处理中，存在以字符为单位进行处理的方法以及在生成部14的内部进行词素解析而以单词为单位进行处理的方法，但除了最初是否进行词素解析以外，都是相同的处理。以下用以字符为单位进行处理的情况作为例子进行说明。

生成部14在步骤S21的修正网络追加/更新处理中，首先对修正网络FST进行初始化(步骤S211)。即，生成部14制作修正网络FST并将其保存到修正网络保持部15，该修正网络FST具有初始状态下结束状态的开始节点，以及具有从初始状态进行ε迁移并且向初始状态节点进行ε迁移的弧线的结束节点。

接下来，生成部14对上述制作并保存到修正网络保持部15的修正网络FST进行如以下的更新处理。

即，生成部14首先将在上述步骤S211中生成的修正网络FST的开始节点设为源节点(步骤S212)。

接下来，生成部14从识别部12取得作为声音识别结果列的识别结果文本或者从纠错部16取得作为对错误进行纠正而得到的结果的纠错文本作为识别文本，而且从修正语句取得部13取得修正语句文本(步骤S213)。

接下来，生成部14取得作为识别结果文本或纠错文本的识别文本与修正语句文本的差分信息，运算最短路径(步骤S214)。即，生成部14使用通常利用的格式塔(gestalt)模式匹配等模式匹配手法，在各字符下找出是一致M、置换R、插入I、删除D中的哪一个而作为差分信息。然后，生成部14根据该差分信息，找出识别文本与修正语句文本的最短路径。在找出该最短路径时，可以使一致M、置换R、插入I、删除D分别具有不同的得分。

图5是示出识别结果文本、修正语句文本以及差分信息的一个例子的图。在日语中，即使是相同的发音，既有用一个字符表示的文字，也有用多个字符表示的文字。另外，即使是相同的发音，也存在不同的意思的字符或单词。作为图5的识别结果文本的例子的“今日はダメです”这样的句子在日语中发音为“kyou-wa-dame-desu”，意思是“今天不行”。作为修正语句文本的例子的“京都は雨です。”这样的句子发音为“kyouto-wa-ame-desu”，意思是“京都在下雨.”。“。”相当于句号。

接下来，生成部14判断最短路径得分是否在某阈值以下(步骤S215)。即，声音识别结果列由于环境噪声等而存在明显出错的可能性，对此时的修正结果进行学习是不适合的。因此，在识别文本与修正语句文本的差大的情况下，不追加到修正网络。为此，生成部14找出作为最短路径的得分的编辑距离，在该编辑距离大于预先决定的阈值的情况下，不进行以下的向修正网络的追加处理而结束该修正网络追加/更新处理。此外，与该阈值进行比较的也可以不是编辑距离，而是将编辑距离除以字符数而设为平均值。

在判断为最短路径得分在阈值以下的情况下，生成部14根据差分信息来决定登记到修正网络FST的范围(步骤S216)。该登记的范围也可以将所有差分信息作为对象。或者，为了抑制修正网络FST的规模，也可以设为去掉差分信息中连续地一致M的部位而包括删除D、插入I、置换R的前后数个一致M的范围。例如，在前后包括1个一致M的情况、差分信息是MMMRRMMM的情况下，可以将开头的MM和末尾的MM设为范围外，而将MRRM的部分设为范围。

生成部14对该决定的范围的差分信息实施以下的处理。

首先，生成部14在修正网络FST中追加新节点及弧线(步骤S217)。即，在差分信息内的对象的差分信息并非登记的范围的最后的情况下，生成部14制作新节点，并将该新节点设为目的地节点。另外，在对象的差分信息是范围的最后的情况下，生成部14将修正网络FST的结束节点作为目的地节点。然后，生成部14把将源作为源节点且将目的地作为目的地节点的弧线追加到修正网络FST。

然后，生成部14在该追加的弧线中设定输入信息及输出信息(步骤S218)。即，生成部14在差分信息是一致M的情况下，将输入信息设为作为识别结果文本或纠错文本的识别文本的对象字符，并将输出信息设为修正语句文本的对象字符。另外，在差分信息是插入I的情况下，生成部14将输入信息设为空字符即空数据，并将输出信息设为修正语句文本的对象字符。另外，在差分信息是置换R的情况下，生成部14将输入信息设为识别文本的对象字符，并将输出信息设为修正语句文本的对象字符。而且，在差分信息是删除D的情况下，生成部14将输入信息设为识别文本的对象字符，并将输出信息设为空数据。如果这样决定了输入信息及输出信息，则生成部14在追加的弧线中追加该决定的输入信息及输出信息。

之后，生成部14判断是否已对处于在上述步骤S216中决定的范围中的所有差分信息进行了处理(步骤S219)。然后，在判断为存在尚未处理的差分信息的情况下，生成部14从上述步骤S217反复进行处理。这样，生成部14对处于在上述步骤S216中决定的范围中的各差分信息实施步骤S217和步骤S218的处理。

然后，如果已对决定的范围内的所有差分信息结束了处理，则生成部14更新在纠错部16中利用的预读表(步骤S220)。预读表保持对象节点、对象节点是连接目的地节点的弧线(后续弧线)以及后续字符列。后续字符列是连结了接在对象弧线的后面的弧线上的输入字符列的字符列。图6是示出修正网络FST的一个例子的图，图7是示出与图6的修正网络FST的一个例子对应的预读表的内容例的图。预读表用于在纠错部16中搜索最短路径时，通过在以对象节点为连接源的弧线中决定下一次迁移的弧线的候补，缩减最短路径的候补。预读表能够与保存修正网络的修正网络保持部15同样地存储到辅助存储装置103。

此外，图6示出修正网络FST 20。在该图中，圆是节点21，连结圆之间的线是弧线22。圆内的数字是节点21的ID，ID 0的节点是开始节点，ID 1的节点是结束节点。关于在弧线附近示出的字符，冒号(:)前表示输入信息，冒号后表示输出信息。针对图5所示的例子的修正网络FST 20成为[开始节点(节点0)]-(今:京)-[节点2]-(日:都)-[节点3]-(は:は)-[节点4]-(ダ:雨)-[节点5]-(メ:)-[节点6]-(で:で)-[节点7]-(す:す)-[节点8]-(:。)-[结束节点(节点1)]。而且，从[结束节点]向[开始节点]有ε迁移。

在以单词为单位进行处理的情况下，在取得差分信息的上述步骤S214之前，分别针对作为识别结果文本或纠错文本的识别文本和修正语句文本进行词素解析。之后的处理相同。图8是示出在以单词为单位进行处理的情况下得到的修正网络FST的一个例子的图。在该例子中，修正网络FST成为[开始节点(节点0)]-(今日:京都)-[节点2]-(は:は)-[节点3]-(ダメ:雨)-[节点4]-(です:です)-[节点5]-(:。)-[结束节点(节点1)]。而且，从[结束节点]向[开始节点]有ε迁移。

以上说明的是将识别部12生成的声音识别结果列作为第1候补文本的情况，但即使在生成多个候补文本的情况下，也能够同样地进行识别结果的纠错。即，针对各候补文本找出与修正网络的最短路径，对于最短路径得分最小的候补文本进行纠错即可。

另外，即使在声音识别结果列并非文本而是词格、混淆网络的情况下，仅通过修正网络成为词格、混淆网络，也能够同样地进行识别结果的纠错。

图9是示出词格的一个例子的图。识别部12生成识别结果词格30作为声音识别结果列。识别结果词格30也具有节点31和弧线32，对弧线32分别分配字符或单词的标签。图9示出声音识别结果列以单词为单位的情况。对从识别结果词格30的左端的开始节点31至右端的结束节点31的1个路径上的多个弧线32分别分配的多个标签的系列表示作为声音识别的结果生成的说出的句子的1个假设。除了标签以外，还能够对各弧线32赋予表示该标签的合理性的权重。生成部14制作的作为修正网络的词格也具有同样的结构。

图10是示出混淆网络的一个例子的图。识别部12生成识别结果混淆网络40作为声音识别结果列。识别结果混淆网络40在节点41与节点41之间具有多个弧线42。与识别结果词格30同样地，在识别结果混淆网络40中，也对弧线42分别分配字符或单词的标签。图10示出声音识别结果列以单词为单位的情况。从识别结果混淆网络40的左端的始端节点41至右端的末端节点41的1个标签列表示1个声音识别结果列的候补。除了标签以外，还能够对各弧线42赋予表示该标签的合理性的权重。生成部14制作的作为修正网络的混淆网络也具有同样的结构。

以上，根据第1实施方式所涉及的声音识别纠错装置10将作为修正网络的以字符为单位或以单词为单位的文本FST、词格和/或混淆网络预先保存到修正网络保持部15，其中修正网络是将作为对一系列的声音数据进行声音识别而得到的结果的声音识别结果列的以字符为单位或以单词为单位的文本、词格和/或混淆网络与针对该声音识别结果列的基于用户的修正结果文本关联起来的，通过纠错部16计算作为对新的一系列的声音数据进行声音识别而得到的结果的纠错对象的声音识别结果列与修正网络的例如最短路径，如果最短路径的最小值在阈值以下，则使用与该最小值的最短路径对应的修正网络进行针对纠错对象的声音识别结果列中的声音识别的错误部分的纠错。由此，无需用户多次进行相同的修正而能够削减声音识别结果列的修正成本。

另外，根据第1实施方式所涉及的声音识别纠错装置10，通过修正语句取得部13取得针对由纠错部16生成的声音识别纠错结果列的基于用户的修正结果文本，通过生成部14计算纠错对象的声音识别结果列与修正结果文本的例如最短路径，如果最短路径在阈值以下，则生成将纠错对象的声音识别结果列和修正结果文本关联起来的修正网络，并将该修正网络保存到修正网络保持部15。由此，能够进行修正网络的学习。

(第2实施方式)

第2实施方式所涉及的声音识别错误修正装置的结构在将变换规则合成到修正网络的方面与第1实施方式所涉及的声音识别纠错装置10的情况不同。变换规则是指，不仅适用于特定的用户、而且共同地适用于多个用户的修正规则。例如，在将声音识别纠错装置用于报告代理系统的情况下，即使用户发出“さん”作为人名的敬称而声音识别结果列生成了“さん”(“san”)，为了使格式统一，需要将人名的敬称从“さん”修正为“様”(“sama”)。在这样的情况下，使将敬称的“さん”纠正为“様”的变换规则包含于修正网络是有效的。

图11是示出本实施方式所涉及的声音识别纠错装置50的结构的框图。在声音识别纠错装置50中，作为与第1实施方式所涉及的声音识别纠错装置10同样的结构，具备声音取得部11、识别部12、修正语句取得部13以及纠错部16。代替第1实施方式所涉及的声音识别纠错装置10中的生成部14、修正网络保持部15以及提示部17，声音识别纠错装置50具备生成部51、修正网络保持部52以及提示部53。而且，声音识别纠错装置50还具备对话处理部54和变换规则保持部55。另外，声音识别纠错装置50也可以还具备合成部56。

对话处理部54在由纠错部16进行了纠错的情况下针对该纠错结果与用户进行对话处理，或者在未进行纠错的情况下针对基于识别部12的声音识别结果列与用户进行对话处理，生成对话结果。即，对话处理部54例如通过显示装置104对用户提示纠错结果或声音识别结果列，此时，参照变换规则保持部55中保存的变换规则，提示对声音识别结果列施加了依照变换规则的修正后的部分。对话处理部54通过输入装置105从用户受理进行依照变换规则的修正的部位的修正指定和/或应新加到变换规则的部位的新指定。对话处理部54生成包括表示施加了依照变换规则的修正的部位和来自用户的指定部位的信息的纠错结果或声音识别结果列作为对话结果。

变换规则保持部55保存有多个变换规则。该变换规则保持部55例如能够利用辅助存储装置103。

提示部53例如通过显示装置104对用户提示由对话处理部54生成的对话结果。用户能够对该提示的对话结果进行手动修正。

生成部51根据由对话处理部54生成的对话结果和由修正语句取得部13取得的修正语句，将基于识别结果的错误的修正部分和其以外的修正部分进行切分。然后，对于基于识别结果的错误的修正部分，生成部51与第1实施方式中的生成部14同样地生成修正网络，并将该修正网络追加或更新到修正网络保持部15。另外，对于不基于识别结果的错误的修正部分，生成部51根据其修正内容制作变换规则，并将该变换规则追加或者更新到变换规则保持部55。

合成部56将变换规则保持部55中保存的变换规则合成到修正网络保持部52中保存的修正网络。由此，纠错部16能够通过合成了变换规则的修正网络进行纠错。

以下说明关于本实施方式所涉及的声音识别纠错装置50的动作，但省略了关于与第1实施方式所涉及的声音识别纠错装置10中的动作相同的部分的说明，仅说明不同的部分。图12A及图12B是示出通过作为控制装置101的处理器执行声音识别纠错程序而实现的声音识别纠错装置50的处理功能的过程的一系列的流程图。与上述第1实施方式同样地，以声音识别结果列是第1候补文本的情况为例子进行说明。

步骤S11至步骤S16与第1实施方式所涉及的声音识别纠错装置10中的步骤相同，所以其说明省略。

接着上述步骤S15或者步骤S16，对话处理部54与用户进行对话处理，生成对话结果(步骤S51)。即，对话处理部54在上述步骤S15中纠错部16判断为最短路径得分大于阈值的情况下，对用户提示作为基于识别部12的声音识别结果列的识别结果文本。另外，对话处理部54在上述步骤S16中纠错部16生成了纠错文本的情况下，对用户提示该纠错文本。对话处理部54在提示该识别结果文本或纠错文本时，参照变换规则保持部55中保存的变换规则，提示对声音识别结果列施加了依照变换规则的修正后的修正部分。然后，对话处理部54从用户受理进行依照变换规则的修正的部位的修正指定和/或应新加到变换规则的部位的登记指定，生成包括表示这些指定部位的信息和表示基于上述变换规则的修正部分的信息的识别结果文本或纠错文本作为对话结果。此外，代替基于显示装置104的提示，对话处理部54也可以通过通信装置106经由网络对外部装置可识别修正部分地提示识别结果文本或纠错文本，通过通信装置106从外部装置接收用户的指定部位，生成对话结果。

提示部53例如通过显示装置104对用户提示由对话处理部54生成的对话结果(步骤S52)。此外，代替基于显示装置104的提示，提示部53也可以通过通信装置106经由网络对外部装置提示对话结果。

修正语句取得部13判断是否由用户对由提示部53提示的对话结果进行了手动修正(步骤S19)。这例如能够根据是否存在基于输入装置105的用户操作的修正操作、或者是否通过通信装置106接收到了来自外部装置的修正语句文本来判断。如果未进行手动修正，则声音识别纠错装置10结束该流程图所示的处理。

生成部51根据由对话处理部54生成的对话结果和由修正语句取得部13取得的修正语句文本，提取修正语句文本中的基于识别结果的错误的修正部分和其以外的修正部分(步骤S53)。例如，生成部51能够判断为在修正语句文本中包含于对话结果的与基于变换规则的修正部分和接受了基于用户的修正指定或登记指定的部位对应的部位并非基于识别结果的错误的修正部分。然后，生成部51对于基于识别结果的错误的修正部分执行修正网络追加/更新处理(步骤S54)。在该修正网络追加/更新处理中，生成部51找出对话结果中的基于识别结果的错误的修正部分的文本和与其对应的修正语句文本部分的最短路径，如果最短路径得分在某阈值以下，则对修正网络追加基于识别结果的错误的修正部分的文本和与其对应的修正语句文本部分。

另外，生成部51通过关于不基于识别结果的错误的修正部分的对话结果的部分和与其对应的修正语句文本部分的差分，制作变换规则并追加或者更新到变换规则保持部55(步骤S55)。

之后，合成部56将变换规则保持部55中保存的变换规则合成到修正网络保持部52中保存的修正网络(步骤S56)。在此，合成部56取得变换规则，根据变换规则生成FST。修正网络被制作为FST，所以能够与变换规则的FST进行合成。这能够使用作为FST的现有技术的合成处理来进行。在合成时，也可以在通常的FST的合成后从修正网络的开始节点连接到变换规则的FST的开始节点，并将变换规则的FST的结束节点连接到修正网络的结束节点。然后，声音识别纠错装置50结束该流程图所示的处理。

此外，在声音识别纠错装置50中，作为根据步骤S53中的提取结果的处理，依次进行了根据基于识别结果的错误的修正部分的步骤S54的处理和根据不基于识别结果的错误的修正部分的步骤S55及步骤S56的处理，但也可以在先进行步骤S55及步骤S56的处理之后进行步骤S54的处理。另外，声音识别纠错装置50也可以并行地实施步骤S54的处理和步骤S55及步骤S56的处理。而且，步骤S56的处理也可以没有。

以上，根据第2实施方式所涉及的声音识别纠错装置50，将作为共同地适用于多个用户的修正规则的预先决定的变换规则预先保存到变换规则保持部55，通过对话处理部54对由纠错部16生成的声音识别纠错结果列适用变换规则来进行修正。由此，能够不依赖于用户的发声而自动地纠正需要在多个用户中统一的敬称等单词，所以无需进行用于统一的修正，能够削减用户的修正成本。

另外，根据第2实施方式所涉及的声音识别纠错装置50，在对话处理部54中，能够对用户提示哪里是适用变换规则进行了修正的修正部位，受理修正部位的变更、修正内容的变更、新加到变换规则的部位等的指定。然后，在生成部51中，通过纠错对象的声音识别结果列和修正结果的差分，针对基于这些指定的基于声音识别错误的修正部分以外的修正部分生成变换规则，并将该变换规则保存到变换规则保持部56。由此，能够进行变换规则的登记、修正。

另外，根据第2实施方式所涉及的声音识别纠错装置50，还能够通过合成部56将变换规则保持部55中保存的变换规则合成到修正网络保持部52中保存的修正网络，从而更新修正规则。

此外，上述实施方式所涉及的声音识别纠错装置10及50也可以不具备声音取得部11和识别部12。可替代地，声音识别纠错装置10及50能够具备取得声音数据及声音识别结果列的声音关系信息取得部。声音关系信息取得部能够构成为能够经由记录介质、网络取得声音数据及声音识别结果列，将声音识别结果列输出到生成部14及纠错部16，并且将声音数据经由纠错部16在提示部17中作为声音提示给用户。

另外，在上述实施方式中，说明了取得一系列的字符或单词作为声音识别结果列、进行以字符或单词为单位的修正网络的追加/更新以及使用修正网络的纠错的例子，但以上的说明也能够同样地适用于取得一系列的音素作为声音识别结果列的情况。

虽然说明了本发明的几个实施方式，但这些实施方式仅作为例子而提出，并不意图限定发明的范围。这些新的实施方式能够以其他各种方式实施，能够在不脱离发明的要旨的范围内进行各种省略、置换和变更。这些实施方式、其变形包含于发明的范围、要旨，并且包含于权利要求书记载的发明和其均等的范围。

此外，能够将上述实施方式总结为以下的技术方案。

技术方案1

一种声音识别纠错装置，具备：

修正网络保持部，保存修正网络，该修正网络是将作为对一系列的声音数据进行声音识别而得到的结果的声音识别结果列和针对该声音识别结果列的基于用户的修正结果关联起来的；以及

纠错部，计算作为对新的一系列的声音数据进行声音识别而得到的结果的纠错对象的声音识别结果列和所述修正网络保持部中保持的所述修正网络的差分，如果表示所述差分的值在阈值以下，则使用所述修正网络进行针对所述纠错对象的声音识别结果列中的声音识别的错误部分的纠错，生成声音识别纠错结果列。

技术方案2

根据上述技术方案1，声音识别纠错装置还具备：

修正语句取得部，取得针对由所述纠错部生成的所述声音识别纠错结果列的基于用户的所述修正结果；以及

生成部，计算所述纠错对象的声音识别结果列和所述修正结果的差分，如果表示该计算出的所述差分的值在阈值以下，则生成将所述纠错对象的声音识别结果列和所述修正结果关联起来的所述修正网络，并将该生成的所述修正网络保存到所述修正网络保持部。

技术方案3

根据上述技术方案1或2，还具备提示部，该提示部提示由所述纠错部生成的所述声音识别纠错结果列。

技术方案4

根据上述技术方案1或2，

所述纠错部

如果表示所述纠错对象的声音识别结果列和所述修正网络的所述差分的值在所述阈值以下，则进行使用所述修正网络的所述纠错，

在表示所述差分的值大于所述阈值的情况下，不进行使用所述修正网络的所述纠错，

所述声音识别纠错装置还具备提示部，该提示部在所述纠错部已进行了所述纠错的情况下提示所述声音识别纠错结果列，在所述纠错部未进行所述纠错的情况下提示所述纠错对象的声音识别结果列。

技术方案5

根据上述技术方案1，声音识别纠错装置还具备：

变换规则保持部，保存作为共同地适用于多个用户的修正规则的预先决定的变换规则；以及

对话处理部，对由所述纠错部生成的所述声音识别纠错结果列适用所述变换规则保持部中保存的所述变换规则，修正所述声音识别纠错结果列。

技术方案6

根据上述技术方案5，所述对话处理部提示在所述声音识别纠错结果列中适用所述变换规则进行了修正的修正部位。

技术方案7

根据上述技术方案6，

所述对话处理部受理在所述声音识别纠错结果列中应登记到所述变换规则的部位的基于用户的指定，

所述声音识别纠错装置还具备提示部，该提示部将所述声音识别纠错结果列与基于所述对话处理部的所述修正部位以及所述指定的指定部位一起进行提示。

技术方案8

根据上述技术方案7，声音识别纠错装置还具备：

生成部，

根据基于所述对话处理部的所述修正部位及所述指定部位，提取所述修正结果中的基于声音识别错误的修正部分及该修正部分以外的修正部分，

对于基于所述声音识别错误的修正部分，如果表示所述纠错对象的声音识别结果列和所述修正结果的差分的值在阈值以下，则生成将所述纠错对象的声音识别结果列和所述修正结果关联起来的所述修正网络，并将该生成的所述修正网络保存到所述修正网络保持部，

对于基于所述声音识别错误的修正部分以外的修正部分，通过所述纠错对象的声音识别结果列和所述修正结果的所述差分来生成所述变换规则，并将该生成的所述变换规则保存到所述变换规则保持部。

技术方案9

根据上述技术方案8，还具备合成部，该合成部将所述变换规则保持部中保存的所述变换规则合成到所述修正网络保持部中保存的所述修正网络。

技术方案10

根据上述技术方案1至9中的任意一个，所述声音识别结果列、所述修正结果以及所述声音识别纠错结果列是字符列或者单词列。

技术方案11

根据上述技术方案1至10中的任意一个，所述声音识别结果列以及所述修正网络通过文本、作为候补网络的词格、以及混淆网络中的至少一个来表现。

技术方案12

根据上述技术方案1至11中的任意一个，声音识别纠错装置还具备：

声音取得部，取得所述新的一系列的声音数据；以及

识别部，对所述声音取得部取得的所述新的一系列的声音数据进行声音识别，生成所述纠错对象的声音识别结果列。

技术方案13

根据上述技术方案1至12中的任意一个，

所述纠错对象的声音识别结果列和所述修正网络的所述差分是所述纠错对象的声音识别结果列和所述修正网络的最短路径，

所述纠错对象的声音识别结果列和所述修正结果的所述差分是所述纠错对象的声音识别结果列和所述修正结果的最短路径，

表示所述差分的值是最短路径得分。

技术方案14

一种声音识别纠错方法，具备：

将修正网络保存到修正网络保持部，该修正网络是将作为对一系列的声音数据进行声音识别而得到的结果的声音识别结果列和针对该声音识别结果列的基于用户的修正结果关联起来的；以及

计算作为对新的一系列的声音数据进行声音识别而得到的结果的纠错对象的声音识别结果列和所述修正网络保持部中保持的所述修正网络的差分，如果表示所述差分的值在阈值以下，则使用所述修正网络进行针对所述纠错对象的声音识别结果列中的声音识别的错误部分的纠错，生成声音识别纠错结果列。

技术方案15

一种记录有声音识别纠错程序的记录介质，该声音识别纠错程序用于为了纠正作为对一系列的声音数据进行声音识别而得到的结果的声音识别结果列中的声音识别错误部位而使计算机作为如下单元发挥功能：

识别单元，对新的一系列的声音数据进行声音识别，生成纠错对象的声音识别结果列；以及

纠错单元，计算修正网络保持单元中保存的修正网络与所述纠错对象的声音识别结果列的差分，该修正网络是将作为对一系列的声音数据进行声音识别而得到的结果的声音识别结果列和针对该声音识别结果列的基于用户的修正结果关联起来的，如果表示所述差分的值在阈值以下，则使用所述修正网络进行针对所述纠错对象的声音识别结果列中的声音识别的错误部分的纠错，生成声音识别纠错结果列。

Claims

1.一种声音识别纠错装置，具备：

2.根据权利要求1所述的声音识别纠错装置，还具备：

修正语句取得部，取得针对由所述纠错部生成的所述声音识别纠错结果列的基于所述用户的所述修正结果；以及

3.根据权利要求1或2所述的声音识别纠错装置，还具备提示部，该提示部提示由所述纠错部生成的所述声音识别纠错结果列。

4.根据权利要求1或2所述的声音识别纠错装置，其中，

所述纠错部

5.根据权利要求1所述的声音识别纠错装置，还具备：

6.根据权利要求1至5中的任意一项所述的声音识别纠错装置，其中，所述声音识别结果列、所述修正结果以及所述声音识别纠错结果列是字符列或者单词列。

7.根据权利要求1至6中的任意一项所述的声音识别纠错装置，其中，所述声音识别结果列以及所述修正网络通过文本、作为候补网络的词格、以及混淆网络中的至少一个来表现。

8.根据权利要求1至7中的任意一项所述的声音识别纠错装置，还具备：

声音取得部，取得所述新的一系列的声音数据；以及

9.一种声音识别纠错方法，具备：

10.一种记录有声音识别纠错程序的记录介质，该声音识别纠错程序用于为了纠正作为对一系列的声音数据进行声音识别而得到的结果的声音识别结果列中的声音识别错误部位而使计算机作为如下单元发挥功能：