CN104715005B

CN104715005B - 信息处理设备以及方法

Info

Publication number: CN104715005B
Application number: CN201410763914.3A
Authority: CN
Inventors: 芦川平; 上野晃嗣
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-12-13
Filing date: 2014-12-11
Publication date: 2018-02-16
Anticipated expiration: 2034-12-11
Also published as: US9489944B2; US20150170649A1; CN104715005A; JP2015114963A; JP6165619B2

Abstract

根据实施例，信息处理设备包括存储器控制器、检测器、获取器、检索器、确定器、显示控制器、历史更新器、选择器和阈值更新器。存储器控制器在存储器中存储语音文本中的字符串、节点索引、识别得分和语音索引。检测器检测再现区段信息。获取器获取朗读信息和插入位置信息。检索器从语音索引中的多个字符串中指定字符串作为检索的目标字符串。当对应于由检索器获取的字符串的语音识别得分的值等于或大于显示阈值时，确定器确定显示该字符串。显示控制器在显示单元上显示所确定的字符串。历史更新器执行储存控制，以在候选历史存储器中存储候选历史数据。当由显示控制器显示的字符串受到选择操作时，选择器选择字符串。阈值更新器决定显示阈值。

Description

信息处理设备以及方法

相关申请的交叉引用

本申请基于并要求于2013年12月13日提交的日本专利申请No.2013-258077的优先权；其全部内容通过引用的方式并入本文中。

技术领域

本文所述的实施例总体上涉及一种信息处理设备以及方法。

背景技术

典型地，已知了能够使得将语音数据转换为文本的任务(下文中称为转录任务)简化的各种技术。例如，已知了一种技术，其中，当用户在转录任务过程中输入字符的同时，估计从用于转录的目标语音数据最终输入的短语，并呈现给用户。

此外，已知了诸如输入估计技术或者估计转换技术的字符输入技术，其中，除了显示已经输入的朗读字符串的假名-汉字转换候选以外，显示估计为跟随在朗读字符串之后的字符串，作为转换候选字符串(下文中称为估计候选)。

然而，每一次呈现输入候选时，都必须准备好朗读信息。因此，即使在用户选择(接受)呈现给他或她的输入候选的情况下，仍然必须准备好朗读信息，以便呈现下一个输入候选。因而，在选择了输入候选后，用户再次需要执行字符输入，从而导致工作效率降低。此外，对于语音识别精度低的语音数据，有可能连续呈现不正确的输入候选。结果，输入候选妨碍了用户，从而导致工作效率降低。

此外，在传统字符输入技术中，仅使用假名-汉字转换字典来产生输入候选，在字典中，将朗读字符串与假名-汉字转换后的字符相关联，并使用字符输入历史信息。这导致在转录任务过程中工作效率的降低。此外，在专门用于以用户所选估计候选开始的字符串的转换字典(估计转换字典)中检索会跟随在所选估计候选之后的候选(下文中称为后继候选)。为此，为了连续输入长字符串(例如，以句子为单位的)，就必须在估计转换字典中还保存长字符串。结果，估计转换字典的大小不断增大，从而导致估计候选的检索效率降低。

发明内容

本文所述的实施例的目的是提供一种能够简化转录任务的信息处理设备和方法。

根据实施例，信息处理设备的包括：存储器控制器、检测器、获取器、检索器、确定器、显示控制器、历史更新器、选择器和阈值更新器。存储器控制器在存储器中存储：多个字符串，所述多个字符串包含在通过对语音数据执行语音识别而获取的语音文本中；节点索引，所述节点索引指示所述语音文本中的所述字符串的中的每一个字符串的开始位置信息和结束位置信息；语音识别得分，所述语音识别得分通过执行所述语音识别果而获取；以及语音位置信息的语音索引，所述语音位置信息的语音索引指示所述语音数据中的所述字符串中的每一个字符串的位置。检测器检测再现区段信息，其指示语音数据中的再现区段。获取器获取朗读信息，所述朗读信息是表示依据再现的语音数据写下的文本中的短语的朗读的字符串的至少一部分，并且所述获取器获取插入位置信息，其指示在书写文本中的字符插入位置。检索器从储存在存储器中的多个字符串中指定字符串作为检索的目标字符串，其具有包括在再现区段信息中的相应的语音位置信息，并在指定字符串中检索包括由朗读信息所指示的朗读的字符串。当对应于由检索器获取的字符串的语音识别得分的值等于或大于显示阈值时，确定器进行确定以显示由检索器获取的字符串。显示控制器在显示单元上显示由确定器所确定的字符串。历史更新器执行储存控制，以在候选历史存储器中存储候选历史数据，在其中，将由检索器获取的字符串、语音识别得分与字符插入位置相关联，并按照文本的变化来更新候选历史数据。当由显示控制器显示的字符串受到选择操作时，选择器选择该字符串。阈值更新器使用候选历史数据的语音识别得分与由选择器选择的字符串的语音识别得分的至少其中之一来对显示阈值作出决定，所述显示阈值用于通过确定器来与语音识别得分相比较。

根据上述的信息处理设备，可以简化转录任务。

附图说明

图1是根据第一实施例的信息处理设备的功能方框图；

图2是示出语音识别结果的网格结构的示例的图示；

图3是示出作为对于语音数据执行语音识别的结果而获取的示例性网格结构的图示；

图4是示出候选历史数据的示例的图示；

图5是用于解释在根据第一实施例的信息处理设备中执行的操作的流程图；

图6是用于解释当获取朗读信息时阈值更新器更新显示阈值的操作的细节的流程图；

图7是用于解释当用户已选择候选时阈值更新器更新显示阈值的操作的流程图；

图8是示出用户操作和候选显示的示例的图示；

图9是根据第二实施例的信息处理设备的功能方框图；

图10是用于解释在根据第二实施例的信息处理设备中执行的操作的流程图；

图11是示出用户操作和多个候选显示的示例的图示；

图12是根据第三实施例的信息处理设备的功能方框图；

图13是用于解释将网格结构转换为特里结构而执行的操作的流程图；

图14是示出转换为特里结构的语音识别结果的列表的示例的图示；以及

图15是示出语音识别结果的特里结构的示例的图示。

具体实施方式

以下参考附图详细说明多个实施例。本文所述的实施例仅是示例性的，并非唯一可能的实施例。可以使用所谓的个人计算机设备来实施根据实施例的信息处理设备。在此，使用个人计算机设备实施的信息处理设备具有再现语音数据的功能，以及具有用于按照操作者(下文中称为用户)的操作产生文本的文本产生功能。在转录任务过程中，在再现已经记录的语音数据的同时，用户为了将语音数据转换为文本，操作键盘并执行文本输入。

概要

在根据实施例的信息处理设备中，作为与输入候选有关的信息附带了表示作为语音识别的结果而获取的语音识别得分和结束节点索引的信息。随后，将具有等于或大于特定阈值(下文中称为显示阈值)的语音识别得分的输入候选呈现给用户。如果用户选择呈现给他或她的输入候选，就获取与所选择的输入候选的结束节点索引有关的信息；取回以获取的结束节点索引开始的输入候选，并作为输入候选呈现给用户。

此外，在信息处理设备中，输入候选的字符串的语音识别得分与字符插入位置彼此相关联，将关联信息存储为候选历史数据。随后，使用(1)候选历史数据的语音识别得分和(2)输入候选的用户选择来决定显示阈值。因此，在语音识别的结果不令人满意的情况下，可以避免呈现多余的输入候选。此外，在选择输入候选的同时，可以使得用户可以选择跟随在所选择候选之后的输入候选。这能够实现转录任务进一步地简化。

第一实施例

图1是根据第一实施例的信息处理设备的功能方框图。如图1所示的，信息处理设备包括第一存储器1、第二存储器2、再现器3、再现指令接收器4、再现控制器5、检测器6、获取器7、检索器8、显示控制器9、选择器10、后继检索器11、阈值更新器12、确定器13、第三存储器14和历史更新器15。在此，再现器3到确定器13和历史更新器15可以全部使用软件或使用硬件来实施。可替换地，这些组成元件中的一些可以使用软件来实施，而剩余组成元件可以使用硬件来实施。

第一存储器1在其中存储语音数据。关于语音数据，可以使用WAV格式或mp3格式的语音文件。同时，可以通过实施任意的方法来获取语音数据。例如，可以经由诸如互联网的网络获取语音数据，或者可以使用话筒设备来获取语音数据。

第二存储器2在其中存储包含在语音文本中的多个字符串，所述语音文本通过对语音数据执行语音识别而获取，并且第二存储器2在其中存储语音位置的语音索引，所述语音位置的语音索引指示语音数据中的字符串中的每一个字符串的位置。此外，第二存储器2在其中存储可靠性的程度(下文中称为语音识别得分)，它是在语音识别过程中计算的。检索器8代表存储器控制器的示例，存储器控制器在第二存储器2中存储语音索引等。

关于语音识别，可以使用各种已知的技术。示例性地，在语音识别中，以10ms到20ms的有规律的间隔处理语音数据。随后，可以在语音识别过程中通过获取用于处理的目标语音数据和相应的识别结果来实现与语音位置信息的关联。

在图2中示出了与汉字和假名的日文句子“maido arigatou gozaimasu.”相对应的语音数据的语音识别结果的示例(开始节点索引、语音索引、语音识别得分、结束节点索引、字符串和朗读)。在第一实施例中，使用时间信息来表示语音位置信息，时间信息指示再现从开始一直到相关位置的语音数据所需的时间(在此时间信息的单位例如是秒)。

例如，对于与图2中所示的假名的“arigatou”相对应的语音位置信息，开始点是“0.5s(500ms)”，结束点是“1.0s(1000ms)”。其意味着当再现语音数据时，从自语音数据的再现开始时间经过0.5秒后的时间点开始到自再现开始时间经过1.0秒后的时间点结束的时间期间表示在其中再现语音声音“arigatou”的时间期间。

在图3中示出了作为执行对语音数据执行语音识别的结果而获取的示例性网格结构。参考图3，在圆圈中示出了意图分隔语素的节点，圆圈内部书写的数字表示用于标识各自节点的标识符。参考图3，将语素示出为连接节点的直线。在图3所示的示例中，从节点S开始到节点E的每一条路线的至少一些部分可以视为识别候选。例如，通过从节点S到节点E连接语素而获取的汉字和假名的“maido arigatou gozaimasu.”可以视为识别候选；或者从节点S开始到节点5的汉字和假名的短语“maido arigatou”可以视为识别候选；或者从节点S开始到节点3的汉字的词语“maido”可以视为识别候选。

如图4所示的，第三存储器14在其中存储用户书写的文本(下文中称为转录文本)，并在其中存储数据(下文中称为候选历史数据)，在所述数据中，指示字符在转录文本中的插入位置的插入位置信息、充当输入候选的字符串和语音识别得分彼此相关联。可以在当前字符插入位置周围进行候选历史数据的记录(可以存储对应于与当前字符插入位置接近的字符插入位置的候选历史数据)。

再现器3是语音数据再现设备，其例如使用扬声器设备、数模(D/A)转换器和耳机设备来配置。再现控制器5以如下方式控制再现器3：当再现指令接收器4接收到用于开始再现的再现开始指令时，再现器3再现存储在第一存储器1中的语音数据。此外，再现控制器5以如下方式控制再现器3：当再现指令接收器4接收到用于结束再现的再现结束指令时，再现器3停止再现语音数据。在此，可以使用诸如个人计算机设备的操作系统(OS)或驱动器的音频功能的软件来实施再现控制器5。可替换地，可以使用诸如电子电路的硬件电路来实施现控制器5。

再现指令接收器4接收用于开始或结束语音识别的指令。当从再现指令接收器4获取再现开始指令时，再现控制器5控制再现器3再现语音数据。

当从再现指令接收器4获取再现结束指令时，再现控制器5控制再现器3停止再现语音数据。在此，再现器3例如再现存储在第一存储器1中的语音数据。

检测器6检测语音数据中的再现区段信息，其指示由再现器3再现的再现区段。具体而言，作为再现区段信息，检测器6检测指示从再现开始位置开始到再现结束位置的语音数据的区段的时间信息，其中，再现开始位置指示再现器3开始再现的位置，再现结束位置指示再现器3结束再现的位置。

获取器7获取朗读信息，其指示表示依据由再现器3再现的语音数据写下的文本中的短语的朗读的字符串的至少一部分。另外，获取器7获取插入位置信息，其指示在字符串在书写文本中的插入位置。例如，考虑为了在转录文本的开始写下汉字的词语“maido”，用户操作键盘并输入表示汉字的词语“maido”的朗读的假名的字符串“maido”的假名的字符“ma”的情况。在该情况下，借助充当朗读信息的“ma”，获取器7获取作为字符插入位置的“0”。在汉字的词语“maido”后，如果完整输入了表示汉字和假名的词语“arigatou”的朗读的假名的字符串“arigatou”；获取器7就借助充当朗读信息的假名的“arigatou”，获取作为字符插入位置的“2”。

检索器8从在第二存储器2中存储的多个字符串中指定字符串作为将被检索的字符串，其具有包括由检测器6检测的再现区段信息中的相应的语音位置信息。例如，如果语音数据的再现开始位置是“0s”，语音数据的再现结束位置是“1.5s(1500ms)”，那么检测器6就检测作为再现区段信息的时间信息，其指示从再现开始位置“0s”到再现结束位置“1.5s(1500ms)”的区段。在此情况下，检索器8从在存储于第二存储器2中的多个字符串中，将具有包括在从“0s”到“1.5s(1500ms)”的区段中的相应的语音位置信息的字符串指定为检索针对的字符串。随后，检索器8在所指定的字符串中检索包括由获取器7获取的朗读信息所指示的朗读的字符串；并获取包括相关字符串的输入候选信息、语音识别得分和结束节点索引信息。

显示控制器9经由显示单元向用户呈现由确定器13指示为输入候选的字符串，或者作为输入候选由后继检索器11获取的字符串。在获取朗读后显示输入候选的同时(即，在图5中所示的流程图中的步骤S9执行的操作的过程中(稍后说明))，显示控制器9从由获取器7获取的字符插入位置获取显示位置(即，在图5中所示的流程图中的步骤S2的操作(稍后说明))。此外，在显示按照用户执行的候选选择获取的后继候选时(即，通过执行图5中所示的流程图中的步骤S16的操作(稍后说明))，显示控制器9从由获取器7获取的字符插入位置获取显示位置和由用户选择为输入候选的字符串中的字符数。

选择器10从用户接收输入候选的选择输入；确认按照每条用户指令选择为输入文本的输入候选；并将输入候选插入转录文本中。随后，用户可以执行选择输入，以便指示选择一个显示的输入候选。在此，执行选择输入的方法是任意的。例如，配置可以为使得用户触摸期望的输入候选在显示屏上的显示位置(即，相对于显示屏执行触摸操作)并执行选择输入。可替换地，可以借助诸如键盘、鼠标或指示设备的操作设备的操作进行选择输入。同时，在第一实施例中，为了使得用户的输入操作简化，将写入混合了汉字的字符中的字符串呈现为输入候选。

当用户选择输入候选时，后继检索器11获取所选择输入候选的结束节点索引，并在语音识别结果中检索在开始节点具有该结束节点索引的候选字符串。当存在一个或多个所呈现的输入候选时，后继检索器11指示显示控制器9显示输入候选。

同时，配置可以为作为输入候选的附属信息附带结束节点的语音位置。因而，当用户选择候选时，再现控制器5更新对结束节点的语音位置的语音再现位置。

阈值更新器12将由检索器8获取的输入候选信息与由获取器7获取的字符插入位置相关联；并将关联信息作为候选历史数据记录在第三存储器14中。此外，阈值更新器12决定显示阈值，其由确定器13用于与语音识别得分相比较，其中，使用了在第三存储器14中存储的候选历史数据的语音识别得分和由选择器10作为候选字符串的用户选择结果而选择的候选字符串的语音识别得分中的至少之一。换句话说，按照在候选历史数据的候选自独创与一些转录文本之间的一致性程度，或者按照相对于输入候选的用户选择，阈值更新器12更新在第三存储器14中存储的显示阈值。

相对于由检索器8获取输入候选信息，确定器13比较输入候选的语音识别得分，并比较显示阈值；并指示显示控制器9显示与语音识别得分等于或大于显示阈值相对应的输入候选的字符串。

当在转录文本中做出改变时，历史更新器15按照改变更新在第三存储器14中存储的候选历史数据。

以下给出的是在根据第一实施例的信息处理设备中执行的操作的解释。图5是用于解释在信息处理设备中执行的操作的流程图。参考图5中所示的流程图，首先，阈值更新器12初始化在第三存储器14中存储的候选历史数据，并初始化显示阈值(步骤S1)。随后，获取器7获取字符插入位置，其表示字符串在转录文本中的插入位置(步骤S2)。随后，依据由再现器3再现的语音数据，获取器7获取表示用户书写的文本的朗读的字符串的朗读信息。随后，检测器6确定是否已经获取朗读信息(步骤S3)。如果确定已经获取了朗读信息(在步骤S3为是)，那么检测器6就检测再现区段信息，其指示由再现器3再现的区段(步骤S4)。

随后，检测器6从储存在第二存储器2中多个字符串中指定包括在由检测器6检测到的再现区段信息中的字符串，作为将被检索的字符串(步骤S5)。此外，检测器6在所指定的字符串中检索包括由获取器7获取的朗读字符串的字符串；并获取包含相关候选串的输入候选信息、语音识别得分和结束节点索引信息(步骤S6)。

随后，历史更新器15借助由获取器7获取的字符插入位置，将候选字符串与由检索器8获取的输入候选信息的语音识别得分相关联；并将关联信息作为候选历史数据存储在第三存储器14中(步骤S7)。此外，阈值更新器12使用候选历史数据和转录文本更新显示阈值(步骤S8)。

随后，相对于由检索器8获取输入候选，确定器13确定语音识别得分是否等于或大于显示阈值。如果语音识别得分等于或大于显示阈值，确定器13就指示显示控制器9显示相应的候选字符串。因而，显示控制器9在显示单元上显示候选字符串，以便将其呈现给用户(步骤S9)。

同时，如果确定获取器7没有获取朗读信息(在步骤S3为否)，那么检测器6就确定用户是否选择了输入候选(步骤S10)。如果确定用户没有选择输入候选(在步骤S10为否)，那么系统控制就返回到步骤S2。另一方面，如果确定用户选择了输入候选(在步骤S10为是)，那么系统控制就前进到步骤S11。

随后，选择器10选择由用户选择的输入候选的字符串，并将该字符串插入转录文本中(步骤S11)。随后，阈值更新器12使用由用户选择的输入候选的语音识别得分更新显示阈值(步骤S12)。

随后，后继检索器11获取由用户选择的输入候选的结束节点索引(步骤S13)。随后，后继检索器11获取以结束节点索引开始的输入候选信息(步骤S14)。

随后，按照由选择器10插入的候选字符串，历史更新器15更新在第三存储器14中存储的候选历史数据；并进一步将由后继检索器11获取的输入候选信息添加到在第三存储器14中存储的候选历史数据中(步骤S15)。随后，后继检索器11使用显示控制器9，在显示单元上显示输入候选的候选串，以便将其呈现给用户(步骤S16)。

以下参考图6中所示的流程图的解释是在步骤S8执行的操作的详细解释，即在获取器7获取朗读信息的情况下更新显示阈值的操作。在此，更新显示阈值的操作可以在每一次获取朗读时执行，或者在几次获取朗读后一次执行。

在此情况下，首先，阈值更新器12从在第三存储器14中存储的候选历史数据获取要受到阈值更新的候选历史数据(在此称为阈值更新候选历史数据)(步骤S21)。例如，在多条候选历史数据中，将以前添加的候选历史数据的条目认为是阈值更新候选历史数据。可替换地，可以将字符插入位置距当前字符插入位置(在上述的步骤S2获取的)在特定范围内的候选历史数据认为是阈值更新候选历史数据。

随后，依据在第三存储器14中存储的转录文本，并依据阈值更新候选历史数据，阈值更新器12获取要受到阈值更新的文本(下文中称为阈值更新文本)(步骤S22)。例如，在转录文本中，将在阈值更新候选历史数据的字符插入位置前后具有特定数量字符的字符串认为是阈值更新文本。

随后，阈值更新器12在阈值更新候选历史数据中检索具有包括在阈值更新文本中的候选串的候选历史数据(步骤S23)。如果存在具有包括在阈值更新文本中的候选串的候选历史数据(在步骤S23为是)，那么阈值更新器12就依据相关候选历史数据的语音识别得分计算显示阈值(步骤S24)。例如，如果候选历史数据具有“75”的语音识别得分，那么阈值更新器12就将显示阈值设定为较低的值“70”。如果检索包括在阈值更新文本中的阈值更新候选历史数据产生多个检索结果，那么阈值更新器12就可以依据诸如各语音识别得分的平均值的统计值计算显示阈值。

另一方面，如果不存在任何具有包括在阈值更新文本中的候选串的候选历史数据(在步骤S23为否)，那么阈值更新器12就将显示阈值从当前显示阈值升高特定值(步骤S25)。例如，如果当前显示阈值设定为“70”，那么阈值更新器12就将显示阈值设定为“75”。

以下参考图7中所示的流程图给出的是在用户选择了候选的情况下为了更新显示阈值而在步骤S12执行的操作的更详细解释。参考图7中所示的流程图，首先，阈值更新器12从第二存储器2获取由用户选择的输入候选的语音识别得分(步骤S31)。

随后，阈值更新器12依据当前显示阈值和由用户选择的输入候选的语音识别得分计算并更新显示阈值(步骤S32)。例如，如果当前显示阈值设定为“70”，并且如果所选择输入候选的语音识别得分设定为“75”，那么阈值更新器12就将显示阈值更新为“65”。

以下给出的是在与汉字和假名的语音数据“maido arigatou gozaimasu.CBAkaisha de gozaimasu.”的转录任务有关的示例中的用户操作和由每一个组成元件执行的操作的解释。在此，假定显示阈值具有“50”的初始值，候选历史数据具有空(无效)初始数据。

以下参考图8解释的是在用户使用根据第一实施例的信息处理设备执行的字符输入操作过程中的操作的流程。首先，在图8中，参考标记(1)表示用户操作键盘，并在收听语音数据的同时在转录文本的开始输入假名字符“ma”的状态。在此情况下，获取器7获取由用户输入的假名字符“ma”并获取转录文本的字符插入位置“0”。

检索器8在存储于第二存储器2中的字符串中检索以“ma”开始的候选字符。作为执行检索的结果，例如，如果找到在具有图2所示的ID＝2的汉字字符串“maido”，那么历史更新器15就在第三存储器14中存储具有字符插入位置“0”、具有作为候选字符串的汉字字符串“maido”、和语音识别得分“100”的候选历史数据，如图4中为ID＝1所示的。

一旦将候选历史数据存储在第三存储器14中，确定器13就将当前显示阈值“50(显示阈值的初始值)”与在第三存储器14中存储的汉字字符串“maido”的语音识别得分“100”相比较。在这个示例中，由于汉字字符串“maido”的语音识别得分“100”大于当前显示阈值“50”，确定器13就指示显示控制器9显示是输入候选的汉字字符串“maido”。作为响应，显示控制器9经由显示单元向用户显示汉字输入候选“maido”。在这个示例中，如参考图8中的参考标记(1)所示的，显示控制器9在当前字符插入位置“0”的上部显示输入候选信息的汉字候选字符串“maido”。

同时，当呈现多个输入候选时，显示控制器9显示与具有最大语音识别得分的输入候选信息相对应的候选字符串。对于汉字字符串“maido”的示例中的字符插入位置，字符插入位置“0”意味着汉字字符“mai”的前面部分(＝开头)表示字符插入位置。此外，字符插入位置“1”意味着汉字字符“mai”的后面部分(在汉字字符“mai”与汉字字符“do”之间的字符)表示字符插入位置。类似地，字符插入位置“2”意味着汉字字符“do”的后面部分表示字符插入位置。

在图8中，参考标记(2)到(4)表示由用户执行的候选选择操作。当显示为输入候选的汉字的候选字符串“maido”适当时，用户例如按下快捷键，选择汉字的候选字符串“maido”。在检测到用户做出的选择时，选择器10将汉字的所选择候选字符串“maido”插入到转录文本的字符插入位置“0”中。

后继检索器11参考在第二存储器2中存储的字符串，检索由用户选择的输入候选的结束节点的标识符；并检索将取回的结束节点索引作为开始节点索引的这种输入候选。例如，在这个示例中，参考图2中所示的语音索引ID＝2，后继检索器11检索汉字的候选字符串“maido”的结束节点，并获取结束节点“3”。随后，作为具有以结束节点索引“3”为开始节点索引的候选字符串，后继检索器11获取汉字的候选字符串“ari(ant)”(图2中具有ID＝5)和汉字的候选字符串“arigatou”(图2中具有ID＝7)。

一旦取回了与用户选择的输入候选有关的输入候选，历史更新器15就在第三存储器14中作为候选历史数据存储各种信息，例如取回的输入候选的ID、取回的输入候选的候选字符串、取回的输入候选的语音识别得分、和取回的输入候选的字符插入位置。在这个示例中，取回了汉字的候选字符串“ari”和假名的候选字符串“arigatou”，作为会跟随在汉字“maido”之后的候选字符串。因此，在第三存储器14中，连同相应的ID“5”、相应的语音识别得分“25”和相应的字符插入位置“2”(参见图3中所示的ID＝3)一起存储了汉字的候选字符串“ari”。以相同的方式，在第三存储器14中，连同相应的ID“7”、相应的语音识别得分“100”和相应的字符插入位置“2”(参见图3中所示的ID＝2)一起存储了假名的候选字符串“arigatou”。在这个示例中，字符插入位置“2”意味着汉字“maido”的汉字字符“do”的后面部分表示字符插入位置。

后继检索器11指示显示控制器9显示候选字符串。随后，显示控制器9经由显示单元向用户呈现候选字符串。在这个示例中，由于取回了假名的候选字符串“arigatou”和汉字的候选字符串“ari”，后继检索器11在汉字字符串“maido”的上面后部显示假名的候选字符串“arigatou”，其具有最大语音识别得分(参见图2中的ID＝7)，它由选择器10插入，如参考图8中的参考标记(2)所示的。

如果显示为输入候选的假名的候选字符串“arigatou”适当，当用户选择是输入候选的假名字符串“arigatou”时，将假名字符串“arigatou”插入到汉字字符串“maido”之后，并呈现给用户，如参考图8中的参考标记(3)所示的。此外，以相同的方式，后继检索器11检索会跟随在用户选择的假名字符串“arigatou”之后的候选字符串。例如，如果作为会跟随在假名字符串“arigatou”之后的候选字符串而取回了假名字符串“gozaimasu.”，那么后继检索器11就指示显示控制器9显示假名的候选字符串“gozaimasu.”。作为响应，参考图8中的参考标记(3)，显示控制器9显示候选字符串“gozaimasu.”。随后，历史更新器15在第三存储器14中存储具有字符插入位置“7”(在假名“arigatou”的字符“u”之后的插入位置)、具有作为候选字符串的候选字符串“gozaimasu.”和具有语音识别得分“100”的候选历史数据(参见图4中的ID＝4)。

如果显示为输入候选的假名的候选字符串“gozaimasu.”适当，当用户选择是输入候选的假名字符串“gozaimasu.”时，执行对会跟随在假名字符串“gozaimasu.”之后的后继候选的检索。作为执行这个检索的结果，如果假定例如取回了字符串“ABC”，就在假名字符串“gozaimasu.”的上面后部显示它，如参考图8中的参考标记(4)所示的。随后，历史更新器15在第三存储器14中存储具有作为候选字符串的字符串“ABC”、具有字符插入位置“12”(在假名“gozaimasu.”的字符“su”之后的插入位置)、具有语音识别得分“75”和具有ID“13”的候选历史数据(参见图4中的ID＝5)。

在图8中，参考标记(5)到(7)表示由用户执行的输入期望字符串的操作。如果显示为跟随在字符串“gozaimasu.”之后的输入候选的候选字符串“ABC”不适当，用户就操作诸如键盘的输入设备，如参考图8中的参考标记(5)所示的，输入期望的字符串，例如“CBA”，以代替显示的后继候选。随后，获取器7获取由用户输入的字符“CBA”。随后，检索器8在存储于第二存储器2中的字符串中检索以“C”开始的候选字符串。在没有找到以“C”开始的候选字符串的情况下，检索器不向显示控制器9发出显示指令。为此，在显示单元上不显示会跟随在“CBA”之后的输入候选。在此情况下，阈值更新器12将显示为后继候选的候选字符串“ABC”与用户输入的字符串“CBA”相比较。由于两个字符串不一致，阈值更新器12就将当前显示阈值从“50”更新为“80”。

随后，用户操作键盘并输入假名字符“ka”。获取器7获取假名字符“ka”，检索器8在存储于第二存储器2中的字符串中检索以假名字符“ka”开始的候选字符串。例如，如果取回了汉字的候选字符串“kaisha”，那么历史更新器15就在第三存储器14中存储具有候选字符串“kaisha”、具有ID“14”、具有语音识别得分“75”和具有字符插入位置“15”的候选历史数据，如图4中的ID＝6所示的。

随后，确定器13将输入候选(汉字的候选字符串“kaisha”)的语音识别得分“75”与当前显示阈值相比较。在这个示例中，当前显示阈值已经更新为“80”。因此，确定器13确定输入候选信息(汉字的候选字符串“kaisha”)的语音识别得分“75”小于当前阈值“80”，不向显示控制器9发出显示指令。结果，在不显示单元上显示候选字符串。因此，如参考图8中的参考标记(6)所示的，在输入假名字符“ka”后，用户输入假名字符“i”和“sha”；执行假名－汉字转换；在显示单元上显示“kaisha”的汉字，如参考图8中的参考标记(7)所示的，并确认输入。

一旦用户输入了期望的字符串，阈值更新器12就在存储于第三存储器14中的候选历史数据的条目中检索与用户输入的字符串(转录文本)具有相同候选字符串的候选历史数据。在这个示例中，用户输入汉字的字符串“kaisha”，在第三存储器14中存储了汉字的候选历史数据“kaisha”，如图4所示的。因此，阈值更新器12确定将与用户输入的候选串相同的候选串作为候选历史数据存储在第三存储器14中，并将显示阈值从“80”更新为“70”。

随后，如参考图8中的参考标记(8)所示的，用户操作键盘并输入假名字符“de”。获取器7获取假名字符“de”。检索器8在存储于第二存储器2中的字符串中检索以假名字符“de”开始的候选字符串；例如，获取假名“de gozaimasu.”的输入候选信息。随后，历史更新器15在第三存储器14中存储具有字符插入位置“17”、具有作为候选字符串的假名的字符串“de gozaimasu.”、具有语音识别得分“75”和具有ID“15”的候选历史数据，如图4中的ID＝7所示的。

随后，确定器13将假名的候选字符串“de gozaimasu.”的语音识别得分与当前显示阈值相比较。如上所述，当前显示阈值已经从“80”更新为“70”。假名的候选字符串“degozaimasu.”具有“75”的语音识别得分。由于假名的候选字符串“de gozaimasu.”的语音识别得分“75”大于当前显示阈值“70”，确定器13就向显示控制器9发出显示指令。结果，例如，在汉字的字符串“kaisha”的上面后部(即，在汉字的字符串“kaisha”的后面的字符插入位置“17”的上部中)显示假名的候选字符串“de gozaimasu.”，如参考图8中的参考标记(8)所示的。

如果显示为输入候选的假名的字符串“de gozaimasu.”适当，用户就选择该字符串。结果，取回并显示了会跟随在用户选择的假名的输入候选“de gozaimasu.”之后的后继候选。但如果显示为输入候选的假名的字符串“de gozaimasu.”不适当，用户就输入期望的字符串。当用户输入期望的字符串时，确定是否在第三存储器14中作为候选历史数据存储了与用户输入的字符串相同的字符串。如果在第三存储器14中没有存储与用户输入的字符串相同的字符串，那么就将显示阈值更新为大于当前值的值。另一方面，如果在第三存储器14中存储了与用户输入的字符串相同的字符串，那么就将显示阈值更新为小于当前值的值。这些是如上所述的操作。

从以上给出的解释可以清楚地发现，在根据第一实施例的信息处理设备中，将作为语音识别的结果而获取的指示语音识别得分和结束节点索引的信息存储为与输入候选有关的信息。随后，具有等于或大于显示阈值的语音识别得分的输入候选呈现给用户。结果，可以在避免呈现多余的输入候选的同时，使得转录任务简化。

此外，将呈现的输入候选和字符插入位置彼此相关联，并存储为候选历史数据。随后，按照候选历史数据的语音识别得分和输入候选的用户选择，更新显示阈值。如果用户选择呈现的输入候选，那么就将选择的输入候选插入转录文本中；获取与选择的输入候选的结束节点索引有关的信息；取回以结束节点索引开始的输入候选；并将取回的输入候选呈现给用户。结果，与在选择输入候选的同时，将会跟随在选择的候选之后的输入候选呈现给用户。这能够实现进一步简化转录任务。

第二实施例

以下给出的是根据第二实施例的信息处理设备的解释。与上述的第一实施例相比，第二实施例的区别在于响应于来自用户的指令呈现多个输入候选。仅针对该区别给出以下的解释，省略了多余的解释。

图9是根据第二实施例的信息处理设备的功能方框图。与根据第一实施例的图1中所示的信息处理设备相比，根据第二实施例的图9中所示的信息处理设备的区别在于进一步包括多候选呈现指令接收器16。

以下参考图10中所示的流程图解释的是根据第二实施例的信息处理设备的有区别的操作。在图10中所示的流程图中，从步骤S41到步骤S43的操作对应于图5中所示的流程图中从步骤S1到步骤S3的操作。此外，在图10中所示的流程图中，在步骤S44的操作对应于图5中所示的流程图中在步骤S10的操作。因此，关于从步骤S41到步骤S44的操作，参考图5中所示的流程图给出相应的步骤的解释。

在图10中所示的流程图中的步骤S44，如果确定用户没有选择显示的候选字符串(在步骤S44为否)，那么多候选呈现指令接收器16就确定用户是否执行了对应于多候选呈现指令的预定键操作，并从而确定是否发出了用以呈现多个输入候选的指令。如果用户没有发出用以呈现多个输入候选的指令(在步骤S45为否)，那么系统控制就返回到步骤S42。

另一方面，如果用户发出了用以呈现多个输入候选的指令(在步骤S45为是)，那么系统控制就前进到步骤S46，检索器8在存储于第三存储器14中的候选历史数据中检索与当前字符插入位置一致的候选字符串(步骤S46)。例如，参考图4中所示的示例，在当前字符插入位置是“2”时，假名的候选字符串“arigatou”和汉字的候选字符串“ari”使得各自的字符插入位置设定为“2”。因而，假名的候选字符串“arigatou”和汉字的候选字符串“ari”使得各自的字符插入位置与当前字符插入位置相一致。为此，检索器8取回这两个候选字符串。

如果候选历史数据不包含与当前字符插入位置一致的候选字符串，那么检索器8就在存储于第二存储器2中的字符串中检索与在当前字符插入位置的特定数量的字符之前呈现的字符相一致的候选字符串。同时，配置可以为除了语音索引之外还保存话音区段信息，并按照话音区段划分候选。

随后，检索器8指示显示控制器9显示取回的候选字符串(步骤S47)。结果，由检索器8取回的两个候选字符串，即假名的候选字符串“arigatou”和汉字的候选字符串“ari”，显示在显示单元上并呈现给用户。具体而言，当呈现多个候选字符串时，显示控制器9依据当前字符插入位置、候选字符串的数量和每一个候选字符串的长度，计算候选字符串的显示位置；并在计算的显示位置显示候选字符串。此时，显示控制器9按照语音识别得分的降序显示候选字符串。

在图11中示出了多个候选字符串的显示示例。假定用户输入了假名的字符“no”，例如显示了假名和汉字的候选字符串“no tarou desu.”。随后，假定用户操作快捷键并发出多候选呈现指令。于是，多候选呈现指令接收器16接收多候选呈现指令。检索器8在候选历史数据中检索与当前插入位置相一致的候选历史数据的条目。随后，假定检索器8获取三个候选字符串，即，假名和汉字的“no tarou desu.”、假名和汉字的“no jirou desu.”、和假名和汉字的“no saburou desu.”显示控制器9同时显示这三个候选字符串，例如如图11中所示的，并将它们立即呈现给用户。

以此方式，在根据第二实施例的信息处理设备中，变得用户更易于从多个候选字符串中选择期望的候选字符串。因此，不仅可以进一步使得转录任务简化，还可以实现与第一实施例相同的效果。

第三实施例

以下给出的是根据第三实施例的信息处理设备的解释。与上述的实施例相比，第三实施例的区别在于将在第二存储器2中存储的语音识别结果的网格结构转换为特里结构并随后加以存储。在第三实施例中，这是与上述实施例的唯一区别。因此，仅针对该区别给出以下的解释，省略了多余的解释。

图12是根据第三实施例的信息处理设备的功能方框图。根据第三实施例的信息处理设备进一步包括转换器17，其将语音识别结果的网格结构转换为特里结构，并将其存储在第二存储器2中。

图13是用于解释由将具有网格结构的语音识别结果转换为具有特里结构的语音识别结果的转换器17执行的操作的流程图。参考图13所示的流程图，首先，依据语音数据，转换器17产生具有语音识别得分的词语网格，例如如图3中所示的(步骤S51)。随后，转换器17相对于获取的网格执行逆向威特比算法；并在一直到整个网格的结束节点(一直到图3中所示的节点E)的每一个节点计算最大(或最小)得分(节点_最佳_得分)(步骤S52)。

随后，相对于每一个圆弧，转换器17执行正向A*算法，并从与相关圆弧的右手侧节点相邻的N-1个圆弧的组合中检索具有大(或小)预计得分(预计_得分)(稍后说明)前K个候选(圆弧组合)(步骤S53)。将相邻圆弧的数量设定为N-1的原因是获取具有包括相关圆弧的字符串的N个词语(通常称为N-gram)的字符串。

在此，使用以下给出的等式计算预计得分(预计_得分)。

预计_得分(j)＝节点_得分(i)+圆弧_得分(i,j)+节点_最佳_得分(j)

其中，“i”和“j”表示节点ID。此外，“圆弧_得分(i,j)”表示连接节点i和节点j的圆弧的得分(即，词语网格语音识别得分)。而且，“节点_得分(i)”表示一直到节点i的最大(或最小)得分。如果在末尾具有节点i的圆弧具有作为开始节点的“i-1”，那么“节点_得分(i)”就表示使用“节点_得分(i-1)+节点_得分(i-1,i)”计算的最大(或最小)得分。对于网格的开始节点S，将得分节点_得分假定为“0”。此外，“节点_最佳_得分(i)”表示从节点i到结束节点的最终得分(在步骤S52计算的)。

同时，在步骤S53，如果在圆弧上存在特定字符串(例如句号“.”)，那么就可以终止相对于该圆弧的检索。

随后，依据每一个圆弧中的前K个候选(依据圆弧组合)，转换器17在第二存储器2中存储列表，例如图14中所示的列表，其包含通过连接圆弧上的字符串而获取的候选字符串、网格中的开始节点ID、网格中的结束节点ID、预计得分和列表ID，列表ID实现了上述信息的唯一标识(步骤S54)。参考图14，借助N＝3和K＝3的设定来得到列表。

随后，例如，如图15所示的，依据每一个圆弧中的前K个候选，转换器17在特里树中存储通过连接圆弧中的朗读字符串而获取的朗读信息和列表ID；并将语音识别结果从具有网格结构转换为具有特里结构(步骤S55)。在此，图15中所示的候选字符串的特里结构具有与图14相同方式的N＝3和K＝3的设定。

同时，在步骤S54和S55，代替将所有圆弧的前K个候选字符串存储为列表和特里结构，可以存储具有等于或大于特定值的预计得分的候选字符串。此外，在步骤S55，可以在特里结构中存储候选字符串。

在特里结构中，可以以字符为单位实施检索，从而可以更易于缩窄检索的范围。因此，不仅可以进一步提高检索效率，还可以实现与上述实施例相同的效果。

根据上述至少一个实施例的信息处理设备，信息处理设备包括存储器控制器、检测器、获取器、检索器、确定器、显示控制器、历史更新器、选择器和阈值更新器。存储器控制器在存储器中存储语音索引，在其中将包括在通过对语音数据执行语音识别而获取的语音文本中的多个字符串中的每一个字符串与节点索引、语音识别得分和语音位置信息相关联。节点索引具有在语音文本中的开始位置信息与结束位置信息之间的关联。语音识别得分作为执行语音识别的结果而获取。语音位置信息指示语音数据中的位置。检测器检测再现区段信息，其指示语音数据中的再现区段。获取器获取朗读信息，其表示代表依据再现的语音数据写下的文本中的短语的朗读的字符串的至少一部分，并且获取器获取插入位置信息，其指示在书写文本中的字符插入位置。检索器从包括在语音索引中的多个字符串中指定作为检索的目标字符串的字符串，其具有包括在再现区段信息中的相应的语音位置信息，并在所指定的字符串中检索包括由朗读信息所指示的朗读的字符串。当对应于由检索器获取的字符串的语音识别得分的值等于或大于显示阈值时，确定器确定显示由检索器获取的字符串。显示控制器在显示单元上显示由确定器所确定的字符串。历史更新器执行储存控制，以在候选历史存储器中存储候选历史数据，在其中，将由检索器获取的字符串、语音识别得分与字符插入位置相关联，并按照文本的变化来更新候选历史数据。当由显示控制器显示的字符串受到选择操作时，选择器选择受到选择操作的该字符串。阈值更新器使用候选历史数据的语音识别得分与由选择器选择的字符串的语音识别得分的至少其中之一来对显示阈值做出决定，所述显示阈值用于通过确定器来与语音识别得分相比较。因此，可以使得转录任务简化。

尽管说明了特定实施例，但仅是示例性地呈现了这些实施例，并非旨在限制本发明的范围。实际上，本文所述的创新实施例可以以各种其他形式来体现；而且，可以在不脱离本发明的精神的情况下，做出本文所述实施例的形式上的各种省略、替换和改变。所附权利要求书及其等同形式旨在覆盖落入本发明的范围与精神内的此类形式或变型。

Claims

1.一种信息处理设备，包括：

存储器控制器，所述存储器控制器用于在存储器中储存：

多个字符串，所述多个字符串包含在通过对语音数据执行语音识别而获取的语音文本中；

节点索引，所述节点索引指示所述语音文本中的所述字符串的中的每一个字符串的开始位置信息和结束位置信息；

语音识别得分，所述语音识别得分通过执行所述语音识别而获取；以及

语音位置信息的语音索引，所述语音位置信息的语音索引指示所述语音数据中的所述字符串中的每一个字符串的位置；

检测器，所述检测器用于检测再现区段信息，所述再现区段信息指示所述语音数据中的再现区段；

获取器，所述获取器用于获取朗读信息以及获取插入位置信息，所述朗读信息是表示依据已经再现的语音数据而写下的文本中的短语的朗读的字符串的至少一部分，所述插入位置信息指示所述书写文本中的字符插入位置；

检索器，所述检索器用于从储存在所述存储器中的所述多个字符串中指定字符串作为检索的目标字符串，所述字符串具有包含在所述再现区段信息中的相应的所述语音位置信息，并且所述检索器用于在所指定的字符串中检索包括由所述朗读信息指示的朗读的字符串；

确定器，所述确定器用于当与由所述检索器获取的字符串相对应的所述语音识别得分的值等于或大于显示阈值时，确定显示由所述检索器获取的字符串；

显示控制器，所述显示控制器用于在显示单元上显示由所述确定器所确定的字符串；

历史更新器，所述历史更新器用于执行储存控制，以将候选历史数据存储在候选历史存储器中，在所述候选历史数据中，由所述检索器获取的字符串、所述语音识别得分以及所述字符插入位置相关联，并且所述历史更新器用于根据文本的变化来更新所述候选历史数据；

选择器，所述选择器用于当由所述显示控制器显示的字符串受到选择操作时，选择受到所述选择操作的所述字符串；以及

阈值更新器，所述阈值更新器用于使用所述候选历史数据的语音识别得分和由所述选择器选择的所述字符串的语音识别得分的至少其中之一来对所述显示阈值作出决定，所述显示阈值用于通过所述确定器来与语音识别得分相比较。

2.根据权利要求1所述的设备，进一步包括后继检索器，所述后继检索器用于检索具有将由所述选择器选择的字符串的结束位置的节点索引作为所述字符串的开始位置的节点索引的字符串，其中，

所述显示控制器在显示单元上显示由所述后继检索器取回的字符串。

3.根据权利要求1或2所述的设备，进一步包括多候选呈现指令接收器，所述多候选呈现指令接收器用于接收多候选呈现指令，其中，

所述检索器检索与由所述获取器所获取的字符插入位置相对应的字符串，并且

所述显示控制器依据由所述获取器获取的字符插入位置、由所述检索器取回的字符串的数量以及每一个字符串的长度来计算用于显示输入候选的位置，以便在显示单元上显示由所述检索器取回的字符串。

4.根据权利要求3所述的设备，其中，

当所述检索器无法取回与字符插入位置相对应的字符串时，所述检索器检索与在当前字符插入位置的特定数量字符之前所呈现的字符相一致的字符，并且

所述显示控制器在所述显示单元上显示所取回的一致的字符作为输入候选。

5.根据权利要求1所述的设备，进一步包括转换器，所述转换器用于将通过所述语音识别的结果而获取的网格结构转换为特里结构。

6.根据权利要求5所述的设备，其中，所述转换器包括：

产生器，所述产生器用于从所述语音数据产生具有语音识别得分的词语网格；

提取器，所述提取器用于从所述词语网格的每一个圆弧以所述语音识别得分的降序来提取M个最佳圆弧，其中M是整数；以及

储存装置，所述储存装置用于在其中存储标识信息，所述标识信息用于在特里树中标识所提取的M个最佳圆弧。

7.一种信息处理方法，包括：

由存储器控制器在存储器中存储：

由检测器检测再现区段信息，所述再现区段信息指示语音数据中的再现区段；

由获取器获取朗读信息以及获取插入位置信息，所述朗读信息是表示依据已经再现的语音数据而写下的文本中的短语的朗读的字符串的至少一部分，所述插入位置信息指示所述书写文本中的字符插入位置；

由检索器从储存在所述存储器中的多个字符串中指定字符串作为检索的目标字符串，所述字符串具有包含在所述再现区段信息中的相应的所述语音位置信息，并且由所述检索器在所指定的字符串中，检索包括由所述朗读信息指示的朗读的字符串；

当与在检索时获取的字符串相对应的所述语音识别得分的值等于或大于显示阈值时，由确定器进行确定以显示在检索时所获取的字符串；

由显示控制器在显示单元上显示在进行确定时被确定的字符串；

由历史存储控制单元将候选历史数据存储在候选历史存储器中，在所述候选历史数据中，将在检索时所获取的字符串、语音识别得分以及字符插入位置相关联，

由历史更新器按照文本中的变化来更新存储在所述候选历史存储器中的所述候选历史数据；

当在进行显示时所显示的字符串受到选择操作时，由选择器选择受到所述选择操作的所述字符串；以及

由阈值更新器使用所述候选历史数据的语音识别得分和在选择时所选择的字符串的语音识别得分的至少其中之一来对所述显示阈值作出决定，所述显示阈值用于在确定时与语音识别得分相比较。