CN108027665A

CN108027665A - 改善字母数字字符和手势的手写输入识别精度的方法和设备

Info

Publication number: CN108027665A
Application number: CN201680054257.2A
Authority: CN
Inventors: B·希尔德
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive GmbH
Priority date: 2015-10-30
Filing date: 2016-10-28
Publication date: 2018-05-11
Also published as: WO2017072307A1; EP3368967A1; US10726250B2; US20180225507A1; DE102015221304A1

Abstract

一种用于自动选择多个识别算法之一以便利用触敏输入设备将字母数字字符和/或手势手写输入显示于屏幕上的选定输入字段中的方法，所述方法包括在至少包括所述输入字段和输入字段紧邻环境的屏幕区域内执行光学字符识别，或者针对在选定输入字段已被显示之后发声输出的语音指令执行语音识别。在光学字符识别结果或者语音识别结果中，搜索描述字段类型的名词，并且选择适用于在光学字符识别结果或语音识别结果中找到的字段类型的识别算法。可选地，待识别字符的容许存储数值也可以基于所述输入针对后面的字符被动态披露，例如如果所述输入代表数据库中的一个元素和/或须遵守某些结构规则。

Description

改善字母数字字符和手势的手写输入识别精度的方法和设备

技术领域

本发明涉及用户界面的领域、尤其涉及在触敏屏幕或与屏幕分开布置的触敏输入单元上的字母和数字或手势的手写输入。

背景技术

现代的机动车辆配备有多个用户界面以操作各种各样功能。近来，用户界面越来越多地包含触敏屏幕或触敏输入单元，其以可让机动车辆驾驶员容易触及的方式装配在中央位置中。因此，现代的机动车辆具有计算机系统，其被设定成用于采集为了运行机动车辆或安装在机动车辆中的系统所需要的经触敏屏幕或触敏输入单元的用户输入。

现代机动车辆中的计算机系统通常功能强大到足以扩充附加应用和程序并提供附加功能。这些附加应用和程序通常也需要在执行期间内的用户输入。

如果需要输入字母数字字符，则可以在例如触敏屏幕上显示虚拟键盘。然而，字母数字字符也可以通过手写识别被输入，在手写识别过程中，用户用手指或合适的物体在触敏屏幕上、或在也称为触摸板且与屏幕分开布置的触敏输入单元上写下字母和数字。

鉴于布置在机动车辆中的触敏屏幕或触敏输入单元的尺寸有限，直接将字母数字字符手写输入到为此而设的输入掩码字段中并不实际。尤其是，缘自有限屏幕尺寸的输入字段的小尺寸要求全心关注字符手写输入，这并不与机动车辆在道路交通中的安全驾驶相容。因此缘故，字母数字字符的手写输入通常以个别字符连续输入的形式执行。在此情况下，“连续”是指时间顺序意义上的。根据两维输入字段的尺寸，在此字段中的输入可以前后相继或一个叠一个地进行。

如果只允许字符或手势的有限选择，则经触敏输入单元或触敏屏幕的字母数字字符和手势的手写输入可以被更可靠识别。在此情况下，分别被用户输入所允许的字符或手势取决于待运行的系统或程序或者待运行的应用。可以在程序或应用中规定不同的输入字段，针对所述输入字段又允许字符或手势的个别有限选择。为了提供适用于字母数字字符和手势的手写输入的识别算法，待运行的系统或程序或者待运行的应用必须传送相应的信息项给评估手写输入的系统部件。如果该信息不可获得，则必须采用通用识别算法，这可能导致字符手写输入的识别不太可靠。例如，很难区分字母“O”和数字“零”的手写输入，如果输入字段并不是只针对字母而提供的或并不是只针对数字而提供的且此信息可让手写识别设备获得。

从此例子中清楚知道，仅基于轨迹线形状分析的图形识别无法达成目标。在此情况下，只考虑应用上下文可提供帮助。此外，数据库内容的了解也可能有帮助，如果输入涉及该内容，或者在国家之间可能不同的结构规则如用于设定有效电话号码的规则的了解可能有帮助。此外，手写识别可以利用上下文信息来借助配设有频率信息的上下文专属字典改善手写输入，此时考虑一般统计语音信息，例如二元语法和三元语法频率等。

从具有触敏屏幕的平板电脑和移动电话中知道了提供适用于特定输入字段的虚拟键盘的实践做法。例如将光标放在用于电邮地址的输入字段中可能导致所显示的虚拟键盘显露出用于常被用在电邮地址中的特殊字符(例如字符“@”)的按键。如果光标被放在用于电话号码的输入字段中，则所显示的虚拟键盘可以由数字键区构成。

但是，只在其运行需要输入的相应的应用或相应的程序传送相应的信息项至对显示虚拟键盘负责的例行程序时提供经过调整的虚拟键盘。相应的信息项的传输例如从HTML5标准(“输入类型”属性)中知道了。如果所述应用或程序并未传输所需信息，则标准键盘被显示，在该标准键盘中无法在第一层级获得可能需要的字符，而是只在切换至键盘的另一层级之后。

用于自动调整或选择识别算法以用于字符有限选择的光学字符识别(OCR)但系统或程序或应用未提供相应的信息项的实践做法由US 7,489,415B2披露了。在已知系统中，所述调整的执行基于在先前已填写的表单上的输入位点的坐标。在此情况下，针对每个表单的每个输入点位在该系统内存储了字段类型。

用用于自动调整或选择识别算法以用于被输入不同形式字段中的字符有限选择的光学字符识别的另一方式由US 2014/0201102A1披露了。在此情况下，相应的输入字段的字段类型通过该表单的光学字符识别来确定，并且被手写填写的相应的字段部分随后才利用所调整或所选择的识别算法被评估。

但用于自动调整或选择识别算法的已知方式并不适用于字符或手势在触敏屏幕或触敏输入单元上的即将手写输入，因为在此无法以光学方式采集表单，因此无法实现表单字段的输入位点或名字的评估。

发明内容

技术目的

本发明的目的是具体说明用于自动选择或调整识别算法以用于字符或手势在触敏屏幕或触敏输入单元上的手写输入的方法和设备，它们并不依赖由待运行的相应的系统或程序或待运行的应用提供的关于字段类型的信息。

技术成果

该目的通过如权利要求1所述的方法以及通过如权利要求7所述的设备来达成。在相应的从属权利要求中说明了所述方法和设备的有利改进和设计。

根据本发明的用于自动选择许多识别算法之一以用于利用触敏输入设备将字母数字字符和/或手势的手写输入显示在屏幕上的选定输入字段的方法包括在至少包括该输入字段和输入字段紧邻环境的屏幕区域中执行光学字符识别。或者，可以针对在选定输入字段已显示之后发生输出的语音指令执行语音识别。在此情况下，只在屏幕上选择了许多输入字段之一后执行光学字符识别或语音识别可能是有用的。

在此情况下可以区分两种情况。如果语音指令已经在相同系统中被本地产生，则已经适合的上下文信息通常在此系统内是本地可用的。在其他情况下，例如如果从云服务器收到语音指令，则例如需要采用语音识别器，其本地设置或还是在另一云服务器中设置以确定所需的上下文信息。作为云服务器的替代方式，也可以采用例如本地连接至该系统的适当的智能手机。

作为光学字符识别的结果，文本组成部分在识别区域中被识别且可以被提供给分析，所述分析用于搜索待输入字符或手势的类型的指明。在此情况下，待输入字符或手势的类型取决于输入字段类型。例如如果单词“呼号”、“电话号码”、其相应缩写或电话符号中的一个被呈现在屏幕上的输入字段环境中，则可以假定号码或数字将被输入该输入字段中。如果单词例如“地点”或“街道”在输入字段的环境中被找到，则可以假定字母要被输入该输入字段中。适于识别用于识别算法的数字或字母以便手写输入的识别算法或参数组可以被相应选择。同样的情况相应适用于伴随输入字段显示发声输出的语音指令：如果在该输入字段被显示或选择时发出弱语音指令如“清输入电话号码”，则可以通过分析通过语音识别被转化为文本的语音指令而总结出号码或数字将被输入该输入字段中。

不言而喻的是，也可以在分析和搜索描述字段类型的名词时考虑不同语言中的名词。相应数据库的扩充只对所需存储空间提出略高要求且易于实现。也可以想到最好先识别由用户针对人机界面选择的语言中的名词并且随后执行其他语言的识别。

屏幕内容评估也包括评估所谓的拼写器，其预定在字母连续输入过程中的随后可能性。一个例子就是在导航过程中输入目的地时的城市名的输入，在导航的情况下，在先输入目的地之后，用于后一字母的数值组通常被明显限制。如果拼写器被识别，则下一字符可允许的数值组总是被当前通讯至手写识别器。如果可行，下次输入所允许的许多字符序列也可以被披露。

在本发明的一个设计中，为了光学字符识别，至少包括该输入字段和输入字段紧邻环境的至少一个屏幕区域被传输至用于光学字符识别的设备或例行程序，其提供识别结果。所述传输可以例如直接从屏幕控制单元的图形存储器实现，例如以RGB位图形式，在这里，屏幕内容或屏幕内容的传输部分呈像素表现的形式。某些操作系统已经包含下述功能，其允许产生屏幕图形或屏幕窗口图形即所谓截屏并将其传送至其他程序或应用。这些例如包括以下操作系统，其利用根据Wayland显示服务器协议运行的排序器执行图形输出。屏幕内容的传输图形随后可被检查文本内容和文本相对于屏幕上的输入字段的位置，例如利用商业可获得的光学字符识别用程序。字段类型或文本输入类型的提及随后被存储在用于所述文本或可能文本位置的数据库中。包括该输入字段的区域的尺寸在此情况下可被预定，或者可以由用户调节。用户也可以想到用其手指或合适物体在触敏屏幕上圈定选择该输入字段并由此限定所述区域。

在本发明的另一设计中，针对发声语音指令之后的语音识别，经扬声器的模拟电信号输出、相应可得到的数字电信号或者用于文本语音转换输出单元的控制信号被传送至用于语音识别的设备或例行程序，其提供识别结果。在本发明的这个设计中，无论如何位于车辆中以便识别语音指令的语音识别系统可以被有利地采用。

如果其相应的当前输出通过分析当前屏幕内容等来采集的所谓拼写器并未由相关应用程序预定，则手写输入也能在考虑最新输入上下文的情况下被控制，

-基于数据库内容，

-基于结构规则。

在此情况下，相应的数据库内容如存储城市可以被直接例如本地访问，与相关的应用如导航无关。但也可以从外界获得这样的数据库内容，例如从结合的智能手机或通过互联网相连的云服务器。结构规则同样可在系统内本地获得或可以从外界例如从智能手机或云服务器取得。下次输入所允许的字符数值范围和关于输入的下次可允许的字符串可被分别披露给手写识别器。

一种自动选择许多识别算法或者许多参数组之一以用于利用触敏输入设备将字母数字字符和/或手势手写输入显示在屏幕上的选定输入字段的设备包括第一装置，其被设定成用于在至少包括该输入字段和输入字段紧邻环境的屏幕区域中执行光学字符识别。或者，第一装置可以被设定成用于针对在已显示选定输入字段之后发生输出的语音指令执行语音识别。该设备还包括第二装置，其被设定成用于在光学字符识别结果或语音识别结果中搜索描绘字段类型的名词。最后，该设备包括第三装置，其被设定成用于选择适应于在光学字符识别结果或语音识别结果中找到的字段类型的识别算法或者用于识别算法的参数组。

可选地，设有第四装置，其在考虑了输入上下文的情况下逐个字符地指导手写输入。这种指导具有三种形式：

-由预期所述输入的应用提供的所谓“拼写器”的屏幕输出通过分析相应的最新屏幕内容被采用，

-根据输入上下文且根据相关应用，相关数据库内容被访问并且“拼写器”功能本身被提供，在此情况下可访问在此系统中可获得的本地数据库和例如在结合的智能手机或云服务器中的可通过互联网够到的远程数据库，

-根据输入上下文，可以在系统内本地取得或例如在结合的智能手机或云服务器中经互联网远程取得的结构规则被采用。

在该设备的一个设计方案中，所述第一装置、第二装置、第三装置和/或可选的第四装置中的一个或多个具有一个或多个微处理器和被通讯连接至一个或多个微处理器的主存储器和非易失性存储器。相应的非易失性存储器存储计算机程序指令，所述计算机程序指令在从所述一个或多个微处理器被装载到相应的主存储器中并运行时造成所述方法的一些部分的执行。所述第一、第二和第三装置共同最终执行所述方法的所有步骤。

在该设备的一个设计方案中，所述屏幕、第一、第二、第三和/或可选的第四装置按照彼此空间分开的方式布置并通过一个或多个通讯网络相互连接。在设备的单独部件之间的通讯可以按照传统方式通过一个或多个通讯网络来执行。该屏幕通过信号发送被连接至控制电子装置。该屏幕例如可以是下述屏幕，其设置用于导航器件且布置在机动车辆的仪表盘或所谓的平视显示器中，在此，屏幕内容在驾驶员视野内被投影到风挡玻璃或在风挡玻璃前方的透明投影介质上。这也同时发生例如安置在风挡玻璃前方的全息输出。

可以与本发明方法连用的或者可以与本发明的设备连用的触敏输入设备包括与屏幕分开布置的触控板或者触敏屏幕上的相应标示区域。

以上为了清楚起见已单独描述的不同的配置可以相互组合，例如以便获得更可靠的字段类型识别。

根据本发明的本方法和根据本发明的设备可以被有利地应用在机动车辆中，但也可以想到应用在字符和/或手势被手写输入的其他技术领域中。适应的识别算法或适应于识别算法的参数的选择改善了字母数字字符和手势的手写输入，并且尤其在机动车辆行驶期间降低在输入过程中不得不进行的修改可能性。结果，完全消除了驾驶员分心不顾交通状况。

以下，基于附图来描述本发明，其中：

图1示出机动车辆中的仪表盘的示意图，

图2示出用于解释根据本发明的方法的屏幕的示意图，

图3示出根据本发明的方法的示意流程图，

图4示出根据本发明的设备的示意框图。

在附图中，相同的或相似的零部件带有相同的附图标记。

图1示出了机动车辆中的仪表盘100的示意图。仪表组106布置在方向盘104后面。屏幕110和触敏触控板116布置在中控台108的区域内。平视显示器114显示信息的区域也在风挡玻璃112上被示出。就像屏幕110和平视显示器114，仪表组106可以包括具有图形处理能力的矩阵显示器，就是说通过相应控制个别像素来显示复杂图形结构的显示器。就是说，用于用户输入的输入字段可以被显示在任何一个显示设备上。无论是什么样的显示输入字段的显示设备，用户可以利用触敏触控板116或屏幕110上的效应标示区域完成手写输入。可选的视觉内容全息表现和例如借助互联网连接与结合的智能手机或云服务器的可选连接在附图中未被示出。

图2示出了图1的屏幕110的示意图以解释根据本发明的方法。初始情况是这样的，此时用户想要输入电话号码到为此所提供的输入字段202中。为此有许多选项可供用户使用。用户能通过触摸显示在屏幕110上的数字键区204的相应虚拟数字键输入数字。应该注意的是该屏幕110是触敏屏幕。或者，用户可以经触控板116或代表触敏屏幕110上的触控板的标示区域216输入数字，在此情况下，所述输入通过手写识别被转化为数字在图2中，用户已经输入电话号中的前三个数字“0”、“1”和“2”，并且正好完成了第四个数字“3”的输入。为此，用户已经在触控板116(未示出)或触敏屏幕110的对应区域216上用其手指或另一合适的输入器件绘画出数字“3”。在此图中，输入尾数相比于先前输入数字以略微放大的方式被示出。这可以被用于表明识别结局。为了使用于手写识别的识别算法适应于数字输入，在输入字段202周围的屏幕110区域接受光学字符识别。例如在光学字符识别之后，第一区域206被检查是否有表明待输入该输入字段202中的字符或手势的类型的名词。第一区域206由点画虚线表示。在此情况下，名词“呼号”在第一区域206内的输入字段202的左侧被示出。与数据库中的对应名词的比较可以总结出只能输入字母数字字符的有限选择。对于电话号码，它们例如是数字0-9、星键和井键。包括输入字段且大于第一区域206的第二区域208如图所示。第二区域208如虚线所示。除了名词“呼号”外，在此区域中执行的光学字符识别也能识别名词“电话”，其也表示待输入的字母数字字符的类型。描绘待输入第二区域208内的输入字段中的字符的两个名词的出现可以改善输入字段类型的确定和进而待输入该输入字段中的字符的最终识别。

图3示出了根据本发明的方法300的示意性流程图。在步骤302中，在至少一个包括选定的或有效的输入字段的屏幕区域中执行字符识别或语音识别。字符识别结果或语音识别结果在步骤304中被用于确定输入字段的类型。在可选步骤308中，根据输入字段类型，在屏幕内容中搜索所谓的拼写器，或者与相关类型的数据库的读取关联在本地或远程被直接设定，如果可行。或者，用于输入的可能结构规则被本地或远程搜索。基于输入字段类型的确定结果，适用于手写识别的识别算法或者适用于识别算法的参数组被选择。附图并未示出要由光学字符识别评估的区域的选择和转移至字符识别功能或设备。

图4示出了根据本发明的设备的示意框图。被设定成用于在至少包括该输入字段和输入字段紧邻环境的屏幕区域中执行光学字符识别的第一装置400经一个或多个数据总线410被通讯连接到第二装置402，第二装置被设定成用于在光学字符识别结果中搜索描绘字段类型的名词。代替或补充用于光学字符识别的第一装置400地，可以提供其他的第一装置404，其被设定成用于针对在输入字段已显示后发声输出的语音指令执行语音识别。其他的第一装置404也通过一个或多个数据总线410被通讯连接至第二装置。一个或多个屏幕406同样通过一个或多个数据总线410被至少通讯连接至第一装置400，以允许第一装置400可接近包括该输入字段和输入字段紧邻环境的屏幕区域或者传送图像信息至第一装置400。最后，第三装置408通过一个或多个数据总线410与至少第二装置402通讯相连以便基于由第二装置找到的且描绘字段类型的名词选择适应于字母数字字符和/或手势的手写输入的识别算法或者适用于识别算法的参数组。第三装置例如包括数据库和将用字符识别或语音识别找到的名词与存在数据库内的名词比较且在命中情况下选择适应于字段类型的相应识别算法或适用于识别算法的参数组的设备或计算机程序。

可选地，也可以提供下述装置412，其在考虑了已可获得的内容的情况下通过限制仍然预期的输入动态控制关于数据库的所述输入。这可以本地或远程进行，例如使用已通过相应的应用提供的“拼写器”功能，或者直接访问相应数据库，或者用于输入的结构规则被本地或远程取得。这些结构规则例如可以与国家相关。此步骤被用来确定用于识别算法的扩展参数组。

权利要求书(按照条约第19条的修改)

1.一种用于自动选择多个识别算法之一或识别算法的多个参数组之一以便利用触敏输入设备将字母数字字符和/或手势手写输入显示于屏幕上的选定输入字段中的方法，所述方法包括：

-在至少包括所述输入字段和输入字段紧邻环境的屏幕区域内执行光学字符识别，或者针对在选定输入字段已被显示之后发声输出的语音指令执行语音识别，

-在所述光学字符识别或语音识别的结果中搜索名词，基于所述名词能够确定所述输入字段的字段类型，

-基于找到的名词来确定所述字段类型，以及

-选择适应于在所述光学字符识别或语音识别的结果中找到的字段类型的识别算法或者所述识别算法的参数组。

2.根据权利要求1所述的方法，其中，所述光学字符识别包括：

-将至少包括所述输入字段和所述输入字段紧邻环境的屏幕的至少一个区域中显示的图像传输至用于光学字符识别的设备或计算机程序，

-接收所述光学字符识别的结果。

3.根据权利要求1所述的方法，其中，所述语音识别包括：

-记录发声输出语音指令或者接收代表所述发声语音指令的信号，并且

-接收所述语音识别的结果。

4.根据权利要求3所述的方法，其中，代表所述发声语音指令的所述信号是通过一个或多个扬声器的电信号输出的数字表示或模拟表示或者用于文本语音转换输出单元的控制信号。

5.根据权利要求1所述的方法，其中，在已经在所述屏幕上选择了多个输入字段中的一个输入字段之后执行所述光学字符识别或所述语音识别。

6.一种用于自动选择多个识别算法之一以便利用触敏输入设备将字母数字字符和/或手势手写输入显示于屏幕上的选定输入字段中的设备，所述设备包括：

-第一装置，其被设定成用于在至少包括所述输入字段和输入字段紧邻环境的屏幕区域内执行光学字符识别、或者被设定成用于针对在选定输入字段已被显示之后发声输出的语音指令执行语音识别，

-第二装置，其被设定成用于搜索描述在所述光学字符识别或语音识别的结果中的字段类型的名词，以及

-第三装置，其被设定成用于选择适应于在所述光学字符识别或语音识别的结果中找到的字段类型的识别算法或者所述识别算法的参数组。

7.根据权利要求6所述的设备，还包括第四装置，其被设定成用于基于待输入的可能的字符或手势选择识别算法或所述识别算法的参数组，其中待输入的所述可能的字符或手势是从之前的输入中确定的，并且其中所述确定是根据语言规则或通过对比存储在数据库内的单词来执行的。

8.根据权利要求6或7所述的设备，其中，所述第一装置、所述第二装置、所述第三装置和/或所述第四装置中的一个或多个具有一个或多个微处理器和与所述一个或多个微处理器通讯相连的主存储器和非易失性存储器，其中相应的非易失性存储器存储计算机程序指令，所述计算机程序指令在从所述一个或多个微处理器被装载到相应的主存储器中并运行时造成如权利要求1至6中的一项或多项所述的方法的相应步骤的执行，其中所述第一装置、所述第二装置和所述第三装置一起执行所有的方法步骤。

9.根据权利要求6至8之一所述的设备，其中，所述屏幕、所述第一装置、所述第二装置、所述第三装置和/或所述第四装置按照相互空间分开的方式布置并且通过一个或多个通讯网络相互连接。

10.一种机动车辆，具有根据权利要求6至9中的一项或多项所述的设备。

Claims

-搜索描述在所述光学字符识别或语音识别的结果中的字段类型的名词，以及-选择适应于在所述光学字符识别或语音识别的结果中找到的字段类型的识别算法或者所述识别算法的参数组。

-至少将至少包括所述输入字段和所述输入字段紧邻环境的屏幕区域传输至用于光学字符识别的设备或计算机程序，

-接收所述光学字符识别的结果。

3.根据权利要求1所述的方法，其中，所述语音识别包括：

-接收所述语音识别的结果。