CN115331253A

CN115331253A - 基于指向的信息提供方法及系统

Info

Publication number: CN115331253A
Application number: CN202110691629.5A
Authority: CN
Inventors: 慎慧恩; 许智爱; 白荣民; 金奭勋
Original assignee: Line Corp; Naver Corp
Current assignee: Aiwanwai Co ltd; Naver Corp
Priority date: 2021-04-23
Filing date: 2021-06-22
Publication date: 2022-11-11
Also published as: JP2024001050A; KR102597069B1; JP2022167734A; JP7355785B2; KR20220146058A

Abstract

本发明公开一种基于指向的信息提供方法及系统。根据一个实施例的信息提供方法可以包括以下步骤：在识别线下读物中包含的文字并用语音输出的过程中，响应于根据用户输入产生的触发，确定在拍摄所述线下读物的图像上的用户指定坐标；确定在所述图像中包含的文字中的对应于所述已确定用户指定坐标的单词；以及提供已确定的所述单词的附加信息。

Description

基于指向的信息提供方法及系统

技术领域

以下的说明涉及一种基于指向(pointing)的信息提供方法及系统。

背景技术

存在一种装置和/或服务，用于识别用户的诸如书(book)等线下读物中包含的文字，并将识别的文字合成为语音以通过扬声器输出，从而朗读用户的线下读物。此时，当线下读物的文本中出现不认识的单词时，可能会存在用户不认识的单词或者想进一步了解准确含义的单词等。在使用人工智能扬声器的情况下，用户可以直接说出不认识的单词并直接询问单词的含义。或者还可以通过其他设备或词典直接查询用户不认识的单词。此时，在发音或打字的过程中可能会发生错误。

另外，当使用手或特定指向设备选择不认识的单词时，突出显示单词区域并提供词典含义的现有技术已经存在。此时，找出指关节或指尖点等的技术已经众所周知，并且在移动端识别手势以捕获特定符号的技术也已经众所周知。另外，利用多角度摄像头和视角通过指尖调节远处设备的技术也已经存在。

然而，从拍摄的图像中获取手指坐标的现有技术中存在消耗时间较长，且在图像中出现多个手指时发生过多错误的问题。

现有技术文献

韩国公开专利第10-2020-0049435号。

发明内容

(一)要解决的技术问题

提供一种信息提供方法及系统，在为了朗读用户的线下读物而识别线下读物中包含文字的过程中，通过用于获取手指坐标的触发，文字识别引擎提供手指坐标，从而可以提供与手指坐标对应的单词的信息。

提供一种信息提供方法及系统，基于与手指坐标对应的单词，能够设定开始位置以从用户期望的部分开始朗读线下读物，从而可以增加用户的便利性。

提供一种信息提供方法及系统，可以提供能够重复朗读多次包含与手指坐标对应的单词的句子的功能。

(二)技术方案

提供一种信息提供方法，用于包括至少一个处理器的计算机装置，所述信息提供方法包括以下步骤：通过至少一个所述处理器，在识别线下读物中包含的文字并以语音输出的过程中，响应于根据用户输入产生的触发，确定在拍摄所述线下读物的图像上的用户指定坐标；通过至少一个所述处理器，确定在所述图像中包含的文字中的对应于已确定的所述用户指定坐标的单词；以及通过至少一个所述处理器，提供已确定的所述单词的附加信息。

根据一方面，其特征可在于，在确定所述用户指定坐标的步骤中，可以将在所述图像上识别的手指甲的中央坐标确定为所述用户指定坐标。

根据另一方面，其特征可在于，在确定所述用户指定坐标的步骤中，可以将在所述图像上识别的指向工具的坐标确定为所述用户指定坐标。

根据另一方面，其特征可在于，可以通过光学字符阅读器(Optical CharacterReader，OCR)以包含至少一个文字的框的单元识别在所述图像中包含的文字，在确定所述单词的步骤中，可以将距离所述用户指定坐标最近的框中包含的单词选择为对应于所述用户指定坐标的单词。

根据另一方面，其特征可在于，所述距离可以包括所述用户指定坐标和形成所述框的四条线中的下端线之间的距离，或者包括所述用户指定坐标和所述下端线的中间点之间的距离。

根据另一方面，其特征可在于，确定所述单词的步骤可以包括以下步骤：通过对所述框中包含的文字的自然语言处理(Natural Language Processing)，从所述框中提取所述单词。

根据另一方面，其特征可在于，提供所述附加信息的步骤可以包括以下步骤：从提供线上词典服务和线上翻译服务中的至少一个的服务器中接收已确定的所述单词的附加信息；将接收的所述附加信息转换为语音；以及输出转换的所述语音。

根据另一方面，其特征可在于，确定所述用户指定坐标的步骤可以包括以下步骤：根据通过用户的发音识别的预设意图来产生所述触发。

根据另一方面，其特征可在于，确定所述用户指定坐标的步骤可以包括以下步骤：在接收到图像后，将对应于所述触发的图像输入到经学习的机器学习模块中以确定图像中包含的多个手指中的一个，从而确定对应于所述触发的图像中包含的多个手指中的一个手指；以及将已确定的所述手指的手指坐标确定为所述用户指定坐标。

根据另一方面，其特征可在于，在确定所述单词的步骤中，在单词的至少一部分被手指或指向工具遮盖而无法识别对应于所述用户指定坐标的单词的情况下，从拍摄所述线下读物的之前图像中识别对应于所述用户指定坐标的单词。

根据另一方面，所述信息提供方法可以进一步包括以下步骤：通过至少一个所述处理器，将已确定的所述单词的位置指定为朗读所述线下读物的开始位置；以及通过至少一个所述处理器，从所述开始位置开始用语音输出识别的文字。

根据另一方面，所述信息提供方法可以进一步包括以下步骤：通过至少一个所述处理器，识别包含已确定的所述单词的句子；以及通过至少一个所述处理器，用语音重复多次输出识别的所述句子。

提供一种计算机可读记录介质，记录有用于在计算机装置中执行所述方法的计算机程序。

提供一种计算机装置，其特征在于，包括：至少一个处理器，用于执行计算机可读指令，通过至少一个所述处理器，在识别线下读物中包含的文字并用语音输出的过程中，响应于根据用户输入产生的触发，确定在拍摄所述线下读物的图像上的用户指定坐标，确定在所述图像中包含的文字中的对应于已确定的所述用户指定坐标的单词，并提供已确定的所述单词的附加信息。

(三)有益效果

在为了朗读用户的线下读物而识别线下读物中包含文字的过程中，通过用于获取手指坐标的触发，文字识别引擎提供手指坐标，从而可以提供与手指坐标对应的单词的信息。

基于与手指坐标对应的单词，能够设定开始位置以从用户期望的部分开始朗读线下读物，从而可以增加用户的便利性。

可以提供能够重复朗读多次包含与手指坐标对应的单词的句子的功能。

附图说明

图1是示出根据本发明的一个实施例的网络环境的示例的图。

图2是示出根据本发明的一个实施例的计算机装置的示例的框图。

图3是示出根据本发明的一个实施例的通信量(Traffic)控制系统的示例的图。

图4至图6是示出在本发明的一个实施例中提供手指所指单词的信息的过程的示例的图。

图7是示出根据本发明的一个实施例的信息提供方法的示例的流程图。

图8是示出在本发明的一个实施例中一个手指指向且可以清楚地识别单词的情况的示例的图像。

图9是示出在本发明的一个实施例中多个手指指向且可以清楚地识别单词的情况的示例的图像。

图10是示出在本发明的一个实施例中一个手指指向且文字虽被遮盖但也可以识别单词的情况的示例的图像。

图11是示出在本发明的一个实施例中多个手指指向且文字被遮盖的情况的示例的图像。

图12是示出在本发明的一个实施例中设定开始位置的过程的示例的图。

图13是示出在本发明的一个实施例中设定重复区域的过程的示例的图。

图14和图15是示出在本发明的一个实施例中设定重复区域的另一个示例的图。

具体实施方式

以下，参照附图对实施例进行详细说明。

根据本发明的实施例的信息提供系统可以通过至少一个计算机装置来实现，并且根据本发明的实施例的信息提供方法可以通过实现信息提供系统的至少一个计算机装置来执行。在计算机装置中可以设置和驱动根据本发明的一个实施例的计算机程序，而计算机装置可以根据驱动的计算机程序的控制来执行根据本发明的实施例的信息提供方法。所述计算机程序可以存储在计算机可读记录介质中，以与计算机装置结合并在计算机装置中执行信息提供方法。

图1是示出根据本发明的一个实施例的网络环境的示例的图。图1示出了网络环境包括多个电子设备110、120、130、140、多个服务器150、160以及网络170的示例。这种图1是用于说明本发明的一个示例，电子设备的数量或服务器的数量不限于图1所示。另外，图1的网络环境仅仅说明了可适用于本实施例的环境中的一种的示例，可适用于本实施例的环境不限于图1的网络环境。

多个电子设备110、120、130、140可以是由计算机装置实现的固定终端或移动终端。多个电子设备110、120、130、140的示例有智能手机(smart phone)、便携式手机、导航、计算机、笔记本电脑、数字广播用终端、个人数字助理(Personal Digital Assistants，PDA)、便携式多媒体播放器(Portable Multimedia Player，PMP)、平板电脑等。例如，在图1中，作为电子设备110的示例示出了智能手机的形状，但在本发明的实施例中，电子设备110实际上可以表示利用无线或有线的通信方式通过网络170与其他电子设备120、130、140和/或服务器150、160通信的各种物理计算机装置中的一种。

对于通信方式不做限制，不仅可以包括利用网络170可以包括的通信网(例如，移动通信网、有线互联网、无线互联网、广播网)的通信方式，还可以包括设备之间的近距离无线通信。例如，网络170可以包括个人局域网(personal area network，PAN)、局域网(localarea network，LAN)、校园局域网(campus area network，CAN)、城域网(metropolitanarea network，MAN)、广域网(wide area network、WAN)、宽带网络(broadband network，BBN)、互联网等网络中的至少一个任意网络。另外，网络170可以包括网络拓扑中的至少一个，所述网络拓扑包括：总线网络、星形网络、环形网络、网状网络、星-总线网络、树形或分级(hierarchical)网络等，但不限于此。

服务器150、160分别可以由通过网络170与多个电子设备110、120、130、140通信以提供指令、代码、文件、内容、服务等的计算机装置或多个计算机装置来实现。例如，服务器150可以是向通过网络170连接的多个电子设备110、120、130、140提供服务(例如，内容提供服务、集体通话服务(或语音会议服务)、留言服务、邮件服务、社交网络服务、地图服务、翻译服务、金融服务、支付服务、搜索服务等)的系统。

图2是示出根据本发明的一个实施例的计算机装置的示例的框图。上述说明的多个电子设备110、120、130、140或多个服务器150、160分别可以通过图2所示的计算机装置200来实现。

如图2所示，这种计算机装置200可以包括：存储器210、处理器220、通信接口230以及输入输出接口240。存储器210是计算机可读记录介质，可以包括：随机存取存储器(random access memory，RAM)、只读存储器(read only memory，ROM)以及磁盘驱动器等永久性大容量记录装置(permanent mass storage device)。其中，ROM和磁盘驱动器等永久性大容量记录装置也可以作为与存储器210区分的单独的永久存储装置而包括在计算机装置200中。另外，在存储器210中可以存储操作系统和至少一个程序代码。这种软件组件可以从与存储器210不同的计算机可读记录介质加载到存储器210中。这种单独的计算机可读记录介质可以包括：软盘驱动器、磁盘、磁带、DVD/CD-ROM驱动器以及存储卡等计算机可读记录介质。在另一个实施例中，软件组件也可以通过非计算机可读记录介质的通信接口230加载到存储器210。例如，软件组件可基于由通过网络170接收的文件设置的计算机程序，加载到计算机装置200的存储器210中。

处理器220可以被构造成执行基本的算术、逻辑以及输入输出演算来处理计算机程序的指令。指令可以通过存储器210或通信接口230提供给处理器220。例如，处理器220可以被构造成执行根据存储在存储器210等记录装置的程序代码接收的指令。

通信接口230可以提供使得计算机装置200通过网络170与其他装置(例如，上述说明的存储装置)彼此通信的功能。例如，计算机装置200的处理器220根据存储在存储器210等记录装置中的程序代码生成的请求或指令、数据、文件等可以根据通信接口230的控制通过网络170传递到其他装置。相反，其他装置的信号或指令、数据、文件等也可以经过网络170并通过计算机装置200的通信接口230传递到计算机装置200中。通过通信接口230接收的信号或指令、数据等可以传递到处理器220或存储器210，而文件等可以存储在进一步包括在计算机装置200的存储介质(上述永久存储装置)中。

输入输出接口240可以是用于连接输入输出装置250的装置。例如，输入装置可以包括麦克风、键盘或鼠标等装置，而输出装置可以包括显示器、扬声器等装置。又比如，输入输出接口240还可以是用于连接触摸屏等输入和输出功能集成为一体的装置的装置。输入输出装置250还可以被构造成与计算机装置200一体的装置。

另外，在另一个实施例中，计算机装置200可以包括比图2的组件更少或更多的组件。然而，不需要明确地示出大部分的现有技术的组件。例如，计算机装置200可以被体现为包括上述输入输出装置250中至少一部分，或者还可以进一步包括收发器(transceiver)、数据库等其他组件。

图3是示出根据本发明的一个实施例的通信量控制系统的示例的图。图3示出了信息提供装置300、用户310、线下读物320以及服务器330。图3示出了一个服务器330，但也可以根据服务而存在多个服务器。

信息提供装置300可以是物理电子装置，其识别用户310的线下读物320中包含的文字，并将识别的文字转换为语音输出，从而向用户310朗读线下读物320。例如，信息提供装置300可以由通过图2说明的计算机装置200来实现，所述信息提供装置300可以包括用于识别线下读物320中包含的文字的摄像头301和用于输出语音的扬声器302，并且根据实施例，可以包括用于接收用户310的基于语音的指令的麦克风303。这种摄像头301、扬声器302以及麦克风303等可以包括在上述通过图2说明的输入输出装置250中。根据实施例，信息提供装置300还可以被构造成用于朗读线下读物320的专用装置。例如，信息提供装置300可以是以照明形式制造或者以人工智能扬声器形式制造的装置。

其中，线下读物320不限于书籍，只要是杂志或传单等包含文字的线下的读物即可。

信息提供装置300可以利用光学字符阅读器(Optical Character Reader，OCR)以识别文字。例如，信息提供装置300可以包括从通过摄像头输入的图像中识别文字的OCR引擎304。由于OCR技术本身是众所周知的，因此将省略具体说明。然而，在本发明的实施例中，OCR引擎304不仅是简单地识别文字，还可以响应于特定的触发进一步识别并提供手指坐标。

此时，OCR引擎304可以识别手指的指甲，并提取指甲在图像中的中央坐标作为手指坐标。另外，为了解决线下读物320和手指的各种位置，可以利用通过大量的学习图像来学习的机器学习。例如，机器学习模块可以通过大量的学习图像来学习以确定多个手指中的一个手指，所述学习图像包括关于在包含多个手指的图像中哪个手指是正确的信息。在这种情况下，OCR引擎304可将用于计算手指坐标的图像输入到经学习后的机器学习模块中，并在机器学习模块确定手指之后，计算并提供已确定手指的手指坐标。以上，对利用指甲的中央坐标的示例进行了说明，但不限于此。例如，手指坐标还可以包括手指末端的坐标。

另一方面，触发可以通过各种方式实现。例如，触发可基于用户310的语音发音而产生。当用户310把手指放在线下读物320的特定单词下方并发音(例如，“嗨，这个单词是什么意思？”，其中‘嗨’表示为了激活信息提供装置300的人工智能扬声器而预设的发音的一个示例，其可以根据设定而变化)以触发时，信息提供装置300可以通过麦克风303识别到用户310的发音，从而产生触发。在这种情况下，OCR引擎304可以响应于所产生的触发来识别和提供手指坐标。在另一个示例中，可以通过信息提供装置300提供的特定按钮的输入等来产生触发。只要是可以识别出期望得到特定单词的附加信息的用户310意图的方法，即可用作产生触发的事件而不受限制。例如，信息提供装置300可以周期性地拍摄线下读物320，以识别线下读物320的翻页。此时，当从拍摄的图像中识别出特定的指向工具或标记时，信息提供装置300可以产生触发。

在朗读线下读物320的过程中，OCR引擎304可以提供通过摄像头301输入的线下读物320的图像中至少一部分的文字识别结果。当在此过程中产生触发时，OCR引擎304可以一起提供与触发相关图像的文字识别结果和识别的手指坐标。在这种情况下，信息提供装置300可以指定对应于提供的手指坐标的单词，并可以提供被指定单词的附加信息。附加信息可基于存储在信息提供装置300的本地存储器的信息而生成，优选地，还可以基于由通过互联网等连接的服务器330获取的信息而生成。例如，服务器330可以是提供线上词典服务的服务器，或者是提供线上翻译服务的服务器。在这种情况下，信息提供装置300可以从服务器330获取单词的词典含义的信息或单词的翻译信息，并基于获取的信息可以生成和提供要提供给用户310的附加信息。

例如，信息提供装置300将附加信息转换为语音之后，通过扬声器302输出转换的语音，从而可以向用户310提供附加信息。附加信息到语音的转换可以利用众所周知的文转声(Text To Speech，TTS)技术来实现。

另一方面，根据实施例，OCR引擎304的文字识别和手指坐标的提供、用户310发音的识别和/或附加信息的语音转换等可以通过服务器330提供的服务来处理。例如，信息提供装置300可将通过摄像头301输入的图像中的至少一部分和触发传送到服务器330，并且可以在服务器330中进行图像中包含文字的识别和手指坐标的生成等。在这种情况下，信息提供装置300可以从服务器330接收文字识别结果、手指坐标等加以利用。与此类似地，还可以通过服务器330处理用户310发音的识别或附加信息的语音转换等。换句话说，在本说明书中信息提供装置300处理特定操作(例如，识别用户310的发音)的表述不排除信息提供装置300通过服务器330处理特定操作。

另一方面，OCR引擎304在作为文字识别结果识别的文本单元中设置并提供框(box)。此时，在OCR引擎304提供文字识别结果和手指坐标时，信息提供装置300可将距离手指坐标最近的框中的单词确定为用户310所意图的单词。此时，信息提供装置300可以测量框上的特定位置和手指坐标之间的距离。例如，信息提供装置300可以测量框的下端线中间点和手指坐标之间的距离。又比如，信息提供装置300可以测量手指坐标与框的下端线之间的距离。测量点和点之间的距离或点和线之间距离的方法是众所周知的，因此将省略具体说明。

另一方面，OCR引擎304在作为文字识别结果识别的文本单元设置并提供框(box)。此时，由于框的单元不一定是单词的单元，因此信息提供装置300可以通过自然语言处理(Natural Language Processing)校对结果搜索并识别分写单元的单词。另一方面，当一个框中包含多个单词时，还可以在识别的多个单词中选择距离手指坐标最近的单词。

另外，在对应于触发的图像中，可能存在用户310的手指遮盖需识别的单词的至少一部分的情况。在这种情况下，信息提供装置300很难获取要向用户310提供附加信息的单词。为了解决这个问题，信息提供装置300还可以识别在之前图像中对应于手指的单词。例如，在已获取手指坐标的状态下无法识别对应于手指坐标的框中的单词的情况下，信息提供装置300可以从之前的图像中的对应于手指坐标的框重新尝试识别单词。

图4至图6是示出在本发明的一个实施例中提供手指所指向的单词的信息的过程的示例的图。

图4示出用户(例如，图3的用户310)在用手指指向线下读物410上的特定单词的状态下说出“嗨，这个单词是什么意思？”等时，信息提供装置300通过摄像头301拍摄的图像400的示例。

图5示出信息提供装置300通过OCR引擎304从图像400中确定手指坐标的过程的示例。其中，手指坐标可以是图像400上的坐标，也可以是指甲的中心坐标，但不限于此。

图6示出信息提供装置300基于通过OCR引擎304提供的文字识别结果和手指坐标来确定距手指坐标最近的单词的过程的示例。在本实施例中，可以确定单词“meet”是距离手指坐标最近的单词。如上所述，信息提供装置300可基于框的下端线的中心位置(图像400上的位置)和手指坐标之间的距离来选择特定框，并将选择的框中包含的单词确定为对应于手指坐标的单词。然而，如上所述，框的位置不不限于下端线的中心位置。

在确定用户所意图的单词之后，信息提供装置300可以通过服务器330搜索已确定单词的词典含义或翻译结果等，以生成已确定的单词的附加信息，并可以将生成的附加信息转换为语音提供给用户。

图7是示出根据本发明的一个实施例的信息提供方法的示例的流程图。根据本实施例的信息提供方法可以通过计算机装置200来执行。此时，计算机装置200的处理器220可以被实现为根据存储器210中包括的操作系统的代码或至少一个计算机程序的代码执行控制指令(instruction)。其中，处理器220可以根据存储在计算机装置200中的代码所提供的控制指令来控制计算机装置200，以使计算机装置200执行图7的方法所包括的步骤(710至730)。

在步骤710中，计算机装置200可以在识别线下读物中包含的文字并用语音输出的过程中，响应于根据用户输入产生的触发，确定拍摄线下读物的图像上的手指坐标。例如，计算机装置200可将图像上识别的手指甲的中央坐标确定为所述手指坐标。然而，这只是一个示例，应容易理解还可以是将手指的末端用作手指坐标等各种实施例。

另一方面，计算机装置200可以根据通过用户的发音识别到预设的意图而产生触发。上述示例说明了利用“嗨，这个单词是什么意思？”等特定发音的例子，然而，还可以通过相同意图的不同表达(例如，“嗨，这个单词的含义是什么？”)产生触发。确定表达意图的技术已经是众所周知的。

另外，还可以在图像中识别出多个手指。此时，超出线下读物区域的手指，或者非手指的对象(例如，脚趾)等可以排除在识别之外。另外，距离线下读物中包含的文本超过预定距离以上的位置的手指也可以排除在识别之外。如果识别出多个位于距离线下读物中包含的文本预定距离以内的手指时，OCR引擎可以输出识别的多个手指的各个坐标。在这种情况下，计算机装置200可基于坐标和文字之间的距离，从OCR引擎输出的多个坐标中确定符合用户意图的坐标。

另一方面，计算机装置200可以在接收到图像后，将对应于触发的图像输入到经学习的机器学习模块中以确定图像中包含的多个手指中的一个，从而可以确定一个手指，并且还可以确定已确定手指的手指坐标。这种机器学习模块可以在一个图像上存在多个手指的情况下使用，以确定用户所意图的手指。根据实施例，OCR引擎可以在确定识别的手指的各个手指坐标之后，利用机器学习模块选择手指坐标中的一个手指坐标。在这种情况下，机器学习模块可以通过包含图像、多个手指坐标以及正确手指坐标的学习图像来学习以输出多个手指坐标中的一个手指坐标。

在步骤720中，计算机装置200可以确定在图像中包含的文字中的与已确定的手指坐标对应的单词。例如，如上所述，可以通过OCR以包含至少一个文字的框的单元来识别图像中包含的文字。在这种情况下，计算机装置200可以选择包含在距离手指坐标最近的框中的单词作为对应于所述手指坐标的单词。其中，距离可以包括手指坐标和形成框的四条线中的下端线之间的距离或者手指坐标和下端线的中间点之间的距离。另外，计算机装置200可以通过对框中包含的文字的自然语言处理(Natural Language Processing)从框中提取单词。这可用于框没有以单词单元区分文字的情况。

另外，在单词的至少一部分被手指遮盖而无法识别对应于手指坐标的单词的情况下，计算机装置200可以从拍摄线下读物的之前图像中识别对应于手指坐标的单词。

在步骤730中，计算机装置200可以提供已确定单词的附加信息。例如，计算机装置200可以从提供线上词典服务和线上翻译服务中至少一个的服务器中接收已确定单词的附加信息。此时，计算机装置200可将接收的附加信息转换为语音，并输出转换的语音以向用户提供附加信息。如上所述，可基于TTS技术将附加信息转换为语音，并且可以通过计算机装置200中包括的或者与计算机装置200连接的扬声器来实现语音的输出。另外，根据实施例，计算机装置200还可以不通过服务器而利用存储在计算机装置200的本地存储器的信息来生成和提供附加信息。

根据实施例，计算机装置200可以指定在步骤720中确定的单词的位置为朗读线下读物的开始位置，并从开始位置用语音输出识别的文字。换句话说，计算机装置200可以从用户用手指指示的单词开始朗读线下读物。后续将通过图12对本实施例进行更详细的说明。

根据另一个实施例，计算机装置200可以识别包含在步骤720中确定的单词的句子，并用语音将识别的句子重复输出多次。换句话说，计算机装置200可以将包含用户用手指指示的单词的句子重复朗读多次。后续将通过图13对本实施例进行更详细的说明。

图8是示出在本发明的一个实施例中一个手指指向且可以清楚地识别单词的情况的示例的图像。图8示出了一个手指指向文字“young”，且OCR引擎304可以清楚地识别对应文字“young”的情况的图像。此时，OCR引擎304可以提供如下表1所示的文字“young”的OCR识别结果和手指坐标。

[表1]

在表1中，“boundingBox”表示图像上框的四个角的坐标，“confidence”表示对应于该框而识别的文字的可靠性，“isVertical”表示识别的文字是否为纵向，“text”表示对应于该框而识别的文字。“group”可以是将在一次识别中得出的结果分组为一个组的基准，“subGroup”是在整个识别结果内基于排序(sorting)和位置上的距离而聚类的值，可用于判断该区域的精确度。另外，“fingertips”表示图像上手指的手指坐标，“succeeded”表示手指坐标的识别成功与否。在这种情况下，信息提供装置300可以计算如手指坐标[940，600]和框的坐标[897，588]之间的距离。信息提供装置300还可以计算识别的其他框与手指坐标之间的距离，并且可以选择距离最近的框。

下表2示出OCR引擎304可以从图8的图像中提供的整个文字识别结果的示例。

[表2]

图9是示出在本发明的一个实施例中多个手指指向且可以清楚地识别单词的情况的示例的图像。图9示出了一个手指指向文字“

(打招呼了)”并且在线下读物上还存在其他手指的情况的示例。

此时，下表3示出OCR引擎304从图9的图像中提供的文字“

(打招呼了)”的识别结果和手指坐标。

[表3]

如上所述，当识别出多个手指坐标时，可以利用机器学习等确定一个手指。或者，还可以基于识别的框的位置，提前排除距离在预定距离以上的手指坐标。

图10是示出在本发明的一个实施例中一个手指指向且文字虽被遮盖但可以识别单词的情况的示例的图像。图10示出了一个手指遮盖了文字“faster！”的一部分，但是还可以识别单词的情况的示例。

此时，下表4示出OCR引擎304从图10的图像中提供的文字“itfaster”的识别结果和手指坐标。

[表4]

另一方面，图10的示例示出了文字“it faster”被错误地识别为“itfaster”的情况，但这个可以通过自然语言处理等技术来分离。此时，如上所述，可以在两个单词“it”和“faster”中选择与手指坐标更近的单词“faster”，以用于提供附加信息。

图11是示出在本发明的一个实施例中多个手指指向且文字被遮盖的情况的示例的图像。图11示出了识别出四个手指，且其中一个手指遮盖了文字的一部分而难以识别单词的情况的示例。

此时，下表5示出OCR引擎304从图11的图像中提供的文字识别结果和手指坐标。

[表5]

此时，用户所意图的单词是“

(当然)”，但在表5中示出了识别为单词“

(当日)”的示例。在这种情况下，如上所述，信息提供装置300可以利用机器学习来选择四个手指坐标中的一个。如上所述，还可以提前排除与识别的文字的距离在预定距离以上的手指坐标。另外，在被手指遮盖的情况下，信息提供装置300还可以利用之前的图像进行再识别。

根据实施例，信息提供装置300可以要求用户重新指向或调整线下读物的位置等来重新进行识别。

另外，根据实施例，信息提供装置300可以在识别线下读物中包含的文字并用语音输出的过程中，提供可通过手指坐标设定开始位置以从线下读物的特定区域开始朗读的功能。

图12是示出在本发明的一个实施例中设定开始位置的过程的示例的图。图12示出了用户(例如，图3的用户310)在用手指指向线下读物1210上特定单词的状态下说出“嗨，从这里开始朗读”时，信息提供装置300通过摄像头301拍摄的图像1200的示例。如上所述，信息提供装置300可以提取手指坐标，并且可以确定拍摄线下读物1210的图像1200上的手指坐标，还可以确定在图像1200中包含的文字中的对应于已确定手指坐标的单词(在图12的实施例中是单词“My”)。此时，信息提供装置300可以从响应于用户的发音“嗨，从这里开始朗读”而确定的单词“My”开始朗读。换句话说，可将朗读的开始位置设定为单词“My”的位置。如上所述，信息提供装置300的朗读可以是识别线下读物中包含的文字并用语音输出的过程。在这种情况下，在图12的实施例中，信息提供装置300可以从作为开始位置的单词“My”开始输出与“My name is Gil-dong Hong.What’s your name”对应的语音。

如果对应于手指坐标的单词是“Gil-dong”，信息提供装置300可以从作为开始位置的单词“Gil-dong”开始输出与“Gil-dong Hong.What’s your name”对应的语音。

如上所述，根据本实施例，不仅可以从头朗读线下读物的文本，还可以从用户容易且简便地指定的开始位置开始朗读文本。

根据另一个实施例，信息提供装置300可以利用手指坐标来识别用户期望反复朗读的特定区域。换句话说，用户可以通过手指坐标直接指定期望反复朗读的特定区域。

图13是示出在本发明的一个实施例中设定重复区域的过程的示例的图。图13示出了用户(例如，图3的用户310)在用手指指向线下读物1310上的特定单词的状态下说出“嗨，这个句子朗读3遍”时，信息提供装置300通过摄像头301拍摄的图像1300的示例。在这种情况下，信息提供装置300可以提取手指坐标，并且可以确定拍摄线下读物1310的图像1300上的手指坐标。另外，信息提供装置300可以确定在图像1300中包含的文字中的对应于已确定手指坐标的单词(在图13的实施例中是单词“meet”)。此时，信息提供装置300可以识别出包含响应于用户的发音“嗨，这个句子朗读3遍”而确定的单词“meet”的句子“Nice to meetyou.”，并可以重复3次输出与识别的句子“Nice to meet you.”对应的语音。

如上所述，根据图13的实施例，由于信息提供装置300可以反复朗读多次包含用户指定的单词的句子，因此可以添加各种用于学习的功能。

根据实施例，用户可以在改变手指位置的同时说出“嗨，从这里到这里朗读3遍”。在这种情况下，信息提供装置还可以使用对应于用户发音中的第一次“这里”的第一手指坐标和对应于用户发音中的第二次“这里”的第二手指坐标来识别用户期望反复朗读的特定部分。

图14和图15是示出在本发明的一个实施例中设定重复区域的另一个示例的图。图14和图15示出了用户(例如，图3的用户310)在线下读物1410上改变手指位置的同时说出“嗨，从这里到这里朗读3遍”的情况的示例。此时，信息提供装置300可以从对应于说出第一次“这里”的时间点的第一图像1400中确定第一手指坐标，并且可以从对应于说出第二次“这里”的时间点的第二图像1500中确定第二手指坐标。根据实施例，还可以在用户的发音被全部分析完之后拍摄图像。在这种情况下，还可以通过从一个图像中识别的两个手指坐标来确定第一手指坐标和第二手指坐标。在这种情况下，可以通过分析第一手指坐标和第二手指坐标之间的文本来确定第一手指坐标和第二手指坐标中的哪个坐标在前。在另一个实施例中，用户的发音还可以被输入两次。例如，可以通过第一次发音“嗨，从这里”和第二次发音“嗨，到这里朗读3遍”的两次发音以及从与两次发音关联而拍摄的图像中分别确定第一手指坐标和第二手指坐标。另外，信息提供装置300可以在确定分别对应于第一手指坐标和第二手指坐标的单词[Nice，name]之后识别用户期望反复朗读的特定部分的文本[Nice to meet you.My name is Gil-dong Hong.What’s your name]。在这种情况下，信息提供装置300可以重复3次输出与识别的特定部分的文本[Nice to meet you.My nameis Gil-dong Hong.What’s your name]对应的语音。

在本实施例中，说明了使用“这里”来发音的示例，但还可以单独定义用于指定用户所期望的部分的开始部分和结束部分的发音来使用。例如，“嗨，从开始部分到结束部分朗读3遍”等，还可将“开始”和“结束”等特定术语提前定义为用于识别特定部分文本的术语来使用。

另一方面，还可将用于识别坐标的‘手指’替换为笔(pen)等指向工具。这种指向工具可以是为了识别坐标而提供的专用工具，也可以是QR码等特定的标记或用户任意使用的工具。标记的位置可以在摄像头的预览步骤中立即被识别，并在必要时用作触发。在这种情况下，上述说明的手指坐标可以表示在图像上识别的特定指向工具或标记位置的坐标。例如，将任意的笔用作指向工具的情况下，信息提供装置300可以在图像上识别出针对笔尖部分的图像坐标来使用。专用工具还可以包括预设的纹样或标识等，以使信息提供装置300容易在图像上识别坐标。在这种情况下，信息提供装置300可将预设的纹样或标识等存在于图像上的位置坐标识别为手指坐标来使用。为此，可将术语“手指坐标”扩展为针对用户所要指定位置的坐标“用户指定坐标”来使用。

另外，在上述实施例中，说明了在图像上检测出多个手指的情况下，利用机器学习等确定一个手指，或基于识别的框的位置提前排除距离在预定距离以上的手指坐标的示例。另一方面，根据实施例，当检测出多个手指坐标(用户指定坐标)时，信息提供装置300可以分别对多个手指坐标指定优先级。例如，可以根据阅读书籍的方式来确定优先级。在阅读书籍方式是从上到下且从左到右的情况下，信息提供装置300可以对多个手指坐标设定优先级，以使对于手指坐标的优先级，越是位于书籍上侧的手指坐标具有更高的优先级并且在高度相同/相似的情况下越是位于书籍左侧的手指坐标具有更高的优先级。之后，信息提供装置300可以根据设定的优先级依次提供各单词的附加信息。然而，在这种情况下，还可以基于识别的框的位置提前排除距离在预定距离以上的手指坐标。另外，还可以同时使用至少两个手指坐标，以同时指定用于朗读句子的开始位置和结束位置。

如上所述，根据本发明的实施例，在为了朗读用户的线下读物而识别线下读物中包含的文字的过程中，通过用于获取手指坐标的触发，文字识别引擎提供手指坐标，从而可以提供与手指坐标对应的单词的信息。另外，基于与手指坐标对应的单词，可以设定开始位置以从用户期望的部分开始朗读线下读物，从而可以增加用户的便利性。另外，可以提供能够重复朗读多次包含与手指坐标对应的单词的句子的功能。

以上说明的系统或装置可以通过硬件组件或硬件组件和软件组件的组合来实现。例如，在实施例中说明的装置和组件如同处理器、控制器、算术逻辑单元(arithmeticlogic unit，ALU)、数字信号处理器(digital signal processor)、微型计算机、现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑单元(programmablelogic unit，PLU)、微型处理器或者能够执行和响应于指令(instruction)的其他任何装置一样，可以使用至少一个通用计算机或专用计算机来实现。处理装置可以执行操作系统(OS)以及在所述操作系统上执行的至少一个软件应用程序。另外，处理装置还可以响应于软件的执行来访问、存储、操作、处理以及生成数据。为了方便理解，有时会以使用一个处理装置的情况进行说明，但本技术领域的普通技术人员应能知晓处理装置可以包括多个处理部件(processing element)和/或多个类型的处理部件。例如，处理装置可以包括多个处理器或者一个处理器和一个控制器。另外，并行处理器(parallel processor)等其他处理配置(processing configuration)也是可行的。

软件可以包括计算机程序(computer program)、代码(code)、指令(instruction)或其中至少一个的组合，并配置处理装置使其按需操作，或者可以独立地或结合地(collectively)命令处理装置。软件和/或数据可以具体化(embody)在某一类型的机器、组件(component)、物理装置、虚拟装置(virtual equipment)计算机存储介质以及装置上，以能够被处理装置分析或者向处理装置提供指令或数据。软件可以分布在通过网络连接的计算机系统上，并以分散的方法存储或执行。软件和数据可以被存储在至少一个计算机可读记录介质中。

根据实施例的方法可以被实现为可通过各种计算机装置执行的程序指令形式，以记录在计算机可读介质中。所述计算机可读介质可以单独或组合地包括程序指令、数据文件、数据结构等。介质可以是将可通过计算机执行的程序连续地存储或者为了执行或下载而临时存储的存储器。另外，介质可以是一个或多个硬件结合形式的各种记录装置或存储装置，其不限于直接与任意计算机系统连接的介质，也可以是分散存在于网络上的。介质的示例包括：诸如硬盘、软盘以及磁带的磁介质；诸如CD-ROM以及DVD的光记录介质；诸如软式光盘(floptical disk)的磁-光介质(magneto-optical medium)；以及ROM、RAM、闪存等，从而可以被构造成存储程序指令。另外，其他介质的示例可以有在流通应用程序的应用商城或供应和流通其他各种软件的网站、服务器等管理的记录介质或存储介质。程序指令的示例不仅包括诸如由编译器生成的机器语言代码，还包括使用解释器等能够在计算机上执行的高级语言代码。

如上所述，通过限定的实施例和附图对实施例进行了说明，然而本技术领域的普通技术人员可以根据上述记载进行各种修改和变形。例如，以与说明的方法不同的顺序执行所说明的技术，和/或以与说明的方法不同的形式结合或组合所说明的系统、结构、装置、电路等的组件，或者用其他组件或等同物将其代替或置换也可以实现适当的结果。

因此，其他体现、其他实施例以及等同于权利要求书的内容均应包括在权利要求书的范围内。

Claims

1.一种信息提供方法，用于包括至少一个处理器的计算机，所述信息提供方法包括以下步骤：

通过至少一个所述处理器，在识别线下读物中包含的文字并用语音输出的过程中，响应于根据用户输入产生的触发，确定在拍摄所述线下读物的图像上的用户指定坐标；

通过至少一个所述处理器，确定在所述图像中包含的文字中的对应于已确定的所述用户指定坐标的单词；以及

通过至少一个所述处理器，提供已确定的所述单词的附加信息。

2.根据权利要求1所述的信息提供方法，其特征在于，

在确定所述用户指定坐标的步骤中，

将在所述图像上识别的手指甲的中央坐标确定为所述用户指定坐标。

3.根据权利要求1所述的信息提供方法，其特征在于，

在确定所述用户指定坐标的步骤中，

将在所述图像上识别的指向工具的坐标确定为所述用户指定坐标。

4.根据权利要求1所述的信息提供方法，其特征在于，

通过光学字符阅读器以包含至少一个文字的框的单元识别在所述图像中包含的文字，

在确定所述单词的步骤中，

将距离所述用户指定坐标最近的框中包含的单词选择为对应于所述用户指定坐标的单词。

5.根据权利要求4所述的信息提供方法，其特征在于，

所述距离包括所述用户指定坐标和形成所述框的四条线中的下端线之间的距离，或者包括所述用户指定坐标和所述下端线的中间点之间的距离。

6.根据权利要求4所述的信息提供方法，其特征在于，

确定所述单词的步骤包括以下步骤：

通过对所述框中包含的文字的自然语言处理，从所述框中提取所述单词。

7.根据权利要求1所述的信息提供方法，其特征在于，

提供所述附加信息的步骤包括以下步骤：

从提供线上词典服务和线上翻译服务中的至少一个的服务器中接收已确定的所述单词的附加信息；

将接收的所述附加信息转换为语音；以及

输出转换的所述语音。

8.根据权利要求1所述的信息提供方法，其特征在于，

确定所述用户指定坐标的步骤包括以下步骤：

根据通过用户的发音识别的预设意图来产生所述触发。

9.根据权利要求1所述的信息提供方法，其特征在于，

确定所述用户指定坐标的步骤包括以下步骤：

在接收到图像后，将对应于所述触发的图像输入到经学习的机器学习模块中以确定图像中包含的多个手指中的一个，从而确定对应于所述触发的图像中包含的多个手指中的一个手指；以及

将已确定的所述手指的手指坐标确定为所述用户指定坐标。

10.根据权利要求1所述的信息提供方法，其特征在于，

在确定所述单词的步骤中，

在单词的至少一部分被手指或指向工具遮盖而无法识别对应于所述用户指定坐标的单词的情况下，从拍摄所述线下读物的之前图像中识别对应于所述用户指定坐标的单词。

11.根据权利要求1所述的信息提供方法，进一步包括以下步骤：

通过至少一个所述处理器，将已确定的所述单词的位置指定为朗读所述线下读物的开始位置；以及

通过至少一个所述处理器，从所述开始位置开始用语音输出识别的文字。

12.根据权利要求1所述的信息提供方法，进一步包括以下步骤：

通过至少一个所述处理器，识别包含已确定的所述单词的句子；以及

通过至少一个所述处理器，用语音重复多次输出识别的所述句子。

13.一种计算机可读记录介质，记录有用于在计算机装置中执行权利要求1至12中的任一项所述的方法的计算机程序。

14.一种计算机装置，其特征在于，包括：

至少一个处理器，用于执行计算机可读指令，

通过至少一个所述处理器，

在识别线下读物中包含的文字并用语音输出的过程中，响应于根据用户输入产生的触发，确定在拍摄所述线下读物的图像上的用户指定坐标，

确定在所述图像中包含的文字中的对应于已确定的所述用户指定坐标的单词，

提供已确定的所述单词的附加信息。

15.根据权利要求14所述的计算机装置，其特征在于，

为了确定所述用户指定坐标，通过至少一个所述处理器，

16.根据权利要求14所述的计算机装置，其特征在于，

通过光学字符阅读器以包含至少一个文字的框的单元识别所述图像中包含的文字，

为了确定所述单词，通过至少一个所述处理器，

17.根据权利要求14所述的计算机装置，其特征在于，

为了提供所述附加信息，通过至少一个所述处理器，

从提供线上词典服务和线上翻译服务中的至少一个的服务器中接收已确定的所述单词的附加信息，

将接收的所述附加信息转换为语音，

输出转换的所述语音。

18.根据权利要求14所述的计算机装置，其特征在于，

通过至少一个所述处理器，

将已确定的所述单词的位置指定为朗读所述线下读物的开始位置，

从所述开始位置开始用语音输出识别的文字。

19.根据权利要求14所述的计算机装置，其特征在于，

通过至少一个所述处理器，

识别包含已确定的所述单词的句子，

用语音重复多次输出识别的所述句子。