CN114118052A - 一种文本标记方法、装置、计算机设备及存储介质 - Google Patents

一种文本标记方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114118052A
CN114118052A CN202111437031.XA CN202111437031A CN114118052A CN 114118052 A CN114118052 A CN 114118052A CN 202111437031 A CN202111437031 A CN 202111437031A CN 114118052 A CN114118052 A CN 114118052A
Authority
CN
China
Prior art keywords
text
marked
key
information
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111437031.XA
Other languages
English (en)
Inventor
刘煊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gaotu Yunji Education Technology Co Ltd
Original Assignee
Beijing Gaotu Yunji Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gaotu Yunji Education Technology Co Ltd filed Critical Beijing Gaotu Yunji Education Technology Co Ltd
Priority to CN202111437031.XA priority Critical patent/CN114118052A/zh
Publication of CN114118052A publication Critical patent/CN114118052A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本公开提供了一种文本标记方法、装置、计算机设备及存储介质,其中,该方法包括:获取对教辅材料进行拍摄得到的待识别图像;对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本;基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。本公开实施例通过对拍摄的待识别图像对应的待标记文本进行标记,生成对应的、包含重点知识的标记信息,这样,可以使得用户在阅读教辅材料时,通过标记信息更方便地获取到该教辅材料中包含的重点知识,从而提升学习效率。

Description

一种文本标记方法、装置、计算机设备及存储介质
技术领域
本公开涉及线上教育技术领域,具体而言,涉及一种文本标记方法、装置、计算机设备及存储介质。
背景技术
在学生基于教辅材料进行线下学习的过程中,例如基于教材或是其他辅导书进行学习时,由于经验不足等原因,不能够准确地获取到当前阅读内容中的重点内容,甚至忽略了一部分重点内容,造成学习效率不高的问题。
发明内容
本公开实施例至少提供一种文本标记方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种文本标记方法,包括:
获取对教辅材料进行拍摄得到的待识别图像;
对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本;
基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。
一种可选的实施方式中,所述基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息,包括:
基于所述待标记文本,确定与所述待标记文本对应的目标科目;
将所述待标记文本与所述目标科目对应的重点文本进行匹配,并基于匹配结果,从所述重点文本中确定所述标记信息。
一种可选的实施方式中,所述将所述待标记文本与预设的重点文本进行匹配,包括:
从所述待标记文本中确定关键字信息;
基于所述关键字信息,从多段所述重点文本中,确定与所述关键字信息匹配的至少一段备选重点文本;
将所述待标记文本与各所述备选重点文本进行匹配,得到所述待标记文本与所述备选重点文本的匹配度。
一种可选的实施方式中,所述标记信息包括下述至少一种:标记文本、所述标记文本的重要性程度。
一种可选的实施方式中,所述标记信息包括所述标记文本,所述基于匹配结果,从所述重点文本中确定所述标记信息,包括:
基于所述待标记文本与各段备选重点文本分别对应的匹配度、以及预设的匹配度阈值,从所述备选重点文本中确定所述标记文本。
一种可选的实施方式中,所述标记信息包括所述标记文本的重要性程度;
所述基于匹配结果,从所述重点文本中确定所述标记信息,包括:
基于所述待标记文本与所述备选重点文本的匹配度、以及预设的匹配度阈值,从备选重点文本中,确定与所述待标记文本匹配的目标重点文本;
基于与所述待标记文本匹配的目标重点文本的数量,确定所述标记文本的重要性程度。
一种可选的实施方式中,所述重点文本包括下述内容中的一种或多种:
知识点讲解、习题、习题讲解、以及关联知识点。
一种可选的实施方式中,所述方法还包括:展示所述标记信息。
一种可选的实施方式中,所述展示所述标记信息,包括:
生成与所述标记信息对应的访问链接;以及,在所述待标记文本确定与所述标记信息关联的知识点信息;
将所述访问链接与所述知识点信息关联展示。
一种可选的实施方式中,所述将所述访问链接与所述知识点信息关联展示,包括:
对所述知识点信息进行颜色标记,并在所述访问链接与所述知识点信息之间添加关联标识;
展示所述颜色标记、所述知识点信息、所述访问链接、以及所述关联标识中的至少一种。
第二方面,本公开实施例提供了一种文本标记装置,包括:
获取模块,用于获取对教辅材料进行拍摄得到的待识别图像;
识别模块,用于对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本;
生成模块,用于基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。
一种可选的实施方式中,所述生成模块包括:
确定单元,用于基于所述待标记文本,确定与所述待标记文本对应的目标科目;
匹配单元,用于将所述待标记文本与所述目标科目对应的重点文本进行匹配,并基于匹配结果,从所述重点文本中确定所述标记信息。
一种可选的实施方式中,所述匹配单元具体用于:
从所述待标记文本中确定关键字信息;
基于所述关键字信息,从多段所述重点文本中,确定与所述关键字信息匹配的至少一段备选重点文本;
将所述待标记文本与各所述备选重点文本进行匹配,得到所述待标记文本与所述备选重点文本的匹配度。
一种可选的实施方式中,所述标记信息包括下述至少一种:标记文本、所述标记文本的重要性程度。
一种可选的实施方式中,所述匹配单元还用于:
基于所述待标记文本与各段备选重点文本分别对应的匹配度、以及预设的匹配度阈值,从所述备选重点文本中确定所述标记文本。
一种可选的实施方式中,所述标记信息包括所述标记文本的重要性程度;
所述匹配单元还用于:
基于所述待标记文本与所述备选重点文本的匹配度、以及预设的匹配度阈值,从备选重点文本中,确定与所述待标记文本匹配的目标重点文本;
基于与所述待标记文本匹配的目标重点文本的数量,确定所述标记文本的重要性程度。
一种可选的实施方式中,所述重点文本包括下述内容中的一种或多种:
知识点讲解、习题、习题讲解、以及关联知识点。
一种可选的实施方式中,还包括:展示模块,用于展示所述标记信息。
一种可选的实施方式中,所述展示模块包括:
生成单元,用于生成与所述标记信息对应的访问链接;以及,在所述待标记文本确定与所述标记信息关联的知识点信息;
展示单元,用于将所述访问链接与所述知识点信息关联展示。
一种可选的实施方式中,所述展示单元具体用于:
对所述知识点信息进行颜色标记,并在所述访问链接与所述知识点信息之间添加关联标识;
展示所述颜色标记、所述知识点信息、所述访问链接、以及所述关联标识中的至少一种。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的一种文本标记方法、装置、计算机设备及存储介质,通过对拍摄的待识别图像对应的待标记文本进行标记,生成对应的、包含重点知识的标记信息,这样,可以使得用户在阅读教辅材料时,通过标记信息更方便地获取到该教辅材料中包含的重点知识,从而提升学习效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种文本标记方法的流程图;
图2示出了本公开实施例所提供的另一种文本标记方法的流程图;
图3示出了本公开实施例所提供的展示标记信息的示意图;
图4示出了本公开实施例所提供的一种文本标记方法的流程示意图;
图5为本公开实施例所提供的一种文本标记装置的示意图;
图6示出了本公开实施例所提供的文本标记装置中,生成模块的具体示意图;
图7为本公开实施例所提供的另一种文本标记装置的示意图;
图8示出了本公开实施例所提供的文本标记装置中,展示模块的具体示意图;
图9示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,在一些教辅材料中,大多数的内容都是以通篇文本的形式来进行展示的,这样,当学生对该部分的内容不了解时,便不能够捕捉到该部分内容中的重点内容,如是否为考试要点、是否在往年考试中基于该部分出题等。例如,在历史教材中,往往会用大段的文字介绍一节课程的相关内容,文字内容繁多,学生在学习的时候没有办法进行有效的知识点把握。由此,使得学生虽然花费了一定的时间学习,但未能获取到最为重要的内容,从而在学习过程中的效率不高。
基于上述研究,本公开提供了一种文本标记方法,通过对拍摄的待识别图像对应的待标记文本进行标记,生成对应的、包含重点知识的标记信息,这样,可以使得用户在阅读教辅材料时,通过标记信息更方便地获取到该教辅材料中包含的重点知识,从而提升学习效率
为便于对本实施例进行理解,首先对本公开实施例所公开的一种文本标记方法进行详细介绍,本公开实施例所提供的文本标记方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该文本标记方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的一种文本标记方法的流程图,所述方法包括步骤S101~S103,其中:
S101:获取对教辅材料进行拍摄得到的待识别图像。
其中,所述教辅材料可以包括各年级科目的教材、辅导类书籍、习题册、工具书、课外读物等展示有文本内容的书籍。
示例性的,用户可以采用具有拍照功能的终端设备,对当前阅读的页面进行拍摄。具体的,可以通过目标应用程序,调用该终端设备对应的拍照功能,对教辅材料进行拍摄,获取到对应的待识别图像,其中,可以基于点击特定的控件来调用拍照功能,也可以通过发出语音指令来调用拍照功能;或者,可以预先利用拍照功能拍摄教辅材料,并通过目标应用程序读取该拍照功能拍摄的历史图像,选取任意一张图像为待识别图像;再者,可以将通过其他途径获取的图像作为待识别图像,在此不再赘述。
承接于上述S101,所述文本标记方法还包括:
S102:对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本。
具体的,在用户使用终端设备拍摄教辅材料得到待识别图像或是调用其他图像时,当目标应用程序获取到待识别图像后,便可以自动调用文本识别模块,对待识别图像进行文本识别,得到识别后的文本,并将其作为待标记文本。
示例性的,终端设备可以采用光学字符识别(Optical Character Recognition,OCR)技术对待识别图像进行文本识别,其能够将文本自动识别录入到终端设备或者是录入到应用程序对应的存储位置,这样便能够获取到基于待识别图像进行提取文本得到的文本,并将该文本确定为待标记文本。
承接于上述S102,所述文本标记方法还包括:
S103:基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。
其中,所述重点知识可以包括考试要求的考点、历年真题对应的考查知识点、易错、易混的知识点等。
标记信息可以包括标记文本、所述标记文本的重要性程度,例如,标记为涉及的考试要求的考点、涉及的历年真题考查知识点、涉及的易错、易混的知识点,并基于考查的频率、易失分程度等标记出各个标记文本的重要性程度,如非常重要、重要、一般等。
具体的,在获取到待标记文本之后,可以对该待标记文本进行分析处理,生成所述待标记文本中包含的重点知识的标记信息,可以包括以下步骤:
基于所述待标记文本,确定与所述待标记文本对应的目标科目;
将所述待标记文本与所述目标科目对应的重点文本进行匹配,并基于匹配结果,从所述重点文本中确定所述标记信息。
其中,所述重点文本包括下述内容中的一种或多种:
知识点讲解、习题、习题讲解、以及关联知识点。
示例性的,知识点讲解可以包括对教材上、或者考点的知识点分析,习题可以包括历年真题、易错题、典型题等,习题讲解可以包括对于习题中包括的知识点、考点的分析,关联知识点可以包括对涉及的知识点的扩展与延伸,在此不再赘述。
在本公开实施例中,可以首先对待标记文本进行分词处理,例如利用“结巴”(jieba)分词工具,分离出待标记文本中包括的实词部分,如名词、动词、形容词等,并基于分离出的实词确定与所述待标记文本对应的目标科目。
示例性的,当分离出的实词包括“直线”、“运动”、“匀速”等实词时,可以确定该待标记文本归属于物理学科,当分离出的实词包括“氧气”、“反应”、“燃烧”等实词时,可以确定该待标记文本归属于化学学科等,在此不再赘述。
在确定出待标记文本对应的目标科目之后,便可以将所述待标记文本与预设的重点文本进行匹配,具体包括:
从所述待标记文本中确定关键字信息;
基于所述关键字信息,从多段所述重点文本中,确定与所述关键字信息匹配的至少一段备选重点文本;
将所述待标记文本与各所述备选重点文本进行匹配,得到所述待标记文本与所述备选重点文本的匹配度。
其中,所有包含关键字的文本都可以作为备选重点文本
示例性的,可以基于一定的分词工具确定出待标记文本包括的关键字信息,例如:“直线”、“运动”、“匀速”等,并与预先确定的物理学科在数据库中存储的重点文本进行对比,确定出包含有上述关键字的至少一段备选重点文本。
在另一可能的实施方式中,在匹配资源充足时,还可以将待标记文本与数据库中存储的全部重点文本进行匹配,这样,可以减少学科交叉导致的匹配结果不准确或是无法从备选重点文本中确定标记文本的情况,但是同时由于匹配数量巨大,可能导致匹配过程较长等。
示例性的,当待标记文本为《沁园春·雪》对应的背景材料时,由于其对应的作者为历史人物,可能会确定出待标记文本对应的目标科目为历史学科,但是该待标记文本对应的学科应为语文学科,这样便可能导致从历史学科对应的重点文本中,无法确定与待标记文本对应的备选重点文本或者无法从确定的备选重点文本中确定所述标记文本,造成数据查找错误等。
具体的,当标记信息包括所述标记文本时,所述基于匹配结果,从所述重点文本中确定所述标记信息,包括:
基于所述待标记文本与各段备选重点文本分别对应的匹配度、以及预设的匹配度阈值,从所述备选重点文本中确定所述标记文本。
这里,由于不同版本、不同出版社对应的教辅材料针对同一重点文本的表述文字不尽相同,因此可能无法做到在数据库中预先存储的重点文本与待标记文本之间为100%的吻合度。所以可以通过将待标记文本与各备选重点文本进行匹配,得到所述待标记文本与各个备选重点文本的匹配度,或者是一致性程度,并当匹配度高于预设的阈值时,便可以确定待标记文本与某一备选重点文本匹配。
示例性的,假定预设的匹配度阈值设定为90%,当将待标记文本与各备选重点文本进行比对时,存在某一备选重点文本与待标记文本之间的匹配度大于匹配度阈值90%,则可以确定该备选重点文本为与待标记文本匹配的重点文本,并将该重点文本确定为标记文本。
具体的,当标记信息包括所述标记文本的重要性程度时,所述基于匹配结果,从所述重点文本中确定所述标记信息,包括:
基于所述待标记文本与所述备选重点文本的匹配度、以及预设的匹配度阈值,从备选重点文本中,确定与所述待标记文本匹配的目标重点文本;
基于与所述待标记文本匹配的目标重点文本的数量,确定所述标记文本的重要性程度。
类似的,可以参照上述描述确定与所述待标记文本匹配的目标重点文本,即基于待标记文本与所述备选重点文本的匹配度、以及预设的匹配度阈值,从备选重点文本中,确定与所述待标记文本匹配的、达到预设的匹配度阈值的目标重点文本。
具体的,当确定出目标重点文本之后,可以基于确定出的目标重点文本的数量来判定标记文本的重要性程度,当确定出的与待标记文本匹配的目标重点文本的数量越多时,其标记文本对应的重要性程度越高。例如,标记文本A对应的目标重点文本的数量为8个,标记文本B对应的目标重点文本的数量为3个,那么,标记文本A就相对于标记文本B更为重要,当存在重要性程度划分标准时,可以判定A文本为重要文本,B文本为一般文本。
在另一可能的实施方式中,也可以基于与待标记文本匹配的目标重点文本所具备的自身属性确定标记文本的重要性程度,例如,与标记文本A对应的目标重点文本均为重要文本,而与标记文本A对应的目标重点文本均为一般文本,那么可以判定标记文本A相对于标记文本B更为重要,当存在重要性程度划分标准时,可以判定A文本为重要文本,B文本为一般文本。这里,目标重点文本所具备的自身属性可以是工作人员规定的,也可以根据考查的强度、次数、易失分的统计等进行综合确定。
参见图2所示,为本公开实施例提供的另一种文本标记方法的流程图,所述方法包括步骤S101~S104。如图2所示,在本公开另一实施例中,承接于上述S103,本公开实施例提供的文本标记方法还包括:
S104:展示所述标记信息。
参阅图3,图3为本公开实施例所提供的展示标记信息的示意图。如图3所示,在基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息之后,可以在终端的显示界面展示生成的标记信息。
具体可以包括以下内容:
生成与所述标记信息对应的访问链接;以及,在所述待标记文本确定与所述标记信息关联的知识点信息;
将所述访问链接与所述知识点信息关联展示。
示例性的,可以将与待标记文本匹配的重点文本以超链接的形式展示与该待标记文本的附近位置。具体的,可以通过一键点击该超链接,便可以在终端设备的界面上自动出现重点文本匹配的相关内容,例如包括知识点讲解、习题、习题讲解、以及关联知识点等。
在一个可能的实施例中,在点击超链接显示超链接对应的文本内容后,可以对待标记文本进行背景显示、或是隐性显示,例如淡化待标记文本的颜色,突出显示超链接中涉及的文本内容。
在一个可能的实施例中,由于超链接中涉及一些知识点、或是习题,用户还可以对超链接中展示的内容进行点击,从而终端设备的界面可以跳转至对应的界面,展示知识点对应的解析内容、对应习题、延伸知识点等,或是习题对应的习题答案解析、相关知识点等,在此不再赘述。
在另一可能的实施例中,当标记信息内容较少时,可以直接将标记信息以文本形式展示待标记文本的预设区域。
在本公开实施例中,针对于与标记信息关联的知识点信息,可以将访问链接与所述知识点信息关联展示,具体的:
对所述知识点信息进行颜色标记,并在所述访问链接与所述知识点信息之间添加关联标识;
展示所述颜色标记、所述知识点信息、所述访问链接、以及所述关联标识中的至少一种。
其中,对所述知识点信息进行颜色标记可以包括文本字体颜色标记、文本背景颜色标记。文本字体颜色标记是将知识点信息的字体颜色改变为其他颜色,还可以基于知识点信息对应的重要性程度,将字体颜色改为红、黄、绿等多种颜色。文本背景颜色标记将知识点信息的背景颜色改变为其他颜色,也可以基于对应的重要性程度进行颜色改变。
在一些可能的实施方式中,还可以对知识点信息对应的文本字号进行调整,或是对该部分文本添加文字特效,例如闪光、倾斜、加粗等,在此不再赘述。
在本公开实施例中,为了确保用户明确访问链接与知识点信息之间的对应关系,还可以显示一些箭头、连接线等符号,或者在访问链接处标明知识点信息对应的关键字、或是序号等。这样,可以帮助用户更好地获取到教辅材料中涉及的重点文本,更好地提升学习效果,增强学习效率。
示例性的,如图3所示,虚线框内的文本为知识点信息,其对应的展示形式与其他文本有所不同,在其右上角位置标注一特定按钮,当用户点击该按钮时,便可以跳转至该按钮对应的超链接,并且该按钮与知识点信息之间存在一连接线,表明该按钮对应的信息为虚线框内的知识点信息对应的超链接按钮。
在另一实施例中,还可以将带有颜色标记的文本以文本、文档或是图片的形式进行存储,并支持对其进行下载、分享、打印等操作,方便用户在后续的学习过程中进行查阅。
本公开实施例通过对拍摄的待识别图像对应的待标记文本进行标记,生成对应的、包含重点知识的标记信息,这样,可以使得用户在阅读教辅材料时,通过标记信息更方便地获取到该教辅材料中包含的重点知识,从而提升学习效率。
参阅图4所示,为本公开实施例所提供的一种文本标记方法的流程示意图。如图4所示,基于对用户通过终端设备对教辅材料进行拍摄得到的待识别图像进行文本识别,得到待标记文本,并基于待标记文本包括的文本内容,确定与待标记文本对应的目标科目,例如英语、语文、地理、历史、政治等。之后,确定待标记文本中包括的关键字信息,并基于该关键字信息与数据库中存储的重点文本进行匹配判断处理,从而确定出于关键字信息匹配的至少一段备选重点文本。然后,基于待标记文本与各个备选重点文本之前的匹配度,确定出最终的标记文本,并确定出标记文本对应的重要性信息。基于确定的重要性信息对标记文本进行标记,例如对具有不同重要性程度的多个标记文本进行不同颜色的颜色处理,得到进行颜色处理后的目标文本,并将该目标文本展示给用户。
这样,可以使得用户在阅读教辅材料时,直观地获取到具有不同重要性程度的标记文本,从而可以针对重要性程度较高的文本着重进行学习,提高学习效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与文本标记方法对应的文本标记装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本标记方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图5、图6、图7、图8所示,图5为本公开实施例所提供的一种文本标记装置的示意图;图6为本公开实施例所提供的文本标记装置中,生成模块的具体示意图;图7为本公开实施例所提供的另一种文本标记装置的示意图;图8为本公开实施例所提供的文本标记装置中,展示模块的具体示意图。
如图5所示,所述文本标记装置包括:获取模块510、识别模块520、生成模块530;其中,
获取模块510,用于获取对教辅材料进行拍摄得到的待识别图像;
识别模块520,用于对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本;
生成模块530,用于基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。
一种可选的实施方式中,如图6所示,所述生成模块530包括:
确定单元531,用于基于所述待标记文本,确定与所述待标记文本对应的目标科目;
匹配单元532,用于将所述待标记文本与所述目标科目对应的重点文本进行匹配,并基于匹配结果,从所述重点文本中确定所述标记信息。
一种可选的实施方式中,所述匹配单元532具体用于:
从所述待标记文本中确定关键字信息;
基于所述关键字信息,从多段所述重点文本中,确定与所述关键字信息匹配的至少一段备选重点文本;
将所述待标记文本与各所述备选重点文本进行匹配,得到所述待标记文本与所述备选重点文本的匹配度。
一种可选的实施方式中,所述标记信息包括下述至少一种:标记文本、所述标记文本的重要性程度。
一种可选的实施方式中,所述匹配单元532还用于:
基于所述待标记文本与各段备选重点文本分别对应的匹配度、以及预设的匹配度阈值,从所述备选重点文本中确定所述标记文本。
一种可选的实施方式中,所述标记信息包括所述标记文本的重要性程度;
所述匹配单元532还用于:
基于所述待标记文本与所述备选重点文本的匹配度、以及预设的匹配度阈值,从备选重点文本中,确定与所述待标记文本匹配的目标重点文本;
基于与所述待标记文本匹配的目标重点文本的数量,确定所述标记文本的重要性程度。
一种可选的实施方式中,所述重点文本包括下述内容中的一种或多种:
知识点讲解、习题、习题讲解、以及关联知识点。
一种可选的实施方式中,如图7所示,还包括:
展示模块540,用于展示所述标记信息。
一种可选的实施方式中,如图8所示,所述展示模块540包括:
生成单元451,用于生成与所述标记信息对应的访问链接;以及,在所述待标记文本确定与所述标记信息关联的知识点信息;
展示单元452,用于将所述访问链接与所述知识点信息关联展示。
一种可选的实施方式中,所述展示单元452具体用于:
对所述知识点信息进行颜色标记,并在所述访问链接与所述知识点信息之间添加关联标识;
展示所述颜色标记、所述知识点信息、所述访问链接、以及所述关联标识中的至少一种。
本公开实施例通过对拍摄的待识别图像对应的待标记文本进行标记,生成对应的、包含重点知识的标记信息,这样,可以使得用户在阅读教辅材料时,通过标记信息更方便地获取到该教辅材料中包含的重点知识,从而提升学习效率
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的文本标记方法,本公开实施例还提供了一种计算机设备,如图9所示,为本公开实施例提供的计算机设备结构示意图,包括:
处理器901、存储器902、和总线903;存储器902用于存储执行指令,包括内存9021和外部存储器9022;这里的内存9021也称内存储器,用于暂时存放处理器901中的运算数据,以及与硬盘等外部存储器9022交换的数据,处理器901通过内存9021与外部存储器9022进行数据交换,当所述计算机设备运行时,所述处理器901与所述存储器902之间通过总线903通信,使得所述处理器901执行以下指令:
获取对教辅材料进行拍摄得到的待识别图像;
对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本;
基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本标记方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的文本标记方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (13)

1.一种文本标记方法,其特征在于,包括:
获取对教辅材料进行拍摄得到的待识别图像;
对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本;
基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息,包括:
基于所述待标记文本,确定与所述待标记文本对应的目标科目;
将所述待标记文本与所述目标科目对应的重点文本进行匹配,并基于匹配结果,从所述重点文本中确定所述标记信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述待标记文本与预设的重点文本进行匹配,包括:
从所述待标记文本中确定关键字信息;
基于所述关键字信息,从多段所述重点文本中,确定与所述关键字信息匹配的至少一段备选重点文本;
将所述待标记文本与各所述备选重点文本进行匹配,得到所述待标记文本与所述备选重点文本的匹配度。
4.根据权利要求3所述的方法,其特征在于,所述标记信息包括下述至少一种:标记文本、所述标记文本的重要性程度。
5.根据权利要求4所述的方法,其特征在于,所述标记信息包括所述标记文本,所述基于匹配结果,从所述重点文本中确定所述标记信息,包括:
基于所述待标记文本与各段备选重点文本分别对应的匹配度、以及预设的匹配度阈值,从所述备选重点文本中确定所述标记文本。
6.根据权利要求4所述的方法,其特征在于,所述标记信息包括所述标记文本的重要性程度;
所述基于匹配结果,从所述重点文本中确定所述标记信息,包括:
基于所述待标记文本与所述备选重点文本的匹配度、以及预设的匹配度阈值,从备选重点文本中,确定与所述待标记文本匹配的目标重点文本;
基于与所述待标记文本匹配的目标重点文本的数量,确定所述标记文本的重要性程度。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述重点文本包括下述内容中的一种或多种:
知识点讲解、习题、习题讲解、以及关联知识点。
8.根据权利要求1-6任一项所述的方法,其特征在于,还包括:展示所述标记信息。
9.根据权利要求8所述的方法,其特征在于,所述展示所述标记信息,包括:
生成与所述标记信息对应的访问链接;以及,在所述待标记文本确定与所述标记信息关联的知识点信息;
将所述访问链接与所述知识点信息关联展示。
10.根据权利要求9所述的方法,其特征在于,所述将所述访问链接与所述知识点信息关联展示,包括:
对所述知识点信息进行颜色标记,并在所述访问链接与所述知识点信息之间添加关联标识;
展示所述颜色标记、所述知识点信息、所述访问链接、以及所述关联标识中的至少一种。
11.一种文本标记装置,其特征在于,包括:
获取模块,用于获取对教辅材料进行拍摄得到的待识别图像;
识别模块,用于对所述待识别图像进行文本识别,得到所述待识别图像中的待标记文本;
生成模块,用于基于所述待标记文本,生成所述待标记文本中包含的重点知识的标记信息。
12.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至10任一项所述的文本标记方法的步骤。
13.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至10任一项所述的文本标记方法的步骤。
CN202111437031.XA 2021-11-29 2021-11-29 一种文本标记方法、装置、计算机设备及存储介质 Pending CN114118052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111437031.XA CN114118052A (zh) 2021-11-29 2021-11-29 一种文本标记方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111437031.XA CN114118052A (zh) 2021-11-29 2021-11-29 一种文本标记方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114118052A true CN114118052A (zh) 2022-03-01

Family

ID=80367798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111437031.XA Pending CN114118052A (zh) 2021-11-29 2021-11-29 一种文本标记方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114118052A (zh)

Similar Documents

Publication Publication Date Title
CN112087656B (zh) 在线笔记生成方法、装置及电子设备
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN113343972A (zh) 一种阅卷方法、装置、电子设备及存储介质
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
CN112149680A (zh) 错字检测识别方法、装置、电子设备及存储介质
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
CN111723213A (zh) 学习数据获取方法及电子设备、计算机可读存储介质
CN110717312B (zh) 一种文本标注方法及装置
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN112860845A (zh) 一种试题检索方法、装置、电子设备及存储介质
CN111079489B (zh) 一种内容识别方法及电子设备
CN111241276A (zh) 题目搜索方法、装置、设备及存储介质
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN113779482B (zh) 一种生成前端代码的方法及装置
CN116071769A (zh) 表格识别方法、装置、非易失性存储介质和计算机设备
CN114118052A (zh) 一种文本标记方法、装置、计算机设备及存储介质
CN114647682A (zh) 一种习题整理方法、装置、电子设备以及存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination