CN113486650A - 一种句子扫查方法、装置及存储介质 - Google Patents

一种句子扫查方法、装置及存储介质 Download PDF

Info

Publication number
CN113486650A
CN113486650A CN202110745542.1A CN202110745542A CN113486650A CN 113486650 A CN113486650 A CN 113486650A CN 202110745542 A CN202110745542 A CN 202110745542A CN 113486650 A CN113486650 A CN 113486650A
Authority
CN
China
Prior art keywords
sentence
scanning
word
teaching material
key words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110745542.1A
Other languages
English (en)
Inventor
肖远辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan ELF Education Software Co Ltd
Original Assignee
Dongguan ELF Education Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan ELF Education Software Co Ltd filed Critical Dongguan ELF Education Software Co Ltd
Priority to CN202110745542.1A priority Critical patent/CN113486650A/zh
Publication of CN113486650A publication Critical patent/CN113486650A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开一种句子扫查方法、装置及存储介质。该方法包括:根据用户当前学习的教材文件,获取教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,元素信息表包括教材文件中所有包含单个字词元素的句子的句子信息;获取扫描笔识别得到的扫描字段,对扫描字段进行分词处理,获取扫描字段包含的一个或多个关键字词;调取与关键字词相同的字词元素的元素信息表,获取关键字词的句子信息;根据关键字词的句子信息,确定扫描字段所属的句子,并将该句子进行播放或展示。采用上述技术手段,解决现有扫描笔无法根据句子部分字段对应播放或翻译完整句子的问题,提高用户使用体验。

Description

一种句子扫查方法、装置及存储介质
技术领域
本申请实施例涉及智能学习技术领域,尤其涉及一种句子扫查方法、装置及存储介质。
背景技术
现在中小学生会要求对英语课文进行朗读,但对于刚开始学习的英语课文,学生并不能熟练朗读一些句子。此时需要学生使用扫描笔中的课本扫描朗读功能,扫描该英语课文中的句子,扫描笔播放识别到的扫描句子。
但现有扫描笔只能对识别到的扫描句子进行播放,即学生需要从头到尾对需要播放的句子进行扫描,扫描笔才能完整播放该句子。对于一些长句子,如果学生想要扫描笔完整播放或翻译该长句子,需要花费一些精力从头到尾扫描该长句子,影响学生的使用体验。
发明内容
本申请实施例提供一种句子扫查方法、装置及存储介质,解决现有扫描笔无法根据句子部分字段对应播放或翻译完整句子的问题。
在第一方面,本申请实施例提供了一种扫描笔的句子扫查方法,包括:
根据用户当前学习的教材文件,获取所述教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,所述元素信息表包括所述教材文件中所有包含单个字词元素的句子的句子信息;
获取扫描笔识别得到的扫描字段,对所述扫描字段进行分词处理,获取所述扫描字段包含的一个或多个关键字词;
调取与所述关键字词相同的所述字词元素的所述元素信息表,获取所述关键字词的句子信息;
根据所述关键字词的句子信息,确定所述扫描字段所属的句子,并将该句子进行播放或展示。
进一步的,所述根据用户当前学习的教材文件,获取所述教材文件的元素信息表包括:
所述根据用户当前学习的教材文件,获取所述教材文件的字词元素及与单个字词元素建立映射关系的元素信息表包括:
获取扫描笔识别到的教材名称,根据所述教材名称确定对应的教材文件;
获取与所述教材文件关联保存的字词元素和与单个字词元素建立映射关系的元素信息表。
进一步的,所述获取与所述教材文件关联保存的字词元素和与单个字词元素建立映射关系的元素信息表包括:
根据扫描笔识别到的教材名称,下载所述教材名称对应的教材文件;
对所述教材文件中每页的句子进行分词处理,提取该句子包含的字词元素;
对所有提取到的字词元素进行去重处理,保留所述教材文件中不同的字词元素;
将保留的字词元素和所属句子的句子信息关联保存为所述元素信息表,并将所述元素信息表与所述教材文件关联保存,所述句子信息包括所述字词元素在所属句子中的排序和所述字词元素所属句子的教材页码。
进一步的,所述对所述扫描字段进行分词处理,获取所述扫描字段包含的一个或多个关键字词包括:
若所述扫描字段中同一字符匹配到不同的词元素,则将包含字符最多的词元素确定为所述扫描字段包含的关键词。
进一步的,所述根据所述关键字词的句子信息,确定所述扫描字段所属的句子包括:
将每个所述关键字词所属的句子进行比较,确定出包含所有关键字词的交集句子;
在确定出一个包含所有关键字词的交集句子时,确定该交集句子为所述扫描字段所属的句子。
进一步的,所述根据所述关键字词的句子信息,确定所述扫描字段所属的句子包括:
在确定出多个包含所有关键字词的交集句子时,根据所述关键字词在所述交集句子中的排序和所述关键字词在所述扫描字段中的排序,确定包含所述扫描字段的权重句子;
在确定出一个包含所述扫描字段的权重句子时,确定该权重句子为所述扫描字段所属的句子。
进一步的,所述根据所述关键字词在所述交集句子中的排序和所述关键字词在所述扫描字段中的排序,确定包含所述扫描字段的权重句子包括:
按照所述交集句子的字词元素的排序,依次将所述交集句子中的字词元素与扫描字段的关键字词进行匹配;
在匹配到相同的关键字词时,累加所述交集句子的单位权重分数,并将下一字词元素与下一关键字词进行比较;
在连续匹配到相同的关键字词时,累加上一次累加的权重分数的N倍(N>1),在匹配到不连续的关键字词时,累加单位权重分数;
在匹配到所述扫描字段的所有关键字词后,计算所述交集句子的权重分数;
确定所述权重分数满足预设权重阈值的交集句子为包含所述扫描字段的权重句子。
进一步的,所述根据所述关键字词的句子信息,确定所述扫描字段所属的句子包括:
在确定出多个包含所述扫描字段的权重句子时,获取所述教材文件的历史扫描记录,从所述历史扫描记录中获取所述扫描笔识别到的扫描内容的页码;
将所述扫描内容的页码与所述权重句子的页码进行比较,确定最接近所述扫描内容的权重句子为所述扫描字段所属的句子。
在第二方面,本申请实施例提供了一种扫描笔的句子扫查装置,包括:
信息获取模块,被配置为根据用户当前学习的教材文件,获取所述教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,所述元素信息表包括所述教材文件中所有包含单个字词元素的句子的句子信息;
分词提取模块,被配置为获取扫描笔识别得到的扫描字段,对所述扫描字段进行分词处理,获取所述扫描字段包含的一个或多个关键字词;
句子获取模块,被配置为调取与所述关键字词相同的所述字词元素的所述元素信息表,获取所述关键字词的句子信息;
句子确定模块,被配置为根据所述关键字词的句子信息,确定所述扫描字段所属的句子,并将该句子进行播放或展示。
在第三方面,本申请实施例提供了一种扫描笔,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的扫描笔的句子扫查方法。
在第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的扫描笔的句子扫查方法。
上述扫描笔的句子扫查方法、装置、设备及存储介质,根据用户当前学习的教材文件,获取教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,元素信息表包括教材文件中所有包含单个字词元素的句子的句子信息;获取扫描笔识别得到的扫描字段,对扫描字段进行分词处理,获取扫描字段包含的一个或多个关键字词;调取与关键字词相同的字词元素的元素信息表,获取关键字词的句子信息;根据关键字词的句子信息,确定扫描字段所属的句子,并将该句子进行播放或展示。通过上述技术手段,对扫描字段进行分词处理,获取组成扫描字段的关键字词,将关键字词查询当前学习的教材文件的元素信息表,以确定各关键字词所属的句子。将各关键字词所属的句子进行比较,确定包含所有关键字词的句子,并根据扫描字段中的关键字词的排序以及当前学习的教材页码,从包含所有关键字词的句子中唯一确定出该扫描字段所属的句子,实现精确定位用户想要扫描笔播放或展示的长句,解决现有扫描笔无法根据句子部分字段对应播放完整句子的问题,提高用户的使用体验。
附图说明
图1是本申请一个实施例提供的一种扫描笔的句子扫查方法的流程图;
图2是本申请实施例提供的教材页面的示意图;
图3是本申请实施例提供的扫描笔显示屏的示意图;
图4是本申请一个实施例提供的一种扫描笔的句子扫查装置的结构示意图;
图5是本申请一个实施例提供的一种扫描笔的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请实施例中提供的扫描笔的句子扫查方法可以由扫描笔的句子扫查装置执行,该扫描笔的句子扫查装置可以通过软件和/或硬件的方式实现,该扫描笔的句子扫查装置可以是两个或多个物理实体构成,也可以是一个物理实体构成。例如,扫描笔的句子扫查装置可以是扫描笔本身,也可以运行在扫描笔处理器中的软件程序。
为了便于理解,实施例中以扫描笔为扫描笔的句子扫查装置进行示例性描述。
图1是本申请一个实施例提供的一种扫描笔的句子扫查方法的流程图。参考图1,该扫描笔的句子扫查方法包括:
S110、根据用户当前学习的教材文件,获取教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,元素信息表包括教材文件中所有包含单个字词元素的句子的句子信息。
示例性的,现在中小学的英文老师会让学生提前预习课本里的课文,对课文进行朗读以熟悉课文,课文中可能包含一些长句,刚开始学习该课文的学生不太熟悉长句中的停顿以及单词的发音,使得学生并不能流利朗读这些长句。因此,学生在预习课文时,可以使用扫描笔扫描课文中的长句,由扫描笔对该长句进行播放,学生可以跟读扫描笔播放的长句。但现有扫描笔完整播放该句子时,需要用户花费一些精力从头到尾扫描该长句,影响用户的使用体验。对此,本实施例提供的扫描笔的句子扫查方法,无需用户从头到尾扫描长句,只需用户使用扫描笔扫描想要播放的长句子的部分字段,并可根据学生扫描到的字段,精确定位该字段所属长句,简化长句播放操作,提高操作便利性。
其中,教材文件为用户当前学习课文所属的纸质课本教材对应的电子课本教材。扫描笔事先录入中小学的各种版本的电子课本教材,用户可在扫描笔中选择合适版本的电子课本教材进行下载。电子课本教材与纸质课本教材包含的页码和页面内容均相同,电子课本教材中某一页码的页面内容中的句子与纸质课本教材中同一页码的页面内容中的句子相同。参考图2,纸质课本教材中的第19页的页面内容包含扫描字段,相应的,电子课本教材的第19页的页面内容也包含该扫描字段。因此可通过电子课本教材中的各教材页面内容确定包含该扫描字段的句子。进一步的,教材文件的字词元素是指教材文件中所有不重复的字元素和词元素,与单个字词元素建立映射关系的元素信息表是指包含一个字元素或一个词元素的句子的句子信息集合,句子信息包括该字元素或词元素在所属句子中的排序和所属句子的教材页码。其中,字词元素可以是汉字,也可以是外语单词。
在一个实施例中,事先制作教材文件的字词元素的元素信息表,建立字词元与对应元素信息表之间的映射关系,并将字词元素以及对应的元素信息表与该教材文件关联保存。在确定用户当前学习的教材文件后可直接获取与该教材文件关联存储的元素信息表。据此,获取所述教材文件的字词元素以及对应的元素信息表的步骤包括S1101-S1102:
S1101、获取扫描笔识别到的教材名称,根据所述教材名称确定对应的教材文件。
示例性的,当用户想要使用扫描笔播放或展示当前学习教材的长句时,事先使用扫描笔扫描纸质课本教材的教材名称,扫描笔识别到教材名称,并从事先录入的课本教材中查询对应的电子课本教材。除此之外,用户还可以通过语音输入扫描笔,以查询当前学习的纸质课本教材对应的电子课本教材。其中,如果用户是第一次使用扫描笔扫描该教材,扫描笔会根据识别到的教材名称从事先录入的课本教材中查询并下载对应的电子课本教材。
S1102、获取与所述教材文件关联保存的元素信息表。
示例性的,在获取到当前学习的教材文件后,获取与该教材文件关联存储的元素信息表。其中,元素信息表可以是事先在录入电子课本教材时,通过电脑端根据电子课本教材中的课文内容制作得到,并将该电子课本教材的字词元素对应的元素信息表导入扫描笔中,与扫描笔中的电子课本教材关联存储;也可以是在下载教材文件时,通过扫描笔根据教材文件中的课文内容得到,并与教材文件关联存储。其中,通过扫描笔制作元素信息表并建立字词元素与元素信息表之间的映射关系的步骤包括S11021-S11024:
S11021、根据扫描笔识别到的教材名称,下载教材名称对应的教材文件。
示例性的,由于在本实施例中每次执行句子扫查方法时都会使用到当前学习教材文件的元素信息表,因此在用户第一次使用扫描笔扫描该教材时,获取该教材的教材名称,根据该教材名称从事先录入的课本教材中查询对应的电子课本教材,并进行下载。在下载该教材文件后,获取该教材文件中所有教材页面的课文内容。
S11022、对教材文件中每页的句子进行分词处理,提取该句子包含的字词元素。
示例性的,对每个教材页面的课文内容中的句子与预设的词库进行匹配,以根据词库中的词对该句子进行分词处理,将匹配到词的连续字符确定为句子的词元素,将匹配不到词的字符确定为句子的字元素。其中,在分词处理时,若句子中同一字符被匹配到两个词元素,则将包含字符最多的词元素确定为该句子包含的词元素。例如,句子“这是一个关键词”,在将句子与预设的词库进行匹配时,若词库中包括“关键”和“关键词”,则可确定该句子匹配到“关键”和“关键词”这两个词元素,那么将“关键词”确定为句子包含的词元素。
S11023、对所有提取到的字词元素进行去重处理,保留所述教材文件中不同的字词元素。
示例性的,对所有句子包含的字词元素进行去重处理,将保留的字词元素汇集成该教材文件中所有不同字词元素的元素集合。其中,字元素和词元素即使部分字符相同,也属于不同元素。在该实施例中,在生成元素集合时,对字词元素进行二进制编码排序,以便后续更快速查询与扫描字段匹配的字词元素。
S11024、将保留的字词元素和所属句子的句子信息关联保存为元素信息表,并将元素信息表与教材文件关联保存,句子信息包括字词元素在所属句子中的排序和字词元素所属句子的教材页码。
示例性的,将元素集合中的每个字词元素所属的句子的句子信息关联保存制作成元素信息表。将元素信息表与对应的字词元素关联保存,建立字词元素与对应元素信息表的映射关系。将元素集合和所有元素信息表与教材文件关联保存。
在该实施例中,保留元素是指元素集合中的字词元素,句子信息包括字词元素在所属句子中的排序和字词元素所属句子的教材页码。在整理出保留元素的所属句子后,根据保留元素在各个所属句子中的排序,确定保留元素在所属句子中的序列号,以通过序列号表示该保留元素在所属句子中的排序。示例性的,以字词元素为英文单词为例。给教材文件中的每个句子进行编号,在元素信息表中各单词所属句子以编号形式与对应单词关联保存。例如,长句“It’s also probably a good idea for parents to allow teenagers tostudy in groups during the evening”的编号为20,则在元素信息表中,属于该长句的单词如“teenagers”和“allow”等关联保存编号20。除此之外,元素信息表中的每个单词关联保存该单词在所属句子中的序列号。例如,单词“teenagers”在编号20的句子中排第11,则在元素信息表中,将单词“teenagers”与编号20以及排序第11关联保存。以及编码20的句子在教材文件中所属的教材页码为19,则将页码19与编号20关联保存。表1是本申请实施例提供的元素信息表。
表1
Figure BDA0003142591130000081
如表1所示,在元素信息表中,“teenagers”所属句子的句子编号、序列号句子所属页码与“teenagers”并排存储。
S120、获取扫描笔识别得到的扫描字段,对所述扫描字段进行分词处理,获取所述扫描字段包含的一个或多个关键字词。
其中,扫描字段为用户使用扫描笔扫描的当前学习课文中的句子字段。当前学习课文属于用户当前学习的课文教材中某一教材页面中的内容,图2是本申请实施例提供的教材页面的示意图。如图2所示,假设用户想要扫描笔播放的长句为“It’t also probablya good idea for parents to allow teenagers to study in groups during theevening”,而该长句中的“allow teenagers to study”为用户使用扫描笔扫描的句子字段。当用户使用扫描笔扫描该句子字段时,扫描笔笔头安装的摄像头采集到包含该句子字段的图像,对该图像进行文字识别,即得到该扫描字段。其中,关键字词是指组成扫描字段的各个单词。示例性的,对扫描字段“allow teenagers to study”进行分词处理,得到组成扫描字段的单词为“allow”、“teenagers”、“to”和“study”。
在一个实施例中,若扫描字段中同一字符匹配到不同的词元素,则将包含字符最多的词元素确定为扫描字段包含的关键词。示例性的,以字词元素为汉字为例,将扫描字段的字符与预设的汉字词库中的词进行匹配,将匹配到词的连续字符确定为句子的词元素,将匹配不到词的字符确定为句子的字元素。其中,在分词处理时,若句子中同一字符被匹配到两个词元素,则将包含字符最多的词元素确定为该句子包含的词元素。例如,句子“这是一个关键词”,在将句子与预设的词库进行匹配时,若词库中包括“关键”和“关键词”,则可确定该句子匹配到“关键”和“关键词”这两个词元素,那么将“关键词”确定为句子包含的词元素。
S130、调取与关键字词相同的字词元素的元素信息表,获取关键字词的句子信息。
示例性的,参考表1,根据扫描字段的关键字词“teenagers”查询元素信息表中对应的单词,得到关键字词“teenagers”属于编号20和编号50的句子,进而得到关键字词“teenagers”在编号20的句子中排第11,在编号50的句子中排第15,以及编号20的句子属于19页,编号50的句子属于45页。
进一步的,根据扫描字段的所有关键字词查询元素信息表中对应的字词元素,以获取到每个关键字词所属句子的编号、序列号和页码。
S140、根据关键字词的句子信息,确定扫描字段所属的句子,并将该句子进行播放或展示。
其中,扫描字段所属的句子是指用户在纸质课本教材的课文内容中扫描的字段所属的句子,即扫描字段所属的句子具有唯一性,其只存在于用户当前学习的教材页面。示例性的,扫描字段所属的句子会包含该扫描字段,即扫描字段所属的句子会包含扫描字段中的所有关键字词,相应的,扫描字段所属的句子即为扫描字段中关键字词所属的句子。基于此,本实施例通过将每个关键字词的句子信息进行比较,确定出包含所有关键字词的句子,以便根据该包含所有关键字词的句子的句子信息确定扫描字段所属的句子。其中,根据关键字词所属句子确定扫描字段所属句子的步骤包括S1401-S1402:
S1401、将每个关键字词所属的句子进行比较,确定出包含所有关键字词的交集句子。
示例性的,根据元素信息表中查询该关键字词所属句子的句子编号,将所有关键字词所属句子的句子编号进行比较,确定产生交集的句子编号为包含所有关键字词的句子。例如,扫描字段“allow teenagers to study”的关键字词“allow”、“teenagers”、“to”和“study”所属句子的句子编号均包括编号20,将“allow”、“teenagers”、“to”和“study”对应的所有句子编号进行比较,可得到交集编号20,进而确定编号20对应的句子包含扫描字段的所有关键字词。
S1402、在确定出一个包含所有关键字词的交集句子时,确定该交集句子为扫描字段所属的句子。
示例性的,如果可得唯一的交集编号,即可确定该交集编号对应的句子为扫描字段所属的长句。
进一步的,如果得到多个交集编号,则根据交集编号对应的句子中关键字词的排序,以及扫描字段中关键字词的排序,确定扫描字段所属的长句。其中,根据关键字词的排序确定扫描字段所属句子的步骤包括S1403-S1404:
S1403、在确定出多个包含所有关键字词的交集句子时,根据所述关键字词在所述交集句子中的排序和所述关键字词在所述扫描字段中的排序,确定包含所述扫描字段的权重句子。
示例性的,扫描字段属于其所属句子中的部分连续字段,扫描字段中各关键字词之间的排序和所属长句中对应的各关键字词之间的排序是一致,因此可将交集句子与扫描字段进行匹配,计算各交集句子与扫描字段相匹配的权重分数。对此,计算权重分数的步骤包括S14031-S14034:
S14031、按照交集句子的字词元素的排序,依次将交集句子中的字词元素与扫描字段的关键字词进行匹配。
S14032、在匹配到相同的关键字词时,累加交集句子的单位权重分数,并将下一字词元素与下一关键字词进行比较。
S14033、在连续匹配到相同的关键字词时,累加上一次累加的权重分数的N倍(N>1),在匹配到不连续的关键字词时,累加单位权重分数。
S14034、在匹配到扫描字段的所有关键字词后,计算交集句子的权重分数。
S14035、确定权重分数满足预设权重阈值的交集句子为包含扫描字段的权重句子。
示例性的,匹配到的交集句子为“It’s also probably a good idea forparents to allow teenagers to study in groups during the evening”,则优先将“It’s”与扫描字段的“allow”进行匹配,两个元素不相同,则继续将“also”与“allow”进行匹配,直到将交集句子中的“allow”与扫描字段中的“allow”进行匹配,匹配到相同的关键字词,在交集句子初始为零的权重分数上加上单位权重分数,例如加上8分。当扫描字段中的关键字词匹配到相同的字词元素时,匹配扫描字段中的下一个关键字词。继续将交集句子中的“teenagers”与扫描字段中的“teenagers”进行匹配,此时已经连续两次匹配到相同的关键字词,则在交集句子8分的权重分数上,加上翻倍的单位权重分数,即加上16分,此时交集句子的权重分数为24。如果连续三次匹配到相同的关键字词,则在交集句子24分的权重分数上,加上翻四倍的单位权重分数,即加上32分,此时交集句子的权重分数为56。而如果第四次的匹配不相同,而第五次的匹配相同,则在之前的权重分数上加单位权重分数。在所有字词元素被匹配完或者扫描字段被匹配完后,将最后一次匹配累计的权重分数为句子交集的权重分数。例如“It’s also probably a good idea for parents to allowteenagers to study in groups during the evening”的权重分数为120分。其中,权重阈值是指包含扫描字段的交集句子可以得到的分数,也是交集句子可以得到的最高分数。当交集句子的权重分数等于该扫描字段对应权重阈值时,则可以确定该交集句子中关键词组成的关键词序列与扫描字段相同,进而确定该交集句子包含该扫描字段。
在一个实施例中,根据每个关键字词在交集句子中的排序,确定交集句子的关键词序列,将扫描字段中关键词序列与交集句子的关键词序列进行比较,确定与扫描字段的关键词序列相同的交集句子为包含扫描字段的权重矩阵。示例性的,在该实施例中,扫描字段“allow teenagers to study”的关键词“allow”、“teenagers”、“to”和“study”在编号20的句子中的序列号分别为10、11、12和13,根据交集句子中对应关键词的序列号,将关键词从小到大进行排序,得到关键词序列。如将关键词“allow”、“teenagers”、“to”和“study”根据序列号从小到大排序,即得到关键词序列“allow teenagers to study”。其中,如果一些句子这两个关键词之间存在别的单词,即交集句子中对应关键词的序列号并不是连续的,则可直接确定该交集句子不包含扫描字段。
S1404、在确定出一个包含所述扫描字段的权重句子时,确定该权重句子为所述扫描字段所属的句子。
示例性的,如果可得唯一的权重句子,即可确定该权重句子为扫描字段所属的长句。
进一步的,如果得到多个权重句子,则说明这些权重句子中均包含该扫描字段,但扫描句子所属句子属于用户当前学习的教材页面,而其他包含该扫描字段的权重句子并不属于用户当前学习的教材页面。因此根据用户学习的教材页面的页码,精确扫描句子所属句子。其中,根据教材页码确定扫描字段所属句子的步骤包括S1405-S1407:
S1405、在确定出多个包含扫描字段的权重句子时,获取权重句子的页码。
示例性的,参考表1,根据元素信息表可直接获取权重句子的所属页码。
S1406、获取教材文件的历史扫描记录,从历史扫描记录中获取扫描笔识别到的扫描内容的页码。
示例性的,教材文件的历史扫描记录是指用户学习该教材文件对应的纸质课本教材时使用扫描笔扫描的句子或字段的历史扫描数据,历史扫描数据记录有扫描句子或字段所属的教材页码。其中,扫描内容为当前学习的教材文件的历史扫描记录中最新保存的扫描笔识别到的句子或字段。由于学生在使用纸质课本教材学习时,通常是按照学校的学习进度进行学习,例如今天学习了第6页的内容,明天大概率不会学习第26页,而是大概率学习第7页的内容。用户使用扫描笔扫描当前学习教材的句子或字段所属的教材页码,可以看作是用户学习该教材的学习进度。对此,本实施例通过教材文件的历史扫描记录将用户使用扫描笔的扫描识别到的句子或字段的页码与该教材文件关联保存,以记录用户学习该教材文件的学习进度。
S1407、将扫描内容的页码与权重句子的页码进行比较,确定最接近扫描内容的权重句子为扫描字段所属的句子。
示例性的,从当前学习的教材文件关联的历史扫描记录中获取上一次识别到的扫描内容的页码,以根据该页码确定用户学习该教材文件的学习进度。基于学校的学习进度规则,此时用户学习的课文内容应该临近上一次扫描内容,因此将扫描内容页码和权重句子页码相比较,确定最接近扫描内容页码的权重句子页码的教材页面为用户当前学习的教材页面,进而确定最接近扫描内容的权重句子确定为扫描字段的所属句子,也即用户想要扫描笔播放或展示的句子。
在一个实施例中,图3是本申请实施例提供的扫描笔显示屏的示意图。如图3所示,在确定扫描字段的所属句子后,查询该句子的中文翻译,将该句子和对应的中文翻译一同显示在显示屏11中。在显示屏11显示的句子一侧设置有播放控件12,扫描笔在确定出扫描字段的所属句子时会自动语音播放该句子,而如果用户想要重复播放该句子,则可点击该播放控件12,扫描笔循环再次播放该句子。
综上,本实施例提供的扫描笔的句子扫查方法,根据用户当前学习的教材文件,获取教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,元素信息表包括教材文件中所有包含单个字词元素的句子的句子信息;获取扫描笔识别得到的扫描字段,对扫描字段进行分词处理,获取扫描字段包含的一个或多个关键字词;调取与关键字词相同的字词元素的元素信息表,获取关键字词的句子信息;根据关键字词的句子信息,确定扫描字段所属的句子,并将该句子进行播放或展示。通过上述技术手段,对扫描字段进行分词处理,获取组成扫描字段的关键字词,将关键字词查询当前学习的教材文件的元素信息表,以确定各关键字词所属的句子。将各关键字词所属的句子进行比较,确定包含所有关键字词的句子,并根据扫描字段中的关键字词的排序以及当前学习的教材页码,从包含所有关键字词的句子中唯一确定出该扫描字段所属的句子,实现精确定位用户想要扫描笔播放或展示的长句,解决现有扫描笔无法根据句子部分字段对应播放完整句子的问题,提高用户的使用体验。
图4是本申请一个实施例提供的一种扫描笔的句子扫查装置的结构示意图。参考图4,该扫描笔的句子扫查装置包括:分词提取模块201、信息获取模块202、句子获取模块203和句子确定模块204。
其中,信息获取模块,被配置为根据用户当前学习的教材文件,获取教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,元素信息表包括教材文件中所有包含单个字词元素的句子的句子信息;
分词提取模块,被配置为获取扫描笔识别得到的扫描字段,对扫描字段进行分词处理,获取扫描字段包含的一个或多个关键字词;
句子获取模块,被配置为调取与关键字词相同的字词元素的元素信息表,获取关键字词的句子信息;
句子确定模块,被配置为根据关键字词的句子信息,确定扫描字段所属的句子,并将该句子进行播放或展示。
在上述实施例的基础上,信息获取模块包括:教材确定子模块,被配置为获取扫描笔识别到的教材名称,根据教材名称确定对应的教材文件;信息表获取子模块,被配置为获取与教材文件关联保存的字词元素和与单个字词元素建立映射关系的元素信息表。
在上述实施例的基础上,信息表获取子模块包括:教材下载单元,被配置为根据扫描笔识别到的教材名称,下载教材名称对应的教材文件;分词处理单元,被配置为对教材文件中每页的句子进行分词处理,提取该句子包含的字词元素;去重处理单元,被配置为对所有提取到的字词元素进行去重处理,保留教材文件中不同的字词元素;信息表保存单元,被配置为将保留的字词元素和所属句子的句子信息关联保存为元素信息表,并将元素信息表与教材文件关联保存,句子信息包括字词元素在所属句子中的排序和字词元素所属句子的教材页码。
在上述实施例的基础上,分词提取模块包括:词元素确定子模块,被配置为若扫描字段中同一字符匹配到不同的词元素,则将包含字符最多的词元素确定为扫描字段包含的关键词。
在上述实施例的基础上,句子确定模块包括:第一匹配子模块,被配置为将每个关键字词所属的句子进行比较,确定出包含所有关键字词的交集句子;第一确定子模块,被配置为在确定出一个包含所有关键字词的交集句子时,确定该交集句子为扫描字段所属的句子。
在上述实施例的基础上,句子确定模块包括:第二匹配子模块,被配置为在确定出多个包含所有关键字词的交集句子时,根据关键字词在交集句子中的排序和关键字词在扫描字段中的排序,确定包含扫描字段的权重句子;第二确定子模块,被配置为在确定出一个包含扫描字段的权重句子时,确定该权重句子为扫描字段所属的句子。
在上述实施例的基础上,第二匹配子模块包括:关键字词匹配单元,被配置为按照交集句子的字词元素的排序,依次将交集句子中的字词元素与扫描字段的关键字词进行匹配;第一累加单元,被配置为在匹配到相同的关键字词时,累加交集句子的单位权重分数,并将下一字词元素与下一关键字词进行比较;第二累加单元,被配置为在连续匹配到相同的关键字词时,累加上一次累加的权重分数的N倍(N>1),在匹配到不连续的关键字词时,累加单位权重分数;分数确定单元,被配置为在匹配到扫描字段的所有关键字词后,计算交集句子的权重分数;分数比较单元,被配置为确定权重分数满足预设权重阈值的交集句子为包含扫描字段的权重句子。
在上述实施例的基础上,句子确定模块包括:句子页码获取子模块,被配置为在确定出多个包含扫描字段的权重句子时,获取权重句子的页码;历史页码获取子模块,被配置为获取教材文件的历史扫描记录,从历史扫描记录中获取扫描笔识别到的扫描内容的页码;页码比较子单元,被配置为将扫描内容的页码与权重句子的页码进行比较,确定最接近扫描内容的权重句子为扫描字段所属的句子。
综上,本实施例提供的扫描笔的句子扫查装置,根据用户当前学习的教材文件,获取教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,元素信息表包括教材文件中所有包含单个字词元素的句子的句子信息;获取扫描笔识别得到的扫描字段,对扫描字段进行分词处理,获取扫描字段包含的一个或多个关键字词;调取与关键字词相同的字词元素的元素信息表,获取关键字词的句子信息;根据关键字词的句子信息,确定扫描字段所属的句子,并将该句子进行播放或展示。通过上述技术手段,对扫描字段进行分词处理,获取组成扫描字段的关键字词,将关键字词查询当前学习的教材文件的元素信息表,以确定各关键字词所属的句子。将各关键字词所属的句子进行比较,确定包含所有关键字词的句子,并根据扫描字段中的关键字词的排序以及当前学习的教材页码,从包含所有关键字词的句子中唯一确定出该扫描字段所属的句子,实现精确定位用户想要扫描笔播放或展示的长句,解决现有扫描笔无法根据句子部分字段对应播放完整句子的问题,提高用户的使用体验。
值得注意的是,上述基于扫描笔的句子扫查装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本申请实施例提供的扫描笔的句子扫查装置包含在扫描笔中,且可用于执行上述任意实施例提供的扫描笔的句子扫查方法,具备相应的功能和有益效果。
图5是本申请一个实施例提供的一种扫描笔的结构示意图。如图5所示,该扫描笔包括处理器30、存储器31、输入装置32、输出装置33以及显示屏34;扫描笔中处理器30的数量可以是一个或多个,图5中以一个处理器30为例;扫描笔中显示屏34的数量可以是一个或多个,图5中以一个显示屏34为例;扫描笔中的处理器30、存储器31、输入装置32、输出装置33以及显示屏34可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器31作为一种存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的扫描笔的句子扫查方法对应的程序指令/模块(例如,扫描笔的句子扫查装置中的分词提取模块201、信息获取模块202、句子获取模块203和句子确定模块204)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行扫描笔的各种功能应用以及数据处理,即实现上述扫描笔的句子扫查方法。
存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据扫描笔的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可进一步包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至扫描笔。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置32可用于接收输入的数字或字符信息,以及产生与扫描笔的用户设置以及功能控制有关的键信号输入。输出装置33可包括扬声器等音频输出设备。
上述扫描笔包含扫描笔的句子扫查装置,可以用于执行任意扫描笔的句子扫查方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种扫描笔的句子扫查方法,该扫描笔的句子扫查方法包括:根据用户当前学习的教材文件,获取教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,元素信息表包括教材文件中所有包含单个字词元素的句子的句子信息;获取扫描笔识别得到的扫描字段,对扫描字段进行分词处理,获取扫描字段包含的一个或多个关键字词;调取与关键字词相同的字词元素的元素信息表,获取关键字词的句子信息;根据关键字词的句子信息,确定扫描字段所属的句子,并将该句子进行播放或展示。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的扫描笔的句子扫查方法,还可以执行本申请任意实施例所提供的扫描笔的句子扫查方法中的相关操作。
上述实施例中提供的扫描笔的句子扫查装置、扫描笔及存储介质可执行本申请任意实施例所提供的扫描笔的句子扫查方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的扫描笔的句子扫查方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (11)

1.一种扫描笔的句子扫查方法,其特征在于,包括:
根据用户当前学习的教材文件,获取所述教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,所述元素信息表包括所述教材文件中所有包含单个字词元素的句子的句子信息;
获取扫描笔识别得到的扫描字段,对所述扫描字段进行分词处理,获取所述扫描字段包含的一个或多个关键字词;
调取与所述关键字词相同的所述字词元素的所述元素信息表,获取所述关键字词的句子信息;
根据所述关键字词的句子信息,确定所述扫描字段所属的句子,并将该句子进行播放或展示。
2.根据权利要求1所述的方法,特征在于,所述根据用户当前学习的教材文件,获取所述教材文件的字词元素及与单个字词元素建立映射关系的元素信息表包括:
获取扫描笔识别到的教材名称,根据所述教材名称确定对应的教材文件;
获取与所述教材文件关联保存的字词元素和与单个字词元素建立映射关系的元素信息表。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述教材文件关联保存的字词元素和与单个字词元素建立映射关系的元素信息表包括:
根据扫描笔识别到的教材名称,下载所述教材名称对应的教材文件;
对所述教材文件中每页的句子进行分词处理,提取该句子包含的字词元素;
对所有提取到的字词元素进行去重处理,保留所述教材文件中不同的字词元素;
将保留的字词元素和所属句子的句子信息关联保存为所述元素信息表,并将所述元素信息表与所述教材文件关联保存,所述句子信息包括所述字词元素在所属句子中的排序和所述字词元素所属句子的教材页码。
4.根据权利要求1所述的方法,其特征在于,所述对所述扫描字段进行分词处理,获取所述扫描字段包含的一个或多个关键字词包括:
若所述扫描字段中同一字符匹配到不同的词元素,则将包含字符最多的词元素确定为所述扫描字段包含的关键词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关键字词的句子信息,确定所述扫描字段所属的句子包括:
将每个所述关键字词所属的句子进行比较,确定出包含所有关键字词的交集句子;
在确定出一个包含所有关键字词的交集句子时,确定该交集句子为所述扫描字段所属的句子。
6.根据权利要求5所述的方法,其特征在于,所述根据所述关键字词的句子信息,确定所述扫描字段所属的句子包括:
在确定出多个包含所有关键字词的交集句子时,根据所述关键字词在所述交集句子中的排序和所述关键字词在所述扫描字段中的排序,确定包含所述扫描字段的权重句子;
在确定出一个包含所述扫描字段的权重句子时,确定该权重句子为所述扫描字段所属的句子。
7.根据权利要求6所述的方法,其特征在于,所述根据所述关键字词在所述交集句子中的排序和所述关键字词在所述扫描字段中的排序,确定包含所述扫描字段的权重句子包括:
按照所述交集句子的字词元素的排序,依次将所述交集句子中的字词元素与扫描字段的关键字词进行匹配;
在匹配到相同的关键字词时,累加所述交集句子的单位权重分数,并将下一字词元素与下一关键字词进行比较;
在连续匹配到相同的关键字词时,累加上一次累加的权重分数的N倍(N>1),在匹配到不连续的关键字词时,累加单位权重分数;
在匹配到所述扫描字段的所有关键字词后,计算所述交集句子的权重分数;
确定所述权重分数满足预设权重阈值的交集句子为包含所述扫描字段的权重句子。
8.根据权利要求6所述的方法,其特征在于,所述根据所述关键字词的句子信息,确定所述扫描字段所属的句子包括:
在确定出多个包含所述扫描字段的权重句子时,获取所述权重句子的页码;
获取所述教材文件的历史扫描记录,从所述历史扫描记录中获取所述扫描笔识别到的扫描内容的页码;
将所述扫描内容的页码与所述权重句子的页码进行比较,确定最接近所述扫描内容的权重句子为所述扫描字段所属的句子。
9.一种扫描笔的句子扫查装置,其特征在于,包括:
信息获取模块,被配置为根据用户当前学习的教材文件,获取所述教材文件的字词元素及与单个字词元素建立映射关系的元素信息表,所述元素信息表包括所述教材文件中所有包含单个字词元素的句子的句子信息;
分词提取模块,被配置为获取扫描笔识别得到的扫描字段,对所述扫描字段进行分词处理,获取所述扫描字段包含的一个或多个关键字词;
句子获取模块,被配置为调取与所述关键字词相同的所述字词元素的所述元素信息表,获取所述关键字词的句子信息;
句子确定模块,被配置为根据所述关键字词的句子信息,确定所述扫描字段所属的句子,并将该句子进行播放或展示。
10.一种扫描笔,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的扫描笔的句子扫查方法。
11.一种存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8任一所述的扫描笔的句子扫查方法。
CN202110745542.1A 2021-06-30 2021-06-30 一种句子扫查方法、装置及存储介质 Pending CN113486650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110745542.1A CN113486650A (zh) 2021-06-30 2021-06-30 一种句子扫查方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110745542.1A CN113486650A (zh) 2021-06-30 2021-06-30 一种句子扫查方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113486650A true CN113486650A (zh) 2021-10-08

Family

ID=77940021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110745542.1A Pending CN113486650A (zh) 2021-06-30 2021-06-30 一种句子扫查方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113486650A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463753A (zh) * 2022-01-05 2022-05-10 珠海读书郎软件科技有限公司 一种句子扫查方法、扫描笔及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463753A (zh) * 2022-01-05 2022-05-10 珠海读书郎软件科技有限公司 一种句子扫查方法、扫描笔及介质

Similar Documents

Publication Publication Date Title
CN112087656B (zh) 在线笔记生成方法、装置及电子设备
US20160133148A1 (en) Intelligent content analysis and creation
CN113590956B (zh) 知识点推荐方法、装置、终端及计算机可读存储介质
KR20050074991A (ko) 의미 연관성에 기초한 콘텐츠 검색
CN111524206A (zh) 一种生成思维导图的方法和装置
CN107291343A (zh) 笔记的记录方法、装置和计算机可读存储介质
CN111522970A (zh) 习题推荐方法、装置、设备及存储介质
CN111581367A (zh) 一种题目录入的方法和系统
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN111610901B (zh) 一种基于ai视觉下的英语课文辅助教学方法及系统
CN108121987B (zh) 一种信息处理方法和电子设备
CN116738250A (zh) 提示文本扩展方法、装置、电子设备和存储介质
CN111026786B (zh) 一种听写列表生成方法及家教设备
CN111078915B (zh) 一种点读模式下的点读内容获取方法及电子设备
CN111723213A (zh) 学习数据获取方法及电子设备、计算机可读存储介质
CN113190692B (zh) 一种知识图谱的自适应检索方法、系统及装置
CN113486650A (zh) 一种句子扫查方法、装置及存储介质
JP2019003472A (ja) 情報処理装置及び情報処理方法
CN113779345A (zh) 一种教学材料生成方法、装置、计算机设备和存储介质
CN111241276A (zh) 题目搜索方法、装置、设备及存储介质
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN111522992A (zh) 题目入库方法、装置、设备及存储介质
CN113449720A (zh) 一种准确定位课本页码的方法
CN111078982A (zh) 一种电子页面的检索方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination