CN110489528B - 基于电子书内容的电子词典重构方法及计算设备 - Google Patents

基于电子书内容的电子词典重构方法及计算设备 Download PDF

Info

Publication number
CN110489528B
CN110489528B CN201910750227.0A CN201910750227A CN110489528B CN 110489528 B CN110489528 B CN 110489528B CN 201910750227 A CN201910750227 A CN 201910750227A CN 110489528 B CN110489528 B CN 110489528B
Authority
CN
China
Prior art keywords
electronic book
query
electronic
query word
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910750227.0A
Other languages
English (en)
Other versions
CN110489528A (zh
Inventor
吴馥江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN201910750227.0A priority Critical patent/CN110489528B/zh
Publication of CN110489528A publication Critical patent/CN110489528A/zh
Application granted granted Critical
Publication of CN110489528B publication Critical patent/CN110489528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于电子书内容的电子词典重构方法及计算设备。方法包括:获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典,虽然删除了电子词典原文中的例句,但是通过索引方式为查询词配以书架中其它电子书的包含查询词的语句,使得电子词典的数据量远远小于传统电子词典的数据量,节省了下载安装电子词典所需流量,提升了电子词典的打开速度,提升用户的阅读体验。

Description

基于电子书内容的电子词典重构方法及计算设备
技术领域
本发明涉及计算机技术领域,具体涉及一种基于电子书内容的电子词典重构方法及计算设备。
背景技术
电子词典是指将传统的词典中的内容转换为数字格式存储的文件,电子词典与一般的电子书一样,都可以通过下载到书架的方式供用户阅读使用。通常情况下,为了帮助用户能够更好的理解某个词语的词义,针对该词语在电子词典中会相应的例句,那么电子词典中就会有大量的例句。
但是,发明人发现虽然现有的电子词典以字符内容为主,但是由于电子词典中存在大量的例句,使得电子词典的数据量过大,从而导致下载安装一本电子词典会消耗较多流量,并且,电子词典过大时,打开电子词典的速度也会变慢,降低了用户的阅读体验。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于电子书内容的电子词典重构方法及计算设备。
根据本发明的一个方面,提供了一种基于电子书内容的电子词典重构方法,包括:
获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;
识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;
获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;
建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;
识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;
获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;
建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:
获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;
识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;
获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;
建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
根据本发明公开的方案,获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。基于本发明的方案,重构后的电子词典删除了电子词典原文中的例句,但是通过索引方式为查询词配以书架中其它电子书的包含查询词的语句,从而使得电子词典的数据量远远小于传统电子词典的数据量,节省了下载安装电子词典所需的流量,提升了电子词典的打开速度,进而提升用户的阅读体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于电子书内容的电子词典重构方法的流程示意图;
图2示出了根据本发明另一个实施例的基于电子书内容的电子词典重构方法的流程示意图;
图3示出了根据本发明又一个实施例的基于电子书内容的电子词典重构方法的流程示意图;
图4示出了根据本发明再一个实施例的基于电子书内容的电子词典重构方法的流程示意图;
图5示出了根据本发明一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的基于电子书内容的电子词典重构方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S101,获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典。
本实施例中,客户端获取的是服务端删除电子词典原文中的例句内容,而保留查询词的释义内容之后而返回的电子词典。
为了方便用户使用电子词典,通常会将查询词与其它词语进行区分,这种区分主要体现在字符格式的不同,例如,会设置查询词与其它词语的字体和/或字号不同,又或者通过加粗和/或下划线等方式标记查询词,从而与其它词语区分开来,那么服务端就可以通过字体、字号、加粗或下划线等信息来识别电子词典原文中的查询词。
在识别出电子词典原文中的查询词之后,可以根据查询词查找电子词典原文中包含查询词的语句,然后,删除所查找到的包含查询词的语句,通过删除电子词典原文中包含查询词的语句,可以降低电子词典的数据量,从而减小了电子词典的文件大小,进而提升了打开电子词典的速度,提升了用户的阅读体验,克服了由于电子词典的文件太大,导致打开电子词典的速度变慢,影响用户阅读体验的问题。服务端在删除电子词典原文中包含查询词的语句之后,将经过删除电子词典原文中包含查询词的语句后的电子词典返回给客户端。
在步骤S101中获取的是经过删除电子词典原文中包含查询词的语句后的电子词典,为了不影响用户对电子词典原有的使用体验,本实施例通过跨电子书检索的方式从书架的其它电子书中找出查询词对应的例句提供给用户,具体可以利用步骤S102-步骤S104中的方法:
步骤S102,识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句。
在本实施例中,是通过搜索查询电子词典所在的书架中的其它电子书的方式来为查询词配以相应的例句,具体地,在获取到服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典之后,识别电子词典中的查询词,例如,可以通过字体、字号、加粗或下划线等信息来识别电子词典中的查询词,在识别出电子词典中的查询词之后,根据查询词搜索查询书架中的电子书,将查询词与电子书内容进行匹配,若电子书内容中存在与查询词相匹配的词语,可以确定该语句为包含查询词的语句。在电子书中搜索确定的包含查询词的语句可以视为该查询词的例句,被认为是帮助用户更好理解查询词的词义的例句。
步骤S103,获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识。
在确定了电子书内容中包含查询词的语句后,本实施例并不是将包含查询词的语句插入到电子词典中,而是获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识,其中,位置偏移量可以理解为包含查询词的语句在电子书中的位置,例如,可以是包含查询词的语句所在电子书的页面对应的页码,比如第5页,当然并不仅限于页码,还可以具体到包含查询词的语句所在页面对应的段落或者行数,比如第3页第3段或第3页第20行,这里仅是举例说明,不具有任何限定作用,其它可以用于表示包含查询词的语句在电子书中的位置表示方式都包含在本发明的保护范围之内;第一电子书标识可以理解为电子书名称或电子书ID,是包含查询词的语句所在电子书对应的电子书标识。
步骤S104,建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
在根据步骤S103获取到包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识之后,为了方便用户查看,需要建立查询词、第一电子书标识及位置偏移量的索引关系,在建立好索引关系后,便生成了重构电子词典。该重构电子词典与步骤S101中的电子词典相比,增加了上述索引关系,客户端将其替换原有电子词典置于书架页面中供用户使用。
通过建立索引关系实现了为查询词配以相应的例句,从而能够在不改变电子词典原有功能的情况下,提升用户的阅读体验。所生成的重构电子词典的数据量远远小于传统的电子词典,从而节省了下载安装电子词典消耗的流量,而且也提升了电子词典的打开速度。
举例说明,对于查询词“释放”,根据步骤S103确定包含查询词“释放”的语句在相应电子书中的位置偏移量以及第一电子书标识分别为:“XXXXXXX”(语句在该电子书中的位置偏移量)及“ajfh234jkhdffjkh”(语句所在电子书的第一电子书标识),建立查询词“释放”、第一电子书标识“ajfh234jkhdffjkh”及位置偏移量“XXXXXXX”之间的索引关系。
可选地,还可以获取查询词在电子词典中的位置偏移量,例如,查询词在电子词典中的位置偏移量为“yyyyyyyy”(该词在词典中的偏移量),在建立索引关系时,是建立查询词、查询词在电子词典中的位置偏移量、第一电子书标识以及包含查询词的语句在相应电子书中的位置偏移量之间的索引关系。
在本发明一种可选实施方式中,还可以利用查询词生成电子书的分类标签图谱,具体地,针对每个电子书,将电子书所涉及的所有查询词提取出来,对于电子书所涉及的所有查询词,从重构电子词典中提取出该查询词对应的释义内容,然后,对释义内容进行语义识别,得到释义内容对应的语义标签,通过确定释义内容对应的语义标签能够更好的形成电子书的分类标签图谱,在得到释义内容对应的语义标签后,基于语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱,其中,聚类后的类别数量代表电子书的标签种类,标签内容代表电子书分类内容,查询词数量大小代表该标签对电子书内容表征的权重大小。在基于语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱之后,可以根据电子书对应的分类标签图谱中的一级分类标签对电子书进行分类,即,将以及分类标签相同的电子书归到一类中,然后根据分类结果进行电子书推荐,其中,一级分类标签为包含查询词数量最多的类别对应的标签,利用该方法能够提升推荐电子书的准确度。
在本发明一种可选实施方式中,当书架中的电子书发生变化时,例如,书架上增加了新的电子书或者删减了电子书,需要同步更新查询词对应的索引关系以更新重构电子词典,从而保证用户在点击查看查询词对应的例句时,能够正常跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
根据本发明上述实施例提供的方法,获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。基于本发明的方案,重构后的电子词典删除了电子词典原文中的例句,但是通过索引方式为查询词配以书架中其它电子书的包含查询词的语句,从而使得电子词典的数据量远远小于传统电子词典的数据量,节省了下载安装电子词典所需的流量,提升了电子词典的打开速度,进而提升用户的阅读体验。
图2示出了根据本发明另一个实施例的基于电子书内容的电子词典重构方法的流程示意图。如图2所示,该方法包括以下步骤:
步骤S201,识别电子词典原文中的查询词。
为了方便用户使用电子词典,通常会将查询词与其它词语进行区分,这种区分主要体现在字符格式的不同,例如,会设置查询词与其它词语的字体和/或字号不同,又或者通过加粗和/或下划线等方式标记查询词,从而与其它词语区分开来,那么服务端就可以通过字体、字号、加粗或下划线等信息来识别电子词典原文中的查询词。
在识别出电子词典原文中的查询词之后,就需要执行删除电子词典原文中包含查询词的语句的操作,具体地,可以利用步骤S202-步骤S204中的方法:
步骤S202,根据预设关键词搜索查询词的在后内容,确定包含预设关键词的在后内容。
在电子词典中,通常是将包含查询词的语句设置于查询词的后面,因此,在进行搜索时,是搜索查询词的在后内容,查询词的在后内容一般包含释义内容、例句等,而为了方便用户查看,一般会以关键词作为例句的开始,比如,关键词可以是:例子、举例或例句等,因此,可以根据预设关键词来搜索查询词的在后内容,通过搜索关键词的方式确定包含预设关键词的在后内容。
步骤S203,基于预设分隔符及查询词对包含预设关键词的在后内容进行断句处理,确定包含查询词的语句。
在确定了包含预设关键词的在后内容之后,可以基于预设分隔符(例如,句号)来对包含预设关键词的在后内容进行断句,通过断句处理,确定了一完整语句,对该语句进行分词处理,然后,将分词结果与查询词进行匹配,确定存在与查询词相匹配的分词结果,则可以确定该语句包含查询词,从而确定了包含查询词的语句,该包含查询词的语句即为查询词对应的例句。
步骤S204,删除所确定的包含查询词的语句;重复执行步骤S202-步骤S204,直至筛选出不包含查询词的语句,得到电子词典。
在确定了包含查询词的语句之后,对该语句进行删除处理,从而删除了电子词典原文中包含查询词的语句。重复执行步骤S202-步骤S204,直至首次筛选出不包含查询词的语句,那么删除电子词典原文中包含查询词的语句的操作结束,得到电子词典。在本实施例中,针对所有识别出的查询词都会执行删除电子词典原文中包含查询词的语句的操作。
在删除了电子词典原文中包含查询词的语句后,可以对剩余的内容进行重新排版。
步骤S205,获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典,识别电子词典中的查询词。
本步骤与图1所示实施例中的步骤S101以及步骤S102的部分步骤类似,此处不再赘述。
步骤S206,搜索查询书架中的电子书是否包含查询词,若否,则执行步骤S207;若是,则执行步骤S209。
在步骤S205获取到是删除了包含查询词的语句之后的电子词典,但是为了不影响用户对电子词典原有的使用体验,本实施例通过跨电子书检索的方式从书架的其它电子书中找出查询词对应的例句提供给用户,具体地,基于查询词来搜索查询书架中的电子书,以确定书架中的电子书是否包含查询词,若书架中的电子书不包含查询词,则可以执行步骤S207来为查询词配以相应的语句;若书架中的电子书包含查询词,则可以执行步骤S209来确定包含查询词的语句。
步骤S207,将查询词以及第二电子书标识上传至服务端,以供服务端根据第二电子书标识确定电子书对应的分类类别,查找分类类别中包含查询词的其它电子书。
在确定书架中的电子书不包含查询词的情况下,将查询词以及第二电子书标识上传至服务端,其中,第二电子书标识是用户当前阅读的电子书或者最近一次打开的电子书的电子书标识,服务端在获取到查询词以及第二电子书标识后,先根据第二电子书标识确定电子书对应的分类类别,即,确定第二电子书标识对应的电子书属于哪个分类,然后,在该分类类别下的其它电子书中查找查询词,确定该分类类别中包含查询词的其它电子书。
确定电子书对应的分类类别是为了能够将用户当前所关注的同类电子书中的语句作为查询词的例句,满足用户阅读需求。
步骤S208,获取服务端返回的其它电子书的第三电子书标识,以供用户根据第三电子书标识下载对应的电子书。
服务端在查找到分类类别中包含查询词的其它电子书之后,将其它电子书的第三电子书标识返回给客户端,客户端获取服务端返回的其它电子书的第三电子书标识,向用户推荐第三电子书标识对应的电子书,用户根据第三电子书标识可以下载对应的电子书,在用户下载了第三电子书标识对应的电子书后,执行步骤S209。
在本发明一种可选实施方式中,查询词是单个词语,很可能出现电子书中不包含该查询词的情况,因此,若通过搜索查询确定书架中的电子书不包含查询词,还可以通过以下方式来确定包含查询词的语句:将查询词上传至服务端,服务端根据近义词规则对查询词进行扩展处理,确定查询词对应的近义词,并将查询词对应的近义词返回给客户端,客户端获取服务端返回的查询词对应的近义词,搜索查询书架中的电子书是否包含查询词对应的近义词;若是,则基于预设分隔符及查询词对应的近义词对电子书内容进行筛选,确定包含查询词对应的近义词的语句。
步骤S209,基于预设分隔符及查询词对电子书内容进行筛选,确定包含查询词的语句。
在确定书架中的电子书包含查询词的情况下,可以基于预设分隔符及查询词对电子书内容进行筛选,确定包含查询词的语句,具体地,确定包含查询词的电子书内容,该电子书内容可能是查询词所在的段落内容,然后,基于预设分隔符(例如,句号)来对包含查询词的电子书内容进行断句,通过断句处理,将包含查询词的语句从电子书内容中筛选处理,从而确定了包含查询词的完整语句,该包含查询词的语句即为查询词对应的例句。
步骤S210,获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识。
步骤S211,建立查询词、第一电子书标识及位置偏移量的索引关系。
图2所示实施例中的步骤S210-步骤S211与图1所示实施例中的步骤S103-步骤S104类似,此处不再赘述。
步骤S212,若监测到多个电子书中存在包含查询词的语句,则生成在查询词的预设位置以预设标记显示电子书数量的重构电子词典。
在书架中存在多个电子书时,很可能出现某一查询词可能在多个电子书中都存在例句,即,多个电子书中存在包含查询词的语句,对于这种情况,在生成重构电子词典时,可以在查询词的预设位置以预设标记显示电子书数量,例如,在查询词的右上角通过数字形式显示例句涉及的电子书数量,从而使用户能够直观地了解到例句所涉及的电子书数量。
步骤S213,监测用户对重构电子词典中查询词的预设标记的触发操作,根据触发操作以列表形式显示多个第一电子书标识,以供用户选择查看电子书的语句。
当用户想要查看都有哪些电子书中存在包含查询词的语句时,可以点击重构电子词典中预设标记,因此,需要实时监测用户是否点击重构电子词典中查询词的预设标记,当监测到用户对重构电子词典中查询词的预设标记的点击操作时,可以以列表形式显示多个第一电子书标识,即,显示电子书名称列表,通过显示电子书名称列表,来供用户选择查看哪个电子书中的语句。
步骤S214,监测用户对第一电子书标识的触发操作,根据触发操作依据查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
当用户想要查看某一电子书中的语句时,可以点击列表中相应的第一电子书标识,因此,就需要实时监测用户对第一电子书标识的触发操作,在监测到用户对第一电子书标识的触发操作时,根据触发操作依据查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句,例如,以高亮形式在页面中突出显示包含查询词的语句。
根据本发明上述实施例提供的方法,对于电子词典中的查询词,删除了电子词典原文中的包含查询词的语句,然后,通过索引方式为查询词配以书架中其它电子书的包含查询词的语句,从而使得电子词典的数据量远远小于传统电子词典的数据量,节省了下载安装电子词典所需的流量,提升了电子词典的打开速度,进而提升用户的阅读体验;通过在查询词的预设位置以预设标记显示电子书数量,可以使用户直观地了解到有多少个电子书中存在例句,当用户点击预设标记后,以列表形式显示第一电子书标识可以使用户直观地哪些电子书中存在查询词的例句,方便用户选择,当用户点击第一电子书标识后,跳转显示对应的语句,从而使用户能够根据语句更好地理解查询词的词义。
图3示出了根据本发明又一个实施例的基于电子书内容的电子词典重构方法的流程示意图。如图3所示,该方法包括以下步骤:
步骤S301,获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典。
步骤S302,识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句。
步骤S303,获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识。
步骤S304,建立查询词、第一电子书标识及位置偏移量的索引关系。
图3所示实施例中的步骤S301-步骤S304与图1所示实施例中的步骤S101-步骤S104类似,此处不再赘述。
步骤S305,若检测到电子书包含图片,则将图片上传至服务端,以供服务端对图片内容进行内容识别。
在本实施例中,很可能存在电子书中包含图片的情况,图片能够更生动地传达相应的内容,若检测到电子书中包含图片,则将图片上传至服务端,由服务端对图片的内容进行内容识别,其中,服务端可以利用卷积神经网络识别图片内容。服务端通过对图片内容进行内容识别,可以获得至少一个标签关键词,并返回至少一个标签关键词。
步骤S306,获取服务端返回的至少一个标签关键词,根据近义词规则对至少一个标签关键词进行扩展处理。
获取服务端返回的至少一个标签关键词,然后,根据近义词规则对至少一个标签关键词进行扩展处理,这里的根据近义词进行的扩展处理是指确定与查询词的词义相近或相同的词语,扩展后的词语都将视为图片对应的标签关键词,存储扩展后的至少一个标签关键词。
步骤S307,获取扩展后的至少一个标签关键词对应的图片在电子书中的位置偏移量以及第一电子书标识。
在根据步骤S306对至少一个标签关键词进行扩展处理后,获取扩展后的至少一个标签关键词对应的图片在电子书中的位置偏移量以及第一电子书标识,其中,位置偏移量可以理解为图片在电子书中的位置,例如,可以是图片所在电子书的页面对应的页码,比如第5页;第一电子书标识可以理解为电子书名称或电子书ID。
步骤S308,建立至少一个标签关键词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
本步骤与图1所示实施例中的步骤S104类似,只是建立的是至少一个标签关键词、第一电子书标识及图片对应的位置偏移量之间的索引关系,在建立完索引关系之后,生成重构电子词典。
步骤S309,若监测到对重构电子词典中查询词的触发操作,则判断至少一个标签关键词中是否存在与查询词相匹配的标签关键词;若是,则执行步骤S310;若否,则执行步骤S311。
当用户想要查看查询词对应的例句时,可以点击重构电子词典中查询词,因此,需要实时监测用户对重构电子词典中查询词的点击操作,若监测到对重构电子词典中查询词的触发操作,则优先进行标签关键词的匹配,即,判断至少一个标签关键词中是否存在与查询词相匹配的标签关键词,若是,则执行步骤S310;若否,则执行步骤S311。
步骤S310,根据标签关键词对应的索引关系,跳转显示电子书对应的图片。
在确定至少一个标签关键词中存在与查询词相匹配的标签关键词的情况下,可以根据标签关键词对应的索引关系,跳转显示电子书对应的图片,也就是说,跳转至电子书对应的页面,从而显示标签关键词对应的图片。
步骤S311,根据查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
在确定至少一个标签关键词中不存在与查询词相匹配的标签关键词的情况下,根据查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句,例如,以高亮形式在页面中突出显示包含查询词的语句。
根据本发明上述实施例提供的方法,对于电子词典中的查询词,删除了电子词典原文中的包含查询词的语句,然后,通过索引方式为查询词配以书架中其它电子书的包含查询词的语句,从而使得电子词典的数据量远远小于传统电子词典的数据量,节省了下载安装电子词典所需的流量,提升了电子词典的打开速度,进而提升用户的阅读体验;在电子书中包含图片的情况下,通过内容识别确定了图片对应的至少一个标签关键词,建立至少一个标签关键词、第一电子书标识及位置偏移量的索引关系,从而能够在查看查询词对应的例句时,优先匹配至少一个标签关键词,在存在与查询词匹配的标签关键词的情况下,显示相应的图片,从而更生动地传达查询词的词义。
图4示出了根据本发明再一个实施例的基于电子书内容的电子词典重构方法的流程示意图。如图4所示,该方法包括以下步骤:
步骤S401,获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典。
本步骤与图1所示实施例中的步骤S101中识别电子词典原文中的查询词类似,此处不再赘述。
步骤S402,识别电子词典中的查询词,若查询词为英文字符,则将英文字符转换为中文文字。
在电子词典中,会存在查询词是英文字符的情况,对于查询词是英文字符的情况,需要将英文字符翻译成中文文字。
步骤S403,根据转换后的中文文字搜索查询书架中的电子书,确定电子书内容中包含中文文字的语句。
在将英文字符转换为中文文字之后,就可以根据转换后的中文文字搜索查询书架中的电子书,确定电子书内容中包含中文文字的语句,具体实现与图1所示实施例中的步骤S102类似,这里不再赘述。
步骤S404,获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识。
步骤S405,建立查询词对应的中文文字、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
图4所示实施例中的步骤S404-步骤S405与图1所示实施例中的步骤S103-步骤S104类似,这里不再赘述。
需要说明的是,本步骤中是建立查询词对应的中文文字、第一电子书标识及位置偏移量的索引关系,而不是查询词、第一电子书标识及位置偏移量的索引关系。
步骤S406,若监测到对重构电子词典中查询词的触发操作,则根据查询词对应的索引关系,确定查询词对应的中文例句。
当用户想要查看查询词对应的例句时,可以点击重构电子词典中查询词,因此,需要实时监测用户对重构电子词典中查询词的点击操作,若监测到对重构电子词典中查询词的触发操作,则根据查询词对应的索引关系,确定查询词对应的中文例句。
步骤S407,将中文例句上传至服务端,以供服务端将中文例句转换为英文例句。
本实施例并不是将所确定的查询词对应的中文例句直接显示给用户,而是在确定了查询词对应的中文例句后,将中文例句上传至服务端,由服务端将中文例句翻译为英文例句,服务端在翻译成英文例句后,返回相应的英文例句。
步骤S408,获取并显示服务端返回的英文例句。
获取服务端返回的英文例句,并显示相应的英文例句,这样,针对查询词是英文字符的情况,可以给用户配以相应的英文例句。
在本实施例中,若查询词为英文字符,而电子书也是英文的电子书,则可以依据图1所示实施例中的步骤S102-步骤S104方法来生成重构电子词典。
根据本发明上述实施例提供的方法,对于电子词典中的查询词,删除了电子词典原文中的包含查询词的语句,然后,通过索引方式为查询词配以书架中其它电子书的包含查询词的语句,从而使得电子词典的数据量远远小于传统电子词典的数据量,节省了下载安装电子词典所需的流量,提升了电子词典的打开速度,进而提升用户的阅读体验;对于查询词是英文字符的,可以通过将中文例句翻译成英文例句,来为查询词配以同语言的例句。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于电子书内容的电子词典重构方法。
可执行指令具体可以用于使得处理器执行以下操作:获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:搜索查询书架中的电子书是否包含查询词;若是,则基于预设分隔符及查询词对电子书内容进行筛选,确定包含查询词的语句。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若书架中的电子书不包含查询词,则将查询词上传至服务端,以供服务端查找查询词对应的近义词;获取服务端返回的查询词对应的近义词,搜索查询书架中的电子书是否包含查询词对应的近义词;若是,则基于预设分隔符及查询词对应的近义词对电子书内容进行筛选,确定包含查询词对应的近义词的语句。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若书架中的电子书不包含查询词,则将查询词以及第二电子书标识上传至服务端,以供服务端根据第二电子书标识确定电子书对应的分类类别,查找分类类别中包含查询词的其它电子书;获取服务端返回的其它电子书的第三电子书标识,以供用户根据第三电子书标识下载对应的电子书。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若监测到对重构电子词典中查询词的触发操作,则根据查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若检测到电子书包含图片,则将图片上传至服务端,以供服务端对图片内容进行内容识别;获取服务端返回的至少一个标签关键词;获取扩展后的至少一个标签关键词对应的图片在电子书中的位置偏移量以及第一电子书标识;建立至少一个标签关键词、第一电子书标识及位置偏移量的索引关系,更新重构电子词典。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若监测到对重构电子词典中查询词的触发操作,则判断至少一个标签关键词中是否存在与查询词相匹配的标签关键词;若是,则根据标签关键词对应的索引关系,跳转显示电子书对应的图片。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:根据近义词规则对至少一个标签关键词进行扩展处理。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:若查询词为英文字符,则将英文字符转换为中文文字;根据转换后的中文文字搜索查询书架中的电子书,确定电子书内容中存在包含中文文字的语句;建立查询词对应的中文文字、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若监测到对重构电子词典中查询词的触发操作,则根据查询词对应的索引关系,确定查询词对应的中文例句;将中文例句上传至服务端,以供服务端将中文例句转换为英文例句;获取并显示服务端返回的英文例句。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:若监测到多个电子书中存在包含查询词的语句,则生成在查询词的预设位置以预设标记显示电子书数量的重构电子词典。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若监测到对重构电子词典中预设标记的触发操作,则以列表形式显示多个第一电子书标识,以供用户选择查看电子书的语句。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:针对每个电子书,提取电子书包含的所有查询词;针对每一个查询词,从重构电子词典中提取查询词对应的释义内容;对释义内容进行语义识别,得到释义内容对应的语义标签;基于语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:根据电子书对应的分类标签图谱中的一级分类标签对电子书进行分类,并根据分类结果进行电子书推荐,其中,一级分类标签为包含查询词数量最多的类别对应的标签。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:S1,识别电子词典原文中的查询词;S2,根据预设关键词搜索查询词的在后内容,确定包含预设关键词的在后内容;S3,基于预设分隔符及查询词对包含预设关键词的在后内容进行断句处理,确定包含查询词的语句;S4,删除所确定的包含查询词的语句;重复执行S1-S4,直至筛选出不包含查询词的语句。
在一种可选的实施方式中,可执行指令还使处理器执行以下操作:若监测到书架中的电子书发生变化,则同步更新查询词对应的索引关系以更新重构电子词典。
图5示出了根据本发明一个实施例的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述基于电子书内容的电子词典重构方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;识别电子词典中的查询词,根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含查询词的语句;获取包含查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
在一种可选的实施方式中,程序510进一步使处理器502执行以下操作:搜索查询书架中的电子书是否包含查询词;若是,则基于预设分隔符及查询词对电子书内容进行筛选,确定包含查询词的语句。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若书架中的电子书不包含查询词,则将查询词上传至服务端,以供服务端查找查询词对应的近义词;获取服务端返回的查询词对应的近义词,搜索查询书架中的电子书是否包含查询词对应的近义词;若是,则基于预设分隔符及查询词对应的近义词对电子书内容进行筛选,确定包含查询词对应的近义词的语句。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若书架中的电子书不包含查询词,则将查询词以及第二电子书标识上传至服务端,以供服务端根据第二电子书标识确定电子书对应的分类类别,查找分类类别中包含查询词的其它电子书;获取服务端返回的其它电子书的第三电子书标识,以供用户根据第三电子书标识下载对应的电子书。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若监测到对重构电子词典中查询词的触发操作,则根据查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若检测到电子书包含图片,则将图片上传至服务端,以供服务端对图片内容进行内容识别;获取服务端返回的至少一个标签关键词;获取扩展后的至少一个标签关键词对应的图片在电子书中的位置偏移量以及第一电子书标识;建立至少一个标签关键词、第一电子书标识及位置偏移量的索引关系,更新重构电子词典。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若监测到对重构电子词典中查询词的触发操作,则判断至少一个标签关键词中是否存在与查询词相匹配的标签关键词;若是,则根据标签关键词对应的索引关系,跳转显示电子书对应的图片。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:根据近义词规则对至少一个标签关键词进行扩展处理。
在一种可选的实施方式中,程序510进一步使处理器502执行以下操作:若查询词为英文字符,则将英文字符转换为中文文字;根据转换后的中文文字搜索查询书架中的电子书,确定电子书内容中存在包含中文文字的语句;建立查询词对应的中文文字、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若监测到对重构电子词典中查询词的触发操作,则根据查询词对应的索引关系,确定查询词对应的中文例句;将中文例句上传至服务端,以供服务端将中文例句转换为英文例句;获取并显示服务端返回的英文例句。
在一种可选的实施方式中,程序510进一步使处理器502执行以下操作:若监测到多个电子书中存在包含查询词的语句,则生成在查询词的预设位置以预设标记显示电子书数量的重构电子词典。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若监测到对重构电子词典中预设标记的触发操作,则以列表形式显示多个第一电子书标识,以供用户选择查看电子书的语句。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:针对每个电子书,提取电子书包含的所有查询词;针对每一个查询词,从重构电子词典中提取查询词对应的释义内容;对释义内容进行语义识别,得到释义内容对应的语义标签;基于语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:根据电子书对应的分类标签图谱中的一级分类标签对电子书进行分类,并根据分类结果进行电子书推荐,其中,一级分类标签为包含查询词数量最多的类别对应的标签。
在一种可选的实施方式中,程序510进一步使处理器502执行以下操作:S1,识别电子词典原文中的查询词;S2,根据预设关键词搜索查询词的在后内容,确定包含预设关键词的在后内容;S3,基于预设分隔符及查询词对包含预设关键词的在后内容进行断句处理,确定包含查询词的语句;S4,删除所确定的包含查询词的语句;重复执行S1-S4,直至筛选出不包含查询词的语句。
在一种可选的实施方式中,程序510还使处理器502执行以下操作:若监测到书架中的电子书发生变化,则同步更新查询词对应的索引关系以更新重构电子词典。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (48)

1.一种基于电子书内容的电子词典重构方法,包括:
获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;
识别电子词典中的查询词,根据所述查询词搜索查询客户端书架中的电子书,确定电子书内容中存在包含所述查询词的语句;
获取包含所述查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;
建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
2.根据权利要求1所述的方法,其中,所述根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含所述查询词的语句进一步包括:
搜索查询书架中的电子书是否包含所述查询词;
若是,则基于预设分隔符及查询词对电子书内容进行筛选,确定包含所述查询词的语句。
3.根据权利要求2所述的方法,其中,所述方法还包括:若书架中的电子书不包含所述查询词,则将所述查询词上传至服务端,以供服务端查找所述查询词对应的近义词;
获取服务端返回的所述查询词对应的近义词,搜索查询书架中的电子书是否包含所述查询词对应的近义词;
若是,则基于预设分隔符及所述查询词对应的近义词对电子书内容进行筛选,确定包含所述查询词对应的近义词的语句。
4.根据权利要求2所述的方法,其中,所述方法还包括:若书架中的电子书不包含所述查询词,则将所述查询词以及第二电子书标识上传至服务端,以供服务端根据所述第二电子书标识确定电子书对应的分类类别,查找所述分类类别中包含所述查询词的其它电子书;
获取服务端返回的其它电子书的第三电子书标识,以供用户根据所述第三电子书标识下载对应的电子书。
5.根据权利要求1-4中任一项所述的方法,其中,在生成重构电子词典之后,所述方法还包括:
若监测到对重构电子词典中查询词的触发操作,则根据所述查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
6.根据权利要求1-4中任一项所述的方法,其中,所述方法还包括:
若检测到电子书包含图片,则将图片上传至服务端,以供服务端对图片内容进行内容识别;
获取服务端返回的至少一个标签关键词;获取扩展后的至少一个标签关键词对应的图片在电子书中的位置偏移量以及第一电子书标识;
建立至少一个标签关键词、第一电子书标识及位置偏移量的索引关系,更新重构电子词典。
7.根据权利要求6所述的方法,其中,在生成重构电子词典之后,所述方法还包括:
若监测到对重构电子词典中查询词的触发操作,则判断至少一个标签关键词中是否存在与所述查询词相匹配的标签关键词;
若是,则根据所述标签关键词对应的索引关系,跳转显示电子书对应的图片。
8.根据权利要求6所述的方法,其中,在获取服务端返回的至少一个标签关键词之后,所述方法还包括:根据近义词规则对所述至少一个标签关键词进行扩展处理。
9.根据权利要求1-4中任一项所述的方法,其中,所述根据查询词搜索查询书架中的电子书,确定电子书内容中存在包含所述查询词的语句进一步包括:
若所述查询词为英文字符,则将英文字符转换为中文文字;
根据转换后的中文文字搜索查询书架中的电子书,确定电子书内容中存在包含所述中文文字的语句;
所述建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典进一步包括:
建立查询词对应的中文文字、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
10.根据权利要求9所述的方法,其中,在生成重构电子词典之后,所述方法还包括:
若监测到对重构电子词典中查询词的触发操作,则根据所述查询词对应的索引关系,确定所述查询词对应的中文例句;
将所述中文例句上传至服务端,以供服务端将所述中文例句转换为英文例句;
获取并显示服务端返回的英文例句。
11.根据权利要求1-4中任一项所述的方法,其中,所述生成重构电子词典进一步包括:
若监测到多个电子书中存在包含查询词的语句,则生成在查询词的预设位置以预设标记显示电子书数量的重构电子词典。
12.根据权利要求11所述的方法,其中,所述方法还包括:若监测到对重构电子词典中预设标记的触发操作,则以列表形式显示多个第一电子书标识,以供用户选择查看电子书的语句。
13.根据权利要求1-4中任一项所述的方法,其中,所述方法还包括:
针对每个电子书,提取电子书包含的所有查询词;
针对每一个查询词,从重构电子词典中提取所述查询词对应的释义内容;
对所述释义内容进行语义识别,得到所述释义内容对应的语义标签;
基于所述语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱。
14.根据权利要求13所述的方法,其中,在基于所述语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱之后,所述方法还包括:
根据电子书对应的分类标签图谱中的一级分类标签对电子书进行分类,并根据分类结果进行电子书推荐,其中,一级分类标签为包含查询词数量最多的类别对应的标签。
15.根据权利要求1-4中任一项所述的方法,其中,服务端删除电子词典原文中包含查询词的语句具体包括:
S1,识别电子词典原文中的查询词;
S2,根据预设关键词搜索查询词的在后内容,确定包含预设关键词的在后内容;
S3,基于预设分隔符及查询词对包含预设关键词的在后内容进行断句处理,确定包含查询词的语句;
S4,删除所确定的包含查询词的语句;重复执行S1-S4,直至筛选出不包含查询词的语句。
16.根据权利要求1-4中任一项所述的方法,其中,在生成重构电子词典之后,所述方法还包括:
若监测到书架中的电子书发生变化,则同步更新查询词对应的索引关系以更新重构电子词典。
17.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;
识别电子词典中的查询词,根据所述查询词搜索查询客户端书架中的电子书,确定电子书内容中存在包含所述查询词的语句;
获取包含所述查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;
建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
18.根据权利要求17所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
搜索查询书架中的电子书是否包含所述查询词;
若是,则基于预设分隔符及查询词对电子书内容进行筛选,确定包含所述查询词的语句。
19.根据权利要求18所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若书架中的电子书不包含所述查询词,则将所述查询词上传至服务端,以供服务端查找所述查询词对应的近义词;
获取服务端返回的所述查询词对应的近义词,搜索查询书架中的电子书是否包含所述查询词对应的近义词;
若是,则基于预设分隔符及所述查询词对应的近义词对电子书内容进行筛选,确定包含所述查询词对应的近义词的语句。
20.根据权利要求18所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若书架中的电子书不包含所述查询词,则将所述查询词以及第二电子书标识上传至服务端,以供服务端根据所述第二电子书标识确定电子书对应的分类类别,查找所述分类类别中包含所述查询词的其它电子书;
获取服务端返回的其它电子书的第三电子书标识,以供用户根据所述第三电子书标识下载对应的电子书。
21.根据权利要求17-20中任一项所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中查询词的触发操作,则根据所述查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
22.根据权利要求17-20中任一项所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若检测到电子书包含图片,则将图片上传至服务端,以供服务端对图片内容进行内容识别;获取服务端返回的至少一个标签关键词;
获取扩展后的至少一个标签关键词对应的图片在电子书中的位置偏移量以及第一电子书标识;
建立至少一个标签关键词、第一电子书标识及位置偏移量的索引关系,更新重构电子词典。
23.根据权利要求22所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中查询词的触发操作,则判断至少一个标签关键词中是否存在与所述查询词相匹配的标签关键词;
若是,则根据所述标签关键词对应的索引关系,跳转显示电子书对应的图片。
24.根据权利要求22所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
根据近义词规则对所述至少一个标签关键词进行扩展处理。
25.根据权利要求17-20中任一项所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
若所述查询词为英文字符,则将英文字符转换为中文文字;
根据转换后的中文文字搜索查询书架中的电子书,确定电子书内容中存在包含所述中文文字的语句;
建立查询词对应的中文文字、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
26.根据权利要求25所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中查询词的触发操作,则根据所述查询词对应的索引关系,确定所述查询词对应的中文例句;
将所述中文例句上传至服务端,以供服务端将所述中文例句转换为英文例句;
获取并显示服务端返回的英文例句。
27.根据权利要求17-20中任一项所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
若监测到多个电子书中存在包含查询词的语句,则生成在查询词的预设位置以预设标记显示电子书数量的重构电子词典。
28.根据权利要求27所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中预设标记的触发操作,则以列表形式显示多个第一电子书标识,以供用户选择查看电子书的语句。
29.根据权利要求17-20中任一项所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
针对每个电子书,提取电子书包含的所有查询词;
针对每一个查询词,从重构电子词典中提取所述查询词对应的释义内容;
对所述释义内容进行语义识别,得到所述释义内容对应的语义标签;
基于所述语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱。
30.根据权利要求29所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
根据电子书对应的分类标签图谱中的一级分类标签对电子书进行分类,并根据分类结果进行电子书推荐,其中,一级分类标签为包含查询词数量最多的类别对应的标签。
31.根据权利要求17-20中任一项所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
S1,识别电子词典原文中的查询词;
S2,根据预设关键词搜索查询词的在后内容,确定包含预设关键词的在后内容;
S3,基于预设分隔符及查询词对包含预设关键词的在后内容进行断句处理,确定包含查询词的语句;
S4,删除所确定的包含查询词的语句;重复执行S1-S4,直至筛选出不包含查询词的语句。
32.根据权利要求17-20中任一项所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到书架中的电子书发生变化,则同步更新查询词对应的索引关系以更新重构电子词典。
33.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
获取服务端返回的经过删除电子词典原文中包含查询词的语句后的电子词典;
识别电子词典中的查询词,根据所述查询词搜索查询客户端书架中的电子书,确定电子书内容中存在包含所述查询词的语句;
获取包含所述查询词的语句在相应电子书中的位置偏移量以及第一电子书标识;
建立查询词、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
34.根据权利要求33所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:
搜索查询书架中的电子书是否包含所述查询词;
若是,则基于预设分隔符及查询词对电子书内容进行筛选,确定包含所述查询词的语句。
35.根据权利要求34所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若书架中的电子书不包含所述查询词,则将所述查询词上传至服务端,以供服务端查找所述查询词对应的近义词;
获取服务端返回的所述查询词对应的近义词,搜索查询书架中的电子书是否包含所述查询词对应的近义词;
若是,则基于预设分隔符及所述查询词对应的近义词对电子书内容进行筛选,确定包含所述查询词对应的近义词的语句。
36.根据权利要求34所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若书架中的电子书不包含所述查询词,则将所述查询词以及第二电子书标识上传至服务端,以供服务端根据所述第二电子书标识确定电子书对应的分类类别,查找所述分类类别中包含所述查询词的其它电子书;
获取服务端返回的其它电子书的第三电子书标识,以供用户根据所述第三电子书标识下载对应的电子书。
37.根据权利要求33-36中任一项所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中查询词的触发操作,则根据所述查询词对应的索引关系,跳转至电子书相应的页面,并在页面中标记显示包含查询词的语句。
38.根据权利要求33-36中任一项所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若检测到电子书包含图片,则将图片上传至服务端,以供服务端对图片内容进行内容识别;
获取服务端返回的至少一个标签关键词;获取扩展后的至少一个标签关键词对应的图片在电子书中的位置偏移量以及第一电子书标识;
建立至少一个标签关键词、第一电子书标识及位置偏移量的索引关系,更新重构电子词典。
39.根据权利要求38所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中查询词的触发操作,则判断至少一个标签关键词中是否存在与所述查询词相匹配的标签关键词;
若是,则根据所述标签关键词对应的索引关系,跳转显示电子书对应的图片。
40.根据权利要求38所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
根据近义词规则对所述至少一个标签关键词进行扩展处理。
41.根据权利要求33-36中任一项所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:
若所述查询词为英文字符,则将英文字符转换为中文文字;
根据转换后的中文文字搜索查询书架中的电子书,确定电子书内容中存在包含所述中文文字的语句;
建立查询词对应的中文文字、第一电子书标识及位置偏移量的索引关系,生成重构电子词典。
42.根据权利要求41所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中查询词的触发操作,则根据所述查询词对应的索引关系,确定所述查询词对应的中文例句;
将所述中文例句上传至服务端,以供服务端将所述中文例句转换为英文例句;
获取并显示服务端返回的英文例句。
43.根据权利要求33-36中任一项所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:
若监测到多个电子书中存在包含查询词的语句,则生成在查询词的预设位置以预设标记显示电子书数量的重构电子词典。
44.根据权利要求43所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到对重构电子词典中预设标记的触发操作,则以列表形式显示多个第一电子书标识,以供用户选择查看电子书的语句。
45.根据权利要求33-36中任一项所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
针对每个电子书,提取电子书包含的所有查询词;
针对每一个查询词,从重构电子词典中提取所述查询词对应的释义内容;
对所述释义内容进行语义识别,得到所述释义内容对应的语义标签;
基于所述语义标签对查询词进行聚类处理,得到电子书对应的分类标签图谱。
46.根据权利要求45所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
根据电子书对应的分类标签图谱中的一级分类标签对电子书进行分类,并根据分类结果进行电子书推荐,其中,一级分类标签为包含查询词数量最多的类别对应的标签。
47.根据权利要求33-36中任一项所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:
S1,识别电子词典原文中的查询词;
S2,根据预设关键词搜索查询词的在后内容,确定包含预设关键词的在后内容;
S3,基于预设分隔符及查询词对包含预设关键词的在后内容进行断句处理,确定包含查询词的语句;
S4,删除所确定的包含查询词的语句;重复执行S1-S4,直至筛选出不包含查询词的语句。
48.根据权利要求33-36中任一项所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
若监测到书架中的电子书发生变化,则同步更新查询词对应的索引关系以更新重构电子词典。
CN201910750227.0A 2019-08-14 2019-08-14 基于电子书内容的电子词典重构方法及计算设备 Active CN110489528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910750227.0A CN110489528B (zh) 2019-08-14 2019-08-14 基于电子书内容的电子词典重构方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910750227.0A CN110489528B (zh) 2019-08-14 2019-08-14 基于电子书内容的电子词典重构方法及计算设备

Publications (2)

Publication Number Publication Date
CN110489528A CN110489528A (zh) 2019-11-22
CN110489528B true CN110489528B (zh) 2022-05-17

Family

ID=68551008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910750227.0A Active CN110489528B (zh) 2019-08-14 2019-08-14 基于电子书内容的电子词典重构方法及计算设备

Country Status (1)

Country Link
CN (1) CN110489528B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463919B (zh) * 2020-10-14 2021-10-29 北京百度网讯科技有限公司 文本标签的查询方法、装置、电子设备和存储介质
CN114936550A (zh) * 2022-05-10 2022-08-23 中国联合网络通信集团有限公司 词典生成方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN102214175A (zh) * 2010-04-02 2011-10-12 英业达股份有限公司 依据字词相关性生成例句的系统及其方法
CN102236644A (zh) * 2010-04-30 2011-11-09 英业达股份有限公司 以连结形式进行字词例句新增的系统及其方法
CN102654866A (zh) * 2011-03-02 2012-09-05 北京百度网讯科技有限公司 例句索引创建方法和装置以及例句检索方法和装置
CN104838414A (zh) * 2012-12-14 2015-08-12 谷歌公司 用于电子书的自定义字典
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108932218A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10092760B2 (en) * 2015-09-11 2018-10-09 Cardiac Pacemakers, Inc. Arrhythmia detection and confirmation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN102214175A (zh) * 2010-04-02 2011-10-12 英业达股份有限公司 依据字词相关性生成例句的系统及其方法
CN102236644A (zh) * 2010-04-30 2011-11-09 英业达股份有限公司 以连结形式进行字词例句新增的系统及其方法
CN102654866A (zh) * 2011-03-02 2012-09-05 北京百度网讯科技有限公司 例句索引创建方法和装置以及例句检索方法和装置
CN104838414A (zh) * 2012-12-14 2015-08-12 谷歌公司 用于电子书的自定义字典
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108932218A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质

Also Published As

Publication number Publication date
CN110489528A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
US7386438B1 (en) Identifying language attributes through probabilistic analysis
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN110716991B (zh) 基于电子书的实体关联信息的展示方法及电子设备
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
US20130124515A1 (en) Method for document search and analysis
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
US10936667B2 (en) Indication of search result
CN111291210A (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
CN110866091A (zh) 一种数据检索方法及装置
CN111522901A (zh) 文本中地址信息的处理方法及装置
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN102314452A (zh) 一种通过输入法平台进行导航的方法及系统
CN110489528B (zh) 基于电子书内容的电子词典重构方法及计算设备
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN111382570A (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN112667208A (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质
CN111008519A (zh) 阅读页面的展示方法、电子设备及计算机存储介质
EP2521045A1 (en) Content configuration method
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN115080743A (zh) 数据处理方法、数据处理装置、电子设备及存储介质
CN105787032B (zh) 网页快照的生成方法及装置
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant