CN111274352B - 工具书中特征字的标注方法和设备 - Google Patents

工具书中特征字的标注方法和设备 Download PDF

Info

Publication number
CN111274352B
CN111274352B CN202010037229.8A CN202010037229A CN111274352B CN 111274352 B CN111274352 B CN 111274352B CN 202010037229 A CN202010037229 A CN 202010037229A CN 111274352 B CN111274352 B CN 111274352B
Authority
CN
China
Prior art keywords
feature word
feature
words
determining
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010037229.8A
Other languages
English (en)
Other versions
CN111274352A (zh
Inventor
耿红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN202010037229.8A priority Critical patent/CN111274352B/zh
Publication of CN111274352A publication Critical patent/CN111274352A/zh
Application granted granted Critical
Publication of CN111274352B publication Critical patent/CN111274352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种工具书中特征字的标注方法和设备。该方法包括:将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;获取所述至少一个特征字各自对应的标识码;根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。和现有技术中编辑人员人工逐个查找特征字以及逐个解释其含义相比,大大提升了特征字标注的效率。

Description

工具书中特征字的标注方法和设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种工具书中特征字的标注方法和设备。
背景技术
对工具书中具有某些共性的字/词进行标注,可以帮助使用者更便捷地理解这些字/词的相关知识,比如:对工具书中生僻字/词进行标注,可以帮助使用者快速了解生僻字/词的读音以及含义,因此,这种标注的做法对提升用户体验有着重要意义。如何提高对工具书中上述字/词的标注效率是目前较为关注问题。
现有技术中,首先把需要标注的工具书内容打印出来,编辑人员逐个查找文本中需要标注的字/词,然后对查找出来的字/词的逐个标注其释义,最后交给排版人员排版。显然,上述标注方法完全是依赖人工进行的,标注效率低。
发明内容
本发明提供一种工具书中特征字的标注方法和设备,用以提高特征字标注效率。
第一方面,本发明提供一种工具书中特征字的标注方法,包括:
将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取所述至少一个特征字各自对应的标识码;
根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
可选的,所述将工具书中包含的字和特征字库中包含的特征字进行匹配之前,还包括:
定义N个特征字;
将所述N个特征字存储至所述特征字库中。
可选的,所述获取所述至少一个特征字各自对应的标识码之前,还包括:
根据所述特征字库存储所述N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
所述获取所述至少一个特征字各自对应的标识码,包括:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码。
可选的,所述根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义之前,还包括:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
所述根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义,包括:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
可选的,所述根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注,包括:
将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
可选的,所述根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注,包括:
接收到用户点击所述至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。
第二方面,本发明提供一种工具书中特征字的标注系统,包括:
匹配模块,用于将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取模块,用于获取所述至少一个特征字各自对应的标识码;
确定模块,用于根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
标注模块,用于根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
可选的,上述系统还包括:预定义模块;
所述预定义模块用于:定义N个特征字;
将所述N个特征字存储至所述特征字库中。
可选的,所述确定模块还用于:
根据所述特征字库存储所述N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
相应的,所述获取模块,具体用于:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码。
可选的,所述确定模块还用于:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
相应的,所述获取模块,具体用于:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
可选的,所述标注模块,具体用于:
将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
可选的,所述标注模块,具体用于:
接收到用户点击所述至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述工具书中特征字的标注方法。
第四方面,本发明提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来实现上述工具书中特征字的标注方法。
本发明提供的的工具书中特征字的标注方法和设备,将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;获取所述至少一个特征字各自对应的标识码;根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。,和现有技术中编辑人员人工逐个查找特征字以及逐个解释其含义相比,大大提升了特征字标注的效率。
附图说明
图1为本发明提供的标注系统框架图。
图2为本发明提供的工具书中特征字的标注方法的实施例的流程示意图;
图3为本发明提供的第一映射关系示意图;
图4为本发明提供的特征字和释义之间的对应关系示意图;
图5为本发明提供的第二映射关系示意图;
图6为本发明提供的一用户界面示意图;
图7为本发明提供的工具书中特征字的标注系统的结构示意图;
图8为本发明提供的电子设备的硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面,对本发明涉及的一些术语进行解释:
特征字:具有某些共性的字或词,比如:生僻字、生僻词、超纲字或者超纲词等。
工具书:工具书按内容分有综合性的和专科性的;按文种分有中文的和外文的;按编辑体例与功用分有课本、辞书、类书、政书、百科全书、年鉴、手册、书目、索引、文摘、表谱、图录、地图、名录等。其中,辞书是以汇集和解说词语为目的的工具书,包括字典和词(辞)典。
不同的工具书有不同的功用,工具书是面向大众用于查询知识信息的工具,工具书里面字的含义对大众来说必须是能够理解的,然而,由于工具书的内容范围是非常广的,不可避免要涉及到一些生僻字或者超纲字,这种情况下,需要把这些字的含义标注出来供使用者查阅,现有技术中,首先把需要标注的工具书内容打印出来,编辑人员根据工具书的受众分布来查找需要标注的生僻字和超纲字,比如受众是小学生,编辑人员则把工具书中对于小学生来说的生僻字和超纲字查找出来,并逐个解释其含义,最后交给排版人员排版。显然,上述标注方法完全是依赖人工进行的,标注效率低。
图1为本发明提供的标注系统框架图,图1所示系统包括:终端设备和服务器;服务器中可部署特征字库,终端设备和服务器通过有线或者无线技术连接。
可选的,该终端设备可以是任意类型的终端设备,比如:该终端设备可以是台式电脑、手机,平板电脑,笔记本电脑,智能手表,电视机以及其他具有显示屏的电子设备。编辑人员可以通过终端设备的显示屏将工具书的语句输入图1所示系统。
可选的,服务器可以是实体服务器,也可以是云服务器,本发明提供的工具书中特征字的标注方法可以由终端设备和服务器共同执行。
考虑到现有技术存在的上述问题,本发明引入图1所示标注系统,在该标注系统中部署特征字库,该特征字库存储有预先定义的所有特征字以及各个特征字对应的释义,在需要查找某工具书中的特征字时,编辑人员可将该工具书中的语句输入上述标注系统,该标注系统基于特征字库便可自动查找出每条语句中的特征字以及其释义,进而根据找出的特征字和对应的释义做标注处理,和现有技术中编辑人员人工逐个查找特征字以及逐个解释其含义相比,大大提升了特征字标注的效率。
下面结合具体的实施例对本发明提供的工具书中特征字的标注方法进行详细说明,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明提供的工具书中特征字的标注方法的实施例的流程示意图,如图2所示,本实施例提供的工具书中特征字的标注方法,包括:
S201、将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字。
本步骤涉及的特征字包括:生僻字和超纲字。
一种可实现方式中,在S201之前,可先定义N个特征字,将这些定义的特征字存储至特征字库中。具体的,可根据工具书的受众定义特征字,比如:工具书的受众是小学生,可将对于小学生这个阶段来说不认识的字定义为生僻字。进一步的,可按照工具书的受众将定义的特征字分类存储,比如:将针对小学生定义的生僻字存储在特征字库的第一区域,将针对成人定义的生僻字存储在特征字库的第二区域,当S201中待标注的工具书的受众是小学生时,可选择将工具书中包含的字和第一区域中的特征字进行匹配,当S201中待标注的工具书的受众是成人时,可选择将工具书中包含的字和第二区域中的特征字进行匹配,
下面举例说明:
假设定义的特征字有:犇、骉、珄、玚、媭、翀、翙、翮、翯、珝,假设编辑人员将当前待标注的工具书中的语句“追犇”输入图1所示系统,图1所示系统将该语句包含的字“追”和“犇”和特征字库中包含的字进行匹配,其中“犇”匹配成功,则将“犇”确定为上述工具书包含的特征字。
S202、获取所述至少一个特征字各自对应的标识码。
S203、根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义。
具体的,将定义的特征字存储至特征字库过程中,特征字库会自动生成各个特征字的ID,即标识码,可根据特征字库存储上述定义的N个特征字时生成的N个特征字各自对应的标识码,确定第一映射关系,该第一映射关系表征特征字和标识码之间的对应关系。
接着上文举例,假设定义的特征字有:犇、骉、珄、玚、媭、翀、翙、翮、翯、珝。将这些特征字分别放在文件中并存储到特征字库时,特征字库会自动生成这些字对应的ID,即标识码,定义的字和生成的标识码有一一对应关系,本文中将该一一对应关系称为第一映射关系,图3示出了上述生僻字和标识码的第一映射关系示意图,如图3所示,犇、骉、珄、玚、媭、翀、翙、翮、翯、珝对应的ID依次为:ID1、ID2、ID3、ID4、ID5、ID6、ID7、ID8、ID9、ID10。
得到特征字库中各个特征字和标识码之间的第一映射关系,并且S201确定了工具书中包含的至少一个特征字后,可根据该至少一个特征字和上述第一映射关系,确定工具书包含的至少一个特征字各自对应的标识码。
接着上述举例,工具书包含的特征字有“犇”,结合图3所示第一映射关系,可以确定“犇”的标识码为ID1。
一种可实现方式中,在S203之前,还可获取上述定义的N个特征字各自对应的释义,然后根据上述第一映射关系和定义的N个特征字各自对应的释义,确定第二映射关系,该第二映射关系表征标识码和释义之间的对应关系。
编辑人员对图3中定义的特征字解释的含义见图4,参见图4可知,犇、骉、珄、玚、媭、翀、翙、翮、翯、珝对应的释义依次为:释义1、释义2、释义3、释义4、释义5、释义6、释义7、释义8、释义9、释义10。结合图3和图4可以得到图5所示第二映射关系,参见图5所示,ID1、ID2、ID3、ID4、ID5、ID6、ID7、ID8、ID9、ID10对应的释义依次为:释义1、释义2、释义3、释义4、释义5、释义6、释义7、释义8、释义9、释义10。
有了上述第二映射关系后,可根据工具书包含的至少一个特征字各自对应的标识码和第二映射关系,确定上述至少一个特征字各自对应的释义。
参见上文,工具书包含的特征字有“犇”,“犇”的标识码为ID1,结合图5所示第二映射关系可以确定“犇”的释义为释义1,由此便得到了语句中特征字的释义。
S204、根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
在得到了工具书中包含的至少一个特征字各自对应的释义的基础上,标注处理包括两种可实现方式:
第一种实现方式:将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
第二种实现方式:在工具书包含的特征字处插入标签,并在该标签上添加该特征字的释义,接收到用户点击工具书中包含的至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。接着上述举例,“犇”的释义为释义1,参见图6所示,当接收到用户点击“犇”时,可使用图6所示方式呈现释义1。
本实施例提供的的工具书中特征字的标注方法和设备,在该标注系统中部署特征字库,该特征字库存储有预先定义的所有特征字以及各个特征字对应的释义,在需要查找某工具书中的特征字时,编辑人员可将该工具书中的语句输入上述标注系统,该标注系统基于特征字库便可自动查找出每条语句中的特征字以及其释义,进而根据找出的特征字和对应的释义做标注处理,和现有技术中编辑人员人工逐个查找特征字以及逐个解释其含义相比,大大提升了特征字标注的效率。
图7为本发明提供的工具书中特征字的标注系统的结构示意图。如图7所示,本发明提供的工具书中特征字的标注系统,包括:
匹配模块701,用于将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取模块702,用于获取所述至少一个特征字各自对应的标识码;
确定模块703,用于根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
标注模块704,用于根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
可选的,上述系统还包括:预定义模块705;
所述预定义模块用于:定义N个特征字;
将所述N个特征字存储至所述特征字库中。
可选的,所述确定模块703还用于:
根据所述特征字库存储所述N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
相应的,所述获取模块702,具体用于:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码。
可选的,所述确定模块703还用于:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
相应的,所述获取模块702,具体用于:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
可选的,所述标注模块704,具体用于:
将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
可选的,所述标注模块704,具体用于:
接收到用户点击所述至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。
本发明提供的工具书中特征字的标注系统,可以执行上述方法实施例所示的工具书中特征字的标注方法,其实现原理以及有益效果类似,此处不再进行赘述。
图8为本发明提供的电子设备的硬件结构示意图。如图8所示,本实施例的电子设备可以包括:
存储器801,用于存储程序指令。
处理器802,用于在所述程序指令被执行时实现上述任一实施例描述的工具书中特征字的标注方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例描述的工具书中特征字的标注方法。
本发明还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备实施上述任一实施例描述的工具书中特征字的标注方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应理解,本发明所描述的处理器可以是中央处理单元(英文:Central ProcessingUnit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital SignalProcessor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种工具书中特征字的标注方法,其特征在于,包括:
将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取所述至少一个特征字各自对应的标识码;
根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注;
所述获取所述至少一个特征字各自对应的标识码之前,还包括:
根据所述特征字库存储N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
所述获取所述至少一个特征字各自对应的标识码,包括:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码;
所述根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义之前,还包括:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
所述根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义,包括:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
2.根据权利要求1所述的方法,其特征在于,所述将工具书中包含的字和特征字库中包含的特征字进行匹配之前,还包括:
定义N个特征字;
将所述N个特征字存储至所述特征字库中。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注,包括:
将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注,包括:
接收到用户点击所述至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。
5.一种工具书中特征字的标注系统,其特征在于,包括:
匹配模块,用于将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取模块,用于获取所述至少一个特征字各自对应的标识码;
确定模块,用于根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
标注模块,用于根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注;
所述确定模块还用于:
根据所述特征字库存储N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
相应的,所述获取模块,具体用于:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码;
所述确定模块还用于:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
所述获取模块,具体用于:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来实现权利要求1-4任一项所述的方法。
CN202010037229.8A 2020-01-14 2020-01-14 工具书中特征字的标注方法和设备 Active CN111274352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010037229.8A CN111274352B (zh) 2020-01-14 2020-01-14 工具书中特征字的标注方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010037229.8A CN111274352B (zh) 2020-01-14 2020-01-14 工具书中特征字的标注方法和设备

Publications (2)

Publication Number Publication Date
CN111274352A CN111274352A (zh) 2020-06-12
CN111274352B true CN111274352B (zh) 2023-05-26

Family

ID=70998703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010037229.8A Active CN111274352B (zh) 2020-01-14 2020-01-14 工具书中特征字的标注方法和设备

Country Status (1)

Country Link
CN (1) CN111274352B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362134A (ja) * 2003-06-03 2004-12-24 Hitachi Systems & Services Ltd 属性取得装置および属性取得方法
CN102346731A (zh) * 2010-08-02 2012-02-08 联想(北京)有限公司 一种文件处理方法及文件处理装置
CN106774985A (zh) * 2016-12-30 2017-05-31 维沃移动通信有限公司 一种文字处理方法及移动终端
CN108182249A (zh) * 2017-12-28 2018-06-19 深圳Tcl新技术有限公司 文字查询方法、装置及计算机可读存储介质
CN109035368A (zh) * 2018-07-03 2018-12-18 百度在线网络技术(北京)有限公司 用于ar场景的信息处理方法、装置、设备及存储介质
CN110472234A (zh) * 2019-07-19 2019-11-19 平安科技(深圳)有限公司 敏感文本识别方法、装置、介质和计算机设备
CN110489032A (zh) * 2019-08-14 2019-11-22 掌阅科技股份有限公司 用于电子书的词典查询方法及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136251A1 (en) * 2003-08-21 2007-06-14 Idilia Inc. System and Method for Processing a Query

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362134A (ja) * 2003-06-03 2004-12-24 Hitachi Systems & Services Ltd 属性取得装置および属性取得方法
CN102346731A (zh) * 2010-08-02 2012-02-08 联想(北京)有限公司 一种文件处理方法及文件处理装置
CN106774985A (zh) * 2016-12-30 2017-05-31 维沃移动通信有限公司 一种文字处理方法及移动终端
CN108182249A (zh) * 2017-12-28 2018-06-19 深圳Tcl新技术有限公司 文字查询方法、装置及计算机可读存储介质
CN109035368A (zh) * 2018-07-03 2018-12-18 百度在线网络技术(北京)有限公司 用于ar场景的信息处理方法、装置、设备及存储介质
CN110472234A (zh) * 2019-07-19 2019-11-19 平安科技(深圳)有限公司 敏感文本识别方法、装置、介质和计算机设备
CN110489032A (zh) * 2019-08-14 2019-11-22 掌阅科技股份有限公司 用于电子书的词典查询方法及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中医古籍图像文献的自由标引方法研究;张伟娜;《中国优秀硕士学位论文全文数据库》;全文 *

Also Published As

Publication number Publication date
CN111274352A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
US9411790B2 (en) Systems, methods, and media for generating structured documents
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
JP2007517338A (ja) サーチ品質の改善システムおよび改善方法
CN111176650B (zh) 解析器生成方法、检索方法、服务器及存储介质
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP2017211993A (ja) 請求の範囲の中の請求の範囲構成要素名詞所属構成要素対応符号を対応検出する方法
Evert A Lightweight and Efficient Tool for Cleaning Web Pages.
CN110287286B (zh) 短文本相似度的确定方法、装置及存储介质
CN110188180B (zh) 相似问题的确定方法、装置、电子设备及可读存储介质
US11868378B2 (en) Creation of indexes for information retrieval
CN112380337A (zh) 基于富文本的高亮方法及装置
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP2019179470A (ja) 情報処理プログラム、情報処理方法、および情報処理装置
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN111274352B (zh) 工具书中特征字的标注方法和设备
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN112307183B (zh) 搜索数据识别方法、装置、电子设备以及计算机存储介质
CN114492303A (zh) 电子书的排版处理方法、电子设备及存储介质
CN103377197A (zh) 富格式文档处理方法和装置
CN111931480A (zh) 文本主要内容的确定方法、装置、存储介质及计算机设备
CN109271392B (zh) 快速判别和抽取关系型数据库实体及属性的方法及设备
CN115293158B (zh) 基于标签辅助的消歧方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right