发明内容
本发明提供一种工具书中特征字的标注方法和设备,用以提高特征字标注效率。
第一方面,本发明提供一种工具书中特征字的标注方法,包括:
将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取所述至少一个特征字各自对应的标识码;
根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
可选的,所述将工具书中包含的字和特征字库中包含的特征字进行匹配之前,还包括:
定义N个特征字;
将所述N个特征字存储至所述特征字库中。
可选的,所述获取所述至少一个特征字各自对应的标识码之前,还包括:
根据所述特征字库存储所述N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
所述获取所述至少一个特征字各自对应的标识码,包括:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码。
可选的,所述根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义之前,还包括:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
所述根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义,包括:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
可选的,所述根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注,包括:
将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
可选的,所述根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注,包括:
接收到用户点击所述至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。
第二方面,本发明提供一种工具书中特征字的标注系统,包括:
匹配模块,用于将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取模块,用于获取所述至少一个特征字各自对应的标识码;
确定模块,用于根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
标注模块,用于根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
可选的,上述系统还包括:预定义模块;
所述预定义模块用于:定义N个特征字;
将所述N个特征字存储至所述特征字库中。
可选的,所述确定模块还用于:
根据所述特征字库存储所述N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
相应的,所述获取模块,具体用于:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码。
可选的,所述确定模块还用于:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
相应的,所述获取模块,具体用于:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
可选的,所述标注模块,具体用于:
将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
可选的,所述标注模块,具体用于:
接收到用户点击所述至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述工具书中特征字的标注方法。
第四方面,本发明提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来实现上述工具书中特征字的标注方法。
本发明提供的的工具书中特征字的标注方法和设备,将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;获取所述至少一个特征字各自对应的标识码;根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。,和现有技术中编辑人员人工逐个查找特征字以及逐个解释其含义相比,大大提升了特征字标注的效率。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面,对本发明涉及的一些术语进行解释:
特征字:具有某些共性的字或词,比如:生僻字、生僻词、超纲字或者超纲词等。
工具书:工具书按内容分有综合性的和专科性的;按文种分有中文的和外文的;按编辑体例与功用分有课本、辞书、类书、政书、百科全书、年鉴、手册、书目、索引、文摘、表谱、图录、地图、名录等。其中,辞书是以汇集和解说词语为目的的工具书,包括字典和词(辞)典。
不同的工具书有不同的功用,工具书是面向大众用于查询知识信息的工具,工具书里面字的含义对大众来说必须是能够理解的,然而,由于工具书的内容范围是非常广的,不可避免要涉及到一些生僻字或者超纲字,这种情况下,需要把这些字的含义标注出来供使用者查阅,现有技术中,首先把需要标注的工具书内容打印出来,编辑人员根据工具书的受众分布来查找需要标注的生僻字和超纲字,比如受众是小学生,编辑人员则把工具书中对于小学生来说的生僻字和超纲字查找出来,并逐个解释其含义,最后交给排版人员排版。显然,上述标注方法完全是依赖人工进行的,标注效率低。
图1为本发明提供的标注系统框架图,图1所示系统包括:终端设备和服务器;服务器中可部署特征字库,终端设备和服务器通过有线或者无线技术连接。
可选的,该终端设备可以是任意类型的终端设备,比如:该终端设备可以是台式电脑、手机,平板电脑,笔记本电脑,智能手表,电视机以及其他具有显示屏的电子设备。编辑人员可以通过终端设备的显示屏将工具书的语句输入图1所示系统。
可选的,服务器可以是实体服务器,也可以是云服务器,本发明提供的工具书中特征字的标注方法可以由终端设备和服务器共同执行。
考虑到现有技术存在的上述问题,本发明引入图1所示标注系统,在该标注系统中部署特征字库,该特征字库存储有预先定义的所有特征字以及各个特征字对应的释义,在需要查找某工具书中的特征字时,编辑人员可将该工具书中的语句输入上述标注系统,该标注系统基于特征字库便可自动查找出每条语句中的特征字以及其释义,进而根据找出的特征字和对应的释义做标注处理,和现有技术中编辑人员人工逐个查找特征字以及逐个解释其含义相比,大大提升了特征字标注的效率。
下面结合具体的实施例对本发明提供的工具书中特征字的标注方法进行详细说明,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明提供的工具书中特征字的标注方法的实施例的流程示意图,如图2所示,本实施例提供的工具书中特征字的标注方法,包括:
S201、将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字。
本步骤涉及的特征字包括:生僻字和超纲字。
一种可实现方式中,在S201之前,可先定义N个特征字,将这些定义的特征字存储至特征字库中。具体的,可根据工具书的受众定义特征字,比如:工具书的受众是小学生,可将对于小学生这个阶段来说不认识的字定义为生僻字。进一步的,可按照工具书的受众将定义的特征字分类存储,比如:将针对小学生定义的生僻字存储在特征字库的第一区域,将针对成人定义的生僻字存储在特征字库的第二区域,当S201中待标注的工具书的受众是小学生时,可选择将工具书中包含的字和第一区域中的特征字进行匹配,当S201中待标注的工具书的受众是成人时,可选择将工具书中包含的字和第二区域中的特征字进行匹配,
下面举例说明:
假设定义的特征字有:犇、骉、珄、玚、媭、翀、翙、翮、翯、珝,假设编辑人员将当前待标注的工具书中的语句“追犇”输入图1所示系统,图1所示系统将该语句包含的字“追”和“犇”和特征字库中包含的字进行匹配,其中“犇”匹配成功,则将“犇”确定为上述工具书包含的特征字。
S202、获取所述至少一个特征字各自对应的标识码。
S203、根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义。
具体的,将定义的特征字存储至特征字库过程中,特征字库会自动生成各个特征字的ID,即标识码,可根据特征字库存储上述定义的N个特征字时生成的N个特征字各自对应的标识码,确定第一映射关系,该第一映射关系表征特征字和标识码之间的对应关系。
接着上文举例,假设定义的特征字有:犇、骉、珄、玚、媭、翀、翙、翮、翯、珝。将这些特征字分别放在文件中并存储到特征字库时,特征字库会自动生成这些字对应的ID,即标识码,定义的字和生成的标识码有一一对应关系,本文中将该一一对应关系称为第一映射关系,图3示出了上述生僻字和标识码的第一映射关系示意图,如图3所示,犇、骉、珄、玚、媭、翀、翙、翮、翯、珝对应的ID依次为:ID1、ID2、ID3、ID4、ID5、ID6、ID7、ID8、ID9、ID10。
得到特征字库中各个特征字和标识码之间的第一映射关系,并且S201确定了工具书中包含的至少一个特征字后,可根据该至少一个特征字和上述第一映射关系,确定工具书包含的至少一个特征字各自对应的标识码。
接着上述举例,工具书包含的特征字有“犇”,结合图3所示第一映射关系,可以确定“犇”的标识码为ID1。
一种可实现方式中,在S203之前,还可获取上述定义的N个特征字各自对应的释义,然后根据上述第一映射关系和定义的N个特征字各自对应的释义,确定第二映射关系,该第二映射关系表征标识码和释义之间的对应关系。
编辑人员对图3中定义的特征字解释的含义见图4,参见图4可知,犇、骉、珄、玚、媭、翀、翙、翮、翯、珝对应的释义依次为:释义1、释义2、释义3、释义4、释义5、释义6、释义7、释义8、释义9、释义10。结合图3和图4可以得到图5所示第二映射关系,参见图5所示,ID1、ID2、ID3、ID4、ID5、ID6、ID7、ID8、ID9、ID10对应的释义依次为:释义1、释义2、释义3、释义4、释义5、释义6、释义7、释义8、释义9、释义10。
有了上述第二映射关系后,可根据工具书包含的至少一个特征字各自对应的标识码和第二映射关系,确定上述至少一个特征字各自对应的释义。
参见上文,工具书包含的特征字有“犇”,“犇”的标识码为ID1,结合图5所示第二映射关系可以确定“犇”的释义为释义1,由此便得到了语句中特征字的释义。
S204、根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
在得到了工具书中包含的至少一个特征字各自对应的释义的基础上,标注处理包括两种可实现方式:
第一种实现方式:将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
第二种实现方式:在工具书包含的特征字处插入标签,并在该标签上添加该特征字的释义,接收到用户点击工具书中包含的至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。接着上述举例,“犇”的释义为释义1,参见图6所示,当接收到用户点击“犇”时,可使用图6所示方式呈现释义1。
本实施例提供的的工具书中特征字的标注方法和设备,在该标注系统中部署特征字库,该特征字库存储有预先定义的所有特征字以及各个特征字对应的释义,在需要查找某工具书中的特征字时,编辑人员可将该工具书中的语句输入上述标注系统,该标注系统基于特征字库便可自动查找出每条语句中的特征字以及其释义,进而根据找出的特征字和对应的释义做标注处理,和现有技术中编辑人员人工逐个查找特征字以及逐个解释其含义相比,大大提升了特征字标注的效率。
图7为本发明提供的工具书中特征字的标注系统的结构示意图。如图7所示,本发明提供的工具书中特征字的标注系统,包括:
匹配模块701,用于将工具书中包含的字和特征字库中包含的特征字进行匹配,确定所述工具书包含的至少一个特征字,所述特征字的类型包括:生僻字和超纲字中至少一种;
获取模块702,用于获取所述至少一个特征字各自对应的标识码;
确定模块703,用于根据所述至少一个特征字各自对应的标识码,确定所述至少一个特征字各自对应的释义;
标注模块704,用于根据所述至少一个特征字,以及所述至少一个特征字各自对应的释义,对所述至少一个特征字进行标注。
可选的,上述系统还包括:预定义模块705;
所述预定义模块用于:定义N个特征字;
将所述N个特征字存储至所述特征字库中。
可选的,所述确定模块703还用于:
根据所述特征字库存储所述N个特征字时生成的所述N个特征字各自对应的标识码,确定第一映射关系,所述第一映射关系表征特征字和标识码之间的对应关系;
相应的,所述获取模块702,具体用于:
根据所述至少一个特征字和所述第一映射关系,确定所述至少一个特征字各自对应的标识码。
可选的,所述确定模块703还用于:
获取所述N个特征字各自对应的释义;
根据所述第一映射关系和所述N个特征字各自对应的释义,确定第二映射关系,所述第二映射关系表征标识码和释义之间的对应关系;
相应的,所述获取模块702,具体用于:
根据所述至少一个特征字各自对应的标识码和所述第二映射关系,确定所述至少一个特征字各自对应的释义。
可选的,所述标注模块704,具体用于:
将所述至少一个特征字各自对应的释义标注在对应特征字所在的页面的页脚处。
可选的,所述标注模块704,具体用于:
接收到用户点击所述至少一个特征字中任一特征字的指令时,呈现所述特征字对应的释义。
本发明提供的工具书中特征字的标注系统,可以执行上述方法实施例所示的工具书中特征字的标注方法,其实现原理以及有益效果类似,此处不再进行赘述。
图8为本发明提供的电子设备的硬件结构示意图。如图8所示,本实施例的电子设备可以包括:
存储器801,用于存储程序指令。
处理器802,用于在所述程序指令被执行时实现上述任一实施例描述的工具书中特征字的标注方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例描述的工具书中特征字的标注方法。
本发明还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备实施上述任一实施例描述的工具书中特征字的标注方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应理解,本发明所描述的处理器可以是中央处理单元(英文:Central ProcessingUnit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital SignalProcessor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。