CN107390896B - 一种输入法的词库管理方法及装置 - Google Patents
一种输入法的词库管理方法及装置 Download PDFInfo
- Publication number
- CN107390896B CN107390896B CN201710600168.XA CN201710600168A CN107390896B CN 107390896 B CN107390896 B CN 107390896B CN 201710600168 A CN201710600168 A CN 201710600168A CN 107390896 B CN107390896 B CN 107390896B
- Authority
- CN
- China
- Prior art keywords
- entry
- dictionary
- input method
- shielding
- examination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 131
- 238000007726 management method Methods 0.000 title claims abstract description 16
- 238000001914 filtration Methods 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 abstract description 17
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012905 input function Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种输入法的词库管理方法及装置,用于在特殊应用场景时输入法的管理,比如在考试时,首先解析考试试题的答案信息形成屏蔽词条库,然后根据所述屏蔽词条库对终端设备包括台式计算机、笔记本电脑、PAD、智能手机等上安装的输入法的词库进行操作,遍历输入法中的各个词库的词条信息,删除需要屏蔽的词条,从而可以在普通终端设备上执行正常的考试或测试,无需准备专用的终端设备或者使用专用的输入法,既可以避免由于词库的智能输入功能影响考试或测试的结果,又不会影响考试期间对于其他文字的输入以及非考试时段对于终端设备及其输入法的正常使用,提高了用户的使用体验,降低了组织考试或测试的成本。
Description
技术领域
本发明属于智能输入法技术领域,用于特殊应用场景下尤其是互联网教学场景下的智能输入法的词库管理,特别是涉及一种应用于考试场景的能够根据考试试题的答案信息对输入法的词库进行管理的方法及装置。
背景技术
自从上个世纪九十年代出现汉字输入法至今,随着计算机技术的迅猛发展,特别是由于各种智能终端的应运而生,作为人机核心交互手段的输入法变得越来越智能。输入法的智能主要是因为越来强大的算法和基于此的过程学习能力,词库是输入法智能化的内在载体。尽管不同的输入法,词库的结构不尽相同,但是基本上包括索引、目录和词条。从类别上看,词库一般可以包括基础词库、专业词库和用户词库。目前,为各种终端设备所提供的输入法系统,主要是基于其词库以及词库中的词频(字词的使用频率)来为用户在信息输入过程中提供候选词的排序,优先显示词频最高的常用字词,即首选词。候选词的排序是用户在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命中率是指,当用户输入一定的键盘信息后,排序在前的字、词或句是用户最需要的。但是,无论如何,词库特别是词库中的词条信息是输入法智能化的基础保障。
CN201260222Y(公开日2009年6月17日)公开了一种移动终端,所述移动终端包括:从存储在移动终端的信息中采集字词信息,并对所述字词信息的类型进行分析的信息采集分析模块;根据所述字词信息的类型,对所述字词信息进行分类存储的联想词库模块;在用户输入信息的过程中,从所述联想词库模块中读取与所述输入信息相关联的字词信息,并将所述字词信息作为输入法的候选词来供用户选择的联想引擎模块。采用本实用新型,将存储在移动终端中的联系人名称、邮件地址等比较常用的字词信息与输入法系统关联起来,作为输入法的候选词来供用户选择,可提高对常用信息的输入速度和准确度。
CN103823802A(公开日2014年5月28日)公开了一种基于用户自有文档的智能输入法词库构建方法,用于为用户构建个性化的输入法词库信息,包括:高速缓冲存储器单元,用于复制硬盘上的Word、Excel、PowerPoint文档、E-mail、缓存中的网页等文件;词汇导出模块,功能是读出用户文档中所有词汇,并保存为XML格式的文件,然后自动把它上传到数据库;词库下载模块,功能是把保存在数据库中的XML文件下载到客户端,并自动把该文件中的词汇导入到用户词库文件中;个性化词库存储单元,用于存储用户的独有个性化词库信息。本发明还提供一种对应的方法。本发明对用户自有文档价值进行了挖掘,使得输入法更有针对性,本输入法利于快速录入,有助于提升文字输入效率。
CN105718071A(公开日2016年6月29日)公开了一种输入法中推荐联想词汇的终端,包括:获取模块,用于当终端调用输入法时,获取终端的当前场景信息;提取模块,用于根据所述当前场景信息提取推荐关键词库;推荐模块,用于当终端通过所述输入法进行文本输入时,在所述输入法中推荐与所述推荐关键词库中词汇相关的联想词汇。本发明由于是根据终端所处的不同场景在输入法中推荐相应的联想词汇,推荐的联想词汇能更加准确地适应用户在不同场景中的输入需求,从而提高用户利用输入法中的联想词汇进行输入的效率。
CN102346559A(公开日2012年2月8日)公开了一种输入法中词条的删除方法,旨在解决现有的输入法中文字输入由于重码率高时输入速度慢、准确率低的问题,在文字输入过程中,实时检测用户是否输入词条删除指令,当检测到用户输入的词条删除指令时,从词库中删除该词条删除指令指定的词条,并根据删除了指定词条后的词库输出候选词,从而达到动态删除词库中的词条的目的,由于从词库中删除了指定的词条,从而减少了输出的候选词的数量,便于用户快速、准确的从候选词中选择目标词。该专利申请旨在解决输入速度的问题,旨在解决输入准确性的问题,其根据用户的指令对词条进行删除,对于现在智能输入法而言,这种删除操作的方式效率低下,而且不实用。
现有技术中,对于输入法智能的追求从未停歇,通过各种可能的处理方式,提高用户输入的智能化选择。但是,在一些特殊应用场景中,特别是在使用终端进行考试或者测试,甚至做练习时,过于智能化的联想和推荐,使得用户不再需要认真的记忆,也不再需要认真区分和识别输入的内容。另一方面,过于智能化的联想和推荐,使得在考试时,达不到考试的评估结果,而且还可能因为不同终端上词库的个性化区别,带来考试的不公平。为了解决这方面的问题,现有技术一般采用的是使用专用终端设备和/或使用专用输入法或者输入设备。从成本来讲,从组织考试来讲费时费力,而这些专用设备通常又难以使用,购买和维护成本很高。如果不是重大的考试,采用专用的设备通常是不必要的。另一方面,采用专用的输入法,通常要删除和屏蔽其他的输入法,使用生疏的输入法,大大降低了用户的体验,降低了除了涉及答案信息的其他内容的输入效率。
针对现有技术中存在的问题,本发明旨在提供一种对于智能输入法的词库进行管理的方法和装置,对于普通的终端设备上的输入法,在执行特殊应用时,比如使用终端设备和输入法进行考试或测验时,运行本发明的词库管理方法,可以对于智能输入法的词库的部分词条信息进行屏蔽式删除操作,从而可以实现使用普通终端设备和用户熟悉的输入法,可以执行特殊应用比如考试,既不影响考试结果,又不会影响用户的体验和效率。
发明内容
根据本发明的第一方面,旨在提供一种用于互联网教学场景的输入法的词库管理方法,包括以下步骤:
词条解析步骤,用于获取待解析的文档,首先以间隔符号为边界条件,将所述文档划分为短语,对于所述短语,再进行渐进式词条解析,生成由一系列大于等于两个字的词条组成的屏蔽词条库;
词条过滤步骤,用于获取输入法的词库,根据所述屏蔽词条库,查询所述词库中是否存在所述屏蔽词条库中的词条,如果是,删除所述词库中与所述屏蔽词条库中内容相同的词条记录;
优选的,在执行所述词条过滤步骤之前,先执行词库备份步骤,用于将所述输入法的词库进行备份,使得可以在事后恢复使用执行所述词条过滤步骤之前的词库;
优选的,在执行所述词条过滤步骤时,查找所述输入法的所有词库,遍历所述输入法的所有词库的词条信息,从而完成所述词条过滤步骤;
在执行所述词条解析步骤之前,执行文档过滤步骤,将所述文档中的数字或字母,以位置上连续的组为单位替换为一个间隔符号;
在执行所述词条解析步骤之后,执行文档删除步骤,对于待解析的文档,在完成词条解析之后,删除所述文档内容;
对于短语的渐进式词条解析包括,按照短语的文字顺序,按照从前往后的顺序,将所述文字分别作为首字,往后遍历解析,将所述短语形成为一系列至少为两个字的词条;
所述词条解析步骤,还包括相同屏蔽词条的合并操作,用于将不同的短语解析出的相同的词条进行合并,作为一条屏蔽词条保存至屏蔽词条库;
所述词条过滤步骤,还包括删除屏蔽词条库的操作,在遍历完成所述输入法的所有词库,完成所有屏蔽词条的过滤之后,删除所述屏蔽词条库;
所述间隔符号包括空格、回车、标点符号中的至少一个。
根据本发明的第二方面,旨在提供一种输入法的词库管理装置,包括词条解析单元和词条过滤单元,其中,
所述词条解析单元,用于获取待解析的文档,首先以间隔符号为边界条件,将所述文档划分为短语,对于所述短语,再进行渐进式词条解析,生成由一系列大于等于两个字的词条组成的屏蔽词条库;
所述词条过滤单元,用于获取输入法的词库,根据所述屏蔽词条库,查询所述词库中是否存在所述屏蔽词条库中的词条,如果是,删除所述词库中与所述屏蔽词条库中内容相同的词条记录;
所述装置进一步包括词库备份单元,
优选的,所述词库备份单元,用于在根据所述词条解析单元执行所述词条过滤之前,执行词库备份,将所述输入法的词库进行备份,使得可以在事后恢复使用执行所述词条过滤之前的词库;
优选的,所述词条过滤单元在执行所述词条过滤时,查找所述输入法的所有词库,遍历所述输入法的所有词库的词条信息,从而完成所述词条过滤单元;
所述装置进一步包括文档过滤单元和文档删除单元,
所述文档过滤单元,用于在根据所述词条解析单元执行所述词条解析之前,执行文档过滤,将所述文档中的数字或字母,以位置上连续的组为单位替换为一个间隔符号;
所述文档删除单元,用户在根据所述词条解析单元执行所述词条解析之后,执行文档删除,对于待解析的文档,在完成词条解析之后,删除所述文档内容;
对于短语的渐进式词条解析包括,按照短语的文字顺序,按照从前往后的顺序,将所述文字分别作为首字,往后遍历解析,将所述短语形成为一系列至少为两个字的词条;
所述词条解析单元,还用于执行相同屏蔽词条的合并操作,用于将不同的短语解析出的相同的词条进行合并,作为一条屏蔽词条保存至屏蔽词条库;
所述词条过滤单元,还用于执行删除屏蔽词条库的操作,在遍历完成所述输入法的所有词库,完成所有屏蔽词条的过滤之后,删除所述屏蔽词条库;
所述间隔符号包括空格、回车、标点符号中的至少一个。
根据本发明的又一方面,旨在提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可以实现如上所述方法的步骤。
根据本发明的再一方面,旨在提供一种计算机存储介质,其存储了可以被计算机执行的程序,执行所述程序时可以实现如上所述方法的步骤。
现有技术中,对于比如考试这样的特殊应用场景,通常需要采用使用专用终端设备,使用无智能词库的效率极其低下的输入法等手段进行解决,这大大增加了教育机构平时组织考试的成本。本发明公开了一种输入法的词库管理方法及装置,用于在特殊应用场景时输入法的管理,比如在考试时,首先解析考试试题的答案信息形成屏蔽词条库,然后根据所述屏蔽词条库对终端设备包括台式计算机、笔记本电脑、PAD、智能手机等上安装的输入法的词库进行操作,遍历输入法中的各个词库的词条信息,删除需要屏蔽的词条,从而可以在普通终端设备上执行正常的考试或测试,无需准备专用的终端设备或者使用专用的输入法,既可以避免由于词库的智能输入功能影响考试或测试的结果,又不会影响考试期间对于其他文字的输入以及非考试时段对于终端设备及其输入法的正常使用,提高了用户的使用体验,降低了组织考试或测试的成本。在开始特殊应用场景之前执行本发明的词库管理方法,比如在开始考试之前,对于终端设备上的输入法执行上述管理方法,有效避免了由于输入法词库的智能联想功能造成的轻松获取考试答案的可能。
本发明的上述和进一步的目的以及特征,根据结合附图的以下详细说明就会更加清楚和完整。
附图说明
图1是根据本发明的应用步骤流程图;
图2是根据本发明的词库管理流程图;和
图3是根据本发明的词库解析流程图。
具体实施方式
以下,将结合附图对本发明的具体实施方式进行进一步详细的描述。
本发明的输入法的词库管理方法及装置,旨在解决特殊应用场景下使用智能输入法的问题。本发明所述的特殊应用场景主要是具有考试、测试、练习等考试或考察性要求的场景,主要是教育教学领域,特别是互联网教学领域。对于用于执行考试、测试或练习的终端设备,在由普通应用向特殊应用转换之前,运行本发明的方法及装置。
本发明的终端设备可以包括:处理器、网络模块、控制模块、显示模块、智能操作系统和智能输入法,可以是智能手机、PAD、笔记本电脑、台式电脑等。所述终端上可以设有通过数据总线连接各种拓展类设备和配件的多种数据接口。所述智能操作系统包括Windows、Android及其改进、iOS,在其上可以安装、运行应用软件,实现在智能操作系统下的各种应用软件、服务和应用程序商店/平台的功能。
所述终端设备可以通过RJ45/Wi-Fi/蓝牙/2G/3G/4G/G.hn/Zigbee/Z-ware/RFID等方式连接到互联网络,并借助互联网连接到其它的终端或其它电脑及设备,通过1394/USB/串行/SATA/SCSI/PCI-E/Thunderbolt/数据卡接口等多种数据接口或者总线方式,通过HDMI/YpbPr/SPDIF/AV/DVI/VGA/TRS/SCART/Displayport等音视频接口等连接方式,来连接各种拓展类设备和配件,组成了一个会议/教学设备互动系统。带有软件形式的声音捕捉控制模块和动作捕捉控制模块,或通过数据总线板载硬件形式的声音捕捉控制模块和动作捕捉控制模块,来实现声控和形控功能;通过音视频接口连接显示/投影模块、麦克风、音响设备和其它音视频设备,来实现显示、投影、声音接入、音视频播放,以及数字或模拟的音视频输入和输出功能;通过数据接口连接摄像头、麦克风、电子白板、RFID读取设备,实现影像接入、声音接入、电子白板的使用控制和录屏,RFID读取功能,并通过相应的接口可接入和管控移动存储设备、数字设备和其它设备;通过DLNA/IGRS技术和互联网络技术,来实现的包括多屏设备之间的操控、互动和甩屏等功能。也就是说,本发明的终端设备通常可以是执行网络教学的终端设备。
本发明中,处理器定义为包括但不限于:指令执行系统,如基于计算机/处理器的系统、专用集成电路(ASIC)、计算设备、或能够从非暂时性存储介质或非暂时性计算机可读存储介质取得或获取逻辑并执行非暂时性存储介质或非暂时性计算机可读存储介质中包含的指令的硬件和/或软件系统。所述处理器还可以包括任意控制器,状态机,微处理器,基于互联网络的实体、服务或特征,或它们的任意其它模拟的、数字的和/或机械的实现方式。
如图1所示,根据本发明的应用步骤流程图。所述应用步骤具体包括:S100考试准备、S200执行词库管理、S300开始考试、S400考试结束、S500再次执行词库管理。
对于步骤S100,以互联网教学为例,当用户使用平时进行学习的终端设备执行考试、测试、或练习时,终端设备进入考试准备状态,互联网教学系统准备调用本发明的输入法的词库管理程序,通过服务器将本次考试、测试、或练习的答案信息以文本内容的方式发送到各个终端设备。为了避免用户因为输入法的智能功能比如联想功能,而无法准确了解用户是否掌握了需要考察或考试的内容,比如语文考试中的填空题“白日依山尽,_______”,很多智能输入法只有输入“白日依山尽”,后面自动提示“黄河入海流”。因此,根据管理员的设置,在进行考试、测试或练习等特殊应用场景时,从而首先运行本发明的方法及装置,对输入法的词库进行管理操作。
对于步骤S200,互联网教学系统调用之后,对于每个终端设备,本发明的输入法的词库管理程序开始运行,根据答案信息对终端设备上的所有输入法的所有词库进行管理,对词库中可能对答案进行智能提示的词条记录进行操作。
对于步骤S300,互联网教学系统在收到词库管理程序已经遍历所有输入法的所有词库,并且完成相应操作之后,正式执行考试操作,用户通过终端设备进行答题。
对于步骤S400,互联网教学系统在收到用户完成答题的信息之后,确认考试已经结束,再次准备调用词库管理程序。
对于步骤S500,在收到用户已经完成考试之后,由互联网教学系统调用,词库管理程序再次运行,执行下述的S206步骤,遍历所有输入法,将之前备份的词库覆盖当前的词库,使得终端设备的所有输入法的所有词库恢复到考试前是状态。
如图2所示,根据本发明的词库管理流程图。具体的,对于步骤S200进一步包括,S201文本获取步骤、S202词条解析步骤、S203文档删除步骤、S204词库备份步骤、S205词条过滤步骤、S206词库恢复步骤。
对于S201文本获取步骤,用于在互联网教学系统调用本发明的词库管理程序时,首先检测系统提供了需要进行屏蔽操作的包含答案的文档,如果有,则获取所述文档,准备对文档进行解析,如果没有,生成提示信息,发送到互联网教学系统的服务器端。所述文档是考试试题或测试题的答案文本信息,这些文本信息通常具有涉及题目的编号、其间使用的标点符号(包括中英文中常用的点号、标号和符号)、操作符号(如回车符号、空格符号)、以及文字内容、字母内容、数字内容、公式内容等。所述间隔符号包括空格、回车、标点符号的至少一个。
对于S202词条解析步骤,用于对所述文档进行解析,获取屏蔽词条库。如图3所示,根据本发明的词库解析流程图。具体的,步骤S202进一步包括S2021文档过滤步骤、S2022划分短语步骤、S2023解析操作步骤、S2024词条去重步骤。
对于S2021文档过滤步骤,用于将所述文档中的数字、字母和/或标点符号,以位置上连续的组为单位替换为一个间隔符号。比如,“14(a)黄河入海流”,“14”、“(”、“a”、“)”在位置上属于连续的,分别属于数字、标点符号、字母和标点符号的一组符号,在对文档进行处理的过程中,将其替换为一个间隔符号,比如一个空格,一个回车符,或者一个标点符号。
可选的,对于数学公式、物理公式等公式类的内容,也可以替换为一个间隔符号,因为通常来说,在输入法的词库中这类公式一般没有联想存储功能。完成有关间隔符号的替换操作之后,文档的各个答案内容,主要是彼此通过间隔符号间隔开的文字内容,进行渐进式词条解析。
对于S2022划分短语步骤,用于获取待解析且经过过滤的文档,以间隔符号为边界条件,将所述文档划分为短语,对于所述短语,再进行渐进式词条解析,生成由一系列大于等于两个字的词条组成的屏蔽词条库。
对于S2023解析操作步骤,用于在完成短语划分之后,对于短语进行渐进式词条解析,按照短语的文字顺序,按照从前往后的顺序,将所述文字分别作为首字,往后遍历解析,将所述短语形成为一系列至少为两个字的词条。比如,对于这些间隔开的内容,对于两个含两个字以上的短语进行解析处理,比如“黄河入海流”,解析为“黄河”“黄河入”“黄河入海”“黄河入海流”“河入”“河入海”“和入海流”“入海”“入海流”“海流”等10个屏蔽词条,将这些屏蔽词条顺序编码后存入屏蔽词条库中。所述词条解析步骤,还包括相同屏蔽词条的合并操作,用于将不同的短语解析出的相同的词条进行合并,作为一条屏蔽词条保存至屏蔽词条库。
对于S2024词条去重步骤,用于对解析的词条进行去重操作。对于一个答案文档进行解析之后,很有可能存在相同的屏蔽词条,比如可能解析出多个“入海”,如果每个“入海”作为一个屏蔽词条,会增加后续的比对工作量,优选的,为了提高后续比对的效率,在对答案文档解析完成之后,对于屏蔽词条进行查同操作,将相同内容的屏蔽词条进行合并操作,将内容相同的多个屏蔽词条作为一条记录保存至屏蔽词条库中。
本发明主要应用于以中文汉字为答案考试类型,英语或者其他外语有其表述的特殊性,本发明无意完全涵盖,但是根据本发明的精神,可以应用于以外语为主要答题内容的场景下,也在本发明的保护范围之内。词条解析步骤需要事先获取考试、测试和练习的答案文本信息,通过进行词条的渐进式解析,可以获得所有可能的屏蔽词条,形成屏蔽词条库。
对于S203文档删除步骤,用于在完成词条解析操作之后,将答案文档删除。出于保密的考虑,当执行所述词条解析步骤之后,执行文档删除步骤,对于待解析且已经完成解析的答案文档,在完成词条解析之后,删除所述文档的内容。所述的删除操作可以是文件粉碎的方式。
对于S204词库备份步骤,用于在进行词条过滤之前,获得终端设备上的所有输入法的所有原有词库,并且进行备份,以便于考试结束后用户恢复原有词库。对于具体的终端设备,当获得所有的输入法的词库的操作权限后,执行词库备份步骤,将所述输入法的词库进行备份,使得可以在事后恢复使用执行所述词条过滤步骤之前的词库。对于备份的词库,当特殊应用场景结束之后,使用备份的词库覆盖当前的词库,使得终端设备可以恢复到应用场景之前的状态。
对于S205词条过滤步骤,使用经过去重的词条列表也就是屏蔽词条库,执行词条过滤步骤,首先获取输入法的词库,根据所述屏蔽词条库,查询所述词库中是否存在所述屏蔽词条库中的词条,如果是,删除所述词库中与所述屏蔽词条库中内容相同的词条记录。比如对于“黄河”“黄河入”“黄河入海”“黄河入海流”“河入”“河入海”“和入海流”“入海”“入海流”“海流”等十个词条,与词库中的词条信息中词条内容进行比对,对于词库中存在的相同词条类目,执行删除操作。
优选的,在运行本发明的方法或装置时,对于具体的终端设备,遍历其上安装的所有输入法,并且获取所有输入法的所有词库的修改操作权限。在现有的智能输入法中,很多词库本身的操作是开放的,无需获得特殊权限的许可。对于需要获得特殊许可才可以进行操作的情况,需要事先获得相关输入法版权方的许可。对于无法获得许可的情况,通过输入法禁用限制某个输入法的使用。
优选的,根据用户在终端设备上的使用历史记录,获取用户最喜欢使用的输入法,或者用户喜欢使用的几个输入法,优先重点进行词条过滤操作。优选的,在执行所述词条过滤步骤时,查找所述输入法的所有词库,遍历所述输入法的所有词库的词条信息,从而完成所述词条过滤步骤。一般输入法的词库包括,基础词库、专业词库和用户自有词库等。
优选的,在完成词条过滤操作之后,还包括删除屏蔽词条库的操作,在遍历完成所述输入法的所有词库,完成所有屏蔽词条的过滤之后,删除所述屏蔽词条库。当完成对于终端设备上的所有输入法的所有词库的词条过滤之后,删除屏蔽词条库。所述删除包括采用文件粉碎的方式,使得可以让答案信息尽可能的得到保密。
对于S206词库恢复步骤,用于在获得互联网教学系统的再次调用,并且确认考试已经结束之后,将之前备份的词库进行恢复,删除当前考试使用的输入法的词库。优选的,获得考试时用户实际使用的输入法及其词库,只恢复这部分输入法的词库。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的更新、替换、改进,均应包含在本发明所附的权利要求概况的保护范围之内。
Claims (10)
1.一种输入法的词库管理方法,包括以下步骤:
词条解析步骤,用于获取待解析的文档,首先以间隔符号为边界条件,将所述文档划分为短语,对于所述短语,再进行渐进式词条解析,生成由一系列大于等于两个字的词条组成的屏蔽词条库;
词条过滤步骤,用于获取输入法的词库,根据所述屏蔽词条库,查询所述词库中是否存在所述屏蔽词条库中的词条,如果是,删除所述词库中与所述屏蔽词条库中内容相同的词条记录。
2.根据权利要求1的方法,其特征在于,
在执行所述词条过滤步骤之前,先执行词库备份步骤,用于将所述输入法的词库进行备份,使得在事后恢复使用执行所述词条过滤步骤之前的词库。
3.根据权利要求2的方法,其特征在于,
在执行所述词条过滤步骤时,查找所述输入法的所有词库,遍历所述输入法的所有词库的词条信息,从而完成所述词条过滤步骤。
4.根据权利要求3的方法,其特征在于,
在执行所述词条解析步骤之前,执行文档过滤步骤,将所述文档中的数字或字母,以位置上连续的组为单位替换为一个间隔符号;
在执行所述词条解析步骤之后,执行文档删除步骤,对于待解析的文档,在完成词条解析之后,删除所述文档的内容。
5.根据权利要求4的方法,其特征在于,
对于短语的渐进式词条解析包括,按照短语的文字顺序,按照从前往后的顺序,将所述文字分别作为首字,往后遍历解析,将所述短语形成为一系列至少为两个字的词条。
6.根据权利要求5的方法,其特征在于,
所述词条解析步骤,还包括相同屏蔽词条的合并操作,用于将不同的短语解析出的相同的词条进行合并,作为一条屏蔽词条保存至屏蔽词条库。
7.根据权利要求6的方法,其特征在于,
所述词条过滤步骤,还包括删除屏蔽词条库的操作,在遍历完成所述输入法的所有词库,完成所有屏蔽词条的过滤之后,删除所述屏蔽词条库。
8.根据权利要求7的方法,其特征在于,
所述间隔符号包括空格、回车、标点符号中的至少一个。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项的方法。
10.一种计算机存储介质,其存储了被计算机执行的程序,执行所述程序时实现如权利要求1-8中任一项的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710600168.XA CN107390896B (zh) | 2017-07-21 | 2017-07-21 | 一种输入法的词库管理方法及装置 |
PCT/CN2017/105552 WO2019015133A1 (zh) | 2017-07-21 | 2017-10-10 | 一种输入法的词库管理方法及装置 |
US16/467,574 US20210365487A1 (en) | 2017-07-21 | 2017-10-10 | Word Library Management Method and Apparatus for input Method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710600168.XA CN107390896B (zh) | 2017-07-21 | 2017-07-21 | 一种输入法的词库管理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107390896A CN107390896A (zh) | 2017-11-24 |
CN107390896B true CN107390896B (zh) | 2019-12-03 |
Family
ID=60336486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710600168.XA Active CN107390896B (zh) | 2017-07-21 | 2017-07-21 | 一种输入法的词库管理方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210365487A1 (zh) |
CN (1) | CN107390896B (zh) |
WO (1) | WO2019015133A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2571059A (en) * | 2017-11-30 | 2019-08-21 | Bae Systems Plc | Methods of decrypting disk images, and decryption-enabling devices |
CN112988292A (zh) * | 2019-12-17 | 2021-06-18 | 青岛海信传媒网络技术有限公司 | 一种多语言翻译文件生成方法及终端 |
CN111324528B (zh) * | 2020-01-23 | 2023-11-21 | 科大讯飞股份有限公司 | 一种输入法评测方法、装置、设备及存储介质 |
CN111488727B (zh) * | 2020-03-24 | 2023-09-19 | 南阳柯丽尔科技有限公司 | 词文件解析方法、词文件解析设备和计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055588A (zh) * | 2007-05-25 | 2007-10-17 | 北京搜狗科技发展有限公司 | 获取限制词信息的方法、优化输出的方法和输入法系统 |
CN101694608A (zh) * | 2008-12-04 | 2010-04-14 | 北京搜狗科技发展有限公司 | 一种输入法及输入法系统 |
CN102467248A (zh) * | 2010-11-10 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 减少五笔输入法中无意义词自动上屏显示的方法 |
US8539349B1 (en) * | 2006-10-31 | 2013-09-17 | Hewlett-Packard Development Company, L.P. | Methods and systems for splitting a chinese character sequence into word segments |
CN104765526A (zh) * | 2015-03-18 | 2015-07-08 | 百度在线网络技术(北京)有限公司 | 一种过滤候选词条的方法与装置 |
CN106951104A (zh) * | 2017-02-13 | 2017-07-14 | 北京奇虎科技有限公司 | 一种基于词库的词条处理方法和装置 |
-
2017
- 2017-07-21 CN CN201710600168.XA patent/CN107390896B/zh active Active
- 2017-10-10 WO PCT/CN2017/105552 patent/WO2019015133A1/zh active Application Filing
- 2017-10-10 US US16/467,574 patent/US20210365487A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8539349B1 (en) * | 2006-10-31 | 2013-09-17 | Hewlett-Packard Development Company, L.P. | Methods and systems for splitting a chinese character sequence into word segments |
CN101055588A (zh) * | 2007-05-25 | 2007-10-17 | 北京搜狗科技发展有限公司 | 获取限制词信息的方法、优化输出的方法和输入法系统 |
CN101694608A (zh) * | 2008-12-04 | 2010-04-14 | 北京搜狗科技发展有限公司 | 一种输入法及输入法系统 |
CN102467248A (zh) * | 2010-11-10 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 减少五笔输入法中无意义词自动上屏显示的方法 |
CN104765526A (zh) * | 2015-03-18 | 2015-07-08 | 百度在线网络技术(北京)有限公司 | 一种过滤候选词条的方法与装置 |
CN106951104A (zh) * | 2017-02-13 | 2017-07-14 | 北京奇虎科技有限公司 | 一种基于词库的词条处理方法和装置 |
Non-Patent Citations (2)
Title |
---|
Neural Signal Based Control of the Dasher Writing System;Elizabeth A. Felton et al.;《Proceedings of the 3rd International IEEE EMBS Conference on Neural Engineering》;20070502;第366-370页 * |
基于Qtopia平台的阿拉伯文输入法的实现;罗章海 等;《计算机应用与软件》;20101231;第27卷(第12期);第24-26页 * |
Also Published As
Publication number | Publication date |
---|---|
US20210365487A1 (en) | 2021-11-25 |
CN107390896A (zh) | 2017-11-24 |
WO2019015133A1 (zh) | 2019-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107390896B (zh) | 一种输入法的词库管理方法及装置 | |
US9310879B2 (en) | Methods and systems for displaying web pages based on a user-specific browser history analysis | |
US11521603B2 (en) | Automatically generating conference minutes | |
CN112163072B (zh) | 基于多数据源的数据处理方法以及装置 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
WO2023024975A1 (zh) | 文本处理方法、装置和电子设备 | |
US20180089314A1 (en) | Messaging digest | |
US20230289514A1 (en) | Speech recognition text processing method and apparatus, device, storage medium, and program product | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
CN110837545A (zh) | 交互式数据分析方法、装置、介质及电子设备 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
CN111240971B (zh) | 风控规则测试用例的生成方法、装置、服务器和存储介质 | |
WO2023246719A1 (zh) | 会议记录处理方法、装置、设备及存储介质 | |
US20220292587A1 (en) | Method and apparatus for displaying product review information, electronic device and storage medium | |
CN110555212A (zh) | 基于自然语言处理的文档校验方法、装置和电子设备 | |
CN115392260A (zh) | 一种面向特定目标的社交媒体推文情感分析方法 | |
CN114020774A (zh) | 多轮问答语句的处理方法、装置、设备及存储介质 | |
Nguyen-Son et al. | Identifying adversarial sentences by analyzing text complexity | |
CN112231444A (zh) | 结合rpa和ai的语料数据的处理方法、装置和电子设备 | |
CN113591467B (zh) | 事件主体识别方法及装置、电子设备、介质 | |
US11989500B2 (en) | Framework agnostic summarization of multi-channel communication | |
CN110502630A (zh) | 信息处理方法及设备 | |
CN113609391B (zh) | 事件识别方法及装置、电子设备、介质和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |