CN109033183B - 一种可编辑的云词库的解析方法 - Google Patents
一种可编辑的云词库的解析方法 Download PDFInfo
- Publication number
- CN109033183B CN109033183B CN201810676453.4A CN201810676453A CN109033183B CN 109033183 B CN109033183 B CN 109033183B CN 201810676453 A CN201810676453 A CN 201810676453A CN 109033183 B CN109033183 B CN 109033183B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- extracted
- special
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种可编辑的云词库的解析方法,包括单词的提取、普通短语的提取以及特殊短语的提取。不但能够提取文本中的单词,还能识别并提取文本中的单词原型,进而能够根据结果集生成用户所需的单词复习列表;同时也能识别用户根据自身需求,分章节的识别并提取单词复习列表,能满足用户个性化定制的需求;另外,对短语进行识别和提取,用户不仅能自定义单词的复习列表,还能自定义短语的复习列表。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种可编辑的云词库的解析方法。
背景技术
词库是词语资料的集合,存贮于数据库中以备特定的程序检索调用,如电子词典或安装于移动智能设备中的背单词软件,都需要调取词库。
现有技术中,已存在各种各样的云词库,供用户进行选择和下载。以英语词汇为例,如小学、初中、高中的英语词库,大学英语四、六、八级词库,考研或考博英语词库,雅思或托福词库等。虽然现有的英语词库多种多样,但依然存在弊端,用户不能根据自身需求去订制词库。例如,当用户需要阅读某一英文电子文章或书籍时,遇到生词只能逐个去查或者记录,其阅读的效率与质量。如果在阅读前,能够先把文章或书籍的单词进行识别,再筛选出生词,生成自定义单词复习列表,用户可先对筛选出的生词进行学习,再进行文章或书籍的阅读,提高其学习或阅读的效率。又如,当用户需要阅读某一专业领域的文献时,若可自行编辑词库,甚至对专业名词进行自定义解释,也可大大提高其学习或阅读的效率。
为了满足用户的个性化定制的需求,自定义单词复习列表,需要一种可编辑的云词库。
发明内容
为了实现可编辑的云词库,自定义单词复习列表,需要一种可编辑的云词库的解析方法,来进行单词或短语的识别与提取,其技术方案如下:
一种可编辑的云词库的解析方法,该方法以计算机或移动智能设备为应用载体,所述计算机或移动智能设备均设有存储器和内存单元,所述存储器中存储有词库,所述可编辑的云词库的解析方法包括单词的提取方法,所述单词的提取方法包括以下步骤:
S1:录入文本;用户把需要进行解析的文本通过粘贴或输入的方式录入到计算机或移动智能设备的操作界面的文本框中;计算机或移动智能设备把录入的文本存储到所对应的存储器中;
S2:识别特殊字符;识别文本框中录入的文本的初始字符是否为特殊字符;如果录入文本的初始字符不是特殊符号,判断为默认提取模式;如果录入文本的首字符是特殊符号,则根据识别到的特殊字符来判断单词提取的模式;其中,所述特殊字符包括若干个,分别对应不同的提取模式;
S3:根据步骤S2的提取模式,把词库中的单词导入所述内存单元中;
S4:对通过步骤S1存储到存储器中的录入文本按顺序进行单词提取,提取一个单词;
其中,以录入文本中一段连续的英文字母作为一个单词;额外的,单引号与连字符也当成字母进行处理;
S5:把提取的单词与词库中的单词进行匹配:即在通过步骤S3导入内存单元的单词中,查找通过步骤S4提取的单词,从而判断提取的单词在词库中是否存在;若存在,把提取的单词添加到结果集,并进入步骤S6;若不存在,直接进入步骤S6;其中,所述结果集存储在所述存储器中;
S6:判断是否已完成录入文本中所有单词的提取,若未完成,重复S4至S5,直至完成录入文本中所有单词的提取。
当S2识别为默认提取模式时,所述步骤S4与S5之间还包括去重步骤S4.1;
S4.1:判断提取的单词在结果集中是否存在;若提取的单词在结果集中存在,跳过S5,进入S6;若提取的单词在结果集中不存在,则不跳过S5。
所述提取模式还包括单词原型提取模式;当录入文本的初始字符是特殊符号“//”时,识别为所述单词原型提取模式;当S2识别为单词原型提取模式时,所述步骤S3还调取出单词的变形单词并放进内存单元。
当S2识别为单词原型提取模式时,包括所述步骤S4.1,以及在所述步骤S4与去重步骤S4.1之间还包括变形替换步骤S4.2至S4.3:
S4.2:把提取的单词与放入内存单元中的变形单词进行匹配,判断提取的单词是否为变形单词;若提取的单词不是变形单词,进入步骤S4.1;若提取的单词是变形单词,用原型单词替换所述变形单词,以所述原型单词作为提取的单词,进入步骤S4.3;
S4.3:判断步骤S4.2中所述的单词原型在结果集中是否存在;若不存在,把该单词原型添加到结果集,并进入步骤S6;若不存在,直接进入步骤S6。
所述提取模式还包括分章节提取模式;当录入文本的初始字符是特殊符号“#”时,识别为所述分章节提取模式;
当S2识别为分章节提取模式时,所述步骤S2和S3之间还包括单元划分步骤S2.1;
S2.1:按行把录入文本划分成若干单元,一行为一个单元,同时把划分成若干单元的录入文本存储到存储器中;
重复步骤S4至S6,按顺序提取录入文本中各个单元的单词,并增加S7,判断是否存在未提取的单元,即:
S4:对通过步骤S2.1存储到存储器中的录入文本的一个单元按顺序进行单词提取,提取一个单词;
S5:把提取的单词与词库中的单词进行匹配;即在内存单元的单词中查找步骤S4中提取的单词,从而判断提取的单词在词库中是否存在;若存在,把提取的单词添加到结果集,并进入步骤S6;若不存在,直接进入步骤S6;
S6:判断是否已完成所述单元中所有单词的提取,若未完成,重复S4至S5,直至完成所述单元中所有单词的提取;
S7:判断是否存在未提取的单元,若存在未提取的单元,对下一个单元重复步骤S4至S6;直至完成录入文本中所有单元的所有单词的提取。
以特殊符号“#”作为章节划分符;当S2识别为分章节提取模式时,在所述步骤S3和S4之间还包括章节识别步骤S3.1;其中,在录入文本时,通过对录入文本输入章节划分符“#”对录入文本进行划分章节;
S3.1:判断单元的开头是否为设定的章节划分符“#”;若单元的开头非设定章节划分符“#”,进入步骤S4,进行该单元的单词提取;若单元的开头为设定章节划分符“#”,在结果集中创建一个章节单元,并以所述单元中章节划分符“#”后的内容作为章节单元的标题,并把所述章节单元作为当前选定的单元;然后重复步骤S3.1;
其中,通过所述步骤S4至S6提取到的单词均添加到所述结果集中选定的单元。
当S2识别为分章节提取模式时,还能识别前定义符与后定义符,当识别到设定的前定义符时,则前定义符后的文本用于定义单词的内容,直至遇到后定义符;所述前定义符为“{”,所述后定义符为“}”。
当S2识别为分章节提取模式时,在所述前定义符“{”与后定义符“}”之间,以“解释”、“例句”与“助记”作为识别的关键字,进行关键字的识别。
所述可编辑的云词库的解析方法还包括普通短语的提取方法,所述普通短语的提取方法包括以下步骤:
S1):以标点符号对录入文本进行切割,划分成句子,并把所述句子放入内存;其中,所述标点符号包括:逗号、句号、叹号、问号、分号和换行符;
S2):按顺序调取词库中的一个普通短语,并以句子为单位在所述句子中进行匹配,若所述句子中存在相同的短语,把该短语添加到结果集中;
S3):判断是否存在未与所述句子进行匹配的普通短语,若存在,重复步骤S2),直至完成所有普通短语的匹配;其中,所述普通短语为不包含代词的短语。
所述可编辑的云词库的解析方法还包括特殊短语的提取方法,所述特殊短语的提取方法包括以下步骤:
S1):以标点符号对录入文本进行切割,划分成句子,并把所述句子放入内存;
S2):按顺序调取词库中的一个特殊短语,并以句子为单位在所述句子中进行匹配,若在一个句子中包含所述特殊短语中的每个单词,则判断该句子与所述特殊短语中各个单词均匹配,若存在与所述特殊短语中各个单词均匹配,把所有匹配到的句子抽取出来,进入步骤S4,若没有匹配到的句子,跳过步骤S3)进入S4);
S3):分别判断通过步骤S2)匹配到的每个句子中,各个匹配到的单词的顺序与特殊短语中的单词顺序是否一致;若存在相一致的句子,把所述特殊短语添加到结果集;
S4):判断是否存在未与所述句子进行匹配的普通短语,若存在,重复步骤S2)至S3),直至完成所有特殊短语的匹配;
其中,所述特殊短语为包含代词的短语,在按照步骤S2)和S3)进行匹配时,所述特殊短语仅以非代词部分的单词进行匹配,代词不作为特殊短语中需要匹配的单词。
附图说明
图1是实施例一中以默认提取模式提取单词的流程图。
图2是实施例一中以单词原型提取模式提取单词的流程图。
图3是实施例一中以分章节提取模式提取单词的流程图。
图4是实施例一中提取普通短语的流程图。
图5是实施例一中提取特殊短语的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
为了满足用户的个性化定制的需求,自定义单词复习列表,需要一种可编辑的云词库。其中,用户可通过计算机连接云端服务器录入文本,进行云词库的编辑与解析,然后通过移动智能设备从云端服务器下载其编辑的云词库,或者直接通过移动智能设备录入文本,进行云词库的编辑与解析并上传到云端服务器。其中,所述云词库的解析包括单词的解析以及短语的解析。
一、录入文本的格式定义
用户新建一个云词库时,在录入文本之前可通过手动输入或选择的方式定义该云词库的标题、简介以及分类。
录入文本,默认为无格式的文本,若复制的文本本身存在格式,则粘贴文本时自动忽略其文本格式。其中,除了直接复制粘贴,所述录入文本也可由用户直接输入。
若需要提取录入文本中的单词的原型,在录入文本的开头输入“//”,以“//”作为提取单词原型符,供程序进行识别。
若需要分章节来提取录入文本中的单词,在录入文本的开头输入“#”,且以“#”作为提取单词原型符,每个章节的标题前均以“#”标识其章节名称,供程序进行识别。通过添加“#”号划分章节后,还可以在章节中自定义单词或单词的解释、例句与助记。
其中,以设定的前定义符与设定的后定义符之间的内容为自定义的单词内容,所述前定义符设定为“{”,所述后定义符设定为“}”;分别以“解释”、“例句”与“助记”作为关键字;所述关键字须在所述前定义符“{”和所述后定义符“}”内;在关键词后设有前内容定义符和后内容定义符,所述前内容定义符和后内容定义符之间的内容作为这个单词的解释、例句或助记;所述前内容定义符设定为“{”,后内容定义符设定为“}”。
同理,在所述解释或助记的内容中,还可以设定单词的词性或助记的类型,其前后标识的符号分别为“[”和“]”;其中,助记的类型后为助记的内容。下面为自定义单词内容的格式范例:
所述单词的词性包括动词、名词、形容词、副词、代词,可分别以“动”、“名”、“性”、“副”、“代”在解释中进行标识;所述助记类型包括:谐音、联想、扩展、串记、吐槽、对比。
其中,所述单词的解释不大于280个字符不多于7行;所述单词的例句不多于5句,一条完整的例句由一行英文和一行中文组成,且每一句英文例句不大于128个字符,每一句中文例句不大于64个中文字符。
二、单词的提取
按照上述文本格式进行文本的录入后,可进行单词的提取。所述单词的提取分为三种提取模式,分别为默认提取模式、单词原型提取模式以及分章节提取模式。
所述计算机或移动智能设备均设有存储器和内存单元,所述存储器中存储有词库。其中,所述单词的提取需要调取用于匹配单词的词库,所述词库存储于云端服务器的数据库,计算机或移动智能设备可通过与云端服务器连接下载所述词库。其中,所述词库的每个单词均与该单词对应的解释、例句与助记相关联。
另外,在进行单词提取时,以输入文本中一段连续的英文字母作为一个单词;额外的,单引号与连字符也当成字母进行处理。
其中,包含连字符的单词还做出以下特殊处理:
1)把包含连字符的单词当成一个单词处理,在词库中查找;如:“re-search”,以“research”在词库中查找;
2)把连字符前面的部分和后面的部分,分别作为一个单词在词库中进行查找。
1、默认提取模式
当录入文本的开头非设定的特殊时,为默认的提取模式,直接对录入文本中的单词进行提取并去重,其具体的提取流程如图1所示,包括以下步骤:
S1:录入文本;用户把需要进行解析的文本通过粘贴或输入的方式录入到计算机或移动智能设备的操作界面的文本框中;计算机或移动智能设备把录入的文本存储到所对应的存储器中;
S2:识别特殊字符;识别文本框中录入的文本的初始字符是否为特殊字符;如果录入文本的初始字符不是特殊符号,判断为默认提取模式;如果录入文本的首字符是特殊符号,则根据识别到的特殊字符来判断单词提取的模式;
其中,所述特殊字符包括若干个,分别对应不同的提取模式;
S3:把词库中的单词导入所述内存单元中;
S4:对通过步骤S1存储到存储器中的录入文本按顺序进行单词提取,提取一个单词;
S5:把提取的单词和结果集中的单词进行匹配,判断提取的单词在结果集中是否存在(即判断结果集中是否存在与提取的单词相同的单词);若提取的单词在结果集中存在,跳过步骤S6,进入步骤S7;若提取的单词在结果集中不存在,进入步骤S6;
其中,所述结果集存储在所述存储器中;
S6:把提取的单词与词库中的单词进行匹配:即在通过步骤S3导入内存单元的单词中,查找通过步骤S4提取的单词,从而判断提取的单词在词库中是否存在;若存在,把提取的单词添加到结果集,并进入步骤S7;若不存在,直接进入步骤S7;
S7:判断是否已完成录入文本中的提取,若未完成,重复步骤S4至S6,直至完成录入文本中所有单词的提取,进入步骤S8;
S8:根据所述结果集生成单词列表。
2、单词原型提取模式
当录入文本以提取单词原型符“//”开头时,识别为单词原型提取模式,在默认提取模式的基础上,把变形单词的单词以该单词的原型形态进行替换,其具体的提取流程如图2所示,包括以下步骤:
S1:录入文本;用户把需要进行解析的文本通过粘贴或输入的方式录入到计算机或移动智能设备的操作界面的文本框中,并在文本的开头输入取单词原型符“//”;计算机或移动智能设备把录入的文本存储到所对应的存储器中;
S2:识别特殊字符,录入文本的开头为设定的提取单词原型符“//”,进入单词原型提取模式;
S3:调取词库中的单词以及变形单词,并放进内存;其中,所述变形单词均与其原型单词相关联,一个原型单词对应若干个变形单词;
S4:对通过步骤S1存储到存储器中的录入文本按顺序进行单词提取,提取一个单词;
S5:把提取的单词与放入内存单元中的变形单词进行匹配,判断提取的单词是否为变形单词;(即判断所述的变形单词中是否存在与提取的单词相同的单词,若存在,则判断提取的单词是变形单词,若不存在,则判断提取的单词不是变形单词);若提取的单词不是变形单词,进入步骤S6;若提取的单词是变形单词,用原型单词替换所述变形单词,以所述原型单词作为提取的单词,并进入步骤S6.1;
S6:把提取的单词和结果集中的单词进行匹配,判断提取的单词在结果集中是否存在;若提取的单词在结果集中存在,跳过步骤S7,进入步骤S8;若提取的单词在结果集中不存在,进入步骤S7;
S6.1:判断步骤S5中所述的单词原型在结果集中是否存在;若不存在,把该单词原型添加到结果集,并进入步骤S8;若不存在,直接进入步骤S8;
S7:把提取的单词与词库中的单词进行匹配;即在通过步骤S3导入内存单元的单词中,查找通过步骤S6提取的单词,从而判断提取的单词在词库中是否存在;若存在,把提取的单词添加到结果集,并进入步骤S8;若不存在,直接进入步骤S8;
S8:判断是否已完成录入文本中的提取,若未完成,重复步骤S4至S7,直至完成录入文本中所有单词的提取,进入步骤S9;
S9:根据所述结果集生成单词列表。
3、分章节提取模式
当录入文本以提取章节划分符“#”开头时,识别为分章节提取模式,根据定义的文本格式对文本进行章节划分,以及根据定义的格式识别单词的解释、例句与助记;其具体的提取流程如图3所示,包括以下步骤:
S1:录入文本;用户把需要进行解析的文本通过粘贴或输入的方式录入到计算机或移动智能设备的操作界面的文本框中,并在文本的开头以及每个章节的开头输入章节划分符“#”;计算机或移动智能设备把录入的文本存储到所对应的存储器中;
S2:识别特殊字符,录入文本的开头为设定的提取章节划分符“#”,进入分章节提取模式;
S3:把词库中的单词导入所述内存单元中;
S4:按行把录入文本划分成若干单元,一行为一个单元,同时把划分成若干单元的录入文本存储到存储器中;
S5:按顺序提取一个单元,并判断该单元的开头是否为设定章节划分符“#”;若单元的开头非设定章节划分符“#”,进入步骤S6,进行该单元的单词提取;若单元的开头为设定章节划分符“#”,进入步骤S5.1;
S5.1:创建章节:在结果集中创建一个章节单元,并以所述单元中章节划分符“#”后的内容作为章节单元的标题,并把所述章节单元作为当前选定的单元;返回步骤S5;
S6:对提取的单元按顺序进行单词提取,提取一个单词;
S7:把提取的单词与词库中的单词进行匹配;即在通过步骤S3导入内存单元的单词中,查找通过步骤S6提取的单词,从而判断提取的单词在词库中是否存在;若存在,把提取的单词添加到结果集中选定的单元,并进入步骤S8;若不存在,直接进入步骤S8;
S8:判断是否已完成所述单元中所有单词的提取,若未完成,重复步骤S6至S7,直至完成所述单元中所有单词的提取,并进入步骤S9;
S9:判断是否存在未提取的单元,若存在未提取的单元,对下一个单元重复步骤S5至S8;直至完成录入文本中所有单元的所有单词的提取,进入步骤S10;
S10:根据所述结果集生成单词列表。
其中,所述通过步骤S1至S10生成的结果集包括若干个章节单元,且每个单元中包括若干个单词。另外,在分章节提取模式下,还可根据上述定义的录入文本的格式,识别出用户自定义的单词以及该单词的解释、例句与助记,并添加到结果集。
三、短语的提取
除了对单词进行提取,还需要对短语进行提取,所述短语指词库中存在空格的单词,其中,词库还中包括短语,可通过调取词库中的短语来进行匹配。
另外,所述短语可分为普通短语和特殊短语。
所述普通短语为不包含代词的短语;对普通短语进行匹配时,可直接进行匹配。
所述特殊短语为包含代词的短语。所述特殊短语由于包含代词,不能直接进行匹配,需要进行如下的特殊处理:按空格对特殊短语进行切分,并去除特殊短语中的代词(即所述特殊短语仅以非代词部分的单词进行匹配,代词不作为特殊短语中需要匹配的单词),以剩下的单词作为一个列表,所述列表中包括特殊短语中各个单词的顺序信息。把所有特殊短语都进行上述处理,形成一个包含所有特殊短语列表的列表总集。
1、普通短语的提取
如图4所示,包括以下步骤:
S1):以标点符号对录入文本进行切割,划分成句子;其中,所述标点符号包括:逗号、句号、叹号、问号、分号和换行符;
S2):调取通过步骤S1)生成的句子并放进内存;
S3):按顺序调取词库中的一个普通短语,并以句子为单位在所述句子中进行匹配,若句子中存在相同的短语,把该短语添加到结果集中;
S4):判断是否存在未与所述句子进行匹配的普通短语,若存在,重复步骤S3),直至完成所有普通短语的匹配;
S5):根据所述结果集生成单词列表。
2、特殊短语的提取
如图5所示,包括以下步骤:
S1):以标点符号对录入文本进行切割,划分成句子;其中,所述标点符号包括:逗号、句号、叹号、问号、分号和换行符;
S2):调取通过步骤S1)生成的句子并放进内存;
S3):按顺序调取词库中的一个特殊短语,并以句子为单位在所述句子中进行匹配,若在一个句子中包含所述特殊短语中的每个单词,则判断该句子与所述特殊短语中各个单词均匹配,若存在与所述特殊短语中各个单词均匹配,把所有匹配到的句子抽取出来,进入步骤S4),若没有匹配到的句子,跳过步骤S4)进入S5);
S4):分别判断通过步骤S3)匹配到的每个句子中,各个匹配到的单词的顺序与特殊短语中的单词顺序是否一致;若存在相一致的句子,把所述特殊短语添加到结果集;
S5):判断是否存在未与所述句子进行匹配的普通短语,若存在,重复步骤S3)至S4),直至完成所有特殊短语的匹配;
S6):根据所述结果集生成单词列表。
其中,若特殊短语中的一个单词在一个句子中匹配了多次,则以最后一个匹配到的单词为匹配对象。
四、根据结果集生成单词或短语列表
结果集(ResultSet)是数据中查询结果返回的一种对象,可以说结果集是一个存储查询结果的对象。同时,结果集并不仅仅具有存储的功能,还具有操纵数据的功能,可完成对数据的更新等。
在上述单词的提取过程中,每一个结果(单词或短语)均附带有额外信息,所述额外信息为单词(或短语)在文本中出现的位置信息,即单词(或短语)的第一个字母在文本中的字符位置。根据所述位置信息,可得知结果集中的各个单词在文本中出现的先后顺序,并以该顺序进行排序,生成单词(或短语)列表。
用户使用时,可通过调取所述单词(或短语)列表中的单词(或短语)及其对应的解释、例句与助记。其中,若结果集中的单词非自定义的单词(或短语)或没有自定义单词(或短语)的解释、例句与助记,调取词库中关联的解释、例句与助记;若所述结果集中的单词(或短语)为自定义的单词或存在自定义的解释、例句与助记,则调取所述自定义的解释、例句与助记。
其中,可根据性质的不同分为多个列表,如:单词列表、普通短语列表、特殊短语列表,分别生成,分别进行排序。也可以在同一个列表中生成,统一进行排序。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (10)
1.一种可编辑的云词库的解析方法,该方法以计算机或移动智能设备为应用载体,所述计算机或移动智能设备均设有存储器和内存单元,所述存储器中存储有词库,其特征在于,所述可编辑的云词库的解析方法包括单词的提取方法,所述单词的提取方法包括以下步骤:
S1:录入文本;用户把需要进行解析的文本通过粘贴或输入的方式录入到计算机或移动智能设备的操作界面的文本框中;计算机或移动智能设备把录入的文本存储到所对应的存储器中;
S2:识别特殊字符;识别文本框中录入的文本的初始字符是否为特殊字符;如果录入文本的初始字符不是特殊符号,判断为默认提取模式;如果录入文本的首字符是特殊符号,则根据识别到的特殊字符来判断单词提取的模式;其中,所述特殊字符包括若干个,分别对应不同的提取模式;
S3:根据步骤S2的提取模式,把词库中的单词导入所述内存单元中;
S4:对通过步骤S1存储到存储器中的录入文本按顺序进行单词提取,提取一个单词;
其中,以录入文本中一段连续的英文字母作为一个单词;额外的,单引号与连字符也当成字母进行处理;
S5:把提取的单词与词库中的单词进行匹配:即在通过步骤S3导入内存单元的单词中,查找通过步骤S4提取的单词,从而判断提取的单词在词库中是否存在;若存在,把提取的单词添加到结果集,并进入步骤S6;若不存在,直接进入步骤S6;其中,所述结果集存储在所述存储器中;
S6:判断是否已完成录入文本中所有单词的提取,若未完成,重复S4至S5,直至完成录入文本中所有单词的提取。
2.根据权利要求1所述的一种可编辑的云词库的解析方法,其特征在于:
当S2识别为默认提取模式时,所述步骤S4与S5之间还包括去重步骤S4.1;
S4.1:判断提取的单词在结果集中是否存在;若提取的单词在结果集中存在,跳过S5,进入S6;若提取的单词在结果集中不存在,则不跳过S5。
3.根据权利要求2所述的一种可编辑的云词库的解析方法,其特征在于:
所述提取模式还包括单词原型提取模式;当录入文本的初始字符是特殊符号“//”时,识别为所述单词原型提取模式;当S2识别为单词原型提取模式时,所述步骤S3还调取出单词的变形单词并放进内存单元。
4.根据权利要求3所述的一种可编辑的云词库的解析方法,其特征在于:
当S2识别为单词原型提取模式时,包括所述步骤S4.1,以及在所述步骤S4与去重步骤S4.1之间还包括变形替换步骤S4.2和S4.3:
S4.2:把提取的单词与放入内存单元中的变形单词进行匹配,判断提取的单词是否为变形单词;若提取的单词不是变形单词,进入步骤S4.1;若提取的单词是变形单词,用原型单词替换所述变形单词,以所述原型单词作为提取的单词,进入步骤S4.3;
S4.3:判断步骤S4.2中所述的单词原型在结果集中是否存在;若不存在,把该单词原型添加到结果集,并进入步骤S6;若不存在,直接进入步骤S6。
5.根据权利要求1所述的一种可编辑的云词库的解析方法,其特征在于:
所述提取模式还包括分章节提取模式;当录入文本的初始字符是特殊符号“#”时,识别为所述分章节提取模式;
当S2识别为分章节提取模式时,所述步骤S2和S3之间还包括单元划分步骤S2.1;
S2.1:按行把录入文本划分成若干单元,一行为一个单元,同时把划分成若干单元的录入文本存储到存储器中;
重复步骤S4至S6,按顺序提取录入文本中各个单元的单词,并增加S7,判断是否存在未提取的单元,即:
S4:对通过步骤S2.1存储到存储器中的录入文本的一个单元按顺序进行单词提取,提取一个单词;
S5:把提取的单词与词库中的单词进行匹配;即在内存单元的单词中查找步骤S4中提取的单词,从而判断提取的单词在词库中是否存在;若存在,把提取的单词添加到结果集,并进入步骤S6;若不存在,直接进入步骤S6;
S6:判断是否已完成所述单元中所有单词的提取,若未完成,重复S4至S5,直至完成所述单元中所有单词的提取;
S7:判断是否存在未提取的单元,若存在未提取的单元,对下一个单元重复步骤S4至S6;直至完成录入文本中所有单元的所有单词的提取。
6.根据权利要求5所述的一种可编辑的云词库的解析方法,其特征在于:
以特殊符号“#”作为章节划分符;当S2识别为分章节提取模式时,在所述步骤S3和S4之间还包括章节识别步骤S3.1;其中,在录入文本时,通过对录入文本输入章节划分符“#”对录入文本进行划分章节;
S3.1:判断单元的开头是否为设定的章节划分符“#”;若单元的开头非设定章节划分符“#”,进入步骤S4,进行该单元的单词提取;若单元的开头为设定章节划分符“#”,在结果集中创建一个章节单元,并以所述单元中章节划分符“#”后的内容作为章节单元的标题,并把所述章节单元作为当前选定的单元;然后重复步骤S3.1;
其中,通过所述步骤S4至S6提取到的单词均添加到所述结果集中选定的单元。
7.根据权利要求6所述的一种可编辑的云词库的解析方法,其特征在于:
当S2识别为分章节提取模式时,还能识别前定义符与后定义符,当识别到设定的前定义符时,则前定义符后的文本用于定义单词的内容,直至遇到后定义符;所述前定义符为“{”,所述后定义符为“}”。
8.根据权利要求7所述的一种可编辑的云词库的解析方法,其特征在于:
当S2识别为分章节提取模式时,在所述前定义符“{”与后定义符“}”之间,以“解释”、“例句”与“助记”作为识别的关键字,进行关键字的识别。
9.根据权利要求1至8任一项所述的一种可编辑的云词库的解析方法,其特征在于,所述可编辑的云词库的解析方法还包括普通短语的提取方法,所述普通短语的提取方法包括以下步骤:
S1):以标点符号对录入文本进行切割,划分成句子,并把所述句子放入内存;其中,所述标点符号包括:逗号、句号、叹号、问号、分号和换行符;
S2):调取词库中的一个普通短语,并以句子为单位在所述句子中进行匹配,若所述句子中存在相同的短语,把该短语添加到结果集中;
S3):判断是否存在未与所述句子进行匹配的普通短语,若存在,重复步骤S2),直至完成所有普通短语的匹配;
其中,所述普通短语为不包含代词的短语。
10.根据权利要求9所述的一种可编辑的云词库的解析方法,其特征在于,所述可编辑的云词库的解析方法还包括特殊短语的提取方法,所述特殊短语的提取方法包括以下步骤:
S1):以标点符号对录入文本进行切割,划分成句子,并把所述句子放入内存;
S2):调取词库中的一个特殊短语,并以句子为单位在所述句子中进行匹配,若在一个句子中包含所述特殊短语中的每个单词,则判断该句子与所述特殊短语中各个单词均匹配,若存在与所述特殊短语中各个单词均匹配,把所有匹配到的句子抽取出来,进入步骤S4,若没有匹配到的句子,跳过步骤S3)进入S4);
S3):分别判断通过步骤S2)匹配到的每个句子中,各个匹配到的单词的顺序与特殊短语中的单词顺序是否一致;若存在相一致的句子,把所述特殊短语添加到结果集;
S4):判断是否存在未与所述句子进行匹配的普通短语,若存在,重复步骤S2)至S3),直至完成所有特殊短语的匹配;
其中,所述特殊短语为包含代词的短语,在按照步骤S2)和S3)进行匹配时,所述特殊短语仅以非代词部分的单词进行匹配,代词不作为特殊短语中需要匹配的单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810676453.4A CN109033183B (zh) | 2018-06-27 | 2018-06-27 | 一种可编辑的云词库的解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810676453.4A CN109033183B (zh) | 2018-06-27 | 2018-06-27 | 一种可编辑的云词库的解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033183A CN109033183A (zh) | 2018-12-18 |
CN109033183B true CN109033183B (zh) | 2021-06-25 |
Family
ID=64610638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810676453.4A Active CN109033183B (zh) | 2018-06-27 | 2018-06-27 | 一种可编辑的云词库的解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033183B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445463A (zh) * | 2020-11-25 | 2021-03-05 | 清远墨墨教育科技有限公司 | 一种英文教学软件 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140113A (ja) * | 2007-12-05 | 2009-06-25 | Fuji Xerox Co Ltd | 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム |
CN101470732A (zh) * | 2007-12-26 | 2009-07-01 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
CN103608805A (zh) * | 2012-02-28 | 2014-02-26 | 乐天株式会社 | 辞典产生装置、方法、及程序 |
CN104915364A (zh) * | 2014-03-14 | 2015-09-16 | 欧姆龙株式会社 | 信息处理系统及处理方法、信息处理服务器和终端装置 |
CN107390892A (zh) * | 2016-05-17 | 2017-11-24 | 富士通株式会社 | 生成用户词典的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100958935B1 (ko) * | 2007-12-04 | 2010-05-19 | 엔에이치엔(주) | 편집 가능한 개인 사전을 제공하고 활용하는 방법 및시스템 |
-
2018
- 2018-06-27 CN CN201810676453.4A patent/CN109033183B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140113A (ja) * | 2007-12-05 | 2009-06-25 | Fuji Xerox Co Ltd | 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム |
CN101470732A (zh) * | 2007-12-26 | 2009-07-01 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
CN103608805A (zh) * | 2012-02-28 | 2014-02-26 | 乐天株式会社 | 辞典产生装置、方法、及程序 |
CN104915364A (zh) * | 2014-03-14 | 2015-09-16 | 欧姆龙株式会社 | 信息处理系统及处理方法、信息处理服务器和终端装置 |
CN107390892A (zh) * | 2016-05-17 | 2017-11-24 | 富士通株式会社 | 生成用户词典的方法和装置 |
Non-Patent Citations (2)
Title |
---|
AutoDict: Automated Dictionary Discovery;Fei Chiang等;《2012 IEEE 28th International Conference on Data Engineering》;20120702;第1277-1280页 * |
一种基于生语料的领域词典生成方法;孙霞等;《小型微型计算机系统》;20050630;第26卷(第6期);第1088-1092页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109033183A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN114036300A (zh) | 一种语言模型的训练方法、装置、电子设备及存储介质 | |
US20200311345A1 (en) | System and method for language-independent contextual embedding | |
CN108345694B (zh) | 一种基于主题数据库的文献检索方法及系统 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN109033183B (zh) | 一种可编辑的云词库的解析方法 | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
Song et al. | POSBIOTM-NER: a machine learning approach for bio-named entity recognition | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
CN113901219A (zh) | 一种基于意图识别的数据分析方法及系统 | |
Sirajzade et al. | The LuNa Open Toolbox for the Luxembourgish Language | |
Suriyachay et al. | Enhancement of character-level representation in bi-LSTM model for Thai NER | |
CN109783820B (zh) | 一种语义解析方法及系统 | |
CN113569004A (zh) | 一种针对限制性自然语言用例建模的智能提示方法 | |
CN108710607B (zh) | 文本改写方法及装置 | |
Alegría et al. | Linguistic and statistical approaches to Basque term extraction | |
CN112949287A (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
CN112132214A (zh) | 兼容多种语言的文档信息精准提取系统 | |
Colton | Text classification using Python | |
Minn et al. | Myanmar word stemming and part-of-speech tagging using rule based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |