CN106598936B - 字母词的提取方法及装置 - Google Patents

字母词的提取方法及装置 Download PDF

Info

Publication number
CN106598936B
CN106598936B CN201510671844.3A CN201510671844A CN106598936B CN 106598936 B CN106598936 B CN 106598936B CN 201510671844 A CN201510671844 A CN 201510671844A CN 106598936 B CN106598936 B CN 106598936B
Authority
CN
China
Prior art keywords
character
alphabetic
determining
chinese
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510671844.3A
Other languages
English (en)
Other versions
CN106598936A (zh
Inventor
侯明午
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510671844.3A priority Critical patent/CN106598936B/zh
Publication of CN106598936A publication Critical patent/CN106598936A/zh
Application granted granted Critical
Publication of CN106598936B publication Critical patent/CN106598936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种字母词的提取方法及装置,涉及特征词提取技术领域,主要目的在于提高提取字母词的精确度。本发明的主要技术方案包括:根据预设字符集确定待处理字符串中的非中文字符,其中,所述预设字符集包含字母词中的非中文字符,所述非中文字符中至少包括西文字母;基于字母词标准集确定所述非中文字符的左右边界,所述字母词标准集中记录有字母词各部分的特征;输出显示所述非中文字符以及所述左右边界组成的字母词。本发明主要应用于提取字母词的过程中。

Description

字母词的提取方法及装置
技术领域
本发明涉及特征词提取技术领域,特别是涉及一种字母词的提取方法及装置。
背景技术
未登录词是没有被收录在分词词表中但必须切分出来的词,而字母词是一种主要的未登录词,字母词是由拉丁字母(包括汉语拼音字母)、希腊字母等西文字母构成的或由它们与符号、数字或汉字混合构成的词。随着计算机网络的普及运用以及国际交流的日趋频繁,字母词涉及的范围越来越广,例如,网络上的大量应用,MM代表漂亮的女人;科技,经济领域中的广泛应用,遗传基因(Deoxyribonucleic Acid,DNA);其他领域中的广泛应用,国家篮球协会(National Basketball Association,NBA)。
字母词往往表示新事物、新概念,若不能对字母词进行有效识别会对处理结果造成较大影响。目前,常用的提取字母词的方式为基于统计模型对字母词进行识别,即人工对字母词进行标注,以实现字母词的提取。上述提取字母词的方法依赖于人工对字母词的标注,由于人工对字母词标注不能全面的覆盖字母词的所有情况,因此导致提取字母词的精确度较差。
发明内容
有鉴于此,本发明提供的一种字母词的提取方法及装置,主要目的在于提高提取字母词的精确度。
为了解决上述问题,本发明主要提供如下技术方案:
一方面,本发明提供了一种字母词的提取方法,该方法包括:
根据预设字符集确定待处理字符串中的非中文字符,其中,所述预设字符集包含字母词中的非中文字符,所述非中文字符中至少包括西文字母;
基于字母词标准集确定所述非中文字符的左右边界,所述字母词标准集中记录有字母词各部分的特征;
输出显示所述非中文字符以及所述左右边界组成的字母词。
另一方面,本发明还提供一种字母词的提取装置,该装置包括:
第一确定单元,用于根据预设字符集确定待处理字符串中的非中文字符,其中,所述预设字符集包含字母词中的非中文字符,所述非中文字符中至少包括西文字母;
第二确定单元,用于基于字母词标准集确定所述第一确定单元确定的所述非中文字符的左右边界,所述字母词标准集中记录有字母词各部分的特征;
显示单元,用于输出显示所述非中文字符以及所述第二确定单元确定的所述左右边界组成的字母词。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供的字母词的提取方法及装置,在获取待处理字符串后,根据预设字符集确定该待处理字符串中的非中文字符,基于字母词标准集确定非中文字符的左右边界,并输出显示非中文字符、左右边界组成的字母词;与现有技术中通过人工提取字母词的方式相比,本发明首先“定位”待处理字符串中的非中文字符,并基于字母词标准集确定出非中文字符的左右边界,将非中文字符及左右边界组成的字母词输出显示,实现字母词的提取,该种提取字母词的方式能够全面覆盖字母词的各种情况,提高了提取字母词的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种字母词的提取方法的流程图;
图2示出了本发明实施例提供的一种字母词的提取装置的组成框图;
图3示出了本发明实施例提供的另一种字母词的提取装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种字母词的提取方法,如图1所示,该方法包括:
101、根据预设字符集确定待处理字符串中的非中文字符。
所述字母词是指在书写形式上至少包含西文字母的词,在字母词中也可以包含特殊符号、数字以及中文字符,但是特殊符号及数字必须与西文字母构成连续的字符串。在本发明实施例中所述预设字符集包含字母词中的非中文字符,所述非中文字符中至少包括西文字母,还可以包含但不仅限于以下内容,例如:数字、特殊符号等等;具体的本发明实施例对非中文字符中包含内容不进行限定。
在提取待处理字符串中的字母词时,首先获取待处理字符串,所述待处理字符串中可能包含预设字符集中的非中文字符,也可能不包含预设字符集中的非中文字符。将获取的待处理字符串匹配预设字符集,确定待处理字符串中是否存在预设字符集中的非中文字符,若根据预设字符集能够确定待处理字符串的字母词词根,则继续执行步骤102。
在获取待处理字符串时,可以获取任意长度的字符串,但实际语言的字符串的长度会被限制为一个人工极大值,该极大值依赖于获取待处理字符串的实际内存数量。在本发明实施例中,获取的所述待处理字符串可以是定长字符串也可以是变长字符串。本发明实施例对获取待处理字符串的路径、长度等内容不进行限定。
102、基于字母词标准集确定所述非中文字符的左右边界。
本发明实施例中,字母词标准集中记录有字母词各部分的特征,即字母词标准集中记录有哪些词能够作为字母词的边界,即哪些词不能够出现在字母词中,哪些词不能作为字母词的边界,即哪些词能够出现在字母词中。其中,字母词标准集中字母词各部分的特征包括但不仅限于以下特征,例如:字符特征、词性特征以及词形特征等等。
103、输出显示所述非中文字符以及所述左右边界组成的字母词。
在步骤102确定出非中文字符的左右边界之后,由非中文字符及确定的左右边界组成一个字母词,将新组成的字母词进行输出显示,从而实现了字母词的提取。
本发明实施例提供的字母词的提取方法,在获取待处理字符串后,根据预设字符集确定该待处理字符串中的非中文字符,基于字母词标准集确定非中文字符的左右边界,并输出显示非中文字符、左右边界组成的字母词;与现有技术中通过人工提取字母词的方式相比,本发明实施例首先“定位”待处理字符串中的非中文字符,并基于字母词标准集确定出非中文字符的左右边界,将非中文字符及左右边界组成的字母词输出显示,实现字母词的提取,该种提取字母词的方式能够全面覆盖字母词的各种情况,提高了提取字母词的准确性。
进一步的,提取字母词的关键在于确定非中文字符,非中文字符确定之后,在确定非中文字符的基础上,确定非中文字符的左右边界,以实现字母词的提取。在基于字母词标准集确定字母词的左右边界时,从确定字母词的形式上,以非中文字符为起点沿待处理字符串向左查找,确定非中文字符的左边界;以非中文字符为起点沿待处理字符串向右查找,确定非中文字符的右边界;以非中文字符为起点沿待处理字符串的左右方向分别确定非中文字符左右边界的目的在于,在待处理字符串中与非中文字符组成字母词的字符可能出现在非中文字符的左侧,也可能出现在非中文字符的右侧,本发明实施例所述的基于字母词标准集确定非中文字符的左右边界的方式能够全面覆盖字母词可能出现的各种形式,从而能够提高提取字母词的准确率。
进一步的,基于字母词标准集确定非中文字符的左右边界,具体包括:首先获取字母词标准集,根据字母词标准集中的字符特征确定非中文字符的字符边界;在确定后的字符边界的基础上,根据字母词标准集中的词性特征确定非中文字符的词性边界;在确定后的词性边界的基础上,根据字母词标准集中的词形特征确定非中文字符的词形边界。
其中,所述字符特征为不能出现在字母词中的标点符号字符,所述字符特征包括但不局限于以下内容,例如:句号、感叹号、冒号、大于号、小于号等等。所述词性特征包括不能出现在字母词中的词性或者存在构词能力较弱的词性,其中,所述构词能力较弱为与出现在字母词中的概率小于预设百分比,如预设百分比为5%等等;所述词性特征包括但不局限于以下内容,例如:助词、连词、介词、代词、副词、拟声词、语气词等等;比如“的、呢、了、我、太、你、时、有”等均不能与非中文字符组成字母词,即上述举例均可以作为非中文字符的左右边界。所述词形特征为随着词形态的变化语法意义也随之变化的字符,例如,在英语中,同一单词在不同环境下,由于人称、时态以及语态差异而出现的不同形式。
在基于字母词标准集确定非中文字符的左右边界时,通过字符特征、词性特征、词形特征的三层过滤,能够准确的确定出非中文字符的左右边界,即能够准确的对字母词进行提取。需要说明的是,在确定非中文字符的左右边界时,确定左边界以及右边界的方法相同。在确定字符边界时,从非中文字符处开始遍历查找是否有不能出现在字母词的字符,若能够查找到,则确定非中文字符的字符边界;在确定非中文字符的字符边界之后,需要对非中文字符以及字符边界组成的字符串进行分词,以继续确定非中文字符的词性边界以及词形边界。本发明实施例中,在对非中文字符以及字符边界组成的字符串进行分词时,请参考现有技术中的任意一种分词方法,本发明实施例在此不再对非中文字符以及字符边界组成的字符串的分词方法进行赘述。
在本发明实施例中,基于字母词标准集中的字符特征、词性特征以及词形特征确定非中文字符的左右边界时,通过逐层过滤的方式,使得确定的左右边界范围依次变小,当确认完词形边界时,基于字符边界、词性边界以及词形边界确认需提取的字母词。
进一步的,在执行上述步骤101根据预设字符集确定待处理字符串中的非中文字符时,具体过程如下:根据预设字符集确定待处理字符串中的西文字母,确定出待处理字符串中的西文字母之后,判断待处理字符串中与西文字母连续的字符是否为预设字符,该预设字符包括:数字、特殊符号,当判断待处理字符串中与西文字母连续的字符为预设字符时,步骤101中确定的非中文字符包括西文字母、预设字符组成的字符串;当判断待处理字符串中与西文字母连续的字符不为预设字符时,步骤101中确定的非中文字符仅包括西文字母。示例性的,若待处理字符串中包含有字符“3”以及字符“D”,且字符“3”与字符“D”为连续的字符,在确定待处理字符串中的非中文字符时,需要将“3D”这个整体作为提取字母词的非中文字符。
需要说明的是,若待处理字符串中存在多个西文字母,但是该多个西文字母之间不连续,此时,需要将该多个西文字母分别作为提取字母词的字母词锚点,即非中文字符中仅包含一个西文字母。
进一步的,在基于字母词标准集确定非中文字符的左右边界之前,创建字母词标准集,字母词标准集中记录有字母词各部分的特征,该些字母词各部分的特征由对知网语义词典、现代汉语语义分类词典、同义词词林、百度词库、搜狗词库等等资源中出现的字母词进行的规范化处理得到,确定出字母词边界的字符、词性、词形特征。所述字母词标准集的创建为提取字母词的主要参考依据,在定位待处理字符串的非中文字符之后,基于字母词标准集确定非中文字符的左右边界。本发明实施例对创建字母词标准集所依赖的资源来源以及资源类型不进行具体限定,在创建字母词标准集时涉及的领域越宽、资源越大,提取字母词的准确率越高。
进一步的,在执行步骤101根据预设字符集确定待处理字符串中的非中文字符时,若根据预设字符集无法确定待处理字符串的非中文字符时,输出显示待处理字符串书写有误的警示信息。输出显示的警示信息内容可以包含但不局限于以下内容,例如,输出显示“请重新获取待处理字符串”的警示信息;或者,输出显示“待处理字符串中XX字符书写有误”的警示信息。本发明实施例对输出显示的警示信息的具体内容不进行限定。
进一步的,作为对上述图1所示方法的具体实现,本发明实施例提供一种字母词的提取装置,如图2所示,该装置包括:
第一确定单元21,用于根据预设字符集确定待处理字符串中的非中文字符,其中,所述预设字符集包含字母词中的非中文字符;所述字母词是指在书写形式上包含西文字母、特殊符号以及数字的词。在本发明实施例中所述预设字符集包含字母词中的非中文字符,预设字符集中包含有字母词中的非中文字符,所述非中文字符包含但不仅限于以下内容,例如:西文字母、数字、特殊符号等等。在提取待处理字符串中的字母词时,首先获取待处理字符串,所述待处理字符串中可能包含预设字符集中的非中文字符,也可能不包含预设字符集中的非中文字符;
第二确定单元22,用于基于字母词标准集确定所述第一确定单元21确定的所述非中文字符的左右边界,所述字母词标准集中记录有字母词各部分的特征,本发明实施例中,字母词标准集中记录有哪些词能够作为字母词的边界,哪些词不能作为字母词的边界。其中,字母词标准集中字母词各部分的特征包括但不仅限于以下特征,例如:字符特征、词性特征以及词形特征等等;
显示单元23,用于输出显示所述非中文字符以及所述第二确定单元22确定的所述左右边界组成的字母词。
进一步的,如图3所示,第二确定单元22包括:
第一确定模块221,用于以所述非中文字符为起点沿所述待处理字符串向左,确定所述非中文字符的左边界,需要说明的是,在确定非中文字符的左右边界时,确定左边界以及右边界的方法相同;
第二确定模块222,用于以所述非中文字符为起点沿所述待处理字符串向右,确定所述非中文字符的右边界,以非中文字符为起点沿待处理字符串的左右方向分别确定非中文字符左右边界的目的在于,在待处理字符串中与非中文字符组成字母词的字符可能出现在非中文字符的左侧,也可能出现在非中文字符的右侧,本发明实施例所述的基于字母词标准集确定非中文字符的左右边界的方式能够全面覆盖字母词可能出现的各种形式,从而能够提高提取字母词的准确率。
进一步的,如图3所示,所述第二确定单元22还包括:
获取模块223,用于获取所述字母词标准集;
第三确定模块224,用于根据所述获取模块223获取的所述字母词标准集中的字符特征确定所述非中文字符的字符边界;
第四确定模块225,用于在所述第三确定模块224确定所述字符边界之后,根据所述字母词标准集中的词性特征确定所述非中文字符的词性边界;
第五确定模块226,用于在所述第四确定模块225确定所述词性边界之后,根据所述字母词标准集中的词形特征确定所述非中文字符的词形边界;
第六确定模块,用于基于所述第三确定模块224确定的所述字符边界、所述第四确定模块225确定的所述词性边界以及所述第五确定模块225确定的所述词形边界确定所述非中文字符的所述左右边界,在基于字母词标准集确定非中文字符的左右边界时,通过字符特征、词性特征、词形特征的三层过滤,能够准确的确定出非中文字符的左右边界,即能够准确的对字母词进行提取。在确定字符边界时,从非中文字符处开始遍历查找是否有不能出现在字母词的字符,若能够查找到,则确定非中文字符的字符边界;在确定非中文字符的字符边界之后,需要对非中文字符以及字符边界组成的字符串进行分词,以继续确定非中文字符的词性边界以及词形边界。本发明实施例中,在对非中文字符以及字符边界组成的字符串进行分词时,请参考现有技术中的任意一种分词方法,本发明实施例在此不再对非中文字符以及字符边界组成的字符串的分词方法进行赘述。
在本发明实施例中,基于字母词标准集中的字符特征、词性特征以及词形特征确定非中文字符的左右边界时,通过逐层过滤的方式,使得确定的左右边界范围依次变小,当确认完词形边界时,基于字符边界、词性边界以及词形边界确认需提取的字母词。
进一步的,如图3所示,所述第一确定单元21包括:
第一确定模块211,用于根据所述预设字符集确定所述待处理字符串中的西文字母;
判断模块212,用于判断所述待处理字符串中与所述第一确定模块21确定的所述西文字母连续的字符是否为预设字符,所述预设字符包括数字、特殊符号;
第二确定模块213,用于当所述判断模块212判断所述待处理字符串中与所述西文字母连续的字符为预设字符时,确定所述非中文字符为所述西文字母与预设字符组成的字符串;
第三确定模块214,用于当所述判断模块212判断所述待处理字符串中与所述西文字母连续的字符不为预设字符时,确定所述非中文字符为所述西文字母。
进一步的,如图3所示,所述装置包括:
创建单元24,用于在所述第二确定单元22基于字母词标准集确定所述非中文字符的左右边界之前,创建所述字母词标准集,字母词各部分的特征由对知网语义词典、现代汉语语义分类词典、同义词词林、百度词库、搜狗词库等等资源中出现的字母词进行的规范化处理得到,确定出字母词边界的字符、词性、词形特征。所述字母词标准集的创建为提取字母词的主要参考依据,在定位待处理字符串的非中文字符之后,基于字母词标准集确定非中文字符的左右边界。本发明实施例对创建字母词标准集所依赖的资源来源以及资源类型不进行具体限定,在创建字母词标准集时涉及的领域越大、资源越宽,提取字母词的准确率越高。
进一步的,如图3所示,所述装置还包括:
警示单元25,用于当所述第一确定单元21根据所述预设字符集无法确定所述待处理字符串的非中文字符时,输出显示所述待处理字符串书写有误的警示信息,输出显示的警示信息内容可以包含但不局限于以下内容,例如,输出显示“请重新获取待处理字符串”的警示信息;或者,输出显示“待处理字符串中XX字符书写有误”的警示信息。本发明实施例对输出显示的警示信息的具体内容不进行限定。
本发明实施例提供的字母词的提取装置,在获取待处理字符串后,根据预设字符集确定该待处理字符串中的非中文字符,基于字母词标准集确定非中文字符的左右边界,并输出显示非中文字符、左右边界组成的字母词;与现有技术中通过人工提取字母词的方式相比,本发明实施例首先“定位”待处理字符串中的非中文字符,并基于字母词标准集确定出非中文字符的左右边界,将非中文字符及左右边界组成的字母词输出显示,实现字母词的提取,该种提取字母词的方式能够全面覆盖字母词的各种情况,提高了提取字母词的准确性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的字母词的提取方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种字母词的提取方法,其特征在于,包括:
根据预设字符集确定待处理字符串中的非中文字符,其中,所述预设字符集包含字母词中的非中文字符,所述非中文字符中至少包括西文字母;
基于字母词标准集确定所述非中文字符的左右边界,所述字母词标准集中记录有字母词各部分的特征;
所述基于字母词标准集确定所述非中文字符的左右边界包括:
获取所述字母词标准集;
根据所述字母词标准集中的字符特征确定所述非中文字符的字符边界,所述字符特征为不能出现在字母词中的标点符号字符;
确定所述字符边界之后,根据所述字母词标准集中的词性特征确定所述非中文字符的词性边界,所述词性特征包括不能出现在字母词中的词性和/或者构词能力较弱的词性,所述构词能力较弱的词性为出现在字母词中的概率小于预设百分比的词性;
确定所述词性边界之后,根据所述字母词标准集中的词形特征确定所述非中文字符的词形边界,所述词形特征为随着词形态的变化语法意义也随之变化的字符;
基于所述字符边界、所述词性边界以及所述词形边界确定所述非中文字符的所述左右边界;
输出显示所述非中文字符以及所述左右边界组成的字母词。
2.根据权利要求1所述的方法,其特征在于,所述基于字母词标准集确定所述非中文字符的左右边界包括:
以所述非中文字符为起点沿所述待处理字符串向左,确定所述非中文字符的左边界;
以所述非中文字符为起点沿所述待处理字符串向右,确定所述非中文字符的右边界。
3.根据权利要求1或2所述的方法,其特征在于,根据预设字符集确定待处理字符串中的非中文字符包括:
根据所述预设字符集确定所述待处理字符串中的西文字母;
判断所述待处理字符串中与所述西文字母连续的字符是否为预设字符,所述预设字符包括:数字和特殊符号;
若判断所述待处理字符串中与所述西文字母连续的字符为所述预设字符,则确定所述非中文字符为所述西文字母与预设字符组成的字符串;
若判断所述待处理字符串中与所述西文字母连续的字符不为所述预设字符,则确定所述非中文字符为所述西文字母。
4.根据权利要求3所述的方法,其特征在于,在基于字母词标准集确定所述非中文字符的左右边界之前,所述方法包括:
创建所述字母词标准集。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若根据所述预设字符集无法确定所述待处理字符串的非中文字符,则输出显示所述待处理字符串书写有误的警示信息。
6.一种字母词的提取装置,其特征在于,包括:
第一确定单元,用于根据预设字符集确定待处理字符串中的非中文字符,其中,所述预设字符集包含字母词中的非中文字符,所述非中文字符中至少包括西文字母;
第二确定单元,用于基于字母词标准集确定所述第一确定单元确定的所述非中文字符的左右边界,所述字母词标准集中记录有字母词各部分的特征;
显示单元,用于输出显示所述非中文字符以及所述第二确定单元确定的所述左右边界组成的字母词;
所述第二确定单元包括:
获取模块,用于获取所述字母词标准集;
第三确定模块,用于根据所述获取模块获取的所述字母词标准集中的字符特征确定所述非中文字符的字符边界,所述字符特征为不能出现在字母词中的标点符号字符;
第四确定模块,用于在所述第三确定模块确定所述字符边界之后,根据所述字母词标准集中的词性特征确定所述非中文字符的词性边界,所述词性特征包括不能出现在字母词中的词性和/或者构词能力较弱的词性,所述构词能力较弱的词性为出现在字母词中的概率小于预设百分比的词性;
第五确定模块,用于在所述第四确定模块确定所述词性边界之后,根据所述字母词标准集中的词形特征确定所述非中文字符的词形边界,所述词形特征为随着词形态的变化语法意义也随之变化的字符;
第六确定模块,用于基于所述第三确定模块确定的所述字符边界、所述第四确定模块确定的所述词性边界以及所述第五确定模块确定的所述词形边界确定所述非中文字符的所述左右边界。
7.根据权利要求6所述的装置,其特征在于,所述第二确定单元还包括:
第一确定模块,用于以所述非中文字符为起点沿所述待处理字符串向左,确定所述非中文字符的左边界;
第二确定模块,用于以所述非中文字符为起点沿所述待处理字符串向右,确定所述非中文字符的右边界。
8.根据权利要求6或7所述的装置,其特征在于,所述第一确定单元包括:
第一确定模块,用于根据所述预设字符集确定所述待处理字符串中的西文字母;
判断模块,用于判断所述待处理字符串中与所述第一确定模块确定的所述西文字母连续的字符是否为预设字符,所述预设字符包括数字和特殊符号;
第二确定模块,用于当所述判断模块判断所述待处理字符串中与所述西文字母连续的字符为预设字符时,确定所述非中文字符为所述西文字母与预设字符组成的字符串;
第三确定模块,用于当所述判断模块判断所述待处理字符串中与所述西文字母连续的字符不为预设字符时,确定所述非中文字符为所述西文字母。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的字母词的提取方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的字母词的提取方法。
CN201510671844.3A 2015-10-15 2015-10-15 字母词的提取方法及装置 Active CN106598936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510671844.3A CN106598936B (zh) 2015-10-15 2015-10-15 字母词的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510671844.3A CN106598936B (zh) 2015-10-15 2015-10-15 字母词的提取方法及装置

Publications (2)

Publication Number Publication Date
CN106598936A CN106598936A (zh) 2017-04-26
CN106598936B true CN106598936B (zh) 2020-03-06

Family

ID=58555069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510671844.3A Active CN106598936B (zh) 2015-10-15 2015-10-15 字母词的提取方法及装置

Country Status (1)

Country Link
CN (1) CN106598936B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488727B (zh) * 2020-03-24 2023-09-19 南阳柯丽尔科技有限公司 词文件解析方法、词文件解析设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语料库的字母词语自动提取研究;郑泽之 等;《中文信息学报》;20051231;第19卷(第2期);第80-84页 *

Also Published As

Publication number Publication date
CN106598936A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN108629046B (zh) 一种字段匹配方法及终端设备
US7937338B2 (en) System and method for identifying document structure and associated metainformation
CN109460551B (zh) 签名信息提取方法及装置
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN106919542B (zh) 规则匹配方法及装置
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN110020422A (zh) 特征词的确定方法、装置和服务器
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN113408660B (zh) 图书聚类方法、装置、设备和存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN116108857B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN111931491B (zh) 领域词典构建方法及装置
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN111814481A (zh) 购物意图识别方法、装置、终端设备及存储介质
CN111046627A (zh) 一种中文文字显示方法及系统
CN107798004B (zh) 关键词查找方法、装置及终端
CN106598936B (zh) 字母词的提取方法及装置
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN110674286A (zh) 一种文本摘要抽取方法、装置及存储设备
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN112784599B (zh) 诗句的生成方法、装置、电子设备和存储介质
CN107590163B (zh) 文本特征选择的方法、装置和系统
KR102476208B1 (ko) 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant