CN112101016B - 分词器获得方法、装置及电子设备 - Google Patents
分词器获得方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112101016B CN112101016B CN202011219865.9A CN202011219865A CN112101016B CN 112101016 B CN112101016 B CN 112101016B CN 202011219865 A CN202011219865 A CN 202011219865A CN 112101016 B CN112101016 B CN 112101016B
- Authority
- CN
- China
- Prior art keywords
- speech
- vocabulary
- target
- preset
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000012986 modification Methods 0.000 claims description 36
- 230000004048 modification Effects 0.000 claims description 36
- 238000001914 filtration Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001272996 Polyphylla fullo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种分词器获得方法,包括:获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;根据所述至少一个第二词汇,获得所述第一词汇的目标词性;根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。该方法可以提升目标分词器进行分词处理时的可靠性以及准确性。
Description
技术领域
本公开涉及自然语言处理技术领域,更具体地,涉及一种分词器获得方法、装置及电子设备,本公开同时还涉及一种分词方法。
背景技术
目前的分词器一般是对主流语种中的文本进行分词处理,例如,针对简体国语、繁体国语、日语、韩语等使用人群较多的语种中的文本进行分词处理,而在处理小众语种或非官方语种,例如,粤语时,现有的分词器一方面需要耗费大量人力物力提供训练语料,因此,现有方法在获得分词器时,存在资源浪费的问题;另一方面,由于人工在整理训练语料时,存在出错的可能性,因此,人工整理训练语料获得的分词器往往并不能可靠、准确的对该类语种中的文本进行分词处理。
发明内容
本公开的第一方面,提供了一种分词器获得方法,包括:
获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;
根据所述至少一个第二词汇,获得所述第一词汇的目标词性;
根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;
根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。
可选地,所述获取原始文本语料,包括:从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。
可选地,所述对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料,包括:通过第一正则匹配规则,从所述既有字典中的文本数据中,获得第一文本数据,其中,所述第一文本数据包括所述第一词汇和所述至少一个第二词汇;通过第二正则匹配规则,对所述第一文本数据进行拆分处理,获得所述第一词汇,以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据;对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇;根据所述第一词汇和所述至少一个第二词汇,获得所述原始文本语料。
可选地,所述对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇,包括:通过第三正则匹配规则,过滤所述第二文本数据中的预设文本符号,获得第三文本数据;使用预设分词符号,拆分所述第三文本数据,获得至少一个拆分文本;根据预设的词汇长度阈值,从所述至少一个拆分文本中,获得所述至少一个第二词汇。
可选地,所述根据所述至少一个第二词汇,获得所述第一词汇的目标词性,包括:根据所述至少一个第二词汇中词汇的词性,获得所述第一词汇的至少一个初始词性;对所述至少一个初始词性进行词性修正处理,获得所述目标词性。
可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述第一词性,包括:获取所述第一词汇的第一长度;在所述第一长度大于预设长度阈值的情况下,确定所述目标词性为第一预设词性。
可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:通过获取所述至少一个第二词汇中词汇的长度,获得第二长度集合;在所述第一长度等于所述预设长度阈值,并且,所述第二长度集合中的任一长度等于所述预设长度阈值的情况下,确定所述目标词性为第二预设词性。
可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:获取所述至少一个初始词性的类别数量;在所述类别数量等于第一预设类别数量,并且,所述至少一个初始词性中包括第三预设词性的情况下,确定所述目标词性为所述第三预设词性。
可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中包括第四预设词性的情况下,确定所述目标词性为所述第四预设词性。
可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中不包括所述第三预设词性或者所述第四预设词性的情况下,确定所述目标词性为第五预设词性。
可选地,所述方法还包括:在所述类别数量大于或等于第二预设类别数量的情况下,清除所述第一词汇。
可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:获取所述至少一个初始词性中的词性数量;在所述词性数量大于或等于第一预设词性数量的情况下,统计所述至少一个初始词性中每一词性的出现次数;将所述至少一个初始词性中出现次数最多的词性,作为所述目标词性。
可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述至少一个初始词性中每一词性的出现次数相同的情况下,将位于所述至少一个初始词性的第一预设位置处的词性,作为所述目标词性。
可选地,在获得所述第一词汇的目标词性之后,所述方法还包括:展示所述第一词汇和所述目标词性;接收用户对所述第一词汇和所述目标词性的修正结果;根据所述修正结果,修正所述第一词汇和所述目标词性。
可选地,所述根据所述目标文本语料,获得目标分词器,包括:将所述目标文本语料配置到预设的分词处理器中,获得所述目标分词器。
可选地,所述目标语种包括粤语,所述释义语种包括简体国语。
本公开的第二方面,还提供了一种分词方法,包括:
获取待进行分词处理的原始文本所属的语种;
获取与所述语种对应的目标分词器,其中,所述目标分词器通过本公开第一方面所述的方法获得;
将所述原始文本输入到所述目标分词器中,获得分词结果。
本公开的第三方面,还提供一种分词器获得装置,包括:
原始文本语料获取模块,用于获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;
目标词性获得模块,用于根据所述至少一个第二词汇,获得所述第一词汇的目标词性;
目标文本语料获得模块,用于根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;
目标分词器获得模块,用于根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。
本公开的第四方面,还提供了一种电子设备,其包括本公开第三方面所述的装置;或者,
所述电子设备包括:存储器,用于存储可执行的指令;处理器,用于根据所述指令的控制运行所述电子设备执行本公开第一方面或第二方面所述的方法。
本公开的一个有益效果在于,根据本公开的实施例,电子设备通过获取到包含第一词汇和至少一个第二词汇的原始文本语料,其中第二词汇用于解释所述第一词汇,第一词汇属于目标语种,第二词汇属于释义语种;之后,根据该至少一个第二词汇,自动获得第一词汇的目标词性,进而根据该第一词汇和目标词性,获得用来作为训练语料的、与该目标语种对应的目标文本语料;之后,根据该目标文本语料,即可方便的获得用于对使用该目标语种的文本进行分词处理的目标分词器。本公开实施例中,目标分词器的获得过程可以不依赖于人工,而是由电子设备从多渠道获取大量的原始文本语料,自动整理获得目标文本语料,进而提升目标分词器进行分词处理时的可靠性以及准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其他特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的原理。
图1是显示可用于实现一个实施例的分词器获得方法的服务器的硬件配置的原理框图。
图2是本公开实施例提供的分词器获得方法的流程示意图。
图3是本公开实施例提供的文本词网示意图。
图4是本公开实施例提供的分词方法的流程示意图。
图5是本公开实施例提供的分词器获得装置的原理框图。
图6是本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其他例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是可用于实施根据一个实施例的分词器获得方法的服务器的硬件配置的框图。
如图1所示,服务器1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500和输入装置1600。处理器1100例如可以是中央处理器CPU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括USB接口、串行接口等。通信装置1400例如能够进行有线或无线通信。显示装置1500例如是液晶显示屏。输入装置1600例如可以包括触摸屏、键盘等。
本实施例中,服务器1000可用于参与实现根据本公开任意实施例的方法。
应用于本公开实施例中,服务器1000的存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以支持实现根据本发明任意实施例的方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
本领域技术人员应当理解,尽管在图1中示出了服务器1000的多个装置,但是,本公开实施例的服务器1000可以仅涉及其中的部分装置,例如,只涉及处理器1110和存储器1120。这是本领域公知,此处不再赘述。
<方法实施例一>
图2是本公开实施例提供的分词器获得方法的流程示意图,该方法可以由电子设备实施,例如由图1中的服务器1000实施。如图2所示,本实施例的方法可以包括步骤S2100-S2400,以下予以详细说明。
步骤S2100,获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种。
目标语种,是待进行分词处理的语种,该语种可以为小众语种或非官方语种;当然,目标语种也可以为大众语种,例如,可以为简体国语、繁体国语、日语以及韩语等语种。在本实施例中,以目标语种为粤语进行举例说明。
第一词汇,是归属于目标语种的词汇,即,目标语种中的词汇。例如,在目标语种为粤语时,第一词汇可以为“势色”、“唔关我事”等词汇。
释义语种,是与目标语种不同的、用于对目标语种中的词汇进行解释说明的语种,该语种可以为大众语种或官方语种,例如,可以为简体国语、繁体国语等。在本实施例中,在目标语种为粤语时,以释义语种为简体国语,即普通话为例进行说明。
第二词汇,是释义语种中用来解释第一词汇的词汇,其中,与第一词汇对应的第二词汇可以有一个或多个。例如,在第一词汇为粤语中的“势色”时,第二词汇可以为普通话中的“形势、情势”等词汇。
原始文本语料,是包括上述第一词汇和与该第一词汇对应的至少一个第二词汇的语料,在本实施例中,原始文本语料可以包括多条语料,每条语料可以以“第一词汇:第二词汇”的形式表示,例如,原始文本语料可以为“势色:形势、情势”。
在本实施例中,针对现有技术中在获得分词器时,需要耗费大量人力物力获取训练语料,进而造成资源浪费的问题,为了方便、快速的获得目标文本语料,以获得目标分词器,本实施例提供的方法通过以下步骤获取原始文本语料:从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。
在本实施例中,与目标语种对应的既有字典,可以是包括目标语种中的第一词汇、释义语种中的第二词汇以及例句的字典。
即,在具体实施时,可以由电子设备从不同渠道、不同的数据源中获取与目标语种对应的、既有字典中的文本数据。例如,在目标语种为粤语时,可以控制电子设备从其他网络平台或者与粤语词汇相关的数据库中获取既有粤语词汇字典中的文本数据;由于不同数据源中的文本数据的结构可能不同,因此,可以对既有字典中的文本数据进行数据清洗,即,对其进行文本结构化处理,以清除其中的无效词汇和信息,获得本实施例所述的原始文本语料。
在具体实施时,所述对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料,包括:通过第一正则匹配规则,从所述既有字典中的文本数据中,获得第一文本数据,其中,所述第一文本数据包括所述第一词汇和所述至少一个第二词汇;通过第二正则匹配规则,对所述第一文本数据进行拆分处理,获得所述第一词汇,以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据;对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇;根据所述第一词汇和所述至少一个第二词汇,获得所述原始文本语料。
具体来讲,针对既有字典中的文本数据,可以使用第一正则匹配规则,从其中筛选出第一文本数据。
在本实施例中,第一正则匹配规则,可以是从既有字典的文本数据中筛选包括第一预设特殊符号的文本数据的规则,其中,所述第一预设特殊符号可以为(<-——::)中的至少一个。
即,可以通过第一正则匹配规则从既有粤语词汇字典的文本数据中,筛选出每一对粤语词汇、用于解释该词汇的普通话词汇及例句。例如,第一文本数据可以为“势色:形势;情势。佢一睇势色唔对,即刻走人(他一看情势不对头,马上溜了。)”。
在获得第一文本数据之后,可以使用第二正则匹配规则,例如,可以设定第二正则匹配规则为:以符号(<-——::)中的至少一个符号为分隔符,将分隔符之前的文本视为第一词汇,例如,为粤语词汇;以及,将分隔符之后的文本视为第二文本数据,即,包括与该第一词汇对应的至少一个第二词汇的文本数据。
例如,针对第一文本数据可以为“势色:形势;情势。佢一睇势色唔对,即刻走人”,以符号“:”为分隔符,通过正则匹配规则可得第一词汇为“势色”,第二文本数据为“形势;情势。佢一睇势色唔对,即刻走人(他一看情势不对头,马上溜了。)”。
在经过以上步骤之后,再通过对第二文本数据进行过滤处理,提取其中的第二词汇,即可获得本实施例所述的原始文本语料。
在具体实施时,所述对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇,包括:通过第三正则匹配规则,过滤所述第二文本数据中的预设文本符号,获得第三文本数据;使用预设分词符号,拆分所述第三文本数据,获得至少一个拆分文本;根据预设的词汇长度阈值,从所述至少一个拆分文本中,获得所述至少一个第二词汇。
在本实施例中,第三正则匹配规则可以为过滤第二文本数据中的第二预设特殊符号的规则,即,为了便于从第三文本数据中提取出与第一词汇对应的至少一个第二词汇,可以先过滤掉第二文本数据中的第二预设特殊符号,其中,该第二预设特殊符号可以为(‘’(){}[]“”<>())中的至少一个。
例如,针对第二文本数据“形势;情势。佢一睇势色唔对,即刻走人(他一看情势不对头,马上溜了。)”,通过使用第三正则匹配规则过滤其中的第二预设特殊符号,可得第三文本数据“形势;情势。佢一睇势色唔对,即刻走人他一看情势不对头,马上溜了。”。
在过滤掉第二文本数据中的第二预设特殊符号,获得第三文本数据之后,可以使用预设分词符号拆分第三文本数据,得到至少一个拆分文本,之后,再将每一拆分文本的长度与预设词汇长度阈值进行比较,即可获得与第一词汇对应的至少一个第二词汇,其中,所述预设分词符号可以为(、,。;)中的至少一个。
例如,针对第三文本数据“形势;情势。佢一睇势色唔对,即刻走人他一看情势不对头,马上溜了。”,通过使用预设分词符号进行划分,可以得到拆分文本{“形势”、“情势”、“佢一睇势色唔对”、“即刻走人他一看情势不对头”、“马上溜了”};之后,设定预设词汇长度阈值为3,则将上述每一拆分文本的长度与该预设词汇长度阈值比较可得,与第一伺候“势色”对应的第二词汇分别有“形势”、“情势”。
需要说明的是,在具体实施时,上述第一、第二、第三正则匹配规则以及预设词汇长度阈值可以根据需要进行设置,此处不做特殊限定。
另外,在具体实施时,在既有字典中的文本数据规则性较弱的情况下,也可以尝试人工纠正,或者直接忽略该文本数据;当然,也可以使用其他数据清洗方法从既有字典的文本数据中获得本实施例所述的原始文本语料,此处不再赘述。
在获得原始文本语料之后,为了便于可靠、准确的对使用目标语种的文本进行分词处理,还需要根据原始文本语料中的第二词汇的词性,确定与其对应的第一词汇的词性。
步骤S2200,根据所述至少一个第二词汇,获得所述第一词汇的目标词性。
在自然语言处理领域,电子设备在对不同语种的文本数据进行处理时,一般是先对该文本数据进行分词处理,之后,才能进行后续的诸如文本情绪倾向分析、文章分类、评论观点抽取等自然语言处理任务;而电子设备在对文本数据进行分词处理时,一般需要先获取与该文本数据使用的语种对应的语料,该语料一般包括该语种的词汇和对应词汇的词性,例如,针对文本数据“有限公司”,在不做分词处理时,电子设备只能将其识别成单个字,而毫无词汇以及词性存在。因此,本实施例在通过步骤S2100获取到原始文本语料之后,为了使训练获得的目标分词器可以可靠、准确的对使用目标语种的文本数据进行分词处理,需要根据原始文本语料中与每一第一词汇对应的、至少一个第二词汇的词性,获得第一词汇的词性,以构建目标文本语料,以下予以详细说明。
在具体实施时,所述根据所述至少一个第二词汇,获得所述第一词汇的目标词性,包括:根据所述至少一个第二词汇的词性,获得所述第一词汇的至少一个初始词性;对所述至少一个初始词性进行词性修正处理,获得所述目标词性。
在本实施例中,在目标语种为粤语,释义语种为简体国语,即普通话的情况下,可以由电子设备通过使用预设的分词器,例如,汉语言处理包(HanLP,HanLanguageProcessing)加载与简体国语对应的词汇字典中的文本数据,以识别与第一词汇对应的、至少一个第二词汇的词性。
在具体实施时,当第一词汇仅对应一个第二词汇时,可以直接将该第二词汇的词性作为该第一词汇的初始词性;而当第一词汇对应多个第二词汇,例如,2个第二词汇时,可以将该多个第二词汇的词性均作为该第一词汇的初始词性。
例如,在目标语种为粤语,释义语种为简体国语时,通过识别与每一粤语词汇对应的简体国语词汇的词性,即可获得粤语词汇表,即,粤语词汇-至少一个初始词性的对应关系。
在获得第一词汇的至少一个初始词性之后,可以直接根据该第一词汇和该至少一个初始词性直接构建目标文本语料,并训练获得目标分词器;然而,由于至少一个初始词性中可能包含重复词性或者错误词性,因此,为了提升目标分词器的可靠性以及准确性,在本实施例中,还可以对该至少一个初始词性进行修正处理,以获得与第一词汇对应的、单一的、准确度较高的目标词性。
具体来讲,在获得第一词汇的至少一个初始词性之后,可以从不同维度对所述至少一个初始词性进行词性修正处理,以获得目标词性。在本实施例中,可以按第一词汇长度、按所述至少一个初始词性的类别以及按所述至少一个初始词性中同一词性的出现次数等对所述至少一个初始词性进行词性修正处理,以获得目标词性,以下,首先对如何按第一词汇长度对所述至少一个初始词性进行词性修正处理,获得目标词性进行详细说明。
具体来讲,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:获取所述第一词汇的第一长度;在所述第一长度大于预设长度阈值的情况下,确定所述目标词性为第一预设词性。
在本实施例中,在目标语种为粤语时,预设长度阈值可以为4,第一预设词性可以为“俗语”。
例如,在目标语种为粤语时,可以设定预设长度阈值为4;在获得粤语词汇的初始词性后,可以先不管初始词性中的词性,而是在粤语词汇的长度大于4的情况下,直接将该粤语词汇的词性修正为第一预设词性,即“俗语”。
在该实施例中,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:通过获取所述至少一个第二词汇中词汇的长度,获得第二长度集合;在所述第一长度等于所述预设长度阈值,并且,所述第二长度集合中的任一长度等于所述预设长度阈值的情况下,确定所述目标词性为第二预设词性。
此处依然以目标语种为粤语进行举例说明,在本实施例中,第二预设词性可以为“成语”。即,在目标语种为粤语时,可以在粤语词汇的长度等于4的情况下,直接将该粤语词汇的词性修正为第二预设词性,即“成语”。
例如,针对原始文本语料“储储埋埋:攒起来”,可得粤语词汇“储储埋埋”的词性为“成语”。
在具体实施时,在第一词汇的第一长度不满足上述两个条件,即,不大于所述预设长度阈值,也不等于所述预设长度阈值的情况下,可以直接将初始词性作为该第一词汇的目标词性。
以上,对如何按第一词汇长度对所述至少一个初始词性进行词性修正处理,获得目标词性进行了说明,以下针对如何按所述至少一个初始词性中的类别数量,以获得目标词性进行详细说明。
在具体实施时,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:获取所述至少一个初始词性的类别数量;在所述类别数量等于第一预设类别数量,并且,所述至少一个初始词性中包括第三预设词性的情况下,确定所述目标词性为所述第三预设词性。
此处依然以目标语种为粤语进行举例说明,在本实施例中,第一预设类别数量可以为2,第三预设词性可以为“动词”。
具体来讲,在获得第一词汇的至少一个初始词性之后,在该至少一个初始词性中的类别均相同,例如,均为“名词”的情况下,可以直接确定该第一词汇的目标词性为“名词”;而在该至少一个初始词性中的类别为多个的情况下,则可以先获取其类别数量,例如,在初始词性为“名词,名词,动词”的情况下,可得该至少一个初始词性的类别数量为2。
在获得第一词汇对应的至少一个初始词性的类别数量的情况下,在本实施例中,在目标语种为粤语时,可以在粤语词汇对应的初始词性的类别数量为2,并且其对应的初始词性包括“动词”的情况下,确定该粤语词汇的词性为“动词”。
例如,针对原始文本语料“驳骨:接骨头”,通过分析普通话“接骨头”的词性,可得粤语词汇“驳骨”的初始词性为“动词,名词”,则可将该粤语词汇“驳骨”的目标词性修正为“动词”。
在该实施例中,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中包括第四预设词性的情况下,确定所述目标词性为所述第四预设词性。
此处依然以目标语种为粤语进行举例说明,在本实施例中,第四预设词性可以为“数量”,即量词;则在类别数量等于上述第一预设类别数量,并且第一词汇的至少一个初始词性中包括“数量”词性的情况下,将该第一词汇的目标词性修正为“数量”。
在该实施例中,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中不包括所述第三预设词性或者所述第四预设词性的情况下,确定所述目标词性为第五预设词性。
即,在目标语种为粤语时,在第一词汇的至少一个初始词性中的类别数量等于2,并且,该第一词汇的初始词性即不包括“动词”也不包括“数量”时,可以修正该第一词汇的目标词性为第五预设词性,即“名词”。
在该实施例中,所述方法还包括:在所述类别数量大于或等于第二预设类别数量的情况下,清除所述第一词汇。即,当第一词汇的初始词性较多,例如,为3种或3种以上的词性时,一般可以认为是错误词汇,可以直接过滤掉该词汇。
以上,对如何按所述至少一个初始词性中的类别数量,以获得目标词性进行了说明,以下针对如何按所述至少一个初始词汇中相同词汇的出现次数,以获得目标词性进行详细说明。
在具体实施时,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:获取所述至少一个初始词性中的词性数量;在所述词性数量大于或等于第一预设词性数量的情况下,统计所述至少一个初始词性中每一词性的出现次数;将所述至少一个初始词性中出现次数最多的词性,作为所述目标词性。以及,还包括:在所述至少一个初始词性中每一词性的出现次数相同的情况下,将位于所述至少一个初始词性的第一预设位置处的词性,作为所述目标词性。
即,针对包括多个第二词汇,即释义词汇的第一词汇,可以将词性出现次数较多的词性作为该第一词汇的词性,而如果每一词性出现的次数相同,则可以将首个释义词性作为该第一词汇的词性。
以上,分别从不同维度说明了如何针对第一词汇的至少一个初始词性进行修正,以获得单一的、准确度较高的目标词性;需要说明的是,在具体实施时,也可以将上述方法结合使用,此处不再赘述。
另外,为了进一步提升第一词汇的目标词性的准确性,在使用以上至少一种方法获得第一词汇的目标词性之后,本实施例提供的方法还包括:展示所述第一词汇和所述目标词性;接收用户对所述第一词汇和所述目标词性的修正结果;根据所述修正结果,修正所述第一词汇和所述目标词性。
即,在获得第一词汇的目标词性之后,可以在显示设备上展示该第一词汇以及该目标词性,并接收用户对该第一词汇和目标词性的修正结果,以进一步提升目标词汇的准确性,此处不再赘述。
在步骤S2200之后,执行步骤S2300,根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料。
在经过以上步骤,针对原始文本语料中的每一词汇,获得其单一的、准确度较高的目标词性之后,即可根据该第一词汇和目标词性,构建与目标语种对应的目标文本语料,例如,可以将各第一词汇和其目标词性分别组对,整理成与目标语种对应的目标词汇字典。
例如,在目标语种为粤语,释义语种为简体国语时,通过上述处理,获得原始文本语料中每一粤语词汇的目标词性,之后,将每一粤语词汇和其对应的目标词性分别组对,即可获得粤语词汇表,即与粤语对应的粤语字典。
步骤S2400,根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。
在具体实施时,所述根据所述目标文本语料,获得目标分词器,包括:将所述目标文本语料配置到预设的分词处理器中,获得所述目标分词器。
在本实施例中,预设的分词器可以为基于汉语言处理包(HanLP,HanLanguageProcessing),即HanLP包的分词器,即,可以将讲过上述步骤S2100~S2300获得的目标文本语料加载到HanLP包中,例如,可以将通过目标文本语料整理成的目标词汇字典配置到HanLP包的配置文件hanlp.properties中,获得目标分词器,之后,即可使用该目标分词器对使用目标语种的文本数据进行分词处理。
此处,对基于HanLP包的目标分词器的分词处理过程一般包括步骤S2401-步骤S2404,以下进行简单说明。
在具体实施时,目标分词器在进行分词处理时,针对待进行分词处理的文本数据,可以先执行步骤S2401,对待处理的文本数据进行词频统计,即,计算文本数据中每个词汇出现的次数。
步骤S2402,根据目标文本语料和词频统计结果,生成与该文本数据对应的词网,其中,词网是指由文本数据中所有一元语法构成的网状结构。
请参看图3,其是本公开实施例提供的针对文本数据“商品和服务”的文本词网示意图,即,针对任意文本数据,在得到该文本数据中的所有词汇之后,可以将起始位置相同的词汇视为一行,其中首尾分别对应起始和末尾,词网保证从起点出发的所有路径都会连通到末尾。
步骤S2403,通过二元语法方式计算词网中每条边的距离。
在具体实施时,假设在语言模型中,第t个事件指的是作为第t个词汇出现,即,每个词汇出现的概率只取决于前一个词汇:;基于此假设,可以称此时的语言模型称为二元语法模型,具体可以表示为:;由于语料库中二元连续的重复程度要高于整个文本数据的重要程度,所以缓解了数据稀疏的问题,另外二元连续的总数量远远小于文本数据,即语句的数量,存储和查询也得到了解决,所以针对中文语种,例如,粤语语种的分词任务可以转换为有向无环图上的最长路径问题。
在步骤S2303之后,通过将浮点数乘法转化为负数对数之间的加法,可以将最长路径的问题转化为负对数的最短路径问题,即步骤S2404,可以使用维特比算法求解有向无环图上的最长路径,例如,针对文本数据“货币和服务”可得分词结果为“' ', '货币', '和','服务', ' '”。
另外,在具体实施时,还可以根据用户配置,例如,是否开启数字识别,NER命名识别等,针对性的输出分词结果。需要说明的是,由于现有技术中有基于HanLP包的分词器实现分词处理的详细说明,此处仅做简单说明,其详细处理过程此处不再赘述。
综上可知,根据本实施例的分词器获得方法,电子设备通过获取包含第一词汇和至少一个第二词汇的原始文本语料,其中,所述第二词汇用于解释第一词汇,第一词汇属于目标语种,第二词汇属于释义语种;之后,根据该至少一个第二词汇,自动获得第一词汇的目标词性,进而根据该第一词汇和目标词性,获得用来作为训练语料的、与该目标语种对应的目标文本语料;之后,根据该目标文本语料,即可方便的获得用于对使用该目标语种的文本进行分词处理的目标分词器。本公开实施例中,目标分词器的获得过程可以不依赖于人工,而是可以由电子设备从多渠道获取大量的原始文本语料,自动整理获得目标文本语料,不仅可以减轻人工压力,提升目标文本语料的获取速度以及准确度,还可以以提升目标分词器进行分词处理时的可靠性以及准确性。
<方法实施例二>
与上述方法实施例一相对应,在本实施例中,还提供一种分词方法,请参看图4,其是本公开实施例提供的分词方法的流程示意图,该方法可以由电子设备实施,具体可以由运行有根据方法实施例一中任意一项所述的方法获得的目标分词器的电子设备实施,该电子设备例如可以为图1中的服务器1000。
如图4所示,本实施例提供的分词方法包括如下步骤:
步骤S4100,获取待进行分词处理的原始文本所属的语种。
步骤S4200,获取与所述语种对应的目标分词器,其中,所述目标分词器通过上述方法实施例一中任意一项所述的方法获得。
步骤S4300,将所述原始文本输入到所述目标分词器中,获得分词结果。
<装置实施例>
与上述方法实施例一以及方法实施例二相对应,在本实施例中,还提供一种分词器获得装置,如图5所示,该装置5000可以包括原始文本语料获取模块5100、目标词性获得模块5200、目标文本语料获得模块5300以及目标分词器获得模块5400。
该原始文本语料获取模块5100,用于获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种。
在一个实施例中,该原始文本语料获取模块5100在获取原始文本语料时,可以用于:从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。
在该实施例中,该原始文本语料获取模块5100在对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料时,可以用于:通过第一正则匹配规则,从所述既有字典中的文本数据中,获得第一文本数据,其中,所述第一文本数据包括所述第一词汇和所述至少一个第二词汇;通过第二正则匹配规则,对所述第一文本数据进行拆分处理,获得所述第一词汇,以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据;对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇;根据所述第一词汇和所述至少一个第二词汇,获得所述原始文本语料。
在该实施例中,该原始文本语料获取模块5100在对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇时,可以用于:通过第三正则匹配规则,过滤所述第二文本数据中的预设文本符号,获得第三文本数据;使用预设分词符号,拆分所述第三文本数据,获得至少一个拆分文本;根据预设的词汇长度阈值,从所述至少一个拆分文本中,获得所述至少一个第二词汇。
该目标词性获得模块5200,用于根据所述至少一个第二词汇,获得所述第一词汇的目标词性。
在一个实施例中,该目标词性获得模块5200在根据所述至少一个第二词汇,获得所述第一词汇的目标词性时,可以用于:根据所述至少一个第二词汇的词性,获得所述第一词汇的至少一个初始词性;对所述至少一个初始词性进行词性修正处理,获得所述目标词性。
在一个实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,可以用于:获取所述第一词汇的第一长度;在所述第一长度大于预设长度阈值的情况下,确定所述目标词性为第一预设词性。
在该实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,还可以用于:通过获取所述至少一个第二词汇中词汇的长度,获得第二长度集合;在所述第一长度等于所述预设长度阈值,并且,所述第二长度集合中的任一长度等于所述预设长度阈值的情况下,确定所述目标词性为第二预设词性。
在一个实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,可以用于:获取所述至少一个初始词性的类别数量;在所述类别数量等于第一预设类别数量,并且,所述至少一个初始词性中包括第三预设词性的情况下,确定所述目标词性为所述第三预设词性。
在该实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,还可以用于:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中包括第四预设词性的情况下,确定所述目标词性为所述第四预设词性。
在该实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,还可以用于:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中不包括所述第三预设词性或者所述第四预设词性的情况下,确定所述目标词性为第五预设词性。
在该实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,还可以用于:在所述类别数量大于或等于第二预设类别数量的情况下,清除所述目标词汇。
在一个实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,可以用于:获取所述至少一个初始词性中的词性数量;在所述词性数量大于或等于第一预设词性数量的情况下,统计所述至少一个初始词性中每一词性的出现次数;将所述至少一个初始词性中出现次数最多的词性,作为所述目标词性。
在该实施例中,该目标词性获得模块5200在对所述至少一个初始词性进行词性修正处理,获得所述目标词性时,还可以用于:在所述至少一个初始词性中每一词性的出现次数相同的情况下,将位于所述至少一个初始词性的第一预设位置处的词性,作为所述目标词性。
在一个实施例中,该装置还包括修正结果获得模块,用于在获得所述第一词汇的目标词性之后,展示所述第一词汇和所述目标词性;接收用户对所述第一词汇和所述目标词性的修正结果;根据所述修正结果,修正所述第一词汇和所述目标词性。
该目标文本语料获得模块5300,用于根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料。
该目标分词器获得模块5400,用于根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。
在一个实施例中,该目标分词器获得模块5400在根据所述目标文本语料,获得目标分词器时,可以用于:将所述目标文本语料配置到预设的分词处理器中,获得所述目标分词器。
<设备实施例>
与上述方法实施例一以及方法实施例二相对应,在本实施例中,还提供一种电子设备,其可以包括根据本公开任意实施例的分词器获得装置5000,用于实施本公开任意实施例的分词器获得方法以及分词方法。
如图6所示,该电子设备6000还可以包括处理器6200和存储器6100,该存储器6100用于存储可执行的指令;该处理器6200用于根据指令的控制运行电子设备以执行根据本公开任意实施例的分词器获得方法以及分词方法。
以上装置5000的各个模块可以由处理器6200运行该指令以执行根据本公开任意实施例的分词器获得方法来实现。
该电子设备6000可以是服务器,也可以是其他类型的设备,例如是终端设备等,在此不做限定,例如,该电子设备6000是图1中的服务器100等。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。
Claims (18)
1.一种分词器获得方法,其特征在于,包括:
获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;
根据所述至少一个第二词汇,获得所述第一词汇的目标词性;
根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;
根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理;
其中,所述根据所述至少一个第二词汇,获得所述第一词汇的目标词性,包括:
根据所述至少一个第二词汇中词汇的词性,获得所述第一词汇的至少一个初始词性;对所述至少一个初始词性进行词性修正处理,获得所述目标词性;
所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括按所述第一词汇的长度、按所述至少一个初始词性的类别以及按所述至少一个初始词性中同一词性的出现次数中的至少一项,对所述至少一个初始词性进行词性修正处理。
2.根据权利要求1所述的方法,其特征在于,所述获取原始文本语料,包括:
从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;
对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。
3.根据权利要求2所述的方法,其特征在于,所述对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料,包括:
通过第一正则匹配规则,从所述既有字典中的文本数据中,获得第一文本数据,其中,所述第一文本数据包括所述第一词汇和所述至少一个第二词汇;
通过第二正则匹配规则,对所述第一文本数据进行拆分处理,获得所述第一词汇,以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据;
对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇;
根据所述第一词汇和所述至少一个第二词汇,获得所述原始文本语料。
4.根据权利要求3所述的方法,其特征在于,所述对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇,包括:
通过第三正则匹配规则,过滤所述第二文本数据中的预设文本符号,获得第三文本数据;
使用预设分词符号,拆分所述第三文本数据,获得至少一个拆分文本;
根据预设的词汇长度阈值,从所述至少一个拆分文本中,获得所述至少一个第二词汇。
5.根据权利要求1所述的方法,其特征在于,所述按所述第一词汇的长度,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:
获取所述第一词汇的第一长度;
在所述第一长度大于预设长度阈值的情况下,确定所述目标词性为第一预设词性。
6.根据权利要求5所述的方法,其特征在于,所述按所述第一词汇的长度,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:
通过获取所述至少一个第二词汇中词汇的长度,获得第二长度集合;
在所述第一长度等于所述预设长度阈值,并且,所述第二长度集合中的任一长度等于所述预设长度阈值的情况下,确定所述目标词性为第二预设词性。
7.根据权利要求1所述的方法,其特征在于,所述按所述至少一个初始词性的类别,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:
获取所述至少一个初始词性的类别数量;
在所述类别数量等于第一预设类别数量,并且,所述至少一个初始词性中包括第三预设词性的情况下,确定所述目标词性为所述第三预设词性。
8.根据权利要求7所述的方法,其特征在于,所述按所述至少一个初始词性的类别,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:
在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中包括第四预设词性的情况下,确定所述目标词性为所述第四预设词性。
9.根据权利要求8所述的方法,其特征在于,所述按所述至少一个初始词性的类别,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:
在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中不包括所述第三预设词性或者所述第四预设词性的情况下,确定所述目标词性为第五预设词性。
10.根据权利要求7所述的方法,其特征在于,所述按所述至少一个初始词性的类别,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:
在所述类别数量大于或等于第二预设类别数量的情况下,清除所述第一词汇。
11.根据权利要求1所述的方法,其特征在于,所述按所述至少一个初始词性中同一词性的出现次数,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:
获取所述至少一个初始词性中的词性数量;
在所述词性数量大于或等于第一预设词性数量的情况下,统计所述至少一个初始词性中每一词性的出现次数;
将所述至少一个初始词性中出现次数最多的词性,作为所述目标词性。
12.根据权利要求11所述的方法,其特征在于,所述按所述至少一个初始词性中同一词性的出现次数,对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:
在所述至少一个初始词性中每一词性的出现次数相同的情况下,将位于所述至少一个初始词性的第一预设位置处的词性,作为所述目标词性。
13.根据权利要求1所述的方法,其特征在于,在获得所述第一词汇的目标词性之后,所述方法还包括:
展示所述第一词汇和所述目标词性;
接收用户对所述第一词汇和所述目标词性的修正结果;
根据所述修正结果,修正所述第一词汇和所述目标词性。
14.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本语料,获得目标分词器,包括:
将所述目标文本语料配置到预设的分词处理器中,获得所述目标分词器。
15.根据权利要求1所述的方法,其特征在于,所述目标语种包括粤语,所述释义语种包括简体国语。
16.一种分词方法,其特征在于,包括:
获取待进行分词处理的原始文本所属的语种;
获取与所述语种对应的目标分词器,其中,所述目标分词器通过权利要求1-15任意一项所述的方法获得;
将所述原始文本输入到所述目标分词器中,获得分词结果。
17.一种分词器获得装置,其特征在于,包括:
原始文本语料获取模块,用于获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;
第一词性获得模块,用于根据所述至少一个第二词汇,获得所述第一词汇的目标词性;
目标文本语料获得模块,用于根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;
目标分词器获得模块,用于根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理;
其中,所述根据所述至少一个第二词汇,获得所述第一词汇的目标词性,包括:
根据所述至少一个第二词汇中词汇的词性,获得所述第一词汇的至少一个初始词性;对所述至少一个初始词性进行词性修正处理,获得所述目标词性;
所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括按所述第一词汇的长度、按所述至少一个初始词性的类别以及按所述至少一个初始词性中同一词性的出现次数中的至少一项,对所述至少一个初始词性进行词性修正处理。
18.一种电子设备,其特征在于,包括权利要求17所述的装置;或者,
所述电子设备包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述指令的控制运行所述电子设备执行如权利要求1-16任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219865.9A CN112101016B (zh) | 2020-11-05 | 2020-11-05 | 分词器获得方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011219865.9A CN112101016B (zh) | 2020-11-05 | 2020-11-05 | 分词器获得方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101016A CN112101016A (zh) | 2020-12-18 |
CN112101016B true CN112101016B (zh) | 2021-03-23 |
Family
ID=73785461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011219865.9A Active CN112101016B (zh) | 2020-11-05 | 2020-11-05 | 分词器获得方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101016B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520778A (zh) * | 2008-02-27 | 2009-09-02 | 株式会社东芝 | 用于确定中文词性的设备和方法 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
CN102789461A (zh) * | 2011-05-19 | 2012-11-21 | 富士通株式会社 | 多语词典构建装置和多语词典构建方法 |
CN111241833A (zh) * | 2020-01-16 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 一种文本数据的分词方法、装置及电子设备 |
CN111783437A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习实现语种识别的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3557605B2 (ja) * | 2001-09-19 | 2004-08-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム |
CN101539907B (zh) * | 2008-03-19 | 2013-01-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN103942192B (zh) * | 2013-11-21 | 2016-08-17 | 北京理工大学 | 一种双语最大名词组块分离-融合的翻译方法 |
-
2020
- 2020-11-05 CN CN202011219865.9A patent/CN112101016B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520778A (zh) * | 2008-02-27 | 2009-09-02 | 株式会社东芝 | 用于确定中文词性的设备和方法 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
CN102789461A (zh) * | 2011-05-19 | 2012-11-21 | 富士通株式会社 | 多语词典构建装置和多语词典构建方法 |
CN111241833A (zh) * | 2020-01-16 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 一种文本数据的分词方法、装置及电子设备 |
CN111783437A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习实现语种识别的方法 |
Non-Patent Citations (1)
Title |
---|
HanLP分词+用户自定义词典;机智翔学长;《https://blog.csdn.net/GreatXiang888/article/details/103969307》;20200114;第2-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112101016A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105917327B (zh) | 用于将文本输入到电子设备中的系统和方法 | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
CN110532573A (zh) | 一种翻译方法和系统 | |
CN106354716B (zh) | 转换文本的方法和设备 | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
AU2019203783B2 (en) | Extraction of tokens and relationship between tokens from documents to form an entity relationship map | |
CN111522944B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN114036300A (zh) | 一种语言模型的训练方法、装置、电子设备及存储介质 | |
CN110096599B (zh) | 知识图谱的生成方法及装置 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
JP6427466B2 (ja) | 同義語ペア獲得装置、方法、及びプログラム | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
Sibarani et al. | A study of parsing process on natural language processing in bahasa Indonesia | |
Álvarez et al. | Towards customized automatic segmentation of subtitles | |
CN110473551B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN112818681A (zh) | 文本情感分析方法、系统及电子设备 | |
CN112101016B (zh) | 分词器获得方法、装置及电子设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Govilkar et al. | Part of speech tagger for Marathi language | |
CN113988047A (zh) | 一种语料筛选方法和装置 | |
CN111898387B (zh) | 翻译方法及装置、存储介质、计算机设备 | |
CN113158693A (zh) | 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 | |
CN113065333A (zh) | 分词语种的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Huang Shiya Inventor after: Luo Mujun Inventor after: Zhu Xu Inventor after: Hei Yudong Inventor before: Huang Shiya Inventor before: Luo Mujun Inventor before: Zhu Xu |
|
CB03 | Change of inventor or designer information |