CN112131866B - 一种分词方法、装置、设备及可读存储介质 - Google Patents

一种分词方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112131866B
CN112131866B CN202011054725.0A CN202011054725A CN112131866B CN 112131866 B CN112131866 B CN 112131866B CN 202011054725 A CN202011054725 A CN 202011054725A CN 112131866 B CN112131866 B CN 112131866B
Authority
CN
China
Prior art keywords
word
text
target
detected
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011054725.0A
Other languages
English (en)
Other versions
CN112131866A (zh
Inventor
白安琪
蒋宁
王洪斌
吴海英
赵立军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202011054725.0A priority Critical patent/CN112131866B/zh
Publication of CN112131866A publication Critical patent/CN112131866A/zh
Application granted granted Critical
Publication of CN112131866B publication Critical patent/CN112131866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分词方法、装置、设备及可读存储介质,涉及自然语言处理技术领域,以提高分词的合理性。该方法包括:获取第一文本,第二文本以及预设的词模;分别获取第一文本的第一分词文本以及第二文本的第二分词文本;对于第二分词文本中的目标词,从第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果,根据所述匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。本发明实施例可提高分词的合理性。

Description

一种分词方法、装置、设备及可读存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种分词方法、装置、设备及可读存储介质。
背景技术
未登录词的识别与歧义消解是中文分词的两个难题。分词结果的准确性,通常会在NLP(Nature Language Processing,自然语言处理)的下游任务中得以检验。不同任务对于分词结果的严苛程度不同,面临的分词难题也各异。因此,在不同的下游任务中,需要有针对性地解决中文分词难题。
其中,未登录词,也称新词,即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。
摘要文本作为一种较为常见的NLP下游任务,旨在将海量且动态更新的信息精炼化,其可能包括大量未登录词,且未登录词作为关键性词语出现在摘要文本中的概率也极高。
目前摘要文本的生成都是基于已有的分词技术,包括基于词典/检索/统计的方法进行文本分词后生成的。但是,现有的分词方法大多受到种子词典的收录范围、统计语料库的覆盖面的限制,从而导致了现有的分词方法的分词不合理。
发明内容
本发明实施例提供一种分词方法、装置、设备及可读存储介质,以提高分词的合理性。
第一方面,本发明实施例提供了一种分词方法,包括:
获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本;
分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本;
对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;
将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果;
根据所述匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。
第二方面,本发明实施例还提供一种分词装置,包括:
第一获取模块,用于获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本;
第二获取模块,用于分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本;
第三获取模块,用于对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;
第一匹配模块,用于对于所述至少一个待检测语言片段中的目标待检测语言片段,将所述目标待检测语言片段和所述词模进行匹配,得到匹配结果;
第一确定模块,用于根据所述至少一个待检测语言片段中的匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。
第三方面,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的分词方法中的步骤。
第四方面,本发明实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的分词方法中的步骤。
在本发明实施例中,将第二分词文本中的目标词对应的待检测语言片段和预设的词模进行匹配,然后,综合各个待检测语言片段的匹配结果和第二分词文本中的目标词在第一分词文本中的初始的词边界分隔方式,确定最终的词边界分隔方式,并利用所述最终的词边界分隔方式对所述第一文本进行分词,得到第三文本。在本发明实施例中,利用词模进行匹配以确定新的词边界分隔方式,从而避免了已有的词典与语料库的覆盖范围的限制,并综合获得的新词的词边界分隔方式和第一分词文本中初始的词边界分隔方式确定最终的词边界分隔方式,因此,利用本发明实施例的方案可提高分词的合理性。
附图说明
图1是本发明实施例提供的分词方法的流程图之一;
图2是本发明实施例提供的分词方法的流程图之二;
图3是本发明实施例提供的分词装置的结构图。
具体实施方式
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本发明实施例提供的分词方法的流程图,如图1所示,包括以下步骤:
步骤101、获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本。
其中,所述第一文本可以是任意形式的文本文件,并可按照现有的摘要文本生成方式生成第二文本。
大多数新产生的词语,都是由造词模子批量生产的。这种造词模子,称为词语模,简称词模,是具有新造词语功能的各式各样的框架。这种框架由“模标”和“模槽”两部分构成。模标指词模中不变的词语,模槽指词模中的空位。如:词模“好V”中,“好”是模标,“V”是词槽,V表示词性为动词。值得指出的是,模标的位置可位于词模前半段(如词模“可V”),也可位于词模的后半段(如词模“N控”,N表示词性是名词),且模槽处可以是限定词性的,也可为不限定词性的(如词模“X风”,X表示可以是任意词性)。因此,结合现有的分析可以获得预设的词模,且可根据需要扩充。
例如,词模可以是:[“好+V”,“难+V”,“N+控”,“X+风”,……]等。
步骤102、分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本。
在此步骤中,可分别对所述第一文本和所述第二文本进行分词处理,得到所述第一分词文本和所述第二分词文本。其中,具体的分词方法可采用现有技术中的任意一种分词方法。
通过进行分词处理,可以获得第一分词文本中的词边界分隔方式,获得的每个词在第一分词文本中的出现位置,及相关词的词性。其中,所述相关词指的是在第一文本中位置相邻的词。在本发明实施例中,“词”可以是词语,也可以是单个字,词性可以包括动词,名词,形容词等等。同样,对第二文本进行分词处理,也可获得上述信息。
其中,词边界分隔方式可以理解为将某个句子或者短语划分成词的方式。例如,W1W2W3W4这句话中,经分词处理,得到W1|W2W3|W4,那么,经分词处理,W1形成一个单位,W2W3形成一个单位,W4形成一个单位。这种划分方式可以认为是词边界分隔方式。
因此,在本发明实施例中,为提高分词的合理性,在步骤102之后,还可在所述第一分词文本中确定目标词的相关词以及所述相关词的词性;其中,所述相关词在所述第一分词文本中的出现位置与所述目标词在所述第一分词文本中的出现位置相邻。其中,所述目标词指的是第二分词文件中的任意词。
例如,第二分词文本中的目标词为A,其在第一分词文本中出现的位置为X10,那么,在第一分词文本中,它的相邻词为X9,X11,词性分别为名词和形容词。
步骤103、对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段。
对于第二分词文本中的每个词,都可将其看做是目标词。由于其具有相邻词,因此,目标词和其相邻词可组成语言片段。当然,除了包括目标词和其相邻词,语言片段还可包括其他的内容。组成的每个语言片段,都可作为在此的待检测语言片段。其中,获得的待检测语言片段可以是1个,或者是2个以上。如果某个目标词在第一分词文本中出现1次,那么,在此获得的待检测语言片段为1个;如果出现多次,那么,在此获得的待检测语言片段为2个以上。
例如,第二分词文本中的目标词为A,其在第一分词文本中出现的位置为X10,X9+X10+X11可以组成一个待检测语言片段。
步骤104、将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果。
对于至少一个待检测语言片段中的每个待检测语言片段,都可看做是目标待检测语言片段,所述目标待检测语言片段也可以为每个待检测语言片段的一部分。
在此步骤中,在所述目标待检测语言片段中,将所述目标词与所述目标词的第一相邻词形成的组合,与所述词模进行匹配。如果所述组合和所述词模中的目标基准词匹配,则将所述组合作为候选词,并得到所述候选词在所述目标待检测语言片段中的候选词边界分隔方式。其中,所述第一相邻词可以指的是位置上位于目标词之前的相邻词,也可以指的是位置上位于目标词之后的相邻词,目标基准词指的是词模中的任意的词。
仍然以X9+X10+X11组成的待检测语言片段为例,将X9+X10形成一个组合,X10+X11形成一个组合。对于形成的每个组合,将其和词模进行匹配。在某个待检测语言片段中,假设某个组合和词模中的某个基准词匹配,那么,在其他待检测语言片段中,仍是以在其他待检测语言片段中由该目标词和相邻词形成的组合和词模中的该基准词进行匹配。那么,在执行本发明实施例的过程中,是以和词模中的该基准词的匹配结果为基准,进行后续的处理。也就是说,在本发明实施中,是以和词模中的一个基准词的匹配结果为基准进行的处理。如果涉及到词模中的多个基准词,可分别按照本发明实施例描述的过程进行处理。
步骤105、根据所述匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。
所述初始的词边界分隔方式具体为对第一文本进行分词得到第一分词文本所确定的词边界分隔方式即为该初始的词边界分隔方式。
在此步骤中,综合考虑各个待检测语言片段中的匹配结果、所述目标词在所述第一分词文本中初始的词边界分隔方式等,确定最终的词边界分隔方式。
具体的,如果所述至少一个待检测语言片段中,与所述目标基准词匹配的待检测语言片段的数量小于或等于与所述目标基准词不匹配的待检测语言片段的数量,则利用所述目标词在第一分词文本中初始的词边界分隔方式作为最终的词边界分隔方式;
如果所述至少一个待检测语言片段中,与所述目标基准词匹配的待检测语言片段的数量大于与所述目标基准词不匹配的待检测语言片段的数量,则重新确定最终的词边界分隔方式。
例如,目标词y2在第一分词文本中出现3次,分别对应原文的x10,x45,x80,则其前、后词分别为[(x9,x11),(x44,x46),(x79,x81)],其前、后的相邻词的词性分别为([(n,v),(n,v),(adv,n)])。目标词y2在第一分词文本中对应的待检测语言片段有3个,分别为:x9+x10+x11,x44+x45+x46,x79+x80+x81。其中,x9+x10+x11对应的词边界分隔方式为:x9|x10+x11。
假设,y2=“好”,而x11词性为v,则x10+x11与词模“好v”匹配成功。那么,x45+x46,x80+x81分别与词模“好v”匹配。如果三个待检测语言片段中,与词模“好v”匹配的待检测语言片段的数量小于或等于与词模“好v”不匹配的待检测语言片段的数量,那么,利用x10,x45,x80分别在x9+x10+x11,x44+x45+x46,x79+x80+x81的词边界分隔方式作为最终的词边界分隔方式;否则重新确定最终的词边界分隔方式。
如果重新确定最终的词边界分隔方式,对于每个用于与所述词模进行匹配的目标待检测语言片段,且需重新确定最终的词边界分隔方式的,可按照如下方式确定:
(1)获取所述目标词在所述第一分词文本中初始的目标词边界分隔方式。
其中,初始的目标词边界分隔方式为对第一文本进行分词得到第一分词文本所确定的词边界分隔方式中目标待检测语言片段中目标词的词边界分隔方式;目标词在第一分词文本中可能出现在多个位置,因此,可以有多个词边界分隔方式。其中,每种词边界分隔方式都可作为在此的初始的目标词边界分隔方式。
(2)根据所述初始的目标词边界分隔方式以及所述目标词在所述第一分词文本中的位置,计算第一综合混淆度。
具体的,该步骤可包括:
(21)根据所述初始的目标词边界分隔方式以及所述目标词在所述第一分词文本中的位置,将所述目标词对应的第一原始文本进行分段,得到第一子文本、第二子文本。
其中,所述目标词在所述第一子文本和所述第二子文本中的位置为以下情形中的至少一种:位于所述第一子文本的结尾位置,位于所述第二子文本的开始位置,所述目标词的第二相邻词位于所述第一子文本的结尾位置,所述第二相邻词位于所述第二子文本的开始位置,所述第二相邻词为在所述第一分词文本中位于所述目标词之后的相邻词。
其中,所述第一原始文本可以是目标词对应的待检测语言片段,也可以是在包括待检测语言片段的基础上,增加了与待检测语言片段在位置上相邻的词语之后的内容。
例如,目标词是x10,对应的第一原始文本为:A+x9+x10+x11+B,初始的词边界分隔方式为:x9|x10|x11,以x10所在位置为断点,形成A+x9+x10,x10+x11+B;又例如,初始的词边界分隔方式为:A|x9|x10x11|B,以x10x11所在位置为断点,形成A+x9+x10+x11,x11+B。
(22)分别计算所述第一子文本的混淆度以及所述第二子文本的混淆度。
混淆度(Perplexity)主要用来衡量一个语言模型在未见过的字符串S上的表现。对于一个长度为N的字符串S,语言模型给出概率P(S),对应的混淆度为2^{-(1/N)log2 P(S)}。一个长字符串的ppl值可以标识这个长字符串是合法句子的可能性,ppl值越小,则长字符串是合法句子的可能性越大。
因此,在本发明实施中,以混淆度为判断依据来最终的词边界分隔方式。
(23)根据从每个目标待检测语言片段中获取的所述第一子文本的混淆度、所述第二子文本的混淆度,计算第一综合混淆度。
如果目标待检测语言片段的数量为一个,则将所述第一子文本的混淆度、所述第二子文本的混淆度求和,并将获得的和作为所述第一综合混淆度;
如果目标待检测语言片段的数量为两个以上,则将从每个目标待检测语言片段中获取的所述第一子文本的混淆度、所述第二子文本的混淆度求和,并将获得的和除以2,得到所述第一综合混淆度。
仍以(21)中的例子为例,如果目标待检测语言片段的数量为一个,则计算A+x9+x10,x10+x11+B的混淆度,并将其求和,作为所述第一综合混淆度。
如果待检测文本还包括C+x44+x45+x46+D,分隔方式为:C|+X44|+X45|+X6|+D,那么,计算A+x9+x10,x10+x11+B,C+x44+x45,x45+x46+D的混淆度并将其求和,然后将和除以2,作为所述第一综合混淆度。
(3)根据所述候选词边界分隔方式以及所述候选词在所述第一分词文本中的位置,计算第二综合混淆度。
具体的,该步骤可包括:
(31)根据所述候选词边界分隔方式以及所述候选词在所述第一分词文本中的位置,将所述目标词对应的第一原始文本进行分段,得到第三子文本和第四子文本;其中,所述候选词位于所述第三子文本的结尾位置,所述候选词位于所述第四子文本的开始位置。
(32)分别计算所述第三子文本的混淆度以及所述第四子文本的混淆度。
(33)根据从每个目标待检测语言片段中获取的所述第三子文本的混淆度以及所述第四子文本的混淆度,计算第二综合混淆度。
如果目标待检测语言片段的数量为一个,则将所述第三子文本的混淆度以及所述第四子文本的混淆度求和,并将获得的和作为所述第二综合混淆度;
如果目标待检测语言片段的数量为两个以上,则将从每个目标待检测语言片段中获取的所述第三子文本的混淆度以及所述第四子文本的混淆度求和,并将获得的和除以2,将获得的和作为所述第二综合混淆度。
例如,目标词是x10,对应的第一原始文本为:A+x9+x10+x11+B,词边界分隔方式为:x9|x10+x11,以x10+x11所在位置为断点,形成A+x9+x10+x11,x10+x11+B两个子文本。
如果目标待检测语言片段的数量为一个,则计算A+x9+x10+x11,x10+x11+B的混淆度,并将其求和,作为所述第二综合混淆度。
如果待检测文本还包括C+x44+x45+x46+D,分隔方式为:C+x44+|x45+x46|+D,那么,计算A+x9+x10+x11,x10+x11+B,C+x44+x45+x46,x45+x46+D的混淆度并将其求和,然后将和除以2,作为所述第二综合混淆度。
(4)将所述第一综合混淆度和所述第二综合混淆度进行比较,得到比较结果。
(5)根据所述比较结果,确定最终的词边界分隔方式。
具体的,在此步骤中,如果所述第一综合混淆度大于所述第二综合混淆度,则将所述候选词边界分隔方式作为最终的词边界分隔方式;如果所述第一综合混淆度小于或等于所述第二综合混淆度,则将所述目标词初始的词边界分隔方式作为最终的词边界分隔方式。
在本发明实施例中,将第二分词文本中的目标词对应的待检测语言片段和预设的词模进行匹配,然后,综合各个待检测语言片段的匹配结果和第二分词文本中的目标词在第一分词文本中初始的词边界分隔方式,确定最终的词边界分隔方式,并利用所述最终的词边界分隔方式对所述第一文本进行分词,得到第三文本。在本发明实施例中,利用词模进行匹配以确定新的词边界分隔方式,从而避免了已有的词典与语料库的覆盖范围的限制,并综合获得的新词的词边界分隔方式和第一分词文本中已有的词边界分隔方式确定最终的词边界分隔方式,因此,利用本发明实施例的方案可提高分词的合理性。
此外,在上述实施例的基础上,还可利用所述最终的词边界分隔方式对所述第一文本进行分词,得到第三文本,其中,所述第三文本为根据所述第一文本生成的摘要文本。
参见图2,图2是本发明实施例提供的分词方法的流程图,如图2所示,包括以下步骤:
步骤201、获取词模列表L、摘要文本S、待生成摘要的原始文本R。词模列表:[“好+V”,“难+V”,“N+控”,“X+风”,……]。
步骤202、利用现有的分词方法,获取分词后的摘要文本(y=[y1,...,ym])和分词后的原始文本(x=[x1,...,xn])。
步骤203、获取分词后的摘要文本中的各词(称作目标词)在分词后的原始文本中出现的所有位置,以及其相邻词及相邻词的词性。
例如,目标词y2在分词后的原始文本出现3次,分别对应原文的位置分别是:x10,x45,x80,其前、后的相邻词分别为[(x9,x11),(x44,x46),(x79,x81)],其前、后词的词性分别为([(n,v),(n,v),(adv,n)])。
步骤204、从分词后的原始文本获取待检测语言片段。
例如,摘要文本中的目标词y2一词在原始文本中对应的待检测语言片段有3个,分别为:x9+x10+x11,x44+x45+x46,x79+x80+x81。
步骤205、将待检测语言片段与输入的词模列表进行词模匹配,获取新的分词结果(产生的新词称作候选新词)、新的词边界分隔方式(或称为候选词边界分隔方式)。
例如,摘要文本中的词y2=“好”,对应原文本R中的x10,x45,x80,而x11词性为v,对于x9+x10+x11,假设x10+x11与词模“好v”匹配成功,因此,该待检测语言片段产生一种新的词边界分隔方式x9|x10+x11。
步骤206、确定最终的词边界分隔方式。
对于词模中的某个目标基准词,对于获得的待检测语言片段,若目标词和该目标基准词匹配的待检测语言片段的数量为N,目标词和该目标基准词不匹配的待检测语言片段的数量为M,N和M为整数。
如果N≤M,则利用所述目标词在第一分词文本中的词边界分隔方式作为最终的词边界分隔方式。
如果N>M,则:(1)以该目标词在分词后的原始文本中的位置为断点,将目标词对应的原始文本分段。之后,分别将目标词以及位置上位于所述目标词之后的相邻词划分到两段中,计算两段对应的ppl值,并将其求和。若N≥2,则将按照上述方式获得的和除以2。通过这种方式获得第一综合ppl值。(2)以该候选词在分词后的原始文本中的位置为断点,将候选词对应的原始文本分段。之后,分别将候选词划分到两段中之后计算两段对应的ppl值,并将其求和。若N≥2,则将按照上述方式获得的和除以2。通过这种方式获得第二综合ppl值。
比较第一综合ppl值和第二综合ppl值,选择二者中较小的值对应的词边界分隔方式作为最终的词边界分隔方式。
假设y2在分词后原文本中匹配到“好V”两次,也即y2在两个待检测语言片段匹配到匹配到“好V”,分别是:x10+x11,x45+x46。按照上述记载,由于N大于M,所以,需要重新确定词边界分隔方式。
假设以x10为观察点,x10的原始文本记作A+x9+x10+x11+B;以x45为观察点,x45的原始文本记作C+X44+X45+X6+D。在第一处原始文本存在两种词边界分隔方式:1)A|x9|x10|x11|B;2)A|x9|x10x11|B,在第二处原始文本存在两种词边界分隔方式:1)C|+X44|+X45|+X6|+D;2)C+|X44+|X45+X6|+D。
利用ppl_原表示第一综合ppl值,ppl_现表示第二综合ppl值,那么:
ppl_原为:x10归入前后两段文本的ppl值之和、x11归入前后两段文本的ppl值之和、x45归入前后两段文本的ppl值之和、x46归入前后两段文本的ppl值之和相加除以2;
ppl_现为:将“x10+x11”整体归入前后两段文本的ppl值之和、“x45+x46”整体归入前后两段文本的ppl值之和相加。
也即:
ppl_原=[ppl(A+x9+x10)+ppl(x10+x11+B)+ppl(A+x9+x10+x11)+ppl(x11+B)]+ppl(C+x44+x45)+ppl(x45+x46+D)+ppl(C+x44+x45+x46)+ppl(x46+D)]/2
ppl_现=ppl(A+x9+x10+x11)+ppl(x10+x11+B)+ppl(C+x44+x45+x46)+ppl(x45+x46+D)
如果ppl_原小<ppl_现,那么,利用目标词在分词后的原始文本中初始的词边界分隔方式作为最终的词边界分隔方式;否则,利用候选词边界分隔方式作为最终的词边界分隔方式。
步骤207、根据重新确定的词边界分隔方式,生成摘要文本。
如果利用候选词边界分隔方式作为最终的词边界分隔方式,则根据候选词边界分隔方式生成摘要文本。
通过以上描述可以看出,在本发明实施例中,将初步生成的摘要文本中的词语返回到原文中进行针对性的分词结果核实,有助于提高文本摘要的质量。利用词模摆脱了词典等的限制,从而可结合词汇知识存储及断句的方式经验,在依据词例分词的基础上,再结合词模知识对词边界进行调整。因此,利用本发明实施例的方案可提高分词的合理性,进而提高获得的摘要文本的质量。
本发明实施例还提供了一种分词装置。参见图3,图3是本发明实施例提供的分词装置的结构图。由于分词装置解决问题的原理与本发明实施例中分词方法相似,因此该分词装置的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,分词装置300包括:
第一获取模块301,用于获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本;
第二获取模块302,用于分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本;
第三获取模块303,用于对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;
第一匹配模块304,用于将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果;
第一确定模块305,用于根据所述匹配结果和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式。
可选的,所述第二获取模块302,用于分别对所述第一文本和所述第二文本进行分词处理,得到所述第一分词文本和所述第二分词文本。
可选的,所述装置还可包括:第二确定模块,用于在所述第一分词文本中确定所述目标词的相关词以及所述相关词的词性;其中,所述相关词在所述第一分词文本中的出现位置与所述目标词在所述第一分词文本中的出现位置相邻。
可选的,所述第一匹配模块304可包括:第一匹配子模块,用于在所述目标待检测语言片段中,将所述目标词与所述目标词的第一相邻词形成的组合,与所述词模进行匹配;第一确定子模块,用于如果所述组合和所述词模中的目标基准词匹配,则将所述组合作为候选词,并得到所述候选词在所述目标待检测语言片段中的候选词边界分隔方式。
可选的,所述第一确定子模块包括:
第一确定单元,用于如果所述至少一个待检测语言片段中,与所述目标基准词匹配的待检测语言片段的数量小于或等于与所述目标基准词不匹配的待检测语言片段的数量,则利用所述目标词在第一分词文本中的词边界分隔方式作为最终的词边界分隔方式;第二确定单元,用于如果所述至少一个待检测语言片段中,与所述目标基准词匹配的待检测语言片段的数量大于与所述目标基准词不匹配的待检测语言片段的数量,则重新确定最终的词边界分隔方式。
可选的,所述第二确定单元包括:
第一获取子单元,用于获取所述目标词在所述第一分词文本中的初始的目标词边界分隔方式;第一计算子单元,用于根据所述初始的目标词边界分隔方式以及所述目标词在所述第一分词文本中的位置,计算第一综合混淆度;第二计算子单元,用于根据所述候选词边界分隔方式以及所述候选词在所述第一分词文本中的位置,计算第二综合混淆度;第一比较子单元,用于将所述第一综合混淆度和所述第二综合混淆度进行比较,得到比较结果;第一确定子单元,用于根据所述比较结果,确定最终的词边界分隔方式。
可选的,所述第一计算子单元包括:
第一获取子单元,用于将所述目标词对应的第一原始文本进行分段,得到第一子文本、第二子文本;其中,所述目标词在所述第一子文本和所述第二子文本中的位置为以下情形中的至少一种:位于所述第一子文本的结尾位置,位于所述第二子文本的开始位置,所述目标词的第二相邻词位于所述第一子文本的结尾位置,所述第二相邻词位于所述第二子文本的开始位置,所述第二相邻词为在所述第一分词文本中位于所述目标词之后的相邻词;第三计算子单元,用于分别计算所述第一子文本的混淆度以及所述第二子文本的混淆度;第四计算子单元,用于根据从每个目标待检测语言片段中获取的所述第一子文本的混淆度、所述第二子文本的混淆度,计算第一综合混淆度。
可选的,所述第四计算子单元,用于:
如果目标待检测语言片段的数量为一个,则将所述第一子文本的混淆度、所述第二子文本的混淆度求和,并将获得的和作为所述第一综合混淆度;
如果目标待检测语言片段的数量为两个以上,则将从每个目标待检测语言片段中获取的所述第一子文本的混淆度、所述第二子文本的混淆度求和,并将获得的和除以2,得到所述第一综合混淆度。
可选的,所述第二计算子单元包括:
第二获取子单元,用于根据所述候选词边界分隔方式以及所述候选词在所述第一分词文本中的位置,将所述目标词对应的第一原始文本进行分段,得到第三子文本和第四子文本;其中,所述候选词位于所述第三子文本的结尾位置,所述候选词位于所述第四子文本的开始位置;第五计算子单元,用于分别计算所述第三子文本的混淆度以及所述第四子文本的混淆度;第六计算子单元,用于根据从每个目标待检测语言片段中获取的所述第三子文本的混淆度以及所述第四子文本的混淆度,计算第二综合混淆度。
可选的,所述第六计算子单元用于:
如果目标待检测语言片段的数量为一个,则将所述第三子文本的混淆度以及所述第四子文本的混淆度求和,并将获得的和作为所述第二综合混淆度;
如果目标待检测语言片段的数量为两个以上,则将从每个目标待检测语言片段中获取的所述第三子文本的混淆度以及所述第四子文本的混淆度求和,并将获得的和除以2,将获得的和作为所述第二综合混淆度。
可选的,所述装置还可包括:
第四获取模块,用于利用所述最终的词边界分隔方式对所述第一文本进行分词,得到第三文本,其中,所述第三文本为根据所述第一文本生成的摘要文本。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现包括以上所述的分词方法中的步骤。
本发明实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述分词方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (12)

1.一种分词方法,其特征在于,包括:
获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本;
分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本;
对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;
将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果,其中,所述匹配结果包括候选词边界分隔方式;
根据所述候选词边界分隔方式和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式;
其中,所述将至少一个所述目标待检测语言片段和所述词模进行匹配,得到匹配结果,包括:
在所述目标待检测语言片段中,将所述目标词与所述目标词的第一相邻词形成的组合,与所述词模进行匹配;
如果所述组合和所述词模中的目标基准词匹配,则将所述组合作为候选词,并得到所述候选词在所述目标待检测语言片段中的候选词边界分隔方式。
2.根据权利要求1所述的方法,其特征在于,所述分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本之后,所述方法还包括:
在所述第一分词文本中确定所述目标词的相关词以及所述相关词的词性;其中,所述相关词在所述第一分词文本中的出现位置与所述目标词在所述第一分词文本中的出现位置相邻。
3.根据权利要求1所述的方法,其特征在于,所述根据所述候选词边界分隔方式和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式,包括:
如果所述至少一个待检测语言片段中,与所述目标基准词匹配的待检测语言片段的数量小于或等于与所述目标基准词不匹配的待检测语言片段的数量,则利用所述目标词在第一分词文本中的初始的词边界分隔方式作为最终的词边界分隔方式;
如果所述至少一个待检测语言片段中,与所述目标基准词匹配的待检测语言片段的数量大于与所述目标基准词不匹配的待检测语言片段的数量,则根据所述候选词边界分隔方式和所述目标词在所述第一分词文本中的初始的词边界分隔方式重新确定最终的词边界分隔方式。
4.根据权利要求3所述的方法,其特征在于,对于每个用于与所述词模进行匹配的目标待检测语言片段,且需重新确定最终的词边界分隔方式的,所述重新确定最终的词边界分隔方式,包括:
获取所述目标词在所述第一分词文本中初始的目标词边界分隔方式;
根据所述初始的目标词边界分隔方式以及所述目标词在所述第一分词文本中的位置,计算第一综合混淆度;
根据所述候选词边界分隔方式以及所述候选词在所述第一分词文本中的位置,计算第二综合混淆度;
将所述第一综合混淆度和所述第二综合混淆度进行比较,得到比较结果;
根据所述比较结果,确定最终的词边界分隔方式。
5.根据权利要求4所述的方法,其特征在于,所述根据所述初始的目标词边界分隔方式以及所述目标词在所述第一分词文本中的位置,计算第一综合混淆度,包括:
将所述目标词对应的第一原始文本进行分段,得到第一子文本、第二子文本;其中,所述目标词在所述第一子文本和所述第二子文本中的位置为以下情形中的至少一种:位于所述第一子文本的结尾位置,位于所述第二子文本的开始位置,所述目标词的第二相邻词位于所述第一子文本的结尾位置,所述第二相邻词位于所述第二子文本的开始位置,所述第二相邻词为在所述第一分词文本中位于所述目标词之后的相邻词;
分别计算所述第一子文本的混淆度以及所述第二子文本的混淆度;
根据从每个目标待检测语言片段中获取的所述第一子文本的混淆度、所述第二子文本的混淆度,计算第一综合混淆度。
6.根据权利要求5所述的方法,其特征在于,所述根据从每个目标待检测语言片段中获取的所述第一子文本的混淆度、所述第二子文本的混淆度,计算第一综合混淆度,包括:
如果目标待检测语言片段的数量为一个,则将所述第一子文本的混淆度、所述第二子文本的混淆度求和,并将获得的和作为所述第一综合混淆度;
如果目标待检测语言片段的数量为两个以上,则将从每个目标待检测语言片段中获取的所述第一子文本的混淆度、所述第二子文本的混淆度求和,并将获得的和除以2,得到所述第一综合混淆度。
7.根据权利要求4所述的方法,其特征在于,所述根据所述候选词边界分隔方式以及所述候选词在所述第一分词文本中的位置,计算第二综合混淆度,包括:
根据所述候选词边界分隔方式以及所述候选词在所述第一分词文本中的位置,将所述目标词对应的第一原始文本进行分段,得到第三子文本和第四子文本;其中,所述候选词位于所述第三子文本的结尾位置,所述候选词位于所述第四子文本的开始位置;
分别计算所述第三子文本的混淆度以及所述第四子文本的混淆度;
根据从每个目标待检测语言片段中获取的所述第三子文本的混淆度以及所述第四子文本的混淆度,计算第二综合混淆度。
8.根据权利要求7所述的方法,其特征在于,所述根据从每个目标待检测语言片段中获取的所述第三子文本的混淆度以及所述第四子文本的混淆度,计算第二综合混淆度,包括:
如果目标待检测语言片段的数量为一个,则将所述第三子文本的混淆度以及所述第四子文本的混淆度求和,并将获得的和作为所述第二综合混淆度;
如果目标待检测语言片段的数量为两个以上,则将从每个目标待检测语言片段中获取的所述第三子文本的混淆度以及所述第四子文本的混淆度求和,并将获得的和除以2,将获得的和作为所述第二综合混淆度。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述最终的词边界分隔方式对所述第一文本进行分词,得到第三文本,其中,所述第三文本为根据所述第一文本生成的摘要文本。
10.一种分词装置,其特征在于,包括:
第一获取模块,用于获取第一文本,第二文本以及预设的词模,其中,所述第二文本为根据所述第一文本生成的摘要文本;
第二获取模块,用于分别获取所述第一文本的第一分词文本以及所述第二文本的第二分词文本;
第三获取模块,用于对于所述第二分词文本中的目标词,从所述第一分词文本中获取至少一个待检测语言片段,其中,每个待检测语言片段均包括含有所述目标词的目标待检测语言片段;
第一匹配模块,用于将所述目标待检测语言片段和所述词模进行匹配,得到匹配结果,其中,所述匹配结果包括候选词边界分隔方式;
第一确定模块,用于根据所述候选词边界分隔方式和所述目标词在所述第一分词文本中的初始的词边界分隔方式,确定所述第一分词文本的最终的词边界分隔方式;
其中,所述第一匹配模块包括:第一匹配子模块,用于在所述目标待检测语言片段中,将所述目标词与所述目标词的第一相邻词形成的组合,与所述词模进行匹配;第一确定子模块,用于如果所述组合和所述词模中的目标基准词匹配,则将所述组合作为候选词,并得到所述候选词在所述目标待检测语言片段中的候选词边界分隔方式。
11.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现包括如权利要求1至9中任一项所述的分词方法中的步骤。
12.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实包括如权利要求1至9中任一项所述的分词方法中的步骤。
CN202011054725.0A 2020-09-25 2020-09-25 一种分词方法、装置、设备及可读存储介质 Active CN112131866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011054725.0A CN112131866B (zh) 2020-09-25 2020-09-25 一种分词方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011054725.0A CN112131866B (zh) 2020-09-25 2020-09-25 一种分词方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112131866A CN112131866A (zh) 2020-12-25
CN112131866B true CN112131866B (zh) 2024-06-14

Family

ID=73843271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011054725.0A Active CN112131866B (zh) 2020-09-25 2020-09-25 一种分词方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112131866B (zh)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4066507B2 (ja) * 1998-05-11 2008-03-26 日本電信電話株式会社 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
CN103678282B (zh) * 2014-01-07 2016-05-25 苏州思必驰信息科技有限公司 一种分词方法及装置
CN104915327B (zh) * 2014-03-14 2019-01-29 腾讯科技(深圳)有限公司 一种文本信息的处理方法及装置
CN105550170B (zh) * 2015-12-14 2018-10-12 北京锐安科技有限公司 一种中文分词方法及装置
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
JP6778654B2 (ja) * 2017-06-08 2020-11-04 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN109255117A (zh) * 2017-07-13 2019-01-22 普天信息技术有限公司 中文分词方法及装置
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN108304377B (zh) * 2017-12-28 2021-08-06 东软集团股份有限公司 一种长尾词的提取方法及相关装置
CN110348023A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种中文文本分词的方法、装置、存储介质及电子设备
CN110895961A (zh) * 2019-10-29 2020-03-20 泰康保险集团股份有限公司 医疗数据中的文本匹配方法及装置
CN111400563B (zh) * 2020-03-16 2023-08-01 北京搜狗科技发展有限公司 一种模式匹配方法、装置和用于模式匹配的装置
CN111639489A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 中文文本纠错系统、方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
专利新词发现的双向聚合度特征提取新方法;陈梅婕;谢振平;陈晓琪;许鹏;;计算机应用(第03期);全文 *
基于新词发现与词典信息的古籍文本分词研究;李筱瑜;;软件导刊(第04期);全文 *

Also Published As

Publication number Publication date
CN112131866A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN109887497B (zh) 语音识别的建模方法、装置及设备
US10255275B2 (en) Method and system for generation of candidate translations
US10176804B2 (en) Analyzing textual data
EP1396795A2 (en) Method and apparatus for aligning bilingual corpora
US20200311207A1 (en) Automatic text segmentation based on relevant context
CN111462751B (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN105654940B (zh) 一种语音合成方法和装置
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN111611805A (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN103678271A (zh) 一种文本校正方法及用户设备
US6965861B1 (en) Method for improving results in an HMM-based segmentation system by incorporating external knowledge
CN113094478A (zh) 表情回复方法、装置、设备及存储介质
CN111324831A (zh) 一种欺诈网站的检测方法及装置
US12094453B2 (en) Fast emit low-latency streaming ASR with sequence-level emission regularization utilizing forward and backward probabilities between nodes of an alignment lattice
Jeon et al. Automatic prosodic event detection using a novel labeling and selection method in co-training
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
CN114091448A (zh) 文本对抗样本生成方法、系统、计算机设备和存储介质
CN112131866B (zh) 一种分词方法、装置、设备及可读存储介质
JP2011028638A (ja) 要約文作成装置、要約文作成方法、プログラム
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
CN116956935A (zh) 一种伪标签数据构建方法、装置、终端及介质
JP3787310B2 (ja) キーワード決定方法、装置、プログラム、および記録媒体
JP4405542B2 (ja) 音素モデルをクラスタリングする装置、方法およびプログラム
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN111540363B (zh) 关键词模型及解码网络构建方法、检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant