CN114218938A - 一种分词方法、装置、电子设备和存储介质 - Google Patents

一种分词方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114218938A
CN114218938A CN202111518492.XA CN202111518492A CN114218938A CN 114218938 A CN114218938 A CN 114218938A CN 202111518492 A CN202111518492 A CN 202111518492A CN 114218938 A CN114218938 A CN 114218938A
Authority
CN
China
Prior art keywords
participles
degree
participle
freedom
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111518492.XA
Other languages
English (en)
Inventor
宋晓静
吴科
吴立楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhichi Zhongfu Technology Consulting Co ltd
Original Assignee
Beijing Zhichi Zhongfu Technology Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhichi Zhongfu Technology Consulting Co ltd filed Critical Beijing Zhichi Zhongfu Technology Consulting Co ltd
Priority to CN202111518492.XA priority Critical patent/CN114218938A/zh
Publication of CN114218938A publication Critical patent/CN114218938A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了分词方法、装置、电子设备和存储介质,分词方法包括:获取文本数据;分别对文本数据进行切分,获得多个与切分长度一一对应的候选词组;确定候选词组中分词的内部凝合度,若分词的内部凝合度低于第一预设阈值,则将分词切分为更短切分长度的分词并移动至更短切分长度对应的候选词组;当所有候选词组中的分词的内部凝合度不低于第一预设阈值时,确定候选词组中分词的自由度;对于任意一个候选词组,若候选词组中分词的自由度低于第二预设阈值,则将分词与相邻分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于第二预设阈值时,根据所有候选词组中的分词获得分词结果。本发明提高了分词的准确性。

Description

一种分词方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机自然语言处理技术领域,具体而言,涉及一种分词方法、装置、电子设备和存储介质。
背景技术
随着互联网技术和电子商务的发展,越来越多的商务活动迁移到线上进行,随之而来的也就是智能客服系统广泛应用到各行各业,例如:金融行业、教育行业和电商零售业等。智能客服系统能够弥补人工在线客服系统的缺陷,满足对在线客服系统日益增长的需求,大多传统型企业的人工在线客服系统逐步向智能客服系统转型,以帮助企业提升服务效率。
智能客服系统的自然语言处理中,最常见的一类问题是分词。分词方法是根据不同的词性、停顿等条件将一个自然语句进行切人,每一个分割作为一个最小的处理单元,以方便进行后续自然语言的处理。目前的分词方法主要是有监督的分词,即通过构造常用词词典,再将语句与词典进行比对的方式来进行分词。然而,智能客服系统呈现领域化和专业化的发展趋势,随着各行各业的蓬勃发展,越来越多的新词被创造、使用,特定行业内会出现许多行业新词,没有成熟的词典可以用来作为参照,又由于其专业性构造新的词典难度较大,导致监督分词法在专业的中文语料中效果一般,容易造成词语的不连贯,增加语义理解的不确定性和歧义性,影响使用领域的回答准确率和语言处理的结果。
发明内容
本发明旨在解决的技术问题在于针对上述现有技术的不足,提供一种无监督分词方法、装置、电子设备和存储介质。
为解决上述问题,本发明提供一种分词方法,包括:
获取文本数据;
根据多个预设的切分长度,分别对所述文本数据进行切分,获得多个与切分长度一一对应的候选词组;
确定所述候选词组中所述分词的内部凝合度,若所述分词的内部凝合度低于第一预设阈值,则将所述分词切分为更短切分长度的分词并移动至所述更短切分长度对应的候选词组;
当所有所述候选词组中的所述分词的内部凝合度不低于所述第一预设阈值时,确定所述候选词组中所述分词的自由度,所述自由度用于表征所述分词与多个语言环境相匹配的概率;
对于任意一个候选词组,若所述候选词组中分词的自由度低于第二预设阈值,则将所述分词与相邻分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于所述第二预设阈值时,根据所有候选词组中的分词获得分词结果。
进一步地,所述确定所述候选词组中所述分词的内部凝合度,包括:
以所述候选词组的切分长度更短的一个切分长度对所述分词进行切分,获得至少两个子分词;
分别获得所述至少两个子分词在所述文本数据中出现的第一概率,以及所述分词在所述文本数据中出现的第二概率;
根据所述第一概率和所述第二概率,获得所述分词的内部聚合度。
进一步地,所述候选词组的第一预设阈值与所述候选词组中所述分词的长度呈正比。
进一步地,所述确定所述候选词组中所述分词的自由度,包括:
分别获取所述分词的左邻词集合中的每个分词在所述文本数据中出现的第三概率,并根据所述第三概率获取所述分词的左信息熵;
分别获取位于每个所述候选词组中所述分词的右邻词集合中的每个分词在所述文本数据中出现的第四概率,并根据所述第四概率获取所述分词的右信息熵;
根据所述左信息熵和所述右信息熵,确定所述分词的自由度。
进一步地,所述候选词组中所述分词的自由度采用如下公式计算:
Figure BDA0003407792660000031
其中,LE为左信息熵,RE为右信息熵,e为常数。
进一步地,所述将所述分词与相邻分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于所述第二预设阈值时,根据所有候选词组中的分词获得分词结果,包括:
将所述候选词组中的分词作为本轮迭代的初始分词,将所述初始分词与左邻分词进行组合,获得本轮迭代的组合后的第一分词;
确定所述第一分词的自由度,若所述第一分词的自由度不低于所述第二预设阈值,则将所述第一分词作为新的分词;
若所述第一分词的自由度低于所述第二预设阈值,则将所述第一分词和右邻分词进行组合,获得本轮迭代的组合后的第二分词;
确定所述第二分词的自由度,若所述第二分词的自由度不低于所述第二预设阈值,则将所述第二分词作为新的分词;
若所述第二分词的自由度低于所述第二预设阈值,则将所述第二分词作为下一轮迭代的初始分词,直至获得的分词中的自由度不低于所述第二预设阈值,将最后一轮迭代获得的分词作为新的分词。
本发明第二方面提供了一种分词装置,包括:
文本获取模块,用于获取文本数据;
候选词组获取模块,用于根据多个预设的切分长度,分别对所述文本数据进行切分,获得多个与切分长度一一对应的候选词组;
内部凝合度模块,用于确定所述候选词组中所述分词的内部凝合度,若所述分词的内部凝合度低于第一预设阈值,则将所述分词切分为更短切分长度的分词并移动至所述更短切分长度对应的候选词组;
自由度模块,用于当所有所述候选词组中的所述分词的内部凝合度不低于所述第一预设阈值时,确定所述候选词组中所述分词的自由度,所述自由度用于表征所述分词与多个语言环境相匹配的概率;
组合模块,用于对于任意一个候选词组,若所述候选词组中分词的自由度低于第二预设阈值,则将所述分词与相邻分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于所述第二预设阈值时,根据所有候选词组中的分词获得分词结果。
本发明第三方面提供了一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面任一项所述的方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本发明提供的分词方法,先根据预设的切分长度对文本数据进行切分,获得多个候选词组,再根据每个候选词组的内部凝合度和自由度,获得分词结果,由于内部凝合度和自由度可以衡量一个候选词组能否作为一个独立的词,使得根据内部凝合度和自由度确定得到的候选词均为独立的词语,提高了分词结果的准确性,避免了词语的不连贯以及语义理解的不确定性和歧义性;此外,该分词方法仅仅根据候选词组的共同特性,通过内部凝合度和自由度进行分词,不依赖于任何已有的词库、分词工具和标注语料,降低了分词的成本。
附图说明
图1为本申请实施例提供的分词方法的流程示意图;
图2为本申请实施例提供的分词装置的结构示意图;
图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
智能客服系统的自然语言处理中,最常见的一类问题是分词。分词方法是根据不同的词性、停顿等条件将一个自然语句进行切人,每一个分割作为一个最小的处理单元,以方便进行后续自然语言的处理。目前的分词方法主要是有监督的分词,即通过构造常用词词典,再将语句与词典进行比对的方式来进行分词。然而,智能客服系统呈现领域化和专业化的发展趋势,随着各行各业的蓬勃发展,越来越多的新词被创造、使用,特定行业内会出现许多行业新词,没有成熟的词典可以用来作为参照,又由于其专业性构造新的词典难度较大,导致监督分词法在专业的中文语料中效果一般,容易造成词语的不连贯,增加语义理解的不确定性和歧义性,影响使用领域的回答准确率和语言处理的结果。
本申请提供了一种分词方法、装置、电子设备和存储介质。旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
需要说明的是,本申请的实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1为本申请实施例中提供的一种分词方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤S1、获取文本数据;
文本数据可以从智能问答系统、网络页面等中选取,本实施例对此不做进一步地限定。
文本数据指的是有效的文本数据,即文本数据中不包括标点符号、特殊符号、数字或字母等与词语无关的内容。若获取得到的文本数据中包括了标点符号、特殊符号、数字或字母等与词语无关的内容,则先将这些与词语无关的内容剔除之后,再进行下一步操作。
步骤S2、根据多个预设的切分长度,分别对文本数据进行切分,获得多个与切分长度一一对应的候选词组,每个候选词组中分词的长度均为同一切分长度;
具体地,选取切分长度n,根据切分长度n获得2-grams、3-grams、…和n-grams多个切分长度,根据2-grams、3-grams、…和n-grams多个切分长度分别对文本数据进行切分,依次获得二元词组、三元词组、…和n元词组多个与切分长度一一对应的候选词组,每个候选词组中分词的长度均为同一切分长度。
例如:文本数据为:“巧克力真好吃”,字节长度n为4,则根据字节长度获得2-grams、3-grams和4-grams三个切分长度,根据这三个切分长度分别对“巧克力真好吃”进行切分,依次获得“巧克”、“克力”、“力真”、“真好”、“好吃”这些二元词组,“巧克力”、“克力真”、“力真好”、“真好吃”这些三元词组,“巧克力真”、“克力真好”、“力真好吃”这些四元词组。
一般而言,候选词组大多以二元词组、三元词组和四元词组的形式出现,四元以上的词组较少,因此,根据多个预设的切分长度,分别对文本数据进行切分时,切分长度不高于4。
步骤S3、确定候选词组中分词的内部凝合度,若分词的内部凝合度低于第一预设阈值,则将分词切分为更短切分长度的分词并移动至更短切分长度对应的候选词组;
内部凝合度用于表征相邻分词或相邻字之间的的关联程度,从而能够判断相邻分词或相邻字组合成词语的程度。分词在文本数据中出现的次数是作为衡量分词内部凝合度的最简单最直接的指标,例如,分词在文本数据中的出现次数多,则该分词的凝合度高,但是,根据分词在文本数据中的出现次数无法准确反映一个分词的内部凝合度,例如:在一个文本数据中经常出现“的电影”、“在北京”等分词,但这些分词并不是我们想要的分词,我们想要“电影院”之类的词语,此时根据分词出现的次数并无法准确反映一个分词的内部凝合度。为了避免这种现象,本申请中通过确定分词的内部凝合度以帮助我们进一步判断。
具体地,可以通过如下方式确定候选词组中分词的内部凝合度:
以候选词组的切分长度更短的一个切分长度对分词进行切分,获得至少两个子分词;
分别获得至少两个子分词在文本数据中出现的第一概率,以及分词在文本数据中出现的第二概率;
根据第一概率和第二概率,获得分词的内部凝合度。
例如:可以通过如下公式确定候选词组中分词的内部凝合度C:
Figure BDA0003407792660000071
其中,P(abc)为分词abc在文本数据中出现的第二概率,P(ab)为子分词ab在文本数据中出现的第一概率,P(c)为子分词c在文本数据中出现的第一概率,P(a)为子分词a在文本数据中出现的第一概率,P(bc)为子分词bc在文本数据中出现的第一概率。
例如:“电影院”可以拆分为(“电”、“影院”)、(“电影”、“院”),“电影院”的内部凝合度的计算公式如下:
Figure BDA0003407792660000081
C(电影院)代表“电影院”的内部凝合度,P(电影院)、P(电)、P(影院)、P(电影)、P(院)分别代表“电影院”、“电”、“影院”、“电影”、“院”在文本数据中出现的频率。
也可以通过如下公式确定候选词组中分词的内部凝合度:
Figure BDA0003407792660000082
其中,P(abcd)为分词abcd在文本数据中出现的第二概率,P(abc)为子分词abc在文本数据中出现的第一概率,P(a)为子分词a在文本数据中出现的第一概率,P(ab)为子分词ab在文本数据中出现的第一概率,P(cd)为子分词cd在文本数据中出现的第一概率,P(bcd)为子分词abc在文本数据中出现的第一概率,P(d)为子分词d在文本数据中出现的第一概率。
对于任意一个候选词组中的分词,若任意一个候选词组中的分词的内部凝合度低于第一预设阈值,则对任意一个候选词组中的分词切分为更短切分长度的分词并移动至更短切分长度对应的候选词组,直至所有候选词组中的分词的内部凝合度不低于所述第一预设阈值。
具体地,对于一个分词长度为n的候选词组,将该候选词组中任一分词的内部凝合度均与该候选词组的第一预设阈值进行比较,若分词的内部凝合度大于该候选词组的第一预设阈值,则该分词不进行切分;若分词的内部凝合度小于该候选词组的第一预设阈值,则将该分词切分为分词长度为n-1的分词,并将切分后的分词移动至分词长度为n-1的候选词组中,再将切分后的分词的内部凝合度与分词长度为n-1的候选词组的第一预设阈值进行比较,若切分后的分词的内部凝合度小于分词长度为n-1的候选词组的第一预设阈值,则继续将分词长度为n-1的分词切分为分词长度为n-2的分词,并按照上述方法进行操作,直至所有候选词组中的分词的内部凝合度不低于与该候选词组相对应的第一预设阈值。
例如:文本数据为:“巧克力真好吃”,其三元候选词组中的分词为“巧克力”、“克力真”、“力真好”、“真好吃”,若“巧克力”的内部凝合度高于该三元候选词组的第一预设阈值,则不对其进行切分,若“力真好”的内部凝合度低于该三元候选词组的第一预设阈值,则将其切分为“力真”和“真好”这两个二元词组,并将这两个二元词组移动至二元候选词组中,并计算“力真”和“真好”的内部凝合度,并将“力真”和“真好”的内部凝合度与二元候选词组的第一预设阈值进行比较,若“力真”和“真好”的内部凝合度高于二元候选词组的第一预设阈值,则不进行切分,若低于二元候选词组的内部凝合度,则将其切分为字。
在判断多个候选词组中的分词的内部凝合度时,多个候选词组的第一预设阈值可以相同,也可以不同,但为了避免字数过多时统计地不充分,使分词的内部凝合度偏高,造成计算结果有较大的偏差,影响最终结果的准确性,在上述实施例的基础上,每个候选词组的第一预设阈值均不相同,且每个候选词组的第一预设阈值与每个候选词组中分词的长度呈正比,也即,候选词组中分词的长度越高,该候选词组的第一阈值就越大,例如:由二元词组构成的候选词组的第一阈值小于由三元词组构成的候选词组的第一预设阈值。本申请的实施例中对候选词组的第一预设阈值的具体数值不做进一步地限定,本领域的技术人员可以根据实际情况进行调整。
步骤S4、当所有候选词组中的分词的内部凝合度不低于第一预设阈值时,确定候选词组中分词的自由度,自由度用于表征分词与多个语言环境相匹配的概率;
分词的自由度是判断一个分词是否能作为一个完整的词语的标准。一般而言,如果一个分词能够算作一个词语的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合,例如:“人工智能”这个分词,它的上下文可以搭配很多词,形成多种组合,例如“学习人工智能知识”、“从事人工智能行业”等,但对于“人工智”这个分词来说,其上文仍然可以搭配很多分词,但其下文却只能搭配“能”,而与“人工智能”共同出现的却有多种组合,因此,可以认为“人工智”不是一个完整的词语,而“人工智能”是一个完整的词语。
具体地,可以通过如下方法确定候选词组中分词的自由度:
分别获取位于分词的左邻词集合中的每个分词在文本数据中出现的第三概率,并根据第三概率获取分词的左信息熵;
分别获取位于分词的右邻词集合中的每个分词在文本数据中出现的第四概率,并根据第四概率获取分词的右信息熵;
根据左信息熵和右信息熵,确定分词的自由度。
信息熵描述的是随机变量的不确定性,因此左信息熵可以用来衡量一个词组的左邻字集合有多随机,右信息熵可以用来衡量一个词组的右邻字集合有多随机。
具体地,对于候选词组中的一个分词W,经过统计后它的所有左邻词集合为left={l1,l2,...,ln},每个词在文本数据中出现的概率为p(li),可以通过如下公式计算W的左信息熵LE:
LE=-p(l1)logp(l1)-p(l2)logp(l2)......-p(ln)logp(ln)。
对于候选词组中的一个分词W,经过统计后它的所有右邻词集合为right={r1,r2,...,rn},每个词在文本数据中出现的概率为p(ri),可以通过如下公式计算W的右信息熵RE:
RE=-p(r1)logp(r1)--p(r2)logp(r2)......-p(rn)logp(rn)。
为了度量与分词组合的左右邻词的丰富程度,并提高分词的准确性,计算候选词组中的分词的左信息熵和候选词组中分词的右信息熵,但左信息熵和右信息熵具有差距,为了提高分词的自由度的准确性,根据候选词组中的分词的左信息熵、候选词组中分词的右信息熵和左信息熵与右信息熵差的绝对值,获得候选词组中分词的自由度。
具体地,可以通过如下公式计算候选词组中分词的自由度L(W):
Figure BDA0003407792660000101
其中,LE为分词的左信息熵,RE为分词的右信息熵,e为常数,|LE-RE|为左信息熵和右信息熵差的绝对值,log为对数运算。
步骤S5、对于任意一个候选词组,若候选词组中的分词的自由度低于第二预设阈值,则将分词与相邻的分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于第二预设阈值时,根据所有候选词组中分词获得分词结果。
具体地,将分词与相邻的分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于第二预设阈值时,根据所有候选词组中分词获得分词结果,包括:
将候选词组中的分词作为本轮迭代的初始分词,将初始分词与左邻分词进行组合,获得本轮迭代的组合后的第一分词;
确定第一分词的自由度,若第一分词的自由度不低于第二预设阈值,则将第一分词作为新的分词;
若第一分词的自由度低于第二预设阈值,则将第一分词和右邻分词进行组合,获得本轮迭代的组合后的第二分词;
确定第二分词的自由度,若第二分词的自由度不低于第二预设阈值,则将第二分词作为新的分词;
若第二分词的自由度低于第二预设阈值,则将第二分词作为下一轮迭代的初始分词,直至获得的分词中的自由度不低于第二预设阈值,将最后一轮迭代获得的分词作为新的分词。
例如:候选词组中分词W的自由度小于第二预设阈值,则将候选词组中的分词W作为本轮迭代的初始分词,将分词W与其左邻分词L1进行组合,获得本轮迭代的组合后的第一分词L1W,计算第一分词L1W的自由度,再将组合后的第一分词L1W的自由度与第二预设阈值进行比较,若组合后的第一分词L1W的自由度高于第二预设阈值,则第一分词L1W作为一个新的分词,若组合后的第一分词L1W的自由度仍低于第二预设阈值,则将第一分词L1W与其右邻分词R1进行组合,获得本轮迭代的组合后的第二分词L1WR1,并计算第二分词L1WR1的自由度,将第二分词L1WR1的自由度与第二预设阈值进行比较,若第二分词L1WR1的自由度高于第二预设阈值,则将第二分词L1WR1作为一个新的分词,若第二分词L1WR1的自由度低于第二预设阈值,则将第二分词L1WR1作为下一轮迭代的初始分词,并依次与第二分词L1WR1的左邻分词L2、第二分词L1WR1的右邻分词R2、…的顺序的依次进行组合和迭代,直至获得的分词的自由度不低于第二预设阈值,将最后一轮迭代获得的分词作为新的分词。
本实施例提供的分词方法,先根据预设的切分长度对文本数据进行切分,获得多个候选词组,再根据每个候选词组的内部凝合度和自由度,获得分词结果,由于内部凝合度和自由度可以衡量一个候选词组能否作为一个独立的词,使得根据内部凝合度和自由度确定得到的候选词均为独立的词语,提高了分词结果的准确性,避免了词语的不连贯以及语义理解的不确定性和歧义性;此外,该分词方法仅仅根据候选词组的共同特性,通过内部凝合度和自由度进行分词,不依赖于任何已有的词库、分词工具和标注语料,降低了分词的成本。
下面结合一个示例对本申请实施例的分词方法进行更详细的说明。
在一个示例中,该分词方法,包括以下步骤:
步骤S1、获取文本数据;
步骤S2、选择切分长度为4,分别对文本数据进行2-grams、3-grams和4-grams切分,依次获得二元候选词组、三元候选词组和四元候选词组,每个候选词组中分词的长度均为同一切分长度;
步骤S3、计算三个候选词组中所有分词的内部凝合度,并将每个候选词组中的分词的内部凝合度分别与相应的候选词组的第一预设阈值进行比较,例如:二元候选词组中的分词的内部凝合度与二元候选词组的第一预设阈值进行比较;并选取出所有候选词组中分词的内部凝合度高于相应的候选词组的第一预设阈值的分词,并将这些分词构成一个分词集合,该分词集合中包括了不同长度的分词,将不在分词集合中的分词进行切分为更短切分长度的子分词,并检查切分后的子分词是否在分词集合中,若子分词在分词集合中,则按照上述方式进行切分,若子分词不在分词集合中,则继续对子分词进行切分,直至所有候选词组中的分词的内部凝合度不低于第一预设阈值,或者候选词组中的分词被切分为单个的字为止;
步骤S4、获取分词集合中每个分词在文本数据中的左邻字集合和右邻字集合,并根据左邻字集合和右邻字集合,分别获取每个分词的左信息熵和右信息熵,并根据左信息熵和右信息熵计算分词集合中的所有分词的自由度;
步骤S5、若分词的自由度低于第二预设阈值,则将分词与文本数据中该分词相邻的分词(包括单个字)进行组合,并计算组合后分词的自由度,若组合分词的自由度仍低于第二预设阈值,则继续将该分词与文本数据中该分词相邻的分词进行组合,直至所有分词的自由度不低于第二预设阈值,根据组合后的结果,获得分词结果。
图2为本申请实施例中提供得一种分词装置。结合图2所示,本申请第二方面提供了一种分词装置,包括:文本获取模块101、候选词组获取模块102、内部凝合度模块103、自由度模块104和组合模块106,其中:
文本获取模块101,用于获取文本数据;
候选词组获取模块102,用于根据多个预设的切分长度,分别对文本数据进行切分,获得多个与切分长度一一对应的候选词组;
内部凝合度模块103,用于确定候选词组中分词的内部凝合度,若分词的内部凝合度低于第一预设阈值,则将分词切分为更短切分长度的分词并移动至更短切分长度对应的候选词组;
自由度模块104,用于当所有候选词组中的分词的内部凝合度不低于第一预设阈值时,确定候选词组中分词的自由度,自由度用于表征分词与多个语言环境相匹配的概率;
组合模块105,用于对于任意一个候选词组,若候选词组中分词的自由度低于第二预设阈值,则将分词与相邻分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于第二预设阈值时,根据所有候选词组中的分词获得分词结果。
本申请实施例提供的分词装置,具体执行上述方法实施例流程,具体请详见上述分词方法实施例的内容,在此不再赘述,本申请实施例的分词装置,先根据预设的切分长度对文本数据进行切分,获得多个候选词组,再根据每个候选词组的内部凝合度和自由度,获得分词结果,由于内部凝合度和自由度可以衡量一个候选词组能否作为一个独立的词,使得根据内部凝合度和自由度确定得到的候选词均为独立的词语,提高了分词结果的准确性,避免了词语的不连贯以及语义理解的不确定性和歧义性;此外,该分词装置仅仅根据候选词组的共同特性,通过内部凝合度和自由度进行分词,不依赖于任何已有的词库、分词工具和标注语料,降低了分词的成本。
本申请的第三方面提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,使得处理器可以执行前述方法实施例中相应内容。与现有技术相比可实现:该电子设备先根据预设的切分长度对文本数据进行切分,获得多个候选词组,再根据每个候选词组的内部凝合度和自由度,获得分词结果,由于内部凝合度和自由度可以衡量一个候选词组能否作为一个独立的词,使得根据内部凝合度和自由度确定得到的候选词均为独立的词语,提高了分词结果的准确性,避免了词语的不连贯以及语义理解的不确定性和歧义性;此外,该电子装置仅仅根据候选词组的共同特性,通过内部凝合度和自由度进行分词,不依赖于任何已有的词库、分词工具和标注语料,降低了分词的成本。
在一个可选实施例中提供了一种电子设备,如图3所示,图3所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
本申请实施例的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,该计算机可读存储介质,先根据预设的切分长度对文本数据进行切分,获得多个候选词组,再根据每个候选词组的内部凝合度和自由度,获得分词结果,由于内部凝合度和自由度可以衡量一个候选词组能否作为一个独立的词,使得根据内部凝合度和自由度确定得到的候选词均为独立的词语,提高了分词结果的准确性,避免了词语的不连贯以及语义理解的不确定性和歧义性;此外,该计算机可读存储介质,仅仅根据候选词组的共同特性,通过内部凝合度和自由度进行分词,不依赖于任何已有的词库、分词工具和标注语料,为没有成熟词典作为参照的行业提供了一种新的分词装置,降低了分词的成本。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (9)

1.一种分词方法,其特征在于,包括:
获取文本数据;
根据多个预设的切分长度,分别对所述文本数据进行切分,获得多个与切分长度一一对应的候选词组;
确定所述候选词组中所述分词的内部凝合度,若所述分词的内部凝合度低于第一预设阈值,则将所述分词切分为更短切分长度的分词并移动至所述更短切分长度对应的候选词组;
当所有所述候选词组中的所述分词的内部凝合度不低于所述第一预设阈值时,确定所述候选词组中所述分词的自由度,所述自由度用于表征所述分词与多个语言环境相匹配的概率;
对于任意一个候选词组,若所述候选词组中分词的自由度低于第二预设阈值,则将所述分词与相邻分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于所述第二预设阈值时,根据所有候选词组中的分词获得分词结果。
2.根据权利要求1所述的分词方法,其特征在于,所述确定所述候选词组中所述分词的内部凝合度,包括:
以所述候选词组的切分长度更短的一个切分长度对所述分词进行切分,获得至少两个子分词;
分别获得所述至少两个子分词在所述文本数据中出现的第一概率,以及所述分词在所述文本数据中出现的第二概率;
根据所述第一概率和所述第二概率,获得所述分词的内部聚合度。
3.根据权利要求1所述的分词方法,其特征在于,所述候选词组的第一预设阈值与所述候选词组中所述分词的长度呈正比。
4.根据权利要求1所述的分词方法,其特征在于,所述确定所述候选词组中所述分词的自由度,包括:
分别获取所述分词的左邻词集合中的每个分词在所述文本数据中出现的第三概率,并根据所述第三概率获取所述分词的左信息熵;
分别获取位于每个所述候选词组中所述分词的右邻词集合中的每个分词在所述文本数据中出现的第四概率,并根据所述第四概率获取所述分词的右信息熵;
根据所述左信息熵和所述右信息熵,确定所述分词的自由度。
5.根据权利要求4所述的分词方法,其特征在于,所述候选词组中所述分词的自由度采用如下公式计算:
Figure FDA0003407792650000021
其中,LE为左信息熵,RE为右信息熵,e为常数。
6.根据权利要求4所述的分词方法,其特征在于,所述当所有候选词组中分词的自由度不低于第二预设阈值时,根据所有候选词组中的分词获得分词结果,包括:
将所述候选词组中的分词作为本轮迭代的初始分词,将所述初始分词与左邻分词进行组合,获得本轮迭代的组合后的第一分词;
确定所述第一分词的自由度,若所述第一分词的自由度不低于所述第二预设阈值,则将所述第一分词作为新的分词;
若所述第一分词的自由度低于所述第二预设阈值,则将所述第一分词和右邻分词进行组合,获得本轮迭代的组合后的第二分词;
确定所述第二分词的自由度,若所述第二分词的自由度不低于所述第二预设阈值,则将所述第二分词作为新的分词;
若所述第二分词的自由度低于所述第二预设阈值,则将所述第二分词作为下一轮迭代的初始分词,直至获得的分词中的自由度不低于所述第二预设阈值,将最后一轮迭代获得的分词作为新的分词。
7.一种分词装置,其特征在于,包括:
文本获取模块,用于获取文本数据;
候选词组获取模块,用于根据多个预设的切分长度,分别对所述文本数据进行切分,获得多个与切分长度一一对应的候选词组;
内部凝合度模块,用于确定所述候选词组中所述分词的内部凝合度,若所述分词的内部凝合度低于第一预设阈值,则将所述分词切分为更短切分长度的分词并移动至所述更短切分长度对应的候选词组;
自由度模块,用于当所有所述候选词组中的所述分词的内部凝合度不低于所述第一预设阈值时,确定所述候选词组中所述分词的自由度,所述自由度用于表征所述分词与多个语言环境相匹配的概率;
组合模块,用于对于任意一个候选词组,若所述候选词组中分词的自由度低于第二预设阈值,则将所述分词与相邻分词进行组合,并计算组合后分词的自由度,当所有候选词组中分词的自由度不低于所述第二预设阈值时,根据所有候选词组中的分词获得分词结果。
8.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202111518492.XA 2021-12-13 2021-12-13 一种分词方法、装置、电子设备和存储介质 Pending CN114218938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111518492.XA CN114218938A (zh) 2021-12-13 2021-12-13 一种分词方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111518492.XA CN114218938A (zh) 2021-12-13 2021-12-13 一种分词方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114218938A true CN114218938A (zh) 2022-03-22

Family

ID=80701340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111518492.XA Pending CN114218938A (zh) 2021-12-13 2021-12-13 一种分词方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114218938A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN116226355A (zh) * 2023-05-04 2023-06-06 北京智齿众服技术咨询有限公司 一种智能客服方法、系统、电子设备及可读存储介质
CN117077670A (zh) * 2023-10-16 2023-11-17 深圳市东信时代信息技术有限公司 新词确定方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN108776709A (zh) * 2015-10-27 2018-11-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN110929009A (zh) * 2019-11-25 2020-03-27 北京明略软件系统有限公司 一种获取新词语的方法及装置
CN112182448A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 页面信息处理方法、装置及设备
CN113449082A (zh) * 2021-07-16 2021-09-28 上海明略人工智能(集团)有限公司 一种新词发现方法、系统、电子设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776709A (zh) * 2015-10-27 2018-11-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN112182448A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 页面信息处理方法、装置及设备
CN110929009A (zh) * 2019-11-25 2020-03-27 北京明略软件系统有限公司 一种获取新词语的方法及装置
CN113449082A (zh) * 2021-07-16 2021-09-28 上海明略人工智能(集团)有限公司 一种新词发现方法、系统、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴睿: "面向微博文本的热词分析技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN116226355A (zh) * 2023-05-04 2023-06-06 北京智齿众服技术咨询有限公司 一种智能客服方法、系统、电子设备及可读存储介质
CN117077670A (zh) * 2023-10-16 2023-11-17 深圳市东信时代信息技术有限公司 新词确定方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US10714089B2 (en) Speech recognition method and device based on a similarity of a word and N other similar words and similarity of the word and other words in its sentence
CN114218938A (zh) 一种分词方法、装置、电子设备和存储介质
US20230039496A1 (en) Question-and-answer processing method, electronic device and computer readable medium
CN105975459B (zh) 一种词项的权重标注方法和装置
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
CN112183111A (zh) 长文本语义相似度匹配方法、装置、电子设备及存储介质
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
EP3699779A1 (en) Error correction method and apparatus, and computer readable medium
CN113408272A (zh) 摘要生成模型的训练方法、装置、设备和存储介质
CN112784582A (zh) 纠错方法、装置和计算设备
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN116484829A (zh) 用于信息处理的方法和设备
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN115455949A (zh) 中文语法纠错方法及系统、存储介质及终端
CN111858899B (zh) 语句处理方法、装置、系统和介质
US20220365955A1 (en) Search platform for unstructured interaction summaries
CN114818716A (zh) 一种风险主体的识别方法、装置、存储介质及设备
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114548113A (zh) 基于事件的指代消解系统、方法、终端及存储介质
CN114417869A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220322