CN113779990A - 中文分词方法、装置、设备及存储介质 - Google Patents

中文分词方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113779990A
CN113779990A CN202111064514.XA CN202111064514A CN113779990A CN 113779990 A CN113779990 A CN 113779990A CN 202111064514 A CN202111064514 A CN 202111064514A CN 113779990 A CN113779990 A CN 113779990A
Authority
CN
China
Prior art keywords
word
target
frequency set
word frequency
target word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111064514.XA
Other languages
English (en)
Other versions
CN113779990B (zh
Inventor
赵春阳
杨翊
苗岩
戴鹏
梁师铭
钟健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111064514.XA priority Critical patent/CN113779990B/zh
Publication of CN113779990A publication Critical patent/CN113779990A/zh
Application granted granted Critical
Publication of CN113779990B publication Critical patent/CN113779990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种中文分词方法、装置、设备及存储介质,通过对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合;将字集合中的元素进行元素组合,得到第一词集合和第一词频集合;将第一词集合与字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合,对于第二词集合,重复执行将对应的词集合与字集合进行合并、并对合并后的集合进行元素组合的步骤,对词频集合进行加权,得到加权词频集合,再根据预设词频阈值对加权词频集合进行筛选,得到目标词集合和目标词频集合;根据目标词频集合,和目标词集合中的目标词在待分词文字中的初始位置,对目标词集合进行排序。

Description

中文分词方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种中文分词方法、装置、设备及存储介质。
背景技术
分词是指将子序列切分成有意义的词序列,中文分词是中文信息处理中最为基础、最为重要的问题,是汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作中的关键步骤,属于自然语言处理范畴,分词的质量直接影响了自然语言处理结果的准确性。
传统的中文分词方法主要是通过词典完成的,在对一段中文语句进行分词时,通过词典中的词语对中文语句进行拆分和重组,从而实现分词。
然而现有技术中的分词方法对数据规范性要求高,进行分词时需要耗费大量的时间,分词效率低,而且分词准确率不高。
发明内容
本申请提供一种中文分词方法、装置、设备及存储介质,从而解决现有技术中的分词方法对数据规范性要求高,进行分词时需要耗费大量的时间,分词效率低,而且分词准确率不高的技术问题。
第一方面,本申请提供一种中文分词方法,包括:
对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合;
将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合;
将所述第一词集合与所述字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合,对于所述第二词集合,重复执行将对应的词集合与所述字集合进行合并、并对合并后的集合进行元素组合的步骤以迭代n-1次,直至得到第n词集合和第n词频集合,其中,所述n为大于2的整数;
根据循环迭代的次数n-1,对所述第n词频集合进行加权,得到加权词频集合,再根据预设词频阈值对所述加权词频集合进行筛选,得到目标词集合和目标词频集合;
根据所述目标词频集合,和所述目标词集合中的目标词在所述待分词文字中的初始位置,对所述目标词集合进行排序,得到标准化词组。
这里,本申请实施例在实现中文分词时,首先对待分词文本的特定词组进行了逐字提取,将特定词组拆分为单字,组成了单字的字集合并统计得到了字频集合,再将所有的单字进行组合,将组合得到的词集合多次与字集合合并,并将合并后的词集合进行组合,经过循环迭代,得到将原始特定词组进行数据拆分的目的,降低了数据规范性的要求,提高了分词速度和分词效率,再根据目标词频集合和目标词在待分词文字中的初始位置进行数据重组,有效排除了冗余数据、脏数据,提高了分词的效率和准确性。
可选的,所述根据循环迭代的次数n-1,对所述第n词频集合进行加权,得到加权词频集合,包括:
根据循环迭代的次数n-1,确定n个词长度加权系数;
根据所述n个词长度加权系数,对所述第n词频集合进行加权,得到加权词频集合。
这里,本申请实施例根据循环迭代的次数n-1,确定词长度加权系数,对第n词频集合进行加权,保证了对第n词频集合中的每一个元素的准确加权,进一步的提高了中文分词的准确性。
可选的,所述根据所述目标词频集合,和所述目标词集合中的目标词在所述待分词文字中的初始位置,对所述目标词集合进行排序,得到标准化词组,包括:
根据所述目标词频集合,对所述目标词集合中的元素进行降序排序,按照从前到后的顺序将所有元素添加至目标词库中;
获取所述目标词库中的各元素在所述待分词文本中的初始位置,根据各元素在所述目标词库中的位置和所述初始位置,对所述目标词集合进行排序,得到标准化词组。
这里,本申请实施例通过冒泡算法对目标词集合中的元素进行排序,从而实现数据重组,有效排除冗余数据、脏数据,兼顾速度和准确率,可满足大量、复杂数据的分词需求,同时也有效结合了待分词文本的原始顺序,使分词更加准确。
可选的,所述将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合,包括:
通过共现矩阵,将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合。
这里,本申请实施例采用共现矩阵来对字集合中的元素进行组合,其中,共现矩阵是指通过统计指定大小的窗口内的词共现次数形成的词频矩阵,组合后的词集合降低了数据处理时数据规范性的要求,进一步地提高了中文分词的效率。
可选的,所述对待分词文本进行特定词组的逐字提取,包括:
获取待分词文本中的特定词组,其中,所述特定词组为具有相同属性的词组。
这里,本申请实施例可以对具有相同属性的词组进行分词处理,能够准确得到分词结果。
可选的,所述根据预设词频阈值对所述加权词频集合进行筛选,得到目标词集合和目标词频集合,包括:
删除所述加权词频集合中小于预设词频阈值的元素,得到目标词频集合以及目标词频集合对应的目标词集合。
本申请实施例可以将加权词频集合中小于预设词频阈值的元素进行删除,从而有效剔除多余数据,以提高中文分词的准确性,也进一步地提高了分词效率。
第二方面,本申请实施例提供一种中文分词装置,包括:
第一处理模块,用于对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合;
组合模块,用于将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合;
第二处理模块,用于将所述第一词集合与所述字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合,对于所述第二词集合,重复执行将对应的词集合与所述字集合进行合并、并对合并后的集合进行元素组合的步骤以迭代n-1次,直至得到第n词集合和第n词频集合,其中,所述n为大于2的整数;
筛选模块,用于根据循环迭代的次数n-1,对所述第n词频集合进行加权,得到加权词频集合,再根据预设词频阈值对所述加权词频集合进行筛选,得到目标词集合和目标词频集合;
第三处理模块,用于根据所述目标词频集合,和所述目标词集合中的目标词在所述待分词文字中的初始位置,对所述目标词集合进行排序,得到标准化词组。
可选的,所述筛选模块具体用于:
根据循环迭代的次数n-1,确定n个词长度加权系数;
根据所述n个词长度加权系数,对所述第n词频集合进行加权,得到加权词频集合。
可选的,所述第三处理模块具体用于:
根据所述目标词频集合,对所述目标词集合中的元素进行降序排序,按照从前到后的顺序将所有元素添加至目标词库中;
获取所述目标词库中的各元素在所述待分词文本中的初始位置,根据各元素在所述目标词库中的位置和所述初始位置,对所述目标词集合进行排序,得到标准化词组。
可选的,所述组合模块具体用于:
通过共现矩阵,将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合。
可选的,所述第一处理模块具体用于:
获取待分词文本中的特定词组,其中,所述特定词组为具有相同属性的词组。
可选的,所述筛选模块具体用于:
删除所述加权词频集合中小于预设词频阈值的元素,得到目标词频集合以及目标词频集合对应的目标词集合。
第三方面,本申请实施例提供一种中文分词设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的中文分词方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的中文分词方法。
第五方面,本发明实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的中文分词方法。
本申请实施例提供的中文分词方法、装置、设备及存储介质,其中该方法在实现中文分词时,首先对待分词文本的特定词组进行了逐字提取,将特定词组拆分为单字,组成了单字的字集合并统计得到了字频集合,再将所有的单字进行组合,将组合得到的词集合多次与字集合合并,并将合并后的词集合进行组合,经过循环迭代,得到将原始特定词组进行数据拆分的目的,降低了数据规范性的要求,提高了分词速度和分词效率,再根据目标词频集合和目标词在待分词文字中的初始位置进行数据重组,有效排除了冗余数据、脏数据,提高了分词的效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种中文分词系统架构示意图;
图2为本申请实施例提供的一种中文分词方法的流程示意图;
图3为本申请实施例提供的一种拆分词组的流程示意图;
图4为本申请实施例提供的一种数据筛选和排序流程图;
图5为本申请实施例提供的一种中文分词装置的结构示意图;
图6为本申请实施例提供的一种中文分词设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
分词是指将子序列切分成有意义的词序列,中文分词是中文信息处理中最为基础、最为重要的问题,中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解,其处理过程就是分词算法。是汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作中的关键步骤,属于自然语言处理范畴,分词的质量直接影响了自然语言处理结果的准确性。
传统的中文分词方法主要是通过词典完成的,在对一段中文语句进行分词时,通过词典中的词语对中文语句进行拆分和重组,按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)从而实现分词。
然而现有技术中的分词方法,需要与词典进行匹配,对数据规范性要求高,进行分词时需要耗费大量的时间,分词效率低,而且分词准确率不高。
为了解决上述问题,本申请实施例提供一种中文分词方法、装置、设备及存储介质,在实现中文分词时,首先对待分词文本的特定词组进行了逐字提取,将特定词组拆分为单字,组成了单字的字集合并统计得到了字频集合,再将所有的单字进行组合,将组合得到的词集合多次与字集合合并,并将合并后的词集合进行组合,经过循环迭代,得到将原始特定词组进行数据拆分的目的,降低了数据规范性的要求,提高了分词速度和分词效率,再根据目标词频集合和目标词在待分词文字中的初始位置进行数据重组,有效排除了冗余数据、脏数据,提高了分词的效率和准确性。
可选的,图1为本申请实施例提供的一种中文分词系统架构示意图。在图1中,上述架构包括接收装置101、处理器102和显示装置103中至少一种。
可以理解的是,本申请实施例示意的结构并不构成对中文分词系统架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
在具体实现过程中,接收装置101可以是输入/输出接口,也可以是通信接口。
处理器102可以在实现中文分词时,首先对待分词文本的特定词组进行了逐字提取,将特定词组拆分为单字,组成了单字的字集合并统计得到了字频集合,再将所有的单字进行组合,将组合得到的词集合多次与字集合合并,并将合并后的词集合进行组合,经过循环迭代,得到将原始特定词组进行数据拆分的目的,降低了数据规范性的要求,提高了分词速度和分词效率,再根据目标词频集合和目标词在待分词文字中的初始位置进行数据重组,有效排除了冗余数据、脏数据,提高了分词的效率和准确性。
显示装置103可以用于对上述结果等进行显示。
显示装置还可以是触摸显示屏,用于在显示的上述内容的同时接收用户指令,以实现与用户的交互。
应理解,上述处理器可以通过处理器读取存储器中的指令并执行指令的方式实现,也可以通过芯片电路实现。
另外,本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面结合具体的实施例对本申请的技术方案进行详细的说明:
可选的,图2为本申请实施例提供的一种中文分词方法的流程示意图。本申请实施例的执行主体可以为图1中的处理器102,具体执行主体可以根据实际应用场景确定。如图2所示,该方法包括如下步骤:
S201:对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合。
可选的,对待分词文本进行特定词组的逐字提取,包括:
获取待分词文本中的特定词组,其中,特定词组为具有相同属性的词组。例如,特定词语为一组地址集合。
这里,本申请实施例可以对具有相同属性的词组进行分词处理,能够准确得到分词结果。
可选的,对于待分词文本中的特定词组,提取特定词组的字,所有字组成了字集合W{w1,w2,w3,...,wn},统计字集合中的字的频率,得到字频集合为Wp{wp1,wp2,wp3...,wpn}。
S202:将字集合中的元素进行元素组合,得到第一词集合和第一词频集合。
可选的,将字集合中的元素进行元素组合,得到第一词集合和第一词频集合,包括:
通过共现矩阵,将字集合中的元素进行元素组合,得到第一词集合和第一词频集合。
可选的,本申请实施例可以根据字在待分词文本的特定词组中的位置,利用共现矩阵,将字集合中的元素进行元素组合,得到第一词频集合W2p{w2p1,w2p2,w2p3,...,w2pn}。
如下表所示为生成第一词频集合的共现矩阵:
表1生成第一词频集合的共现矩阵
wp w1 w2 w3 wn
w1 w2p<sub>1</sub> w2p<sub>2</sub> w2p<sub>3</sub> w2p<sub>n</sub>
w2 w2p<sub>2</sub>
w3 w2p<sub>3</sub>
wn w2p<sub>n</sub>
这里,本申请实施例采用共现矩阵来对字集合中的元素进行组合,其中,共现矩阵是指通过统计指定大小的窗口内的词共现次数形成的词频矩阵,组合后的词集合降低了数据处理时数据规范性的要求,进一步地提高了中文分词的效率。
S203:将第一词集合与字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合,对于第二词集合,重复执行将对应的词集合与字集合进行合并、并对合并后的集合进行元素组合的步骤以迭代n-1次,直至得到第n词集合和第n词频集合。
其中,n为大于2的整数。这里的n为步长,分词结果的最长字符数为2n,可以理解的是,这里的n值可以根据实际情况确定,根据字符数的需求确定,本申请实施例不作具体限制。
可选的,本申请实施例可以将字集合W{w1,w2,w3,...,wn}与第一词集合W2{w21,w22,w33,...,w2n}进行合并,得到合集W2′=W∪W2,再进行元素组合,得到第二词集合W3,统计词频得到第二词频集合W3p,将上述过程循环迭代至n-1次,可以得到第n词集合Wn{wn1,wn2,wn3,…,wnn}和第n词频集合Wnp{wnp1,wnp2,wnp3,...,wnpn}。
示范性的,图3为本申请实施例提供的一种拆分词组的流程示意图,如图3所示,本申请实施例通过多次循环由特定词组得到了第n词集合Wn和第n词频集合Wnp。
S204:根据循环迭代的次数n-1,对第n词频集合进行加权,得到加权词频集合,再根据预设词频阈值对加权词频集合进行筛选,得到目标词集合和目标词频集合。
可选的,在对第n词频集合进行加权之前,可以预先去掉词频集合Wnp中所有值为0的元素wnp0,并去掉词集合Wn中对应元素wn0
可选的,根据循环迭代的次数n-1,对第n词频集合进行加权,得到加权词频集合,包括:
根据循环迭代的次数n-1,确定n个词长度加权系数。
根据n个词长度加权系数,对第n词频集合进行加权,得到加权词频集合。
可选的,确定加权系数可以通过以下方式得到:统计词集合中所有词的长度,最大值为2n设定词长度加权系数
Figure BDA0003257711850000101
,对词频Wnp进行加权,得到加权词频集合Wnp′,加权系数以词长度为参数,对大值为2n;如集合Wn中有一元素Wni,其词长度为4,则对应加权系数为k4,加权词频为Wnpi′=wnpi*k4
可选的,根据循环迭代的次数n-1,设定词长度加权系数k1,k2,k3,...,k2n,对词频集合Wnp进行加权,保留加权后词频大于设定门限Tw的词集合Wn和加权词频集合Wnp。
这里,本申请实施例根据循环迭代的次数n-1,确定词长度加权系数,对第n词频集合进行加权,保证了对第n词频集合中的每一个元素的准确加权,进一步的提高了中文分词的准确性。
可选的,根据预设词频阈值对加权词频集合进行筛选,得到目标词集合和目标词频集合,包括:
删除加权词频集合中小于预设词频阈值的元素,得到目标词频集合以及目标词频集合对应的目标词集合。
可以理解的是,这里的预设词频阈值可以根据实际情况确定,本申请对此不作具体限制。
可选的,这里的预设词频阈值为Tw,可以保留加权后词频大于设定门限T的目标词集合Wm和目标词频集合Wmp。设定门限Tw,遍历加权词频集合Wnp′,若元素Wnpi′<Tw,则删除该值,并在集合Wn中删除对应元素Wni
可选的,图4为本申请实施例提供的一种数据筛选和排序流程图,通过冒泡算法的筛选和排序,得到了准确的排序结果。
本申请实施例可以将加权词频集合中小于预设词频阈值的元素进行删除,从而有效剔除多余数据,以提高中文分词的准确性,也进一步地提高了分词效率。
S205:根据目标词频集合,和目标词集合中的目标词在待分词文字中的初始位置,对目标词集合进行排序,得到标准化词组。
可选的,根据目标词集合Wm,和目标词集合中的目标词在待分词文字中的初始位置,对目标词集合进行排序,得到标准化词组,包括:
根据目标词频Wmp集合,对目标词集合Wm中的元素进行降序排序,按照从前到后的顺序将所有元素添加至目标词库中,即可以选取排序后的首位Wmi加入词库Wd,并在初始词组中剔除Wmi,重复上述所有过程,循环至词集合Wm为空集。
获取目标词库Wd{wd1,wd2,wd3,...,wdn}中的各元素wdi在待分词文本中的初始位置,根据各元素在目标词库中的位置和初始位置,对目标词集合进行排序,得到标准化词组。
具体方式为:
对词库Wd{wd1,wd2,wd3,...,wdn}中的词wdi,统计其在元词组的最先出现的位置L{l1,l2,l3,...,li},最后wdi的标准化位置为wdli,公式如下:
Figure BDA0003257711850000111
得到词库Wd{wd1,wd2,wd3,...,wdn},通过上述词库,对应的标准化位置集合WdL{wdl1,wdl2,wdl3,...,wdli};根据词的标准化位置WdL对应词库Wd进行升序排序,排序后的Wd输出形成标准化词组。
这里,本申请实施例通过冒泡算法对目标词集合中的元素进行排序,从而实现数据重组,有效排除冗余数据、脏数据,兼顾速度和准确率,可满足大量、复杂数据的分词需求,同时也有效结合了待分词文本的原始顺序,使分词更加准确。
本申请实施例在实现中文分词时,首先对待分词文本的特定词组进行了逐字提取,将特定词组拆分为单字,组成了单字的字集合并统计得到了字频集合,再将所有的单字进行组合,将组合得到的词集合多次与字集合合并,并将合并后的词集合进行组合,经过循环迭代,得到将原始特定词组进行数据拆分的目的,降低了数据规范性的要求,提高了分词速度和分词效率,再根据目标词频集合和目标词在待分词文字中的初始位置进行数据重组,有效排除了冗余数据、脏数据,提高了分词的效率和准确性。
图5为本申请实施例提供的一种中文分词装置的结构示意图,如图5所示,本申请实施例的装置包括:第一处理模块501、组合模块502、第二处理模块503、筛选模块504和第三处理模块505。这里的中文分词装置可以是上述处理器102本身,或者是实现处理器102的功能的芯片或者集成电路。这里需要说明的是,第一处理模块501、组合模块502、第二处理模块503、筛选模块504和第三处理模块505的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
其中,第一处理模块501,用于对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合;
组合模块502,用于将字集合中的元素进行元素组合,得到第一词集合和第一词频集合;
第二处理模块,用于将第一词集合与字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合,对于第二词集合,重复执行将对应的词集合与字集合进行合并、并对合并后的集合进行元素组合的步骤以迭代n-1次,直至得到第n词集合和第n词频集合,其中,n为大于2的整数;
筛选模块503,用于根据循环迭代的次数n-1,对第n词频集合进行加权,得到加权词频集合,再根据预设词频阈值对加权词频集合进行筛选,得到目标词集合和目标词频集合;
第三处理模块504,用于根据目标词频集合,和目标词集合中的目标词在待分词文字中的初始位置,对目标词集合进行排序,得到标准化词组。
可选的,筛选模块503具体用于:
根据循环迭代的次数n-1,确定n个词长度加权系数;
根据n个词长度加权系数,对第n词频集合进行加权,得到加权词频集合。
可选的,第三处理模块504具体用于:
根据目标词频集合,对目标词集合中的元素进行降序排序,按照从前到后的顺序将所有元素添加至目标词库中;
获取目标词库中的各元素在待分词文本中的初始位置,根据各元素在目标词库中的位置和初始位置,对目标词集合进行排序,得到标准化词组。
可选的,组合模块502具体用于:
通过共现矩阵,将字集合中的元素进行元素组合,得到第一词集合和第一词频集合。
可选的,第一处理模块501具体用于:
获取待分词文本中的特定词组,其中,特定词组为具有相同属性的词组。
可选的,筛选模块503具体用于:
删除加权词频集合中小于预设词频阈值的元素,得到目标词频集合以及目标词频集合对应的目标词集合。
图6为本申请实施例提供的一种中文分词设备的结构示意图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该中文分词设备包括:处理器601和存储器602,各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器601可以对在中文分词设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。图6中以一个处理器601为例。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的中文分词设备的方法对应的程序指令/模块(例如,附图5所示的第一处理模块501、组合模块502、第二处理模块503、筛选模块504和第三处理模块505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的中文分词设备的方法。
中文分词设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与中文分词设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以是中文分词设备的显示设备等输出设备。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
本申请实施例的中文分词设备,可以用于执行本申请上述各方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一项所述的中文分词方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,用于实现上述任一项所述的中文分词方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种中文分词方法,其特征在于,包括:
对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合;
将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合;
将所述第一词集合与所述字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合;对于所述第二词集合,重复执行将对应的词集合与所述字集合进行合并、并对合并后的集合进行元素组合的步骤以迭代n-1次,直至得到第n词集合和第n词频集合,其中,所述n为大于2的整数;
根据循环迭代的次数n-1,对所述第n词频集合进行加权,得到加权词频集合,再根据预设词频阈值对所述加权词频集合进行筛选,得到目标词集合和目标词频集合;
根据所述目标词频集合,和所述目标词集合中的目标词在所述待分词文字中的初始位置,对所述目标词集合进行排序,得到标准化词组。
2.根据权利要求1所述的方法,其特征在于,所述根据循环迭代的次数n-1,对所述第n词频集合进行加权,得到加权词频集合,包括:
根据循环迭代的次数n-1,确定n个词长度加权系数;
根据所述n个词长度加权系数,对所述第n词频集合进行加权,得到加权词频集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标词频集合,和所述目标词集合中的目标词在所述待分词文字中的初始位置,对所述目标词集合进行排序,得到标准化词组,包括:
根据所述目标词频集合,对所述目标词集合中的元素进行降序排序,按照从前到后的顺序将所有元素添加至目标词库中;
获取所述目标词库中的各元素在所述待分词文本中的初始位置,根据各元素在所述目标词库中的位置和所述初始位置,对所述目标词集合进行排序,得到标准化词组。
4.根据权利要求1所述的方法,其特征在于,所述将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合,包括:
通过共现矩阵,将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述对待分词文本进行特定词组的逐字提取,包括:
获取待分词文本中的特定词组,其中,所述特定词组为具有相同属性的词组。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述根据预设词频阈值对所述加权词频集合进行筛选,得到目标词集合和目标词频集合,包括:
删除所述加权词频集合中小于预设词频阈值的元素,得到目标词频集合以及目标词频集合对应的目标词集合。
7.一种中文分词装置,其特征在于,包括:
第一处理模块,用于对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合;
组合模块,用于将所述字集合中的元素进行元素组合,得到第一词集合和第一词频集合;
第二处理模块,用于将所述第一词集合与所述字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合,对于所述第二词集合,重复执行将对应的词集合与所述字集合进行合并、并对合并后的集合进行元素组合的步骤以迭代n-1次,直至得到第n词集合和第n词频集合,其中,所述n为大于2的整数;
筛选模块,用于根据循环迭代的次数n-1,对所述第n词频集合进行加权,得到加权词频集合,再根据预设词频阈值对所述加权词频集合进行筛选,得到目标词集合和目标词频集合;
第三处理模块,用于根据所述目标词频集合,和所述目标词集合中的目标词在所述待分词文字中的初始位置,对所述目标词集合进行排序,得到标准化词组。
8.一种中文分词设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6任一项所述的中文分词方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的中文分词方法。
CN202111064514.XA 2021-09-10 2021-09-10 中文分词方法、装置、设备及存储介质 Active CN113779990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111064514.XA CN113779990B (zh) 2021-09-10 2021-09-10 中文分词方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111064514.XA CN113779990B (zh) 2021-09-10 2021-09-10 中文分词方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113779990A true CN113779990A (zh) 2021-12-10
CN113779990B CN113779990B (zh) 2023-10-31

Family

ID=78842677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111064514.XA Active CN113779990B (zh) 2021-09-10 2021-09-10 中文分词方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113779990B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165040A (ja) * 2009-01-13 2010-07-29 Toshiba Corp 語分割装置および方法
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN106445918A (zh) * 2016-09-26 2017-02-22 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN109858011A (zh) * 2018-11-30 2019-06-07 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN109885688A (zh) * 2019-03-05 2019-06-14 湖北亿咖通科技有限公司 文本分类方法、装置、计算机可读存储介质和电子设备
US20190266239A1 (en) * 2018-02-27 2019-08-29 International Business Machines Corporation Technique for automatically splitting words
US20190325247A1 (en) * 2018-04-18 2019-10-24 Google, Llc Systems and methods for merging word fragments in optical character recognition-extracted data
CN110688835A (zh) * 2019-09-03 2020-01-14 重庆邮电大学 一种基于词语特征值的法律专有领域词发现方法及装置
CN110750985A (zh) * 2018-07-04 2020-02-04 阿里巴巴集团控股有限公司 品牌词识别方法、装置、设备及存储介质
CN110853625A (zh) * 2019-09-18 2020-02-28 厦门快商通科技股份有限公司 语音识别模型分词训练方法、系统、移动终端及存储介质
CN111339403A (zh) * 2020-02-11 2020-06-26 安徽理工大学 一种基于商品评论新词提取方法
CN112434536A (zh) * 2020-11-06 2021-03-02 合肥讯飞数码科技有限公司 文档理解方法、设备和存储介质
CN112711944A (zh) * 2021-01-13 2021-04-27 深圳前瞻资讯股份有限公司 一种分词方法、系统、分词器生成方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165040A (ja) * 2009-01-13 2010-07-29 Toshiba Corp 語分割装置および方法
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN106445918A (zh) * 2016-09-26 2017-02-22 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质
US20190266239A1 (en) * 2018-02-27 2019-08-29 International Business Machines Corporation Technique for automatically splitting words
US20190325247A1 (en) * 2018-04-18 2019-10-24 Google, Llc Systems and methods for merging word fragments in optical character recognition-extracted data
CN110750985A (zh) * 2018-07-04 2020-02-04 阿里巴巴集团控股有限公司 品牌词识别方法、装置、设备及存储介质
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN109858011A (zh) * 2018-11-30 2019-06-07 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN109885688A (zh) * 2019-03-05 2019-06-14 湖北亿咖通科技有限公司 文本分类方法、装置、计算机可读存储介质和电子设备
CN110688835A (zh) * 2019-09-03 2020-01-14 重庆邮电大学 一种基于词语特征值的法律专有领域词发现方法及装置
CN110853625A (zh) * 2019-09-18 2020-02-28 厦门快商通科技股份有限公司 语音识别模型分词训练方法、系统、移动终端及存储介质
CN111339403A (zh) * 2020-02-11 2020-06-26 安徽理工大学 一种基于商品评论新词提取方法
CN112434536A (zh) * 2020-11-06 2021-03-02 合肥讯飞数码科技有限公司 文档理解方法、设备和存储介质
CN112711944A (zh) * 2021-01-13 2021-04-27 深圳前瞻资讯股份有限公司 一种分词方法、系统、分词器生成方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HAO WANG ET AL: "New Cyber Word Discovery Using Chinese Word Segmentation", 2019 IEEE 3RD INFORMATION TECHNOLOGY NETWORKING ELECTRONIC AND AUTOMATION CONTROL CONFERENCE, pages 1 - 10 *
HUI JIAO ET AL: "Chinese keyword extraction based on n-gram and word co-occurrence", 2007 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY WORKSHOPS, pages 1 - 10 *
何燕: "任意类型的未登录词的识别研究", 中国优秀博硕士学位论文全文数据库 (硕士)哲学与人文科学辑, no. 1, pages 084 - 92 *
吕红良: "基于大规模语料库的中文新词识别", 中国优秀硕士学位论文全文数据库信息科技辑, no. 8, pages 138 - 534 *
忆臻: "自然语言处理中N-Gram模型介绍", pages 1 - 4, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/32829048> *
颜端武 等: "基于N-gram 复合分词的领域概念自动获取方法研究", 《信息系统》, vol. 37, no. 2, pages 122 - 126 *

Also Published As

Publication number Publication date
CN113779990B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
WO2018205389A1 (zh) 语音识别方法、系统、电子装置及介质
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN108897842B (zh) 计算机可读存储介质及计算机系统
WO2021051864A1 (zh) 词典扩充方法及装置、电子设备、存储介质
CN111651986B (zh) 事件关键词提取方法、装置、设备及介质
CN112380847B (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
JP2022042497A (ja) コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成
US20130202208A1 (en) Information processing device and information processing method
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN101937459A (zh) 基于通用音节结构的藏文字符排序装置和方法
CN113779990B (zh) 中文分词方法、装置、设备及存储介质
CN114970553A (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
CN115510212A (zh) 一种文本事件抽取方法、装置、设备及存储介质
CN112988962A (zh) 文本纠错方法、装置、电子设备及存储介质
CN112287676A (zh) 新词发现方法、装置、电子设备及介质
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
CN113535916A (zh) 一种基于表格的问答方法、装置及计算机设备
JP2022042496A (ja) 新しい械学習プロジェクトにおける使用のために適応可能なコーパスの中の既存機械学習プロジェクトのパイプライン内の機能ブロックの自動ラベル付け
CN109783649B (zh) 一种领域词典生成方法及装置
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
CN109189932B (zh) 文本分类方法和装置、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant