CN116451688A - 汉语分词方法、装置、服务器及存储介质 - Google Patents

汉语分词方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN116451688A
CN116451688A CN202310411490.3A CN202310411490A CN116451688A CN 116451688 A CN116451688 A CN 116451688A CN 202310411490 A CN202310411490 A CN 202310411490A CN 116451688 A CN116451688 A CN 116451688A
Authority
CN
China
Prior art keywords
word
target
preset
word frequency
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310411490.3A
Other languages
English (en)
Inventor
黄逸嘉
赵晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310411490.3A priority Critical patent/CN116451688A/zh
Publication of CN116451688A publication Critical patent/CN116451688A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及自然语言处理领域,提供了一种汉语分词方法、装置、服务器及存储介质,包括:利用预设词频词典对待测语句进行分词,得到第一分词结果;在第一分词结果中存在词组含有相同汉字的情况下,计算待测语句与预设语料库中的各预设语句之间的语义相似度;根据语义相似度,从预设语料库中选择多个预设语句作为与待测语句相似的目标语句;利用预设词频词典对各目标语句进行分词,得到第二分词结果,根据第二分词结果,生成目标词频词典;根据目标词频词典和/或预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频;将词组中的除目标词语以外的词语确定为重叠词语,从第一分词结果中删除重叠词语。该方法提高了汉语分词的准确性。

Description

汉语分词方法、装置、服务器及存储介质
技术领域
本申请涉及自然语言处理的技术领域,尤其涉及一种汉语分词方法、装置、服务器及存储介质。
背景技术
汉语分词是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程,汉语分词在自然语言处理中有着非常重要的地位,是汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作中的关键步骤,分词结果的质量直接影响汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作的准确性。目前常用的分词方式主要是基于词频进行分词,但基于词频对待测语句进行分词,会存在待测语句具有多种分词结果的情况,无法保证汉语分词的准确性。因此,如何汉语分词的准确性是目前亟待解决的问题。
发明内容
本申请实施例提供一种汉语分词方法、装置、服务器及存储介质,旨在提高汉语分词的准确性。
第一方面,本申请实施例提供一种汉语分词方法,包括:
利用预设词频词典对待测语句进行分词处理,得到第一分词结果;
在所述第一分词结果中存在词组含有相同汉字的情况下,计算所述待测语句与预设语料库中的各预设语句之间的语义相似度;
根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句;
利用所述预设词频词典对各所述目标语句进行分词处理,得到第二分词结果,根据所述第二分词结果,生成目标词频词典;
根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频;
将所述词组中的除目标词语以外的词语确定为重叠词语,从所述第一分词结果中删除所述重叠词语,得到所述待测语句的目标分词结果,所述目标词语为所述词组中的最大的所述目标词频所对应的词语。
第二方面,本申请实施例还提供一种汉语分词装置,所述汉语分词装置包括:
分词模块,用于利用预设词频词典对待测语句进行分词处理,得到第一分词结果;
相似度计算模块,用于在所述第一分词结果中存在词组含有相同汉字的情况下,计算所述待测语句与预设语料库中的各预设语句之间的语义相似度;
选择模块,用于根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句;
所述分词模块,还用于利用所述预设词频词典对各所述目标语句进行分词处理,得到第二分词结果;
词典生成模块,用于根据所述第二分词结果,生成目标词频词典;
确定模块,用于根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频;
所述确定模块,还用于将所述词组中的除目标词语以外的词语确定为重叠词语,所述目标词语为所述词组中的最大的所述目标词频所对应的词语;
删除模块,用于从所述第一分词结果中删除所述重叠词语,得到所述待测语句的目标分词结果。
第三方面,本申请实施例还提供一种服务器,包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的汉语分词方法。
第四方面,本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的汉语分词方法。
本申请实施例提供一种汉语分词方法、装置、服务器及存储介质,基于词频对待测语句进行分词后,在分词结果中存在词组含有相同汉字的情况下,基于待测语句与预设语料库中的各预设语句之间的语义相似度,从预设语料库中选择多个预设语句作为与待测语句相似的目标语句,再对各目标语句进行分词处理,根据分词结果生成目标词频词典,这样可以基于目标词频词典和/或预设词频词典,确定含有相同汉字的词组中的各词语的目标词频,由于将词组中的最大的目标词频所对应的词语确定为目标词语,且将含有相同汉字的词组中除目标词语以外的词语确定为重叠词语,从而可以删除重叠词语,而保留目标词语,进而避免分词结果中存在词组含有相同汉字的情况,极大地提高了汉语分词的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种汉语分词方法的流程示意图;
图2是本申请实施例提供的一种汉语分词装置的示意性框图;
图3是图2中的汉语分词装置的子模块的示意性框图;
图4是图2中的汉语分词装置的子模块的示意性框图;
图5是本申请实施例提供的一种服务器的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参阅附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
汉语分词是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程,汉语分词在自然语言处理中有着非常重要的地位,是汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作中的关键步骤,分词结果的质量直接影响汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作的准确性。目前常用的分词方式主要是基于词频进行分词,但基于词频对待测语句进行分词,会存在待测语句具有多种分词结果的情况,无法保证汉语分词的准确性。
为解决上述问题,本申请实施例提供一种汉语分词方法、装置、服务器及存储介质,该方法基于词频对待测语句进行分词后,在分词结果中存在词组含有相同汉字的情况下,基于待测语句与预设语料库中的各预设语句之间的语义相似度,从预设语料库中选择多个预设语句作为与待测语句相似的目标语句,再对各目标语句进行分词处理,根据分词结果生成目标词频词典,这样可以基于目标词频词典和/或预设词频词典,确定含有相同汉字的词组中的各词语的目标词频,由于将词组中的最大的目标词频所对应的词语确定为目标词语,且将含有相同汉字的词组中除目标词语以外的词语确定为重叠词语,从而可以删除重叠词语,而保留目标词语,进而避免分词结果中存在词组含有相同汉字的情况,极大地提高了汉语分词的准确性。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种汉语分词方法的流程示意图。
如图1所示,该汉语分词方法包括步骤S101至步骤S106。
步骤S101、利用预设词频词典对待测语句进行分词处理,得到第一分词结果
本申请实施例中,预设词频词典描述词语、词频以及词语与词频之间的对应关系,预设词频词典是提前建立好的。
在一实施例中,利用预设词频词典对待测语句进行正向最大匹配分词处理,得到第一分词结果;或者利用预设词频词典对待测语句进行反向最大匹配分词处理,得到第一分词结果;或者利用预设词频词典分别对待测语句进行正向最大匹配分词和反向最大匹配分词处理,得到第一候选分词结果和第二候选分词结果,在第一候选分词结果中的词语的数量小于第二候选分词结果中的词语的数量的情况下,将第一候选分词结果确定为第一分词结果,或者在第一候选分词结果中的词语的数量大于第二候选分词结果中的词语的数量的情况下,将第二候选分词结果确定为第一分词结果。
在一实施例中,获取待测文本,将待测文本拆分为多个语句;将多个语句中的任一语句作为待测语句。其中,待测文本可以是用户输入的,也可以是服务器基于爬虫程序爬取得到的,本申请实施例对此不做具体限定。
步骤S102、在第一分词结果中存在词组含有相同汉字的情况下,计算待测语句与预设语料库中的各预设语句之间的语义相似度。
本申请实施例中,在第一分词结果中存在词组含有相同汉字的情况下,可以确定待测语句的分词出现冲突。例如,待测语句为“商户回复活下来最重要”的分词方式包括“商户|回复|活下来|最重要”和“商户|回|复活|下来|最重要”,这样“商户回复活下来最重要”的分词结果包括“商户”、“回复”、“复活”、“活下来”、“下来”、“回”和“最重要”,由于“回”和“回复”这一词组含有相同汉字“回”、“回复”和“复活”这一词组含有相同汉字“复”,“复活”和“活下来”这一词组含有相同汉字“活”,“活下来”和“下来”这一词组含有相同汉字“下”和“来”,从而可以确定“商户回复活下来最重要”的分词出现冲突,需要使用语义相似度进一步地对待测语句进行分词,以提高分词准确性。
在一实施例中,计算待测语句与预设语料库中的各预设语句之间的语义相似度的方式可以为:对于预设语料库中的每个预设语句,获取预设语句对应的句向量,并获取待测语句对应的句向量;计算预设语句对应的句向量与待测语句对应的句向量之间的距离,并将预设语句对应的句向量与待测语句对应的句向量之间的距离确定为待测语句与预设语句之间的语义相似度。其中,预设语句对应的句向量可以提前生成存储在存储器中,也可以实时生成,本申请实施例对此不做具体限定。
步骤S103、根据语义相似度,从预设语料库中选择多个预设语句作为与待测语句相似的目标语句。
本申请实施例中,预设语料库包括多个预设语句,预设语料库是提前建立好的,可以存储在数据库中。目标语句的数量可以基于实际情况进行设置,本申请实施例对此不做具体限定。例如,目标语句的数量为20个。
在一实施例中,按照语义相似度的大小,对预设语料库中预设语句进行排序,得到语句排序队列;从语句排序队列中的首个预设语句开始,依次从语句排序队列中获取一个预设语句作为目标语句,直至目标语句的数量达到预设数量。其中,预设数量可以基于实际情况进行设置,本申请实施例对此不做具体限定。例如,预设数量为20或者25个。
可以理解的是,语义相似度越大的预设语句在语句排序队列中的位置越靠前,而语义相似度越小的预设语句在语句排序队列中的位置越靠后,在预设数量为20个的情况下,可以从语句排序队列中获取前20个预设语句作为与待测语句相似的目标语句。
步骤S104、利用预设词频词典对各目标语句进行分词处理,得到第二分词结果,根据第二分词结果,生成目标词频词典。
本申请实施例中,利用预设词频词典对各目标语句进行正向最大匹配分词处理,得到第二分词结果;或者利用预设词频词典对各目标语句进行反向最大匹配分词处理,得到第二分词结果;或者利用预设词频词典分别对各目标语句进行正向最大匹配分词和反向最大匹配分词处理,得到第二分词结果。
在一实施例中,根据第二分词结果,生成目标词频词典的方式可以为:将第二分词结果中相同的词语划分为一组,得到多个目标词组;确定目标词组所包含的词语的个数,得到目标词组所对应词语的词频;根据各目标词组所对应的词语以及各目标词组所对应词语的词频,生成目标词频词典。
例如,第二分词结果包括“商户”、“回复”、“复活”、“活下来”、“下来”、“回”、“最重要”、“回复”、“活下来”、“最重要”、“商户”、商户”和“回复”,因此将三个“商户”划分为一个目标词组,词语“商户”的词频为3,将三个“回复”划分为一个目标词组,词语“回复”的词频为3,将一个“复活”划分为一个目标词组,词语“复活”的词频为1,将两个“活下来”划分为一个目标词组,词语“活下来”的词频为2,类似的,词语“下来”的词频为1,词语“回”的词频为1,词语“最重要”的词频为2,从而可以建立包含“商户”、“回复”、“复活”、“活下来”、“下来”、“回”和“最重要”以及对应词频的目标词频词典。
步骤S105、根据目标词频词典和/或预设词频词典,确定含有相同汉字的词组中的各词语的目标词频。
本申请实施例中,含有相同汉字的词组至少包括第一分词结果中的两个词语,通过获取与待测语句相似的多个目标语句,并利用预设词频词典对各目标语句进行分词处理,得到第二分词结果,根据第二分词结果,生成目标词频词典,再基于目标词频词典和/或预设词频词典,确定含有相同汉字的词组中的各词语的目标词频,这样可以结合词频和语义综合地对待测语句进行分词,极大地提高了汉语分词的准确性。
在一实施例中,第一分词结果中含有相同汉字的词组包括第一词语和第二词语,第一词语的尾部与第二词语的首部相同。例如,待测语句为“商户回复活下来最重要”的第一分词结果包括“商户”、“回复”、“复活”、“活下来”、“下来”、“回”和“最重要”,由于“回”和“回复”含有相同汉字“回”、“回复”和“复活”含有相同汉字“复”,“复活”和“活下来”含有相同汉字“活”,“活下来”和“下来”含有相同汉字“下”和“来”,因此,“回”和“回复”构成一个词组、第一词语可以包括“回”,第二词语可以包括“回复”;“回复”和“复活”构成一个词组,则第一词语可以包括“回复”,第二词语可以包括“复活”;“复活”和“活下来”作为一个词组,则第一词语可以包括“复活”,第二词语可以包括“活下来”;“活下来”和“下来”作为一个重叠词组,则第一词语可以包括“活下来”,第二词语可以包括“下来”。
在一实施例中,确定目标词频词典中是否存在第一词语;在目标词频词典中存在第一词语的情况下,从目标词频词典中查询第一词语的目标词频;或者,根据目标词频词典和预设词频词典,确定第一词语的目标词频;在目标词频词典中不存在第一词语的情况下,计算查询得到的词频与预设加权系数的乘积,得到第一词语的目标词频。类似的,在目标词频词典中存在第二词语的情况下,从目标词频词典中查询第二词语的目标词频;或者,根据目标词频词典和预设词频词典,确定第二词语的目标词频;在目标词频词典中不存在第二词语的情况下,计算查询得到的词频与预设加权系数的乘积,得到第二词语的目标词频。
在一实施例中,根据目标词频词典和预设词频词典,确定第一词语的目标词频的方式可以为:从目标词频词典中查询第一词语对应的词频,并将查询到的词频确定为第一词频;从预设词频词典中查询第一词语对应的词频,并将查询到的词频确定为第二词频;对第一词频和第二词频进行加权求和,得到第一词语的目标词频。通过综合考虑目标词频词典和预设词频词典来确定词语的目标词频,可以提高目标词频的准确性。
在一实施例中,对第一词频和第二词频进行加权求和的方式可以为:计算第二词频与预设加权系数的乘积,得到加权词频;对第一词频与所述加权词频进行累加得到第一词语的目标词频。其中,预设加权系数可以基于实际情况进行设置,本申请实施例对此不做具体限定。例如,第一词语为“回复”,且“回复”的第一词频为3,“回复”的第二词频为3百万,预设加权系数为千万分之一,则“回复”的目标词频为3.3。
类似的,从目标词频词典中查询第二词语对应的词频,并将查询到的词频确定为第三词频;从预设词频词典中查询第二词语对应的词频,并将查询到的词频确定为第四词频;对第三词频和第四词频进行加权求和,得到第二词语的目标词频。例如,第二词语为“复活”,且“复活”的第三词频为1,“复活”的第四词频为2百万,预设加权系数为千万分之一,则“复活”的目标词频为1.2。
步骤S106、将词组中的除目标词语以外的词语确定为重叠词语,从第一分词结果中删除重叠词语,得到待测语句的目标分词结果。
本申请实施例中,目标词语为含有相同汉字的词组中的最大的目标词频所对应的词语。例如,待测语句为“商户回复活下来最重要”的第一分词结果存在“回复”和“复活”构成的词组含有相同汉字、“复活”和“活下来”构成的词组含有相同汉字以及“活下来”和“下来”构成的词组含有相同汉字。
例如,设词组中的“回”和“回复”的目标词频分别为1.1和3.3,词组中的“回复”和“复活”的目标词频分别为3.3和1.2,词组中的“复活”和“活下来”的目标词频分别为1.2和3.5,词组中的“活下来”和“下来”的目标词频分别为3.5和1.3,则将词语“回”、“复活”和“下来”、确定为重叠词语,待测语句为“商户回复活下来最重要”的第一分词结果包括“商户”、“回复”、“复活”、“活下来”、“下来”、“回”和“最重要”,删除重叠词语“回”、“复活”和“下来”,从而得到包含“商户”、“回复”、“活下来”和最重要”的目标分词结果。
上述实施例提供的汉语分词方法,基于词频对待测语句进行分词后,在分词结果中存在词组含有相同汉字的情况下,基于待测语句与预设语料库中的各预设语句之间的语义相似度,从预设语料库中选择多个预设语句作为与待测语句相似的目标语句,再对各目标语句进行分词处理,根据分词结果生成目标词频词典,这样可以基于目标词频词典和/或预设词频词典,确定含有相同汉字的词组中的各词语的目标词频,由于将词组中的最大的目标词频所对应的词语确定为目标词语,且将含有相同汉字的词组中除目标词语以外的词语确定为重叠词语,从而可以删除重叠词语,而保留目标词语,进而避免分词结果中存在词组含有相同汉字的情况,极大地提高了汉语分词的准确性。
请参阅图2,图2是本申请实施例提供的一种汉语分词装置的示意性框图。
如图2所示,该汉语分词装置200包括:
分词模块210,用于利用预设词频词典对待测语句进行分词处理,得到第一分词结果;
相似度计算模块220,用于在所述第一分词结果中存在词组含有相同汉字的情况下,计算所述待测语句与预设语料库中的各预设语句之间的语义相似度;
选择模块230,用于根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句;
所述分词模块210,还用于利用所述预设词频词典对各所述目标语句进行分词处理,得到第二分词结果;
词典生成模块240,用于根据所述第二分词结果,生成目标词频词典;
确定模块250,用于根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频;
所述确定模块250,还用于将所述词组中的除目标词语以外的词语确定为重叠词语,所述目标词语为所述词组中的最大的所述目标词频所对应的词语;
删除模块260,用于从所述第一分词结果中删除所述重叠词语,得到所述待测语句的目标分词结果。
在一实施例中,如图3所示,所述词典生成模块240包括:
划分子模块241,用于将所述第二分词结果中相同的词语划分为一组,得到多个目标词组;
确定子模块242,用于确定所述目标词组所包含的词语的个数,得到所述目标词组所对应词语的词频;
生成子模块243,用于根据各所述目标词组所对应的词语以及各所述目标词组所对应词语的词频,生成目标词频词典。
在一实施例中,所述选择模块230,还用于:
按照所述语义相似度的大小,对所述预设语料库中预设语句进行排序,得到语句排序队列;
从所述语句排序队列中的首个预设语句开始,依次从所述语句排序队列中获取一个预设语句作为所述目标语句,直至所述目标语句的数量达到预设数量。
在一实施例中,所述词组包括第一词语和第二词语,所述第一词语的尾部与所述第二词语的首部相同,所述确定模块250,还用于:
确定所述目标词频词典中是否存在所述第一词语;
在所述目标词频词典中存在所述第一词语的情况下,从所述目标词频词典中查询所述第一词语的目标词频;
或者根据所述目标词频词典和所述预设词频词典,确定所述第一词语的目标词频。
在一实施例中,如图4所示,所述确定模块250包括:
查询子模块251,用于从所述目标词频词典中查询所述第一词语对应的词频,并将查询到的词频确定为第一词频;
所述查询子模块251,用于从所述预设词频词典中查询所述第一词语对应的词频,并将查询到的词频确定为第二词频;
加权求和子模块252,用于对所述第一词频和所述第二词频进行加权求和,得到所述第一词语的目标词频。
在一实施例中,所述加权求和子模块253,还用于:
计算所述第二词频与预设加权系数的乘积,得到加权词频;
对所述第一词频与所述加权词频进行累加得到所述第一词语的目标词频。
在一实施例中,所述确定模块250,还用于:
在所述目标词频词典中不存在所述第一词语的情况下,从所述预设词频词典中查询所述第一词语的词频;
计算查询得到的词频与预设加权系数的乘积,得到所述第一词语的目标词频。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述汉语分词方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的服务器上运行。
请参阅图5,图5是本申请实施例提供的一种服务器的结构示意性框图。
如图5所示,该服务器包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种汉语分词方法。
处理器用于提供计算和控制能力,支撑整个服务器的运行。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现以下步骤:
利用预设词频词典对待测语句进行分词处理,得到第一分词结果;
在所述第一分词结果中存在词组含有相同汉字的情况下,计算所述待测语句与预设语料库中的各预设语句之间的语义相似度;
根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句;
利用所述预设词频词典对各所述目标语句进行分词处理,得到第二分词结果,根据所述第二分词结果,生成目标词频词典;
根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频;
将所述词组中的除目标词语以外的词语确定为重叠词语,从所述第一分词结果中删除所述重叠词语,得到所述待测语句的目标分词结果,所述目标词语为所述词组中的最大的所述目标词频所对应的词语。
在一实施例中,所述处理器在实现根据所述第二分词结果,生成目标词频词典时,用于实现:
将所述第二分词结果中相同的词语划分为一组,得到多个目标词组;
确定所述目标词组所包含的词语的个数,得到所述目标词组所对应词语的词频;
根据各所述目标词组所对应的词语以及各所述目标词组所对应词语的词频,生成目标词频词典。
在一实施例中,所述处理器在实现根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句时,用于实现:
按照所述语义相似度的大小,对所述预设语料库中预设语句进行排序,得到语句排序队列;
从所述语句排序队列中的首个预设语句开始,依次从所述语句排序队列中获取一个预设语句作为所述目标语句,直至所述目标语句的数量达到预设数量。
在一实施例中,所述词组包括第一词语和第二词语,所述第一词语的尾部与所述第二词语的首部相同,所述处理器在实现根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频时,用于实现:
确定所述目标词频词典中是否存在所述第一词语;
在所述目标词频词典中存在所述第一词语的情况下,从所述目标词频词典中查询所述第一词语的目标词频;
或者根据所述目标词频词典和所述预设词频词典,确定所述第一词语的目标词频。
在一实施例中,所述处理器在实现根据所述目标词频词典和所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频时,用于实现:
从所述目标词频词典中查询所述第一词语对应的词频,并将查询到的词频确定为第一词频;
从所述预设词频词典中查询所述第一词语对应的词频,并将查询到的词频确定为第二词频;
对所述第一词频和所述第二词频进行加权求和,得到所述第一词语的目标词频。
在一实施例中,所述处理器在实现对所述第一词频和所述第二词频进行加权求和,得到所述第一词语的目标词频时,用于实现:
计算所述第二词频与预设加权系数的乘积,得到加权词频;
对所述第一词频与所述加权词频进行累加得到所述第一词语的目标词频。
在一实施例中,所述处理器在实现确定所述目标词频词典中是否存在所述第一词语之后,还用于实现:
在所述目标词频词典中不存在所述第一词语的情况下,从所述预设词频词典中查询所述第一词语的词频;
计算查询得到的词频与预设加权系数的乘积,得到所述第一词语的目标词频。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器的具体工作过程,可以参考前述汉语分词方法实施例中的对应过程,在此不再赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台服务器(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参阅本申请汉语分词方法的各个实施例。
其中,所述存储介质可以是易失性的,也可以是非易失性的。所述存储介质可以是前述实施例所述的服务器的内部存储单元,例如所述服务器的硬盘或内存。所述存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种汉语分词方法,其特征在于,包括:
利用预设词频词典对待测语句进行分词处理,得到第一分词结果;
在所述第一分词结果中存在词组含有相同汉字的情况下,计算所述待测语句与预设语料库中的各预设语句之间的语义相似度;
根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句;
利用所述预设词频词典对各所述目标语句进行分词处理,得到第二分词结果,根据所述第二分词结果,生成目标词频词典;
根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频;
将所述词组中的除目标词语以外的词语确定为重叠词语,从所述第一分词结果中删除所述重叠词语,得到所述待测语句的目标分词结果,所述目标词语为所述词组中的最大的所述目标词频所对应的词语。
2.根据权利要求1所述的汉语分词方法,其特征在于,所述根据所述第二分词结果,生成目标词频词典,包括:
将所述第二分词结果中相同的词语划分为一组,得到多个目标词组;
确定所述目标词组所包含的词语的个数,得到所述目标词组所对应词语的词频;
根据各所述目标词组所对应的词语以及各所述目标词组所对应词语的词频,生成目标词频词典。
3.根据权利要求1所述的汉语分词方法,其特征在于,所述根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句,包括:
按照所述语义相似度的大小,对所述预设语料库中预设语句进行排序,得到语句排序队列;
从所述语句排序队列中的首个预设语句开始,依次从所述语句排序队列中获取一个预设语句作为所述目标语句,直至所述目标语句的数量达到预设数量。
4.根据权利要求1-3中任一项所述的汉语分词方法,其特征在于,所述词组包括第一词语和第二词语,所述第一词语的尾部与所述第二词语的首部相同,所述根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频,包括:
确定所述目标词频词典中是否存在所述第一词语;
在所述目标词频词典中存在所述第一词语的情况下,从所述目标词频词典中查询所述第一词语的目标词频;
或者根据所述目标词频词典和所述预设词频词典,确定所述第一词语的目标词频。
5.根据权利要求4所述的汉语分词方法,其特征在于,所述根据所述目标词频词典和所述预设词频词典,确定所述第一词语的目标词频,包括:
从所述目标词频词典中查询所述第一词语对应的词频,并将查询到的词频确定为第一词频;
从所述预设词频词典中查询所述第一词语对应的词频,并将查询到的词频确定为第二词频;
对所述第一词频和所述第二词频进行加权求和,得到所述第一词语的目标词频。
6.根据权利要求5所述的汉语分词方法,其特征在于,所述对所述第一词频和所述第二词频进行加权求和,得到所述第一词语的目标词频,包括:
计算所述第二词频与预设加权系数的乘积,得到加权词频;
对所述第一词频与所述加权词频进行累加得到所述第一词语的目标词频。
7.根据权利要求4所述的汉语分词方法,其特征在于,所述确定所述目标词频词典中是否存在所述第一词语之后,还包括:
在所述目标词频词典中不存在所述第一词语的情况下,从所述预设词频词典中查询所述第一词语的词频;
计算查询得到的词频与预设加权系数的乘积,得到所述第一词语的目标词频。
8.一种汉语分词装置,其特征在于,所述汉语分词装置包括:
分词模块,用于利用预设词频词典对待测语句进行分词处理,得到第一分词结果;
相似度计算模块,用于在所述第一分词结果中存在词组含有相同汉字的情况下,计算所述待测语句与预设语料库中的各预设语句之间的语义相似度;
选择模块,用于根据所述语义相似度,从所述预设语料库中选择多个预设语句作为与所述待测语句相似的目标语句;
所述分词模块,还用于利用所述预设词频词典对各所述目标语句进行分词处理,得到第二分词结果;
词典生成模块,用于根据所述第二分词结果,生成目标词频词典;
确定模块,用于根据所述目标词频词典和/或所述预设词频词典,确定含有相同汉字的所述词组中的各词语的目标词频;
所述确定模块,还用于将所述词组中的除目标词语以外的词语确定为重叠词语,所述目标词语为所述词组中的最大的所述目标词频所对应的词语;
删除模块,用于从所述第一分词结果中删除所述重叠词语,得到所述待测语句的目标分词结果。
9.一种服务器,其特征在于,包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的汉语分词方法。
10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的汉语分词方法。
CN202310411490.3A 2023-04-06 2023-04-06 汉语分词方法、装置、服务器及存储介质 Pending CN116451688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310411490.3A CN116451688A (zh) 2023-04-06 2023-04-06 汉语分词方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310411490.3A CN116451688A (zh) 2023-04-06 2023-04-06 汉语分词方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN116451688A true CN116451688A (zh) 2023-07-18

Family

ID=87129788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310411490.3A Pending CN116451688A (zh) 2023-04-06 2023-04-06 汉语分词方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN116451688A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454893A (zh) * 2023-12-22 2024-01-26 深圳大数信科技术有限公司 基于Python的智能切词方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454893A (zh) * 2023-12-22 2024-01-26 深圳大数信科技术有限公司 基于Python的智能切词方法、系统、设备及存储介质
CN117454893B (zh) * 2023-12-22 2024-03-22 深圳大数信科技术有限公司 基于Python的智能切词方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN111695033B (zh) 企业舆情分析方法、装置、电子设备及介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN107491547B (zh) 基于人工智能的搜索方法和装置
CN110162780B (zh) 用户意图的识别方法和装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN109819015B (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN110674319A (zh) 标签确定方法、装置、计算机设备及存储介质
CN112732741B (zh) Sql语句生成方法、装置、服务器及计算机可读存储介质
CN112732899A (zh) 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111523960A (zh) 基于稀疏矩阵的产品推送方法、装置、计算机设备及介质
CN113268560A (zh) 用于文本匹配的方法和装置
CN112667802A (zh) 业务信息录入方法、装置、服务器和存储介质
CN115098556A (zh) 用户需求匹配方法、装置、电子设备及存储介质
CN117971873A (zh) 一种生成结构化查询语言sql的方法、装置及电子设备
CN116451688A (zh) 汉语分词方法、装置、服务器及存储介质
US20230367961A1 (en) Automated address data determinations using artificial intelligence techniques
CN113705697B (zh) 基于情感分类模型的信息推送方法、装置、设备及介质
CN110781365B (zh) 商品搜索方法、装置、系统及电子设备
CN112487154B (zh) 一种基于自然语言的智能搜索方法
CN113918720A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN118964564A (zh) 生成式对话系统和方法
US20220092096A1 (en) Automatic generation of short names for a named entity
CN113688636A (zh) 扩展问的推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination