CN116227488B - 一种文本分词的方法、装置、电子设备及存储介质 - Google Patents
一种文本分词的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116227488B CN116227488B CN202310511738.3A CN202310511738A CN116227488B CN 116227488 B CN116227488 B CN 116227488B CN 202310511738 A CN202310511738 A CN 202310511738A CN 116227488 B CN116227488 B CN 116227488B
- Authority
- CN
- China
- Prior art keywords
- segmented
- characters
- character
- text
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Character Input (AREA)
Abstract
本申请提供了一种文本分词的方法、装置、电子设备及存储介质,该方法包括:对语料数据进行切分处理,得到各条待分词文本的切分字符;根据任一目标待分词文本的目标切分字符,查询相关待分词文本;根据目标待分词文本中第一字符在目标待分词文本中的位置与各个相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和其总出现频率;从公共字符中确定出目标分词字符,并根据各个目标分词字符分别对待分词文本进行分词处理,得到分词结果。本申请利用公共字符在不同语句中应用的特点,利用公共字符在未有标注的情况对领域文本进行分词,提高了准确度。
Description
技术领域
本申请涉及文本处理技术领域,具体而言,涉及一种文本分词的方法、装置、电子设备及存储介质。
背景技术
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
分词是自然语言处理的基础性工作,现在的分词工具功能很强大,对一般性文本的分词都能达到工程和实验可接受的范围,但对领域内的专有性词汇不敏感;人工标注是大多数分词工具依赖的基础信息,标注量大小决定了工具的上限和下限,导致模型应用的前期准备时间较长;分词、主题词、近义词、口语化词查找强依赖于标注数据;工具一般都提供了扩充标注词汇的方法,但忽略了分词错误的类别信息,即添加一个词无法解决一类词的切分错误且分词二次加工无法在算法层面解决。
发明内容
有鉴于此,本申请的目的在于提供一种文本分词的方法、装置、电子设备及存储介质,以克服现有技术中的问题。
第一方面,本申请实施例提供了一种文本分词的方法,所述方法包括:
针对包含有多条待分词文本的语料数据,进行切分处理,得到各条所述待分词文本的切分字符;
根据任一目标待分词文本的目标切分字符,查询包含该目标切分字符的待分词文本,并将包含所述目标切分字符的待分词文本作为所述目标待分词文本的相关待分词文本;
根据所述目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和所述公共字符的总出现频率;
根据预设频率要求,从所述公共字符中确定出目标分词字符,并根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果。
在本申请一些技术方案中,上述针对包含有多条待分词文本的语料数据,进行切分处理,得到所述语料数据的切分字符,包括:
针对待分词的语料数据,根据所述语料数据中的文本分隔标识,将所述语料数据划分为多条待分词文本;
以预设第一数量的字符为基础对所述待分词文本进行滑动切分,得到各条所述待分词文本的切分字符。
在本申请一些技术方案中,上述公共字符包括第一公共字符;所述方法通过以下方式确定所述公共字符和所述公共字符的总出现频率:
构建所述目标待分词文本中各个第一字符的第一位置索引和任一所述相关待分词文本中各个第二字符的第二位置索引;
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量大于等于预设第二数量的连续字符作为第一公共字符,并根据所述第一公共字符的总出现次数,确定所述第一公共字符的总出现频率。
在本申请一些技术方案中,上述公共字符包括第二公共字符;所述方法还包括:
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量小于预设第二数量的连续字符作为第二公共字符;
响应频率配置操作,根据历史语料数据的分词结果,确定所述第二公共字符的总出现频率。
在本申请一些技术方案中,上述第一公共字符的总出现次数包括所述第一公共字符在目标待分词文本中的第一出现次数和所述第一公共字符在相关待分词文本中的第二出现次数,所述方法通过以下方式确定所述第一公共字符的总出现频率:
若所述第一出现次数与所述第二出现次数的差值小于等于预设的次数阈值,将所述第一出现次数与所述第二出现次数之和作为所述第一公共字符的总出现频率;
若所述第一出现次数与所述第二出现次数的差值大于预设的次数阈值,分别对所述第一出现次数和所述第二出现次数进行平滑处理,得到第一处理结果和第二处理结果;
将所述第一处理结果与所述第二处理结果之和作为所述第一公共字符的总出现频率。
在本申请一些技术方案中,上述公共字符的总出现频率表征所述公共字符在所述目标待分词文本和所述相关待分词文本中的总出现次数;
若所述目标待分词文本中包含有非文字形式的字符,所述方法通过以下方式确定其总出现频率:
将所述目标待分词文本中所述公共字符的最大出现频率与非文字形式的字符的词长之和作为该非文字形式的字符的总出现频率。
在本申请一些技术方案中,上述方法还包括:
根据历史语料数据的分词结果,建立公共字符的调整数据库;
所述方法通过以下方式得到目标分词字符:
将满足预设频率要求的公共字符作为初始分词字符;
通过所述调整数据库对所述初始分词字符进行调整之后,得到所述目标分词字符。
在本申请一些技术方案中,上述根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果,包括:
根据预设的调整数据库中各个字符在待分词文本中与其他字符的关联关系,确定出所述目标待分词文本对应的冲突模块;
根据各个所述目标分词字符分别对所述冲突模块进行分词处理,得到各个所述冲突模块的分词结果;
根据所述调整数据库对所述冲突模块的分词结果进行调整,得到所述语料数据的分词结果。
第二方面,本申请实施例提供了一种文本分词的装置,所述装置包括:
切分模块,用于针对包含有多条待分词文本的语料数据,进行切分处理,得到各条所述待分词文本的切分字符;
查询模块,用于根据任一目标待分词文本的目标切分字符,查询包含该目标切分字符的待分词文本,并将包含所述目标切分字符的待分词文本作为所述目标待分词文本的相关待分词文本;
确定模块,用于根据所述目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和所述公共字符的总出现频率;
分词模块,用于根据预设频率要求,从所述公共字符中确定出目标分词字符,并根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的文本分词的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的文本分词的方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请方法包括针对包含有多条待分词文本的语料数据,进行切分处理,得到各条所述待分词文本的切分字符;根据任一目标待分词文本的目标切分字符,查询包含该目标切分字符的待分词文本,并将包含所述目标切分字符的待分词文本作为所述目标待分词文本的相关待分词文本;根据所述目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和所述公共字符的总出现频率;根据预设频率要求,从所述公共字符中确定出目标分词字符,并根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果。本申请利用公共字符在不同语句中应用的特点,利用公共字符在未有标注的情况对领域文本进行分词,提高了准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种文本分词的方法的流程示意图;
图2示出了本申请实施例所提供的一种位置索引示意图;
图3a示出了本申请实施例所提供的一种冲突模块1切分示意图;
图3b示出了本申请实施例所提供的一种冲突模块2切分示意图;
图3c示出了本申请实施例所提供的一种冲突模块3切分示意图;
图4示出了本申请实施例所提供的一种文本分词的装置的示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其他的特征。
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
分词是自然语言处理的基础性工作,现在的分词工具功能很强大,对一般性文本的分词都能达到工程和实验可接受的范围,但对领域内的专有性词汇不敏感;人工标注是大多数分词工具依赖的基础信息,标注量大小决定了工具的上限和下限,导致模型应用的前期准备时间较长;分词、主题词、近义词、口语化词查找强依赖于标注数据;工具一般都提供了扩充标注词汇的方法,但忽略了分词错误的类别信息,即添加一个词无法解决一类词的切分错误且分词二次加工无法在算法层面解决。
基于此,本申请实施例提供了一种文本分词的方法、装置、电子设备及存储介质,下面通过实施例进行描述。
图1示出了本申请实施例所提供的一种文本分词的方法的流程示意图,其中,该方法包括步骤S101-S104;具体的:
S101、针对包含有多条待分词文本的语料数据,进行切分处理,得到各条所述待分词文本的切分字符;
S102、根据任一目标待分词文本的目标切分字符,查询包含该目标切分字符的待分词文本,并将包含所述目标切分字符的待分词文本作为所述目标待分词文本的相关待分词文本;
S103、根据所述目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和所述公共字符的总出现频率;
S104、根据预设频率要求,从所述公共字符中确定出目标分词字符,并根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果。
本申请利用公共字符在不同语句中应用的特点,利用公共字符在未有标注的情况对领域文本进行分词,提高了准确度。
下面对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请实施例提供一种文本分词的方法,针对语料数据进行处理,最后得到该语料数据的分词结果。其中,本申请实施例针对的语料数据中包含有多条待分词文本,这里的多条待分词文本在具体实施的时候可以为一百条、两百条、三百五十条、一千条等。(本申请实施例的方法不适于仅包含有两三条等较少数量的待分词文本的语料数据或者本申请实施例的方法在针对包含有两三条等较少数量的待分词文本的语料数据时效果不佳)。
这里的语料数据在具体实施时可以为外卖软件上的评论、电信实体信息和地址、电网工作人员信息记录、政府公务员纪实内容、通过图像识别或者语音识别得到的文本等。这些语料数据中均包含有文本分隔标识,这里的文本分隔标识包括分页符、分段标识、标点符号等。为了方便处理,本申请实施例需要将语料数据进行拆分成切分字符。在对语料数据拆分成切分字符时,本申请实施例先根据文本分隔标识将语料数据划分为多条待分词文本,然后以预设第一数量的字符为基础对所述待分词文本进行滑动切分,得到各条所述待分词文本的切分字符。这里的预设第一数量的字符在具体实施时一般设置为两个字符。
以外卖软件的评论为例,对其识别,首先要识别段落序号是否存在,在存在段落序号时,按段落序号分割成若干份。对每份内容在按照标点符号分割,例如采用句号和分号分割成语句。在对语句按照逗号分割成短语(切分字符),操作的最小单位是短语。例如,语料数据为“我很喜欢他们家的蛋炒饭”,以两个字符为基础进行滑动切分,得到的切分字符包括“我很”“很喜”“喜欢”“欢他”“他们”“们家”“家的”“的蛋”“蛋炒”“炒饭”。
在得到了每条待分词文本的切分字符之后,本申请实施例需要找到每条待分词文本的相关待分词文本。为了对名称进行区分,本申请实施例选任一待分词文本为目标待分词文本,依次将每条待分词文本作为目标待分词文本,分别查到该目标待分词文本的相关待分词文本。
查询目标待分词文本的相关待分词文本为依次查询除目标待分词文本以外的其他待分词文本中是否包含有目标待分词文本的任一切分字符。将包含有目标待分词文本任一切分字符的待分词文本作为目标待分词文本的相关待分词文本。
在获取目标待分词文本的相关待分词文本时,本申请实施例在一般设置有目标数量。根据该取量区域获取相关待分词文本,即如果查询到包含有目标待分词文本的切分字符的待分词文本的数量大于目标数量的话,则根据包含切分字符的数量对这些待分词文本进行排序,并取较优目标数量的待分词文本;如果查询到包含有目标待分词文本的切分字符的待分词文本的数量等于或小于目标数量的话,则取所有包含有目标待分词文本的切分字符的待分词文本待分词文本。
在确定了目标待分词文本的相关待分词文本之后,需要确定出目标待分词文本和各个相关待分词文本的公共字符和公共字符的总出现频率。在确定公共字符时是依据目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置。需要说明的是,本申请实施例中的公共字符为连续的字符,可以是词语,也可以不是词语。例如,“当年租房子住”、“现在已经买房子了”的公共字符是“房子”。再例如“那是一只鸟”,“这是一只猫”的公共字符是“是一只”等。
依据目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定公共字符包括:构建所述目标待分词文本中各个第一字符的第一位置索引和任一所述相关待分词文本中各个第二字符的第二位置索引;以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;通过上述方式查询得到的连续字符为公共字符。
在通过上述方式得到公共字符之后,本申请为了能够得到更加准确的分词,根据公共字符包含字符的数量对公共字符进行了区分,分为了第一公共字符和第二公共字符。其中,第一公共字符为字符数量大于等于预设第二数量的连续字符,第二公共字符为字符数量小于预设第二数量的连续字符。在具体实施的时候,这里的预设第二数量为二。即将两个或以上数量的连续字符作为第一公共字符,将单个字符作为第二公共字符。
具体构建位置索引的方式包括:以第一字符在目标待分词文本中的出现顺序进行编号,以第二字符在相关待分词文本中的出现顺序进行编号。这里的编号要使用连续的自然数,且第一字符和第二字符的编号的起点相同。具体如图2所示,目标待分词文本为:利用字符和位置关系,各个字符分别对应编号:012345678。相关待分词文本为:根据位置关系使用字符。各个字符分别对应编号:0123456789。在确定了第一字符在目标待分词文本中的位置索引和第二字符在相关待分词文本的位置索引之后,找到重复字符的位置索引:位【5,2】置【6,3】 关【7,4】 系【8,5】 用【1,7】 字【2,8】符【3,9】。跟【0】 剧【1】等。然后去掉单个位置索引的字,保留多个索引。某个字的重复索引两两组合加1(位置间隔)向后查找是否存在,例如[5,2]+1 = [6,3](根据‘位’ 得到‘置’存在) ,同理依次向下计算。直到无法查找到向下加一的组合。根据此种方式会得到重复词“位置关系”、“用字符”等连续信息。
在确定出公共字符之后,还需要确定出公共字符的总出现频率。在确定总出现频率的时候,第一公共字符和第二公共字符确定总出现频率的方式不同,所以要分开进行确定。
针对第一公共字符,其总出现频率是依据第一公共字符的出现次数。所述第一公共字符的总出现次数包括所述第一公共字符在目标待分词文本中的第一出现次数和所述第一公共字符在相关待分词文本中的第二出现次数。若所述第一出现次数与所述第二出现次数的差值小于等于预设的次数阈值,将所述第一出现次数与所述第二出现次数之和作为所述第一公共字符的总出现频率;若所述第一出现次数与所述第二出现次数的差值大于预设的次数阈值,分别对所述第一出现次数和所述第二出现次数进行平滑处理,得到第一处理结果和第二处理结果;将所述第一处理结果与所述第二处理结果之和作为所述第一公共字符的总出现频率。
本申请实施例认为如果所述第一出现次数与所述第二出现次数的差值大于预设的次数阈值,则认为出现次数相差较大,部分词的较大出现次数将会影响切分总体效果,所以需要进行平滑处理。具体的,对出现次数进行两次缩小绝对数值操作。在具体实施时,可以通过如下方式进行:Weight = log(freq) *n;
freq:为出现次数;Weight:根据出现次数计算的权重;n为小于1的可控系数,在具体实施时选择0.75。然后将通过上述方式计算得到的第一出现次数对应的权重和第二出现次数对应的权重之和作为第一公共字符的总出现频率。如果所述第一出现次数与所述第二出现次数的差值大于预设的次数阈值,本申请实施例认为可以直接将其出现次数作为出现频率,即可以直接将所述第一出现次数与所述第二出现次数之和作为所述第一公共字符的总出现频率。
针对第二公共字符,为了能够达到更好的切分效果,本申请实施例在确定第二字符的总出现频率是为其配置的。即响应频率配置操作,根据历史语料数据的分词结果,确定所述第二公共字符的总出现频率。如果该第二公共字符在历史语料数据的分词结果出现次数较多的话,为其配置较高的总出现频率,如果该第二公共字符在历史语料数据的分词结果出现次数较少的话,为其配置较低的总出现频率。在具体实施时,这些第二共工作字符包括“的”、“在”、“得”、“只”、“有”、“能”、“被”、“他”、“她”、“它”、“你”、“我”、“就”、“或”、“到”、“却”、“个”、“是”、“新”、“好”、“开”、“之”、“但”、“买”、“把”、“也”、“最”、“要”、“给”等。一般为其配置的总出现频率为四。
在一可选的实施方式中,待分词文本中不免会出现非文字形式的字符例如字母和数字的情况,本申请实施例将连续的字幕和/或数字化为一整体,并计算其总出现频率。其总出现频率为所述目标待分词文本中所述公共字符的最大出现频率与非文字形式的字符的词长之和。例如,目标待分词文本为“通过5g网络传输”,其中,“网络”作为公共字符较其他公共字符出现的频率都高,且其总出现频率为100,则“5g”的总出现频率为100+2=102。
在确定了公共字符和公共字符对应的总出现频率之后,本申请实施例要根据预设频率要求来确定目标分词字符,这里的预设频率要求可以是大于等于频率阈值,或者按照总出现频率从大到小排序之后前N个公共字符等。为保证得到的总出现频率的准确性,本申请实施例还根据历史语料数据的分词结果,建立公共字符的调整数据库。确定目标分词字符的过程包括将满足预设频率要求的公共字符作为初始分词字符;通过所述调整数据库对所述初始分词字符进行调整之后,得到所述目标分词字符。调整数据库包括了频率降低词库、删除词库;通过初始分词字符与调整数据库进行对比,确定相同字符所在词库位置,并对该字符执行响应的操作。例如,频率降低词库包括“的”、“什”、“里”、“他”、“她”、“它”、“你”、“我”、“又”、“是”、“能”、“后”、“前”、“被”、“款”、“好”、“近”、“下”、“元”、“把”、“最”、“要”、“却”等。如果一些常用的单字经常出现在其他公共字符里,最常见的如“的xx”,该类数据总出现指定为2,降低该种公共字符在分词中的影响。删除词库包括不应该出现的词和字符数量较大的公共字符。例如,公共字符不包括在内的词:个人、什么、最低、最高、最好、我们、就能、一个、又能、外型、最佳、就是、称誉、还是、后悔、我们、发给、有限、需要、要和、不能、你们、之前、下旬、萌到、怎么、不是、还用、好吃等。例如,大于5的公共字符删除(开头是字母和数字的除外)。例如,删除固定位置包含指定字的公共字符、删除开始位置包含某个字的词、删除中间位置包含某个字的词、删除结束位置包含某个字的词。具体的如下表所示:
公共字符开始位置是某个词不执行该上述操作,公共字符结束位置是某个词不执行该上述操作。例如,上任、不和、不是、不能、不错、与众不同、为什么、为了、也会、也在、也是、也要、人士、人物、人头税、从不、从业、从前、从未、会不会、会有、传说、但是、位子、你们、做好等。
在一可选的实施方式中,上述调整数据库还包含了关联关系库和合并数据库,为了提高效率,本申请实施例在确定了目标待分词文本之后,先根据目标待分词文本中各个字符在待分词文本中与其他字符的关联关系,确定了目标待分词文本和相关待分词文本的冲突模块。如果目标待分词文本中的某个两个连续字符被包含在关联关系库中,则表示这两个字符之间没有冲突,具有关联关系,否则这两个字符之间具有冲突,从该位置将两个字符划分为不同的冲突模块。在确定了冲突模块之后,按照目标分词字符对各个冲突模块进行分词,得到了各个冲突模块的分词结果。在对各个冲突模块进行切分的时候,没有考虑到各个冲突模块之间是否会存在一定的联系,所以得到了各个冲突模块的分词结果之后,在根据调整数据库对冲突模块的分词结果进行调整,得到所述语料数据的分词结果。这里对于冲突模块的分词结果进行调整主要是对基于调整数据库中的合并数据库,这里的合并数据库主要包括了单字符与其他字符的连接关系。如果任意两个冲突模块之间的字符与其连接的字符被包含在合并数据库中,则对其进行合并得到最终语料数据的分词结果。如果所有冲突模块之间的字符与其连接的字符均未被包含在合并数据库中,则直接将冲突模块的分词结果作为最终语料数据的分词结果。
例如,目标待分词文本为:小米要调低估值雷布斯身价到底多少,其中“值雷”和“价到”是调整数据库中没有包含的词语,则其冲突模块分为了“小米要调低估值”、“雷布斯身价”和“到底多少”。通过与相关待分词文本进行计算得到:冲突模块1:[[(0, 1), '小米', 155], [(0, 2), '小米要', 16], [(1, 2), '米要', 2], [(2, 2), '要', 3],[(2, 3), '要调', 2], [(3, 4), '调低', 4], [(3, 6), '调低估值', 1], [(4, 5), '低估', 72], [(4, 6), '低估值', 8], [(5, 6), '估值', 147]];冲突模块2:[[(7, 8),'雷布', 2], [(7, 9), '雷布斯', 10], [(8, 9), '布斯', 52], [(9, 10), '斯身',7], [(10, 11), '身价', 152]];冲突模块3:到底,多少。
完整待分词文本中有多个冲突模块,各个冲突模块各自计算最优的切分方法。这里最优的切分方式表征的是总出现频率最高。冲突模块互相之间没有影响。将所有冲突模块最优切分方式合并,就是该待分词文本的最优切分方法。冲突模块内部计算最优切分,将待分词文本的所有切分方式组合起来,组合方式是前词和后词首尾连接中间可以空一个字符,对权重值(总出现频率)进行求和排序,得到有权重大小的多种切分方式。可以通过权重和字长综合考虑切分方式。冲突模块1的切分如图3a所示,冲突模块2的切分如图3b所示,冲突模块3的切分如图3c所示。需要说明的是,图3a、3b和3c中从左到右分别表示公共字符、总出现频率、位置索引和字符长度(包含了“-”)。
冲突分词合并:小米-要-调低-估值-雷-布斯-身价-到底-多少;设置参数调整分词合并后分词结果为:小米-要-调低-估值-雷布斯-身价-到底-多少。
图4示出了本申请实施例所提供的一种文本分词的装置的结构示意图,所述装置包括:
切分模块,用于针对包含有多条待分词文本的语料数据,进行切分处理,得到各条所述待分词文本的切分字符;
查询模块,用于根据任一目标待分词文本的目标切分字符,查询包含该目标切分字符的待分词文本,并将包含所述目标切分字符的待分词文本作为所述目标待分词文本的相关待分词文本;
确定模块,用于根据所述目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和所述公共字符的总出现频率;
分词模块,用于根据预设频率要求,从所述公共字符中确定出目标分词字符,并根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果。
所述针对包含有多条待分词文本的语料数据,进行切分处理,得到所述语料数据的切分字符,包括:
针对待分词的语料数据,根据所述语料数据中的文本分隔标识,将所述语料数据划分为多条待分词文本;
以预设第一数量的字符为基础对所述待分词文本进行滑动切分,得到各条所述待分词文本的切分字符。
所述公共字符包括第一公共字符;所述方法通过以下方式确定所述公共字符和所述公共字符的总出现频率:
构建所述目标待分词文本中各个第一字符的第一位置索引和任一所述相关待分词文本中各个第二字符的第二位置索引;
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量大于等于预设第二数量的连续字符作为第一公共字符,并根据所述第一公共字符的总出现次数,确定所述第一公共字符的总出现频率。
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量小于预设第二数量的连续字符作为第二公共字符;
响应频率配置操作,根据历史语料数据的分词结果,确定所述第二公共字符的总出现频率。
所述第一公共字符的总出现次数包括所述第一公共字符在目标待分词文本中的第一出现次数和所述第一公共字符在相关待分词文本中的第二出现次数,所述方法通过以下方式确定所述第一公共字符的总出现频率:
若所述第一出现次数与所述第二出现次数的差值小于等于预设的次数阈值,将所述第一出现次数与所述第二出现次数之和作为所述第一公共字符的总出现频率;
若所述第一出现次数与所述第二出现次数的差值大于预设的次数阈值,分别对所述第一出现次数和所述第二出现次数进行平滑处理,得到第一处理结果和第二处理结果;
将所述第一处理结果与所述第二处理结果之和作为所述第一公共字符的总出现频率。
所述公共字符的总出现频率表征所述公共字符在所述目标待分词文本和所述相关待分词文本中的总出现次数;
若所述目标待分词文本中包含有非文字形式的字符,通过以下方式确定其总出现频率:
将所述目标待分词文本中所述公共字符的最大出现频率与非文字形式的字符的词长之和作为该非文字形式的字符的总出现频率。
所述装置还包括调整模块,用于根据历史语料数据的分词结果,建立公共字符的调整数据库;
所述方法通过以下方式得到目标分词字符:
将满足预设频率要求的公共字符作为初始分词字符;
通过所述调整数据库对所述初始分词字符进行调整之后,得到所述目标分词字符。
如图5所示,本申请实施例提供了一种电子设备,用于执行本申请中的文本分词的方法,该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序,其中,上述处理器执行上述计算机程序时实现上述的文本分词的方法的步骤。
具体地,上述存储器和处理器可以为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述的文本分词的方法。
对应于本申请中的文本分词的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的文本分词的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的文本分词的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其他的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种文本分词的方法,其特征在于,所述方法包括:
针对包含有多条待分词文本的语料数据,进行切分处理,得到各条所述待分词文本的切分字符;
根据任一目标待分词文本的目标切分字符,查询包含该目标切分字符的待分词文本,并将包含所述目标切分字符的待分词文本作为所述目标待分词文本的相关待分词文本;
根据所述目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和所述公共字符的总出现频率;
根据预设频率要求,从所述公共字符中确定出目标分词字符,并根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果;
所述公共字符包括第一公共字符;所述方法通过以下方式确定所述公共字符和所述公共字符的总出现频率:
构建所述目标待分词文本中各个第一字符的第一位置索引和任一所述相关待分词文本中各个第二字符的第二位置索引;
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量大于等于预设第二数量的连续字符作为第一公共字符,并根据所述第一公共字符的总出现次数,确定所述第一公共字符的总出现频率;
所述公共字符包括第二公共字符;所述方法还包括:
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量小于预设第二数量的连续字符作为第二公共字符;
响应频率配置操作,根据历史语料数据的分词结果,确定所述第二公共字符的总出现频率。
2.根据权利要求1所述的方法,其特征在于,所述针对包含有多条待分词文本的语料数据,进行切分处理,得到所述语料数据的切分字符,包括:
针对待分词的语料数据,根据所述语料数据中的文本分隔标识,将所述语料数据划分为多条待分词文本;
以预设第一数量的字符为基础对所述待分词文本进行滑动切分,得到各条所述待分词文本的切分字符。
3.根据权利要求1所述的方法,其特征在于,所述第一公共字符的总出现次数包括所述第一公共字符在目标待分词文本中的第一出现次数和所述第一公共字符在相关待分词文本中的第二出现次数,所述方法通过以下方式确定所述第一公共字符的总出现频率:
若所述第一出现次数与所述第二出现次数的差值小于等于预设的次数阈值,将所述第一出现次数与所述第二出现次数之和作为所述第一公共字符的总出现频率;
若所述第一出现次数与所述第二出现次数的差值大于预设的次数阈值,分别对所述第一出现次数和所述第二出现次数进行平滑处理,得到第一处理结果和第二处理结果;
将所述第一处理结果与所述第二处理结果之和作为所述第一公共字符的总出现频率。
4.根据权利要求1所述的方法,其特征在于,所述公共字符的总出现频率表征所述公共字符在所述目标待分词文本和所述相关待分词文本中的总出现次数,
若所述目标待分词文本中包含有非文字形式的字符,所述方法通过以下方式确定其总出现频率:
将所述目标待分词文本中所述公共字符的最大出现频率与非文字形式的字符的词长之和作为该非文字形式的字符的总出现频率。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据历史语料数据的分词结果,建立公共字符的调整数据库;
所述方法通过以下方式得到目标分词字符:
将满足预设频率要求的公共字符作为初始分词字符;
通过所述调整数据库对所述初始分词字符进行调整之后,得到所述目标分词字符。
6.根据权利要求1所述的方法,其特征在于,所述根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果,包括:
根据预设的调整数据库中各个字符在待分词文本中与其他字符的关联关系,确定出所述目标待分词文本对应的冲突模块;
根据各个所述目标分词字符分别对所述冲突模块进行分词处理,得到各个所述冲突模块的分词结果;
根据所述调整数据库对所述冲突模块的分词结果进行调整,得到所述语料数据的分词结果。
7.一种文本分词的装置,其特征在于,所述装置包括:
切分模块,用于针对包含有多条待分词文本的语料数据,进行切分处理,得到各条所述待分词文本的切分字符;
查询模块,用于根据任一目标待分词文本的目标切分字符,查询包含该目标切分字符的待分词文本,并将包含所述目标切分字符的待分词文本作为所述目标待分词文本的相关待分词文本;
确定模块,用于根据所述目标待分词文本中第一字符在所述目标待分词文本中的位置与各个所述相关待分词文本中第二字符在该相关待分词文本中的位置,确定出公共字符和所述公共字符的总出现频率;
分词模块,用于根据预设频率要求,从所述公共字符中确定出目标分词字符,并根据各个所述目标分词字符分别对所述待分词文本进行分词处理,得到所述语料数据的分词结果;
所述公共字符包括第一公共字符;所述确定模块通过以下方式确定所述公共字符和所述公共字符的总出现频率:
构建所述目标待分词文本中各个第一字符的第一位置索引和任一所述相关待分词文本中各个第二字符的第二位置索引;
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量大于等于预设第二数量的连续字符作为第一公共字符,并根据所述第一公共字符的总出现次数,确定所述第一公共字符的总出现频率;
所述公共字符包括第二公共字符;所述确定模块还用于:
以同时具有第一位置索引和第二位置索引的字符为起点,以相同位置间隔分别从第一字符和第二字符中向后查找,直到不再具有相同字符为止;将通过上述方式查询到字符数量小于预设第二数量的连续字符作为第二公共字符;
响应频率配置操作,根据历史语料数据的分词结果,确定所述第二公共字符的总出现频率。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的文本分词的方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的文本分词的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310511738.3A CN116227488B (zh) | 2023-05-09 | 2023-05-09 | 一种文本分词的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310511738.3A CN116227488B (zh) | 2023-05-09 | 2023-05-09 | 一种文本分词的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116227488A CN116227488A (zh) | 2023-06-06 |
CN116227488B true CN116227488B (zh) | 2023-07-04 |
Family
ID=86571642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310511738.3A Active CN116227488B (zh) | 2023-05-09 | 2023-05-09 | 一种文本分词的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116227488B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348012A (zh) * | 2019-07-01 | 2019-10-18 | 北京明略软件系统有限公司 | 确定目标字符的方法、装置、存储介质及电子装置 |
CN115994535A (zh) * | 2023-01-09 | 2023-04-21 | 珠海金山数字网络科技有限公司 | 文本处理方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7440890B2 (en) * | 2003-12-19 | 2008-10-21 | Xerox Corporation | Systems and methods for normalization of linguisitic structures |
CN103064844A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 索引装置、索引方法、检索装置、检索方法和检索系统 |
CN102902757B (zh) * | 2012-09-25 | 2015-07-29 | 姚明东 | 一种电子商务字典自动生成方法 |
CN104077275A (zh) * | 2014-06-27 | 2014-10-01 | 北京奇虎科技有限公司 | 一种基于语境进行分词的方法和装置 |
CN104281702B (zh) * | 2014-10-22 | 2017-07-11 | 国家电网公司 | 基于电力关键词分词的数据检索方法及装置 |
CN105528411B (zh) * | 2015-12-03 | 2019-08-20 | 中国人民解放军海军工程大学 | 船舶装备交互式电子技术手册全文检索装置及方法 |
CN107220300B (zh) * | 2017-05-05 | 2018-07-20 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
CN107608968A (zh) * | 2017-09-22 | 2018-01-19 | 深圳市易图资讯股份有限公司 | 面向文本大数据的中文分词方法、装置 |
CN107918604B (zh) * | 2017-11-13 | 2021-06-25 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
CN110347903A (zh) * | 2019-07-17 | 2019-10-18 | 江苏东网信息科技有限公司 | 基于统计语言模型算法的智能信息评估和营销系统 |
CN112711944B (zh) * | 2021-01-13 | 2023-03-10 | 深圳前瞻资讯股份有限公司 | 一种分词方法、系统、分词器生成方法及系统 |
-
2023
- 2023-05-09 CN CN202310511738.3A patent/CN116227488B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348012A (zh) * | 2019-07-01 | 2019-10-18 | 北京明略软件系统有限公司 | 确定目标字符的方法、装置、存储介质及电子装置 |
CN115994535A (zh) * | 2023-01-09 | 2023-04-21 | 珠海金山数字网络科技有限公司 | 文本处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116227488A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN109800284B (zh) | 一种面向任务的非结构化信息智能问答系统构建方法 | |
CN105786991B (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
US7809718B2 (en) | Method and apparatus for incorporating metadata in data clustering | |
CN102043774A (zh) | 机器翻译测评装置和方法 | |
WO2024131111A1 (zh) | 一种智能写作方法、装置、设备及非易失性可读存储介质 | |
CN109710851A (zh) | 基于互联网模式下多源数据分析的就业推荐方法及系统 | |
CN110162630A (zh) | 一种文本去重的方法、装置及设备 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN104281565B (zh) | 语义词典构建方法和装置 | |
CN109033085B (zh) | 中文分词系统及中文文本的分词方法 | |
CN110442702A (zh) | 搜索方法、装置、可读存储介质和电子设备 | |
WO2018217555A1 (en) | Automatically generating and evaluating candidate terms for trademark clearance | |
CN111488429A (zh) | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 | |
CN106776695A (zh) | 实现文书档案价值自动鉴定的方法 | |
CN111611372A (zh) | 搜索结果的排序方法及装置、音乐搜索方法及装置 | |
CN113204667A (zh) | 音频标注模型的训练与音频标注的方法、装置 | |
CN108664464B (zh) | 一种语义相关度的确定方法及确定装置 | |
CN113127600B (zh) | 一种信息检索方法、装置、电子设备和存储介质 | |
CN108595413B (zh) | 一种基于语义依存树的答案抽取方法 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN116227488B (zh) | 一种文本分词的方法、装置、电子设备及存储介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |