CN117592474B - 一种多中文词组的拆分处理方法及装置 - Google Patents

一种多中文词组的拆分处理方法及装置 Download PDF

Info

Publication number
CN117592474B
CN117592474B CN202410070090.5A CN202410070090A CN117592474B CN 117592474 B CN117592474 B CN 117592474B CN 202410070090 A CN202410070090 A CN 202410070090A CN 117592474 B CN117592474 B CN 117592474B
Authority
CN
China
Prior art keywords
chinese character
chinese
character combination
substring
splitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410070090.5A
Other languages
English (en)
Other versions
CN117592474A (zh
Inventor
罗茵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Almond Eucalyptus Technology Co ltd
Original Assignee
Wuhan Almond Eucalyptus Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Almond Eucalyptus Technology Co ltd filed Critical Wuhan Almond Eucalyptus Technology Co ltd
Priority to CN202410070090.5A priority Critical patent/CN117592474B/zh
Publication of CN117592474A publication Critical patent/CN117592474A/zh
Application granted granted Critical
Publication of CN117592474B publication Critical patent/CN117592474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种多中文词组的拆分处理方法及装置,其中的方法首先获取多个待处理中文词组;并从每个待处理中文词组中提取出一个汉字,组成待处理的汉字组合;然后根据汉字组合的长度对其进行循环拆分;接着将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果作为一条记录加入至结果集;再输出结果集,作为多中文词组的拆分处理结果。本发明提供的方法从每个待处理中文词组中提取出一个汉字组成汉字组合,考虑了多种组合情况,然后对每个汉字组合进行循环拆分,考虑了多种组合拆分的情况,使得拆分的结果更全面,记忆方式更丰富,实际应用过程中可以提高多个中文词组组成的考点的学习记忆效率。

Description

一种多中文词组的拆分处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种多中文词组的拆分处理方法及装置。
背景技术
随着社会和经济的发展,人们需要掌握的知识越来越多。不管是学习还是考试,都有大量的考点、重点需要记忆,很多时候人们需要记忆其中的多个关键的中文词组。如果是死记硬背,很难记住这些关键词组,容易遗漏。
目前,在对多个中文词组进行处理时,采用的组合方式较为单一,例如仅考虑从每个中文词组中取一个字进行组合,而忽略了其他情况,从而导致组合的情况不够丰富,在实际应用过程中,也不利于用户学习或者记忆多个中文词组。
发明内容
本发明提出一种多中文词组的拆分处理方法及装置,用以解决或者至少部分解决现有技术中存在的组合的情况不够丰富的技术问题。
为了解决上述技术问题,本发明技术方案为:
第一方面提供了一种多中文词组的拆分处理方法,包括:
获取多个待处理中文词组;
从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
根据初始汉字组合的长度对初始汉字组合进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
输出结果集,作为多中文词组的拆分处理结果。
在一种实施方式中,从每个待处理中文词组中提取出一个汉字,组成初始汉字组合,包括:
如果是正序处理,则从每个待处理中文词组中提取出一个汉字后,将提取出的汉字按照待处理中文词组的顺序组成初始汉字组合;
如果是乱序处理,则从每个待处理中文词组中提取出一个汉字后,按照排列组合的方式将提取出的汉字组成初始汉字组合。
在一种实施方式中,每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:
第一次截取与初始汉字组合的相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合的长度减1后的长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合的长度减2后的长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果;直到截取得到的第一子串的长度为1。
在一种实施方式中,根据匹配情况得到匹配结果,包括:
如果拆分得到的子串在预先构建的数据库中存在对应的词语时,则表明匹配成功,匹配结果为词语;
如果拆分得到的子串在预先构建的数据库中不存在对应的词语时,则表明匹配不成功,匹配结果为未找到。
在一种实施方式中,在输出结果集之前,所述方法还包括:
对于结果集中的记录,若该条记录中的所有子串均匹配成功,则保留该条记录;若该条记录中有部分匹配成功的词语,则将该词语与匹配不成功的汉字对应的原词组一同输出,若输出记录存在重复,则删掉重复的记录;如果最终结果集中的记录数量为0,则输出为空。
在一种实施方式中,在输出结果集之后,所述方法还包括:
根据结果集中包含的记录中的子串数量按照从少到多的顺序对记录进行排序。
在一种实施方式中,所述方法包括:当结果集中包含的两条记录中的子串数量相同时,根据每条记录中子串对应的词语的频率对记录进行由高到低排序。
基于同样的发明构思,本发明第二方面提供了一种多中文词组的拆分处理装置,包括:
中文词组获取模块,用于获取多个待处理中文词组;
汉字组合模块,用于从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
循环拆分模块,用于根据初始汉字组合的的长度对初始汉字组合进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
匹配模块,用于将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
结果输出模块,用于输出结果集,作为多中文词组的拆分处理结果。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请公开的多中文词组的拆分处理方法,从每个待处理中文词组中提取出一个汉字组成一个初始汉字组合后,根据初始汉字组合的长度对该汉字组合进行循环拆分:每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,这种拆分方式考虑了多种组合拆分的情况,使得拆分的结果更为全面,并且根据拆分得到的子串与预先构建的数据库中的词语的匹配情况,得到匹配结果,使得多个中文词组的记忆方式更为丰富,实际应用过程中可以提高多个中文词组的学习和记忆效率。
进一步地,在输出结果集之前,如果一条记录中有部分匹配成功的词语,则将该词语与匹配不成功的汉字对应的原词组一同输出,这样可以保留部分词语匹配的记录;如果一条记录中所有的词语均不匹配,则删除该条记录,通过这种方式可以过滤不合理的拆分情形。
进一步地,根据结果集中包含的记录中的子串数量对记录进行排序,可以优先将拆分部分较少的部分排列在前面。
进一步地,当结果集中包含的两条记录中的子串数量相同时,则根据每条记录中子串对应的词语的频率对记录进行降序排序,频率高的排在前面,从而可以得到更优的拆分结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种多中文词组的拆分处理方法的流程示意图;
图2为本申请实施例中对汉字组合进行循环拆分的实现流程图;
图3为本申请实施例中对一个具体汉字组合的拆分处理方法的处理结果示意图;
图4为本申请实施例提供的一种多中文词组的拆分处理装置的结构框图;
图5为本申请实施例提供的计算机可读存储介质的结构图;
图6为本申请实施例提供的计算机设备的结构图。
具体实施方式
本发明提供了一种多中文词组的拆分处理方法及装置,从每个待处理中文词组中提取出一个汉字组成待处理的初始汉字组合后,根据初始汉字组合长度递减的方式从左到右进行循环拆分,使得汉字组合的拆分结果更为全面,提高了中文词组的组合方式的丰富性,为多个中文词组的记忆和学习提供了便利。
为了达到上述目的,本发明提供的技术方案总体思路如下:
获取多个待处理中文词组后,从每个待处理中文词组中提取出一个汉字组成初始汉字组合;然后根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字的组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果作为一条记录加入至结果集;输出结果集,作为多中文词组的拆分处理结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参见图1,本实施例提供了一种多中文词组的拆分处理方法,包括:
S1:获取多个待处理中文词组;
S2:从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
S3:根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字的组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
S4:将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
S5:输出结果集,作为多中文词组的拆分处理结果。
具体实施过程中,多个待处理中文词组的数量大于或等于2。汉字组合的长度是指该汉字组合包含的汉字的数量,例如,汉字组合“国泰民安”的长度为4,汉字组合“富民和”的长度为3。
其中,预先构建的数据库中的词语包括两个字或两个字以上的词汇,例如,“富强”、“民主”、“班主任”、“办公室”、“昂首挺胸”、“保家卫国”等都是词语。这些词语构成一个词库,通过搜索引擎收集后整理得到。
在一种实施方式中,从每个待处理中文词组中提取出一个汉字,组成初始汉字组合,包括:
如果是正序处理,则从每个待处理中文词组中提取出一个汉字后,将提取出的汉字按照待处理中文词组的顺序组成一个汉字组合;
如果是乱序处理,则从每个待处理中文词组中提取出一个汉字后,按照排列组合的方式将提取出的汉字组成一个汉字组合。
具体来说,本发明的拆分处理方法同时支持正序处理和乱序处理,当接收到正序处理请求(用户选择正序处理)时,则按照正序处理的方式组成初始汉字组合,当接收到乱序处理请求(用户选择乱序处理)时,则按照乱序处理的方式组成初始汉字组合。
具体实施过程中,如果输入的中文词组为[富强,民主,文明,和谐],即四个中文词组。
当用户选择正序处理时,从每个中文词组中依次提取出一个汉字后,需要考虑汉字在词组中的顺序,即从词组“富强”中提取出的汉字“富”或者“强”字需要排在前面。此时,组成的汉字组合为[富民文和, 富民文谐, 富民明和, 富民明谐, 富主文和, 富主文谐,富主明和, 富主明谐, 强民文和, 强民文谐, 强民明和, 强民明谐, 强主文和, 强主文谐, 强主明和, 强主明谐]共16种。
当用户选择乱序处理时,则提取出的汉字可以自由排列组合,此时得到的汉字组合为: [富民文和, 富民文谐, 富民明和, 富民明谐, 富主文和, 富主文谐, 富主明和,富主明谐, 强民文和, 强民文谐, 强民明和, 强民明谐, 强主文和, 强主文谐, 强主明和, 强主明谐, 富民和文, 富民和明, 富民谐文, 富民谐明, 富主和文, 富主和明, 富主谐文, 富主谐明, 强民和文, 强民和明, 强民谐文, 强民谐明, 强主和文, 强主和明,强主谐文, 强主谐明, 富文民和, 富文民谐, 富文主和, 富文主谐, 富明民和, 富明民谐, 富明主和, 富明主谐, 强文民和, 强文民谐, 强文主和, 强文主谐, 强明民和, 强明民谐, 强明主和, 强明主谐…]共384种。
在一种实施方式中,每次根据初始汉字组合长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字的组合作为第二子串,包括:
第一次截取与初始汉字组合长度相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,直到截取得到的第一子串的长度为1。
具体来说,对初始汉字组合的拆分过程是一个循环递归的过程,第一次拆分时,首先截取与初始汉字组合长度相等长度的汉字或者汉字组合作为第一子串,即将整个汉字组合作为第一子串。
第二次拆分时,将截取长度减1,得到第一子串,其余的汉字作为第二子串。
第三次拆分时,将截取长度再减1,得到第一子串,其余的汉字作为第二子串,此时,由于第二子串的长度大于1,需要将第二子串作为当前汉字组合进行拆分。
下面以乱序处理中的汉字组合“富民和文”为例,介绍其循环拆分的过程。
1. 首先进行第一次拆分,截取长度为4的汉字组合“富民和文”作为第一子串,得到第一次拆分结果:富民和文;
2、接着进行第二次拆分,截取长度为3的汉字组合“富民和”作为第一子串,其余汉字“文”作为第二子串,得到第二次的拆分结果:富民和+文
3、接着进行第三次拆分,截取长度为2的汉字组合“富民”作为第一子串,其余汉字“和文”作为第二子串,得到第三次的拆分结果:富民+和文。此时,由于第二子串“和文”的长度大于1,则将“和文”作为当前汉字组合进行循环拆分,得到“和”与“文”,第四次拆分结果为:富民+和+文;
4、接着进行拆分,截取长度为1的汉字“富”作为第一子串,其余汉字“民和文”作为第二子串,得到第五次的拆分结果:富+民和文。此时,由于第二子串“民和文”的长度大于1,则将“民和文”作为当前汉字组合进行循环拆分,得到“民和”与“文”,“民”与“和文”“民”、“和”与“文”三种结果。
综上,对于初始汉字组合“富民和文”的拆分结果如图3所示,包括如下内容:
富民和文
富民和 + 文
富民 + 和文
富民 + 和 + 文
富 + 民和文
富 + 民和 + 文
富 + 民 + 和文
富 + 民 + 和 + 文。
请参见图2,为本发明实施例中提供的对汉字组合进行循环拆分的实现流程图。
该图中,左下部分表示对子串的循环递归拆分,即第二子串的长度大于1时的拆分情况。
在一种实施方式中,根据匹配情况得到匹配结果,包括:
如果拆分得到的子串在预先构建的数据库中存在对应的词语时,则表明匹配成功,匹配结果为词语;
如果拆分得到的子串在预先构建的数据库中均不存在对应的词语时,则表明匹配不成功,匹配结果为未找到;
如果拆分得到的子串在预先构建的数据库中存在部分对应的词语时,则表明部分匹配成功,该匹配成功的词语与匹配不成功的汉字对应的原词组一同输出(删掉重复的情况);
具体来说,当拆分得到的子串在预先构建的数据库中存在对应的词语时,表明该子串匹配成功,否则该子串匹配不成功。
举例来说,对于拆分结果“富民和+文”来说,匹配结果和对应的子串构成的记录为:富民和(未找到)+ 文(未找到)。
在一种实施方式中,在输出结果集之前,所述方法还包括:
对于结果集中的记录,若一条记录中有子串匹配成功,则保留该条记录;若一条记录中所有的子串均匹配不成功,则删除该条记录;
其中,对于有子串匹配成功的记录,若该条记录中有部分匹配成功的子串,则将与子串匹配成功的词语以及与子串匹配不成功的汉字所对应的原词组一同输出;如果最终结果集中的记录数量为0,则输出为空。
具体来说,匹配结果构成一条记录保存至结果集中。如果结果集中的记录有匹配成功的子串,则保留该条记录;如果一条记录中,所有的子串均匹配不成功,则表明该拆分方式不合理,删除该条记录。其中,有匹配成功的子串包括所有的子串均匹配成功和部分子串匹配成功,如果结果集中的记录所有子串均匹配成功,则保留该条记录,如果结果集中的记录中有部分匹配成功的子串,则将与该子串匹配成功的词语与匹配不成功的汉字对应的原词组一同输出,若输出记录存在重复,则删掉重复的记录。
举例来说,对于乱序处理中的初始汉字组合“和富文民”的其中一条拆分结果“和富+文民”来说,匹配结果和对应的子串构成的记录为:和富(未找到)+文民(未找到),则删掉该条记录。
对于乱序处理中的初始汉字组合“富民和文”的其中一条拆分结果“富民+和文”来说,匹配结果和对应的子串构成的记录为:富民(词语)+文和(词语),匹配成功,则保留该条记录。其中,“富民”是一个词语,意思是“使民殷富;富裕之民”,“和文”也是一个词语,指有比较好结局的作品。
对于正序处理中的初始汉字组合“富民文和”中的其中一条拆分结果“富民+文和”,匹配结果和对应的子串构成的记录为:富民(词语)+文和(未找到),部分匹配成功,剩下部分输出汉字对应的原词语,即输出“富民+文明+和谐”。对于另一条拆分结果“富民+文+和”来说,匹配结果和对应的子串构成的记录为:富民(词语)+文(未找到)+和(未找到),部分匹配成功,剩下部分输出原字对应的词语,即输出“富民+文明+和谐”,由于对“富民+文和”的处理也输出了汉字对应的原词语,结果重复,故删掉此条记录。
在一种实施方式中,在输出结果集之后,所述方法还包括:
根据结果集中包含的记录中的子串数量按照从少到多的顺序对记录进行排序。
具体来说,结果集中每一条记录的拆分结果对应不同的拆分方式,从而包含不同的子串数量,子串数量越多,则拆分的部分越多。本实施例中,根据拆分的子串数量的多少对记录进行排序,将子串数量少的记录排在前面。实际应用过程中的含义,排序越靠前,表明这种拆分方式更为合理。
举例来说,对于初始汉字组合“富民和文”的两条拆分匹配记录,记录a:富民(词语)+和文(词语);记录b:富民(词语)+和(未找到,输出“和谐”)+文(未找到,输出“文明”)。由于记录a有两个子串,记录b有三个子串,故记录a排在记录b的前面。
在一种实施方式中,当结果集中包含的两条记录中的子串数量相同时,根据每条记录中子串对应的词语的频率对记录进行由高到低排序。
具体来说,如果两条记录中包含的子串数量相同,则根据子串对应的词语的频率进行排序,频率高的排在前面。
关于词语的频率的说明如下,通过在Bcc (北京语言大学语料库中心BLCU CorpusCenter)中查找对应的词语,得到的搜索结果量(例:295447)。对于一条记录来说,该条记录包含的所有子串对应的词语的频率之和为该条记录的累计权重,累计权重越大,则排序越靠前。
实施例二
基于与实施例一同样的发明构思,本实施例提供了一种多中文词组的拆分处理装置,请参见图4,该装置包括:
中文词组获取模块201,用于获取多个待处理中文词组;
汉字组合模块202,用于从每个待处理中文词组中提取出一个汉字,组成待处理的初始汉字组合;
循环拆分模块203,用于根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字的组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
匹配模块204,用于将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
结果输出模块205,用于输出结果集,作为多中文词组的拆分处理结果。
由于本发明实施例二所介绍的装置为实施本发明实施例一中多中文词组的拆分处理方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本实施例提供了一种计算机可读存储介质,请参见图5,计算机可读存储介质300上存储有计算机程311,该程序被处理器执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中多中文词组的拆分处理方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本实施例提供了一种计算机设备,请参见图6,该计算机设备包括存储器401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述计算机程序403时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中多中文词组的拆分处理方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种多中文词组的拆分处理方法,其特征在于,包括:
获取多个待处理中文词组;
从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
根据初始汉字组合的长度对初始汉字组合进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度,初始汉字组合的长度为该初始汉字组合包含的汉字数量;
将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
输出结果集,作为多中文词组的拆分处理结果;
其中,每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:
第一次截取与初始汉字组合长度相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,依次将截取长度减1直到截取得到的第一子串的长度为1。
2.如权利要求1所述的多中文词组的拆分处理方法,其特征在于,从每个待处理中文词组中提取出一个汉字,组成初始汉字组合,包括:
如果是正序处理,则从每个待处理中文词组中提取出一个汉字后,将提取出的汉字按照待处理中文词组的顺序组成初始汉字组合;
如果是乱序处理,则从每个待处理中文词组中提取出一个汉字后,按照排列组合的方式将提取出的汉字组成初始汉字组合。
3.如权利要求1所述的多中文词组的拆分处理方法,其特征在于,根据匹配情况得到匹配结果,包括:
如果拆分得到的子串在预先构建的数据库中存在对应的词语时,则表明匹配成功,匹配结果为词语;
如果拆分得到的子串在预先构建的数据库中不存在对应的词语时,则表明匹配不成功,匹配结果为未找到。
4.如权利要求3所述的多中文词组的拆分处理方法,其特征在于,在输出结果集之前,所述方法还包括:
对于结果集中的记录,若一条记录中有子串匹配成功,则保留该条记录;若一条记录中所有的子串均匹配不成功,则删除该条记录;
其中,对于有子串匹配成功的记录,若该条记录中有部分匹配成功的子串,则将与子串匹配成功的词语以及与子串匹配不成功的汉字所对应的原词组一同输出,若输出记录存在重复,则删掉重复的记录;如果最终结果集中的记录数量为0,则输出为空。
5.如权利要求1所述的多中文词组的拆分处理方法,其特征在于,在输出结果集之后,所述方法还包括:
根据结果集中包含的记录中的子串数量按照从少到多的顺序对记录进行排序。
6.如权利要求4所述的多中文词组的拆分处理方法,其特征在于,所述方法包括:当结果集中包含的两条记录中的子串数量相同时,根据每条记录中子串对应的词语的频率对记录进行由高到低排序。
7.一种多中文词组的拆分处理装置,其特征在于,包括:
中文词组获取模块,用于获取多个待处理中文词组;
汉字组合模块,用于从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
循环拆分模块,用于根据初始汉字组合的的长度对初始汉字组合进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度,初始汉字组合的长度为该初始汉字组合包含的汉字数量;
匹配模块,用于将每次拆分得到的子串分别与预先构建的数据库中的词语进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
结果输出模块,用于输出结果集,作为多中文词组的拆分处理结果;
其中,每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:
第一次截取与初始汉字组合长度相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,依次将截取长度减1直到截取得到的第一子串的长度为1。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项权利要求所述的方法。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项权利要求所述的方法。
CN202410070090.5A 2024-01-18 2024-01-18 一种多中文词组的拆分处理方法及装置 Active CN117592474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410070090.5A CN117592474B (zh) 2024-01-18 2024-01-18 一种多中文词组的拆分处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410070090.5A CN117592474B (zh) 2024-01-18 2024-01-18 一种多中文词组的拆分处理方法及装置

Publications (2)

Publication Number Publication Date
CN117592474A CN117592474A (zh) 2024-02-23
CN117592474B true CN117592474B (zh) 2024-04-30

Family

ID=89915383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410070090.5A Active CN117592474B (zh) 2024-01-18 2024-01-18 一种多中文词组的拆分处理方法及装置

Country Status (1)

Country Link
CN (1) CN117592474B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882006A (zh) * 2010-06-13 2010-11-10 张仁平 零记忆简单子字拆分输入法
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
CN113095065A (zh) * 2021-06-10 2021-07-09 北京明略软件系统有限公司 一种中文字向量学习方法及装置
WO2021217931A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的字段抽取方法、装置、电子设备及介质
CN116361339A (zh) * 2023-03-16 2023-06-30 广东电网有限责任公司广州供电局 检索模型的构建方法、装置、电子设备及存储介质
CN117076946A (zh) * 2023-08-22 2023-11-17 南京朗拓科技投资有限公司 一种短文本相似度确定方法、装置及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI702504B (zh) * 2017-09-27 2020-08-21 毅 牛 一種實現圖像漢字拼接成詞的系統及移動終端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882006A (zh) * 2010-06-13 2010-11-10 张仁平 零记忆简单子字拆分输入法
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
WO2021217931A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的字段抽取方法、装置、电子设备及介质
CN113095065A (zh) * 2021-06-10 2021-07-09 北京明略软件系统有限公司 一种中文字向量学习方法及装置
CN116361339A (zh) * 2023-03-16 2023-06-30 广东电网有限责任公司广州供电局 检索模型的构建方法、装置、电子设备及存储介质
CN117076946A (zh) * 2023-08-22 2023-11-17 南京朗拓科技投资有限公司 一种短文本相似度确定方法、装置及终端

Also Published As

Publication number Publication date
CN117592474A (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
US7010522B1 (en) Method of performing approximate substring indexing
US20110264997A1 (en) Scalable Incremental Semantic Entity and Relatedness Extraction from Unstructured Text
RU2004108667A (ru) Поиск произвольного текста и поиск по атрибутам в данных электронного руководства по программам
WO2013148852A1 (en) Named entity extraction from a block of text
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
CN110399448B (zh) 中文地名地址搜索匹配方法、终端、计算机可读存储介质
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
CN107229714B (zh) 一种基于分布式数据库的全文搜索引擎
US8799268B2 (en) Consolidating tags
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
CN117592474B (zh) 一种多中文词组的拆分处理方法及装置
US9720896B1 (en) Synthesizing union tables from the web
Zheng et al. INSPIRE: A framework for incremental spatial prefix query relaxation
CN117592473B (zh) 一种多中文词组的谐音拆分处理方法及装置
US10380195B1 (en) Grouping documents by content similarity
US20220083879A1 (en) Inferring a comparative advantage of multi-knowledge representations
JP2001331529A (ja) ニュース情報提示装置および提示方法
JP3558267B2 (ja) 文書検索装置
CN111026876A (zh) 助记词生成方法、公私钥对生成方法、设备和存储介质
CN110851560B (zh) 信息检索方法、装置及设备
Lin et al. Biological question answering with syntactic and semantic feature matching and an improved mean reciprocal ranking measurement
JP2008197700A (ja) 文書管理システムおよび文書管理方法
CN103049576A (zh) 事件获取的方法及装置
CN114817685B (zh) 一种快速锁定目标信息的方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant