CN117454893A - 基于Python的智能切词方法、系统、设备及存储介质 - Google Patents

基于Python的智能切词方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN117454893A
CN117454893A CN202311774221.XA CN202311774221A CN117454893A CN 117454893 A CN117454893 A CN 117454893A CN 202311774221 A CN202311774221 A CN 202311774221A CN 117454893 A CN117454893 A CN 117454893A
Authority
CN
China
Prior art keywords
word
effective
sentence
repeated
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311774221.XA
Other languages
English (en)
Other versions
CN117454893B (zh
Inventor
王海龙
姜华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dashu Xinke Technology Co ltd
Original Assignee
Shenzhen Dashu Xinke Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dashu Xinke Technology Co ltd filed Critical Shenzhen Dashu Xinke Technology Co ltd
Priority to CN202311774221.XA priority Critical patent/CN117454893B/zh
Publication of CN117454893A publication Critical patent/CN117454893A/zh
Application granted granted Critical
Publication of CN117454893B publication Critical patent/CN117454893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于Python的智能切词方法、系统、设备及存储介质,涉及智能切词技术领域,包括如下步骤:获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;对待切词语句进行遍历切分;对重复词组进行分析,判断重复词组中的有效组词应如何划分;对相邻的待分单字进行分析,判断是否可以组成名称;将切分完成后的待切词语句进行展示;本发明用于解决现有的智能切词技术还存在难以区分相邻的几个字可以组成多个词语的情况,且对人名的切分不够准确,导致切词完成后语句含义易发生改变的问题。

Description

基于Python的智能切词方法、系统、设备及存储介质
技术领域
本发明涉及智能切词技术领域,具体为基于Python的智能切词方法、系统、设备及存储介质。
背景技术
智能切词技术,是指一种自然语言处理技术,用于将连续的文本序列切分成离散的词语或标记,它在文本处理、信息检索以及机器翻译等任务中起着关键作用,智能切词技术致力于解决中文等语言中的切词问题,因为在这些语言中,词语之间通常不使用明确的空格或标点符号来进行分隔。
现有的智能切词技术通常都是根据数据库进行比对,根据各种词语的词频对语句进行切词,但在一些特定语句中存在相邻的几个字可以组成多个词语,且会共用其中的一个字,而现有的智能切词技术难以对这种词语进行切分,通常都会将两个词语都进行切分,从而导致切词后的语句含义发生改变,同时在语句中难免出现人名,而人名通常需要切分为一个词,避免改变语句的含义,现有的智能切词技术难以对人名进行识别,导致切词时人名切词错误,进一步导致语句含义改变,比如在申请公开号为:CN111274353A的中国专利中,公开了文本切词方法、装置、设备和介质,该方案就是通过词粒度对语句进行切分,此方案难以区分相邻的几个字可以组成多个词语的情况,且对人名的切分不够准确,现有的智能切词技术还存在难以区分相邻的几个字可以组成多个词语的情况,且对人名的切分不够准确,导致切词完成后语句含义易发生改变的问题。
发明内容
本发明旨在至少在一定程度上解决现有技术中的技术问题之一,通过查找待切词语句中的形容词性物主代词,先将形容词性物主代词进行切分,再通过常用词数据集查找待切词语句中的有效组词,获取其中是否存在重复词组,再对重复词组进行分析,根据多种翻译查找重复组词出现的频率,再根据统计结果确定重复词组中的有效组词,最后对待切词语句中的待分单字进行名称识别,判断是否能够组词名称,从而完成切词,以解决现有的智能切词技术还存在难以区分相邻的几个字可以组成多个词语的情况,且对人名的切分不够准确,导致切词完成后语句含义易发生改变的问题。
为实现上述目的,第一方面,本申请提供基于Python的智能切词方法,包括如下步骤:
获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;
对待切词语句进行遍历切分,根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;
对重复词组进行分析,判断重复词组中的有效组词应如何划分;
遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称;
将切分完成后的待切词语句进行展示。
进一步地,查找出形容词性物主代词并进行标记包括如下子步骤:
获取待切词语句;
读取形容词性物主代词数据库,将待切词语句与形容词性物主代词数据库进行遍历比对,查找其中的形容词性物主代词,标记为有效组词。
进一步地,对待切词语句进行遍历切分包括如下子步骤:
从待切词语句的首个文字开始,对每个文字进行编号,标记为单字N,N为大于等于一的正整数;
将单字N标记为待切首字,将待切首字至单字N+M进行组合,得到初始组词,M为第一测试数;
将初始组词与常用词数据集进行比对,查找初始组词是否存在于常用词数据集内,若存在,则输出组词有效信号;若不存在,则输出组词无效信号;
将输出组词有效信号的初始组词标记为有效组词L,L为有效组词的编号,L为大于等于一的正整数;
将每个独立的有效组词视为一个集合,若存在任意有效组词L为有效组词L-M至有效组词L+M的子集,不包括有效组词L,则输出词语从属信号;
若输出词语从属信号,则将有效组词L剔除。
进一步地,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组包括如下子步骤:
将每个独立的有效组词视为一个集合,若存在任意有效组词L与有效组词L-1至有效组词L+1有交集,则输出词语交集信号;
若输出词语相交信号,则将相交的有效组词标记为重复词组。
进一步地,对重复词组进行分析,判断重复词组中的有效组词应如何划分包括如下子步骤:
将重复词组所在的语句标记为歧义语句,所述歧义语句为重复词组前后两个标点符号之间所包含的一条语句;
将歧义语句分别翻译为英语、阿拉伯语、俄语、法语以及西班牙语;
将翻译后的歧义语句标记为翻译语句,将翻译语句内每个以空格为分界的单词翻译为汉语,翻译得到的词语标记为翻译词语;
将重复词组中的有效组词标记为重复组词S,S为大于等于一的正整数,将重复组词S与翻译词语进行比对,统计重复组词S出现的次数,标记为翻译正确数;
统计完成后,获取翻译正确数最大的重复组词S,标记为有效组词,将当前重复词组内的有效组词剔除,剩下的重复组词若仅剩一个,则停止分析,若重复组词的数量大于一,则继续对重复词组进行分析,直到将所有重复词组中的重复组词都转换为有效组词为止。
进一步地,遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称包括如下子步骤:
遍历切分后,将待切词语句中除有效组词外的文字标记为待分单字,剔除标点符号;
对待分单字进行编号,以待切词语句的首个字为起始,依次标记为待分单字K,K为大于等于一的正整数;
查询待分单字K是否为姓氏,若是,则输出姓氏起始信号;若否,则输出非姓氏信号;
若输出姓氏起始信号,则将待分单字K标记为姓氏单字,查询待分单字K+1与K之间是否存在有效组词以及是否为动词,若均为否,则输出名称确定信号;否则输出非名称信号;
若输出名称确定信号,则以姓氏单字为起始,依次查找待分单字K+H与姓氏单字之间是否存在有效组词以及待分单字K+H是否为动词或连接词,若均为否,则输出名称部分信号;否则输出非名称信号;H为大于等于二的正整数;
若输出名称部分信号,则将姓氏单字与其对应的待分单字K+H标记为名称;若输出非名称信号,则停止待分单字K+H的查找,对下一个待分单字进行分析。
进一步地,将切分完成后的待切词语句进行展示为将待切词语句划分为名称、待分单字以及有效组词三个部分,并按照待切词语句原有的语句顺序进行排列展示,在每个名称、待分单字以及有效组词之间加上符号“/”进行区分。
第二方面,本申请提供基于Python的智能切词系统,包括语句获取模块、数据库存储模块、切词模块以及切词展示模块;所述语句获取模块、数据库存储模块以及切词展示模块分别与切词模块数据连接;
所述语句获取模块用于获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;
所述数据库存储模块用于存储形容词性物主代词数据库以及常用词数据集;
所述切词模块用于对待切词语句进行遍历切分,根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;对重复词组进行分析,判断重复词组中的有效组词应如何划分;遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称;
所述切词展示模块用于将切分完成后的待切词语句进行展示。
第三方面,本申请提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上任意一项所述方法中的步骤。
第四方面,本申请提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,运行如上任意一项所述方法中的步骤。
本发明的有益效果:本发明通过形容词性物主代词数据库查找待切词语句中的形容词性物主代词,再根据常用词数据集查找待切词语句中的有效组词,优势在于,形容词性物主代词通常都是固定形式,在语句中通常会组成一个词语便于理解,而常用词数据集内通常不包含形容词性物主代词,因此先将形容词性物主代词查找出来再查找有效组词可以提高切词的正确率以及可靠性;
本发明通过查找有效组词中的重复词组,对重复词组中的重复组词进行分析,通过多语言翻译,根据不同重复组词在翻译语句中出现的频率来确定重复组词中的有效组词,优势在于,汉语语句中的重复词组很难由机器进行识别,重复词组涉及了语句的语义以及语境,这都是机器难以识别的,通过多语言翻译可以有效的帮助机器进行识别,提高了智能切词的正确性以及有效性;
本发明通过查找待切词语句中的待切单字,查找是否存在姓氏单字,再对姓氏单字后连续的待切单字进行分析,判断待切单字是否为动词或连接词,若都为否则将其划分为名称,优势在于,大部分人的名字的单个汉字基本不为动词或连接词,由此可以确保名称的划分拥有很高的准确度,提高了对名称进行切词时的准确性以及可行性。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明的方法的步骤流程图;
图2为本发明的重复词组分析原理的示意图;
图3为本发明的非重复词组分析原理的示意图;
图4为本发明的将重复组词转换为有效组词的步骤流程图;
图5为本发明的系统的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1所示,第一方面,本申请提供基于Python的智能切词方法,包括如下步骤:
步骤S1,获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;步骤S1包括如下子步骤:
步骤S101,获取待切词语句;
步骤S102,读取形容词性物主代词数据库,将待切词语句与形容词性物主代词数据库进行遍历比对,查找其中的形容词性物主代词,标记为有效组词;
具体实施中,通过Python代码完成数据的获取、分析以及输出,获取到待切词语句为“张三,明天空气不错,要不要出去玩?”,形容词性物主代词数据库如下表1所示:
表1
我的 你的 他的 她的
它的 我们的 你们的 他们的
未查找到形容词性物主代词,因此直接进行步骤S2。
步骤S2,对待切词语句进行遍历切分,根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;步骤S2包括如下子步骤:
步骤S201,从待切词语句的首个文字开始,对每个文字进行编号,标记为单字N,N为大于等于一的正整数;
步骤S202,将单字N标记为待切首字,将待切首字至单字N+M进行组合,得到初始组词,M为第一测试数;
步骤S203,将初始组词与常用词数据集进行比对,查找初始组词是否存在于常用词数据集内,若存在,则输出组词有效信号;若不存在,则输出组词无效信号;
具体实施中,从待切词语句的首个文字开始,对每个文字进行编号,得到单字1至单字20,其中N为20,文字包括标点符号,第一测试数设置为3,以单字4为例,将单字4标记为待切首字,将待切首字分别与单字4+1、单字4+1单字4+2、单字4+1单字4+2单字4+3进行组合,得到三个初始组词,其中,单字4为“明”,组合得到初始组词分别为“明天”、“明天空”以及“明天空气”;通过比对常用词数据集得到初始组词“明天”输出了组词有效信号,“明天空”以及“明天空气”输出了组词无效信号;参考单字4的分析过程对所有单字N进行分析,常用词数据集采用了现有的中文常用词训练集合;
步骤S204,将输出组词有效信号的初始组词标记为有效组词L,L为有效组词的编号,L为大于等于一的正整数;
步骤S205,将每个独立的有效组词视为一个集合,若存在任意有效组词L为有效组词L-M至有效组词L+M的子集,不包括有效组词L,则输出词语从属信号;
步骤S206,若输出词语从属信号,则将有效组词L剔除;
具体实施中,通过分析得到有效组词L包括“明天”、“天空”、“空气”、“不错”、“要不”、“要不要”、“不要”、“出去”以及“出去玩”,即L取值为1至9;将有效组词L看作一个集合,则有效组词5中的元素为“要”、“不”以及“要不”,有效组词6中的元素为“要”、“不”、“要不”、“不要”以及“要不要”,有效组词7中的元素为“不”、“要”以及“不要”,同理分解有效组词4、有效组词3、有效组词2以及有效组词8的元素,通过查找得到有效组词5为有效组词6的子集,则输出词语从属信号;输出了词语从属信号,则将有效组词5剔除;同理分析得到有效组词7为有效组词6的子集,将有效组词7剔除,有效组词8为有效组词9的子集,将有效组词8剔除。
请参阅图2至图3所示,步骤S207,将每个独立的有效组词视为一个集合,若存在任意有效组词L与有效组词L-1至有效组词L+1有交集且交集部分相邻,则输出词语交集信号;
步骤S208,若输出词语相交信号,则将相交的有效组词标记为重复词组;
具体实施中,剔除掉有效组词5、有效组词7以及有效组词8后,剩余的有效词组分别为有效组词1、有效组词2、有效组词3、有效组词4、有效组词6以及有效组词9,即“明天”、“天空”、“空气”、“不错”、“要不要”以及“出去玩”,针对交集的判断,具体为对单个汉字的元素进行判断,即有效组词1中的元素为“明”以及“天”,有效组词2中的元素为“天”以及“空”,将元素按照待切词语句进行排序,即“明”、“天”、“天”以及“空”,重复词组如图2所示,由分析得到有效组词1与有效组词2存在交集“天”,且两个“天”字相邻,则输出词语交集信号,将有效组词1以及有效组词2标记为重复词组;同理分析得到有效组词2以及有效组词3组成重复词组;在分析有效组词4“不错”以及有效组词6“要不要”时,虽然它们存在交集“不”,但他们并不相邻,被有效组词5分隔开,且若它们相邻,但他们的元素排序为“不”、“错”、“要”、“不”以及“要”,交集“不”并不相邻,因此判定它们不存在交集,如图3所示。
请参阅图4所示,步骤S3,对重复词组进行分析,判断重复词组中的有效组词应如何划分;具体实施中,常规的切词方法均会出现两个词语共用语句中同一个文字的现象,而现有的智能切词技术难以对其进行区分,判断该文字到底属于前一个词语还是后一个词语,因此,基于多语言的翻译后,查找词语在翻译语句中出现的次数能够提高切词的准确率,为重复词组的区分提供可靠的数据;步骤S3包括如下子步骤:
步骤S301,将重复词组所在的语句标记为歧义语句,歧义语句为重复词组前后两个标点符号之间所包含的一条语句;
步骤S302,将歧义语句分别翻译为英语、阿拉伯语、俄语、法语以及西班牙语;
步骤S303,将翻译后的歧义语句标记为翻译语句,将翻译语句内每个以空格为分界的单词翻译为汉语,翻译得到的词语标记为翻译词语;
具体实施中,重复词组所在的语句为“明天空气不错”,则将“明天空气不错”标记为歧义语句,将歧义语句翻译为英语为“The air will be good tomorrow”;以英语为例,翻译语句为“The air will be good tomorrow”,将“The”翻译为汉语为“这个”,将“air”翻译为汉语为“空气”,将“will”翻译为汉语为“将”,将“be”翻译为汉语为“是”,将“good”翻译为汉语为“好的”,将“tomorrow”翻译为汉语为“明天”,其余翻译语句的分析过程参照英语的分析过程进行;对单词进行翻译时实际是将单词的所有含义全部列举,此处仅展示部分含义;如“air”的所有含义包括“空气、(飞行的)空中、天空、感觉、摆架子、曲调、(使)通风、透风、播出、晾干、晾以及公开发表”;
步骤S304,将重复词组中的有效组词标记为重复组词S,S为大于等于一的正整数,将重复组词S与翻译词语进行比对,统计重复组词S出现的次数,标记为翻译正确数;
步骤S305,统计完成后,获取翻译正确数最大的重复组词S,标记为有效组词,将当前重复词组内的有效组词剔除,剩下的重复组词若仅剩一个,则停止分析,若重复组词的数量大于一,则继续对重复词组进行分析,直到将所有重复词组中的重复组词都转换为有效组词为止;
具体实施中,当前分析的重复词组包括有效组词1以及有效组词2,则有效组词1标记为重复组词1,有效组词2标记为重复组词2,统计得到重复组词1的翻译正确数为5,重复组词2的翻译正确数为1,分析得到重复组词1的翻译正确数最大,则将重复组词1标记为有效组词,此时重复组词仅剩重复组词2,则停止分析;同理分析得到有效组词2与有效组词3组成的重复词组中,有效组词2标记为重复组词1,有效组词3标记为重复组词2,分析得到重复组词3标记为有效组词,重复组词1未重新标记为有效组词,即有效组词2在两个重复词组中均为重新标记为有效组词,因此将有效组词2剔除;当前剩余的有效组词包括有效组词1、有效组词3、有效组词4、有效组词6以及有效组词9。
步骤S4,遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称;实际应用中,机器很难识别一个人的名称,不同的独立文字组成的名称由机器进行切分时经常会切分为多个独立文字,因此,在切分完成后对独立的文字进行分析,根据姓氏判断是否存在名称,并根据多个相邻的独立文字的性质判断其是否属于名称的一部分,有助于提高智能切词的准确率;步骤S4包括如下子步骤:
步骤S401,遍历切分后,将待切词语句中除有效组词外的文字标记为待分单字,剔除标点符号;
步骤S402,对待分单字进行编号,以待切词语句的首个字为起始,依次标记为待分单字K,K为大于等于一的正整数;
步骤S403,查询待分单字K是否为姓氏,若是,则输出姓氏起始信号;若否,则输出非姓氏信号;
具体实施中,获取到待分单字依次为“张”、“三”、“,”、“,”以及“?”,将标点符号剔除,得到待分单字为“张”和“三”,编号得到待分单字1以及待分单字2,查询得到待分单字1为姓氏,则输出姓氏起始信号;
步骤S404,若输出姓氏起始信号,则将待分单字K标记为姓氏单字,查询待分单字K+1与K之间是否存在有效组词以及是否为动词,若均为否,则输出名称确定信号;否则输出非名称信号;
步骤S405,若输出名称确定信号,则以姓氏单字为起始,依次查找待分单字K+H与姓氏单字之间是否存在有效组词以及待分单字K+H是否为动词或连接词,若均为否,则输出名称部分信号;否则输出非名称信号;H为大于等于二的正整数;
步骤S406,若输出名称部分信号,则将姓氏单字与其对应的待分单字K+H标记为名称;若输出非名称信号,则停止待分单字K+H的查找,对下一个待分单字进行分析;
具体实施中,将待分单字1标记为姓氏单字,即将“张”标记为姓氏单字,查找得到待分单字2与姓氏单字之间不存在有效组词,且待分单字2不为动词或连接词,则输出名称部分信号,将姓氏单字“张”以及待分单字2“三”整合标记为名称。
步骤S5,将切分完成后的待切词语句进行展示;将切分完成后的待切词语句进行展示为将待切词语句划分为名称、待分单字以及有效组词三个部分,并按照待切词语句原有的语句顺序进行排列展示,在每个名称、待分单字以及有效组词之间加上符号“/”进行区分;
具体实施中,具体展示得到“张三/明天/空气/不错/要不要/出去玩”,展示时不展示标点符号。
实施例2
请参阅图5所示,第二方面,本申请提供基于Python的智能切词系统,包括语句获取模块、数据库存储模块、切词模块以及切词展示模块;语句获取模块、数据库存储模块以及切词展示模块分别与切词模块数据连接;
语句获取模块用于获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;
语句获取模块配置有语句获取策略,语句获取策略包括:
获取待切词语句;
读取形容词性物主代词数据库,将待切词语句与形容词性物主代词数据库进行遍历比对,查找其中的形容词性物主代词,标记为有效组词;
数据库存储模块用于存储形容词性物主代词数据库以及常用词数据集;
切词模块用于对待切词语句进行遍历切分,根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;对重复词组进行分析,判断重复词组中的有效组词应如何划分;遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称;
切词模块包括初步切词单元、重复切词单元以及名称切词单元;初步切词单元用于根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;
初步切词单元配置有初步切词策略,初步切词策略包括:
从待切词语句的首个文字开始,对每个文字进行编号,标记为单字N,N为大于等于一的正整数;
将单字N标记为待切首字,将待切首字至单字N+M进行组合,得到初始组词,M为第一测试数;
将初始组词与常用词数据集进行比对,查找初始组词是否存在于常用词数据集内,若存在,则输出组词有效信号;若不存在,则输出组词无效信号;
将输出组词有效信号的初始组词标记为有效组词L,L为有效组词的编号,L为大于等于一的正整数;
将每个独立的有效组词视为一个集合,若存在任意有效组词L为有效组词L-M至有效组词L+M的子集,不包括有效组词L,则输出词语从属信号;
若输出词语从属信号,则将有效组词L剔除;
将每个独立的有效组词视为一个集合,若存在任意有效组词L与有效组词L-1至有效组词L+1有交集,则输出词语交集信号;
若输出词语相交信号,则将相交的有效组词标记为重复词组;
重复切词单元用于对重复词组进行分析,判断重复词组中的有效组词应如何划分;
重复切词单元配置有重复切词策略,重复切词策略包括:
将重复词组所在的语句标记为歧义语句,歧义语句为重复词组前后两个标点符号之间所包含的一条语句;
将歧义语句分别翻译为英语、阿拉伯语、俄语、法语以及西班牙语;
将翻译后的歧义语句标记为翻译语句,将翻译语句内每个以空格为分界的单词翻译为汉语,翻译得到的词语标记为翻译词语;
将重复词组中的有效组词标记为重复组词S,S为大于等于一的正整数,将重复组词S与翻译词语进行比对,统计重复组词S出现的次数,标记为翻译正确数;
统计完成后,获取翻译正确数最大的重复组词S,标记为有效组词,将当前重复词组内的有效组词剔除,剩下的重复组词若仅剩一个,则停止分析,若重复组词的数量大于一,则继续对重复词组进行分析,直到将所有重复词组中的重复组词都转换为有效组词为止;
名称切词单元用于遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称;
名称切词单元配置有名称切词策略,名称切词策略包括:
遍历切分后,将待切词语句中除有效组词外的文字标记为待分单字,剔除标点符号;
对待分单字进行编号,以待切词语句的首个字为起始,依次标记为待分单字K,K为大于等于一的正整数;
查询待分单字K是否为姓氏,若是,则输出姓氏起始信号;若否,则输出非姓氏信号;
若输出姓氏起始信号,则将待分单字K标记为姓氏单字,查询待分单字K+1与K之间是否存在有效组词以及是否为动词,若均为否,则输出名称确定信号;否则输出非名称信号;
若输出名称确定信号,则以姓氏单字为起始,依次查找待分单字K+H与姓氏单字之间是否存在有效组词以及待分单字K+H是否为动词或连接词,若均为否,则输出名称部分信号;否则输出非名称信号;H为大于等于二的正整数;
若输出名称部分信号,则将姓氏单字与其对应的待分单字K+H标记为名称;若输出非名称信号,则停止待分单字K+H的查找,对下一个待分单字进行分析;
切词展示模块用于将切分完成后的待切词语句进行展示;将切分完成后的待切词语句进行展示为将待切词语句划分为名称、待分单字以及有效组词三个部分,并按照待切词语句原有的语句顺序进行排列展示,在每个名称、待分单字以及有效组词之间加上符号“/”进行区分。
实施例3
第三方面,本申请提供一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,处理器和存储器通过通信总线和/或其他形式的连接机构互连并相互通讯,存储器存储有处理器可执行的计算机程序,当电子设备运行时,处理器执行该计算机程序,以执行时执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;对待切词语句进行遍历切分;对重复词组进行分析,判断重复词组中的有效组词应如何划分;对相邻的待分单字进行分析,判断是否可以组成名称。
实施例4
第四方面,本申请提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;对待切词语句进行遍历切分;对重复词组进行分析,判断重复词组中的有效组词应如何划分;对相邻的待分单字进行分析,判断是否可以组成名称。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。

Claims (10)

1.基于Python的智能切词方法,其特征在于,包括如下步骤:
获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;
对待切词语句进行遍历切分,根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;
对重复词组进行分析,判断重复词组中的有效组词应如何划分;
遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称;
将切分完成后的待切词语句进行展示。
2.根据权利要求1所述的基于Python的智能切词方法,其特征在于,查找出形容词性物主代词并进行标记包括如下子步骤:
获取待切词语句;
读取形容词性物主代词数据库,将待切词语句与形容词性物主代词数据库进行遍历比对,查找其中的形容词性物主代词,标记为有效组词。
3.根据权利要求2所述的基于Python的智能切词方法,其特征在于,对待切词语句进行遍历切分包括如下子步骤:
从待切词语句的首个文字开始,对每个文字进行编号,标记为单字N,N为大于等于一的正整数;
将单字N标记为待切首字,将待切首字至单字N+M进行组合,得到初始组词,M为第一测试数;
将初始组词与常用词数据集进行比对,查找初始组词是否存在于常用词数据集内,若存在,则输出组词有效信号;若不存在,则输出组词无效信号;
将输出组词有效信号的初始组词标记为有效组词L,L为有效组词的编号,L为大于等于一的正整数;
将每个独立的有效组词视为一个集合,若存在任意有效组词L为有效组词L-M至有效组词L+M的子集,不包括有效组词L,则输出词语从属信号;
若输出词语从属信号,则将有效组词L剔除。
4.根据权利要求3所述的基于Python的智能切词方法,其特征在于,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组包括如下子步骤:
将每个独立的有效组词视为一个集合,若存在任意有效组词L与有效组词L-1至有效组词L+1有交集,则输出词语交集信号;
若输出词语相交信号,则将相交的有效组词标记为重复词组。
5.根据权利要求4所述的基于Python的智能切词方法,其特征在于,对重复词组进行分析,判断重复词组中的有效组词应如何划分包括如下子步骤:
将重复词组所在的语句标记为歧义语句,所述歧义语句为重复词组前后两个标点符号之间所包含的一条语句;
将歧义语句分别翻译为英语、阿拉伯语、俄语、法语以及西班牙语;
将翻译后的歧义语句标记为翻译语句,将翻译语句内每个以空格为分界的单词翻译为汉语,翻译得到的词语标记为翻译词语;
将重复词组中的有效组词标记为重复组词S,S为大于等于一的正整数,将重复组词S与翻译词语进行比对,统计重复组词S出现的次数,标记为翻译正确数;
统计完成后,获取翻译正确数最大的重复组词S,标记为有效组词,将当前重复词组内的有效组词剔除,剩下的重复组词若仅剩一个,则停止分析,若重复组词的数量大于一,则继续对重复词组进行分析,直到将所有重复词组中的重复组词都转换为有效组词为止。
6.根据权利要求5所述的基于Python的智能切词方法,其特征在于,遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称包括如下子步骤:
遍历切分后,将待切词语句中除有效组词外的文字标记为待分单字,剔除标点符号;
对待分单字进行编号,以待切词语句的首个字为起始,依次标记为待分单字K,K为大于等于一的正整数;
查询待分单字K是否为姓氏,若是,则输出姓氏起始信号;若否,则输出非姓氏信号;
若输出姓氏起始信号,则将待分单字K标记为姓氏单字,查询待分单字K+1与K之间是否存在有效组词以及是否为动词,若均为否,则输出名称确定信号;否则输出非名称信号;
若输出名称确定信号,则以姓氏单字为起始,依次查找待分单字K+H与姓氏单字之间是否存在有效组词以及待分单字K+H是否为动词或连接词,若均为否,则输出名称部分信号;否则输出非名称信号;H为大于等于二的正整数;
若输出名称部分信号,则将姓氏单字与其对应的待分单字K+H标记为名称;若输出非名称信号,则停止待分单字K+H的查找,对下一个待分单字进行分析。
7.根据权利要求6所述的基于Python的智能切词方法,其特征在于,将切分完成后的待切词语句进行展示为将待切词语句划分为名称、待分单字以及有效组词三个部分,并按照待切词语句原有的语句顺序进行排列展示,在每个名称、待分单字以及有效组词之间加上符号“/”进行区分。
8.适用于权利要求1-7任意一项所述的基于Python的智能切词方法的系统,其特征在于,包括语句获取模块、数据库存储模块、切词模块以及切词展示模块;所述语句获取模块、数据库存储模块以及切词展示模块分别与切词模块数据连接;
所述语句获取模块用于获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;
所述数据库存储模块用于存储形容词性物主代词数据库以及常用词数据集;
所述切词模块用于对待切词语句进行遍历切分,根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;对重复词组进行分析,判断重复词组中的有效组词应如何划分;遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否可以组成名称;
所述切词展示模块用于将切分完成后的待切词语句进行展示。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7任一项所述方法中的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-7任一项所述方法中的步骤。
CN202311774221.XA 2023-12-22 2023-12-22 基于Python的智能切词方法、系统、设备及存储介质 Active CN117454893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311774221.XA CN117454893B (zh) 2023-12-22 2023-12-22 基于Python的智能切词方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311774221.XA CN117454893B (zh) 2023-12-22 2023-12-22 基于Python的智能切词方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117454893A true CN117454893A (zh) 2024-01-26
CN117454893B CN117454893B (zh) 2024-03-22

Family

ID=89585860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311774221.XA Active CN117454893B (zh) 2023-12-22 2023-12-22 基于Python的智能切词方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117454893B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
US20230162723A1 (en) * 2020-07-10 2023-05-25 Huawei Technologies Co., Ltd. Text data processing method and apparatus
CN116451688A (zh) * 2023-04-06 2023-07-18 平安科技(深圳)有限公司 汉语分词方法、装置、服务器及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
US20230162723A1 (en) * 2020-07-10 2023-05-25 Huawei Technologies Co., Ltd. Text data processing method and apparatus
CN116451688A (zh) * 2023-04-06 2023-07-18 平安科技(深圳)有限公司 汉语分词方法、装置、服务器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王显芳 等: "一种能够检测所有交叉歧义的汉语分词算法", 电子学报, vol. 32, no. 1, 31 January 2004 (2004-01-31), pages 50 - 54 *

Also Published As

Publication number Publication date
CN117454893B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
Evert The statistics of word cooccurrences: word pairs and collocations
Evert The statistics of word cooccurrences
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
KR100734741B1 (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
EP1482414B1 (en) Translating method for emphasised words
CN111079412A (zh) 文本纠错方法及装置
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
US7046847B2 (en) Document processing method, system and medium
US20150025877A1 (en) Character input device, character input method, and computer program product
EP2653981A1 (en) Natural language processing device, method, and program
JP2021179781A (ja) 文抽出装置及び文抽出方法
CN110532569A (zh) 一种基于中文分词的数据碰撞方法及系统
CN117454893B (zh) 基于Python的智能切词方法、系统、设备及存储介质
Khan et al. Challenges in developing a rule based urdu stemmer
CN108511036A (zh) 一种中文症状标注的方法及系统
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN110765107A (zh) 基于数字化编码的题型识别方法及其系统
CN115906878A (zh) 一种基于提示的机器翻译方法
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
Marcińczuk et al. Statistical proper name recognition in Polish economic texts
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
WO2021051600A1 (zh) 基于信息熵识别新词的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant