CN113988068A - Bom文本的分词方法、装置、设备及存储介质 - Google Patents

Bom文本的分词方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113988068A
CN113988068A CN202111625704.4A CN202111625704A CN113988068A CN 113988068 A CN113988068 A CN 113988068A CN 202111625704 A CN202111625704 A CN 202111625704A CN 113988068 A CN113988068 A CN 113988068A
Authority
CN
China
Prior art keywords
text
word segmentation
cut
english
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111625704.4A
Other languages
English (en)
Other versions
CN113988068B (zh
Inventor
杜飞
高宇鹏
刘武
刘松山
王园园
王安
李六七
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Foresea Allchips Information & Technology Co.,Ltd.
Original Assignee
Shenzhen Qianhai Yingzhicheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Yingzhicheng Information Technology Co ltd filed Critical Shenzhen Qianhai Yingzhicheng Information Technology Co ltd
Priority to CN202111625704.4A priority Critical patent/CN113988068B/zh
Publication of CN113988068A publication Critical patent/CN113988068A/zh
Application granted granted Critical
Publication of CN113988068B publication Critical patent/CN113988068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及文本分词领域,公开了一种BOM文本的分词方法、装置、设备及存储介质。该方法包括:获取待分词的BOM文本数据,对BOM文本数据进行中英文拆分处理,得到切割文本集;读取切割文本集中的切割文本;判断切割文本是否为中文文本;若为中文文本,则根据预置jieba函数,对切割文本进行分词处理,得到切割分词集,以及将切割分词集确定为分词数据;若不为中文文本,则根据的预置英文数字校验筛选算法,对切割文本进行筛选拆分处理,得到英文数字的分词数据;将所有的分词数据组合为分词数据集,将分词数据集确定为BOM文本数据的分词结果。

Description

BOM文本的分词方法、装置、设备及存储介质
技术领域
本发明涉及文本分词领域,尤其涉及一种BOM文本的分词方法、装置、设备及存储介质。
背景技术
BOM 文件属于半结构化的文本文件,用户会在BOM 文件中写明要买硬件的参数信息,包括型号、品牌、精度等。
自然语言处理(NLP,Natural Language Processing)是人工智能领域中的一个重要方向,主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,也是众多NLP算法中必不可少的第一步,其切分准确与否往往直接影响下游任务的准确度。
目前已有一些成熟的分词算法,如jieba、PKUse、CoreNLP等,采用N元文法模型(N-gram)、隐马尔可夫模型(Hidden Markov Model,HMM)、CRF等模型都取得了不错的效果,准确率都可以达到95%以上。但是在BOM中剩下的5%却很难突破,主要归结于以下几点:
1)未登录词。即未出现在算法使用的词典中的词,比如BOM 中的专业参数词,以及各种不同型号词等。
2)不同用户书写规范问题。
3) BOM 文本描述属于混合语言,即中英数字混合,并非单纯的中文或英文。
4)粒度,即切分时的最小单位,不同应用对粒度的要求不一样,比如“贴片电容”可以是一个词也可以是两个词。
在实际应用中,以上难点时常会造成分词效果欠佳,进而影响之后的任务。如果分词错误会影响用户意图的解析,这对分词的准确性提出了更高的要求。因此,需要一种技术解决现有BOM文件的分词不准确的技术问题。
发明内容
本发明的主要目的在于解决现有BOM文件的分词不准确的技术问题。
本发明第一方面提供了一种BOM文本的分词方法,包括步骤:
获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;
读取所述切割文本集中的切割文本;
判断所述切割文本是否为中文文本;
若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;
若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;
将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
可选的,在本发明第一方面的第一种实现方式中,所述根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据包括:
读取所述切割文本的字符数,读取预置筛选词典;
判断所述字符数是否小于预置文本长度阈值;
若小于文本长度阈值,则判断所述字符数是否为大于预置整体拆分阈值;
若大于预置整体拆分阈值,则根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据;
若不大于预置整体拆分阈值,则根据预置整体拆分算法和所述筛选词典,对所述切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据;
若未小于文本长度阈值,则根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据。
可选的,在本发明第一方面的第二种实现方式中,所述根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据包括:
读取预置分割字符集,根据所述分割字符集,对所述切割文本进行全切分处理,得到全切分字符集;
将所述全切分字符集中全切分字符与所述筛选词典进行匹配筛选,得到N个全切分匹配字符,其中,N为非负整数;
统计N个全切分匹配字符占所述全切分字符集的比例值;
判断所述比例值是否超过预置比例阈值;
若超过比例阈值,则将所述全切分字符集确定为英文数字的分词数据;
若未超过比例阈值,则将所述切割文本确定为英文数字的分词数据。
可选的,在本发明第一方面的第三种实现方式中,所述根据预置独立拆分算法和所述筛选词典,对所述切割文本进行数字英文独立拆分处理,得到英文数字相互独立的分词数据包括:
根据所述筛选词典中的筛选词匹配所述切割文本中的字符数据,得到匹配结果;
基于所述匹配结果,对所述切割文本进行数字英文整体拆分处理,得到英文数字相互独立的分词数据。
可选的,在本发明第一方面的第四种实现方式中,所述基于所述匹配结果,对所述切割文本进行数字英文独立拆分处理,得到英文数字相互独立的分词数据包括:
判断所述匹配结果是否存在匹配成功的字符数据;
若存在,则将所述切割文本确定为英文数字的分词数据;
若不存在,则将所述切割文本剔除,不作为分词数据。
可选的,在本发明第一方面的第五种实现方式中,所述根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据包括:
识别所述切割文本中的数字字符;
基于所述数字字符的位置,对所述切割文本进行拆分处理,得到英文数字独立组合的分词数据。
可选的,在本发明第一方面的第六种实现方式中,所述判断所述切割文本是否为中文文本包括:
根据预置字母数字正则表达式,对所述切割文本中进行匹配处理,判断所述切割文本是否存在匹配的字符。
本发明第二方面提供了一种BOM文本的分词装置,所述BOM文本的分词装置包括:
中英文拆分模块,用于获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;
读取模块,用于读取所述切割文本集中的切割文本;
判断模块,用于判断所述切割文本是否为中文文本;
分词模块,用于若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;
筛选拆分模块,用于若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;
组合模块,用于将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
本发明第三方面提供了一种BOM文本的分词设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述BOM文本的分词设备执行上述的BOM文本的分词方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的BOM文本的分词方法。
在本发明实施例中,BOM 领域专有名词众多,尤其是型号词千变万化,根据BOM 文本特点,对于中英文进行分开处理,并且重点初步解决了非中文的分隔符的判断问题,分词速度快,可以不断迭代。根据每个BOM词汇的具体构成细分处理,最终解决现有BOM文件的分词不准确的技术问题。
附图说明
图1为本发明实施例中BOM文本的分词方法的一个实施例示意图;
图2为本发明实施例中BOM文本的分词装置的一个实施例示意图;
图3为本发明实施例中BOM文本的分词装置的另一个实施例示意图;
图4为本发明实施例中BOM文本的分词设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种BOM文本的分词方法、装置、设备及存储介质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中BOM文本的分词方法的一个实施例包括:
101、获取待分词的BOM文本数据,对BOM文本数据进行中英文拆分处理,得到切割文本集;
在本实施例中,BOM文件的中英文数据拆分,目前已有一些成熟的分词算法,如PKUse、CoreNLP等,采用N元文法模型(N-gram)、隐马尔可夫模型(Hidden Markov Model ,HMM)、CRF等模型都取得了不错的效果,准确率都可以达到95%以上。“特制电阻-Resist-/5v3pf”拆分为中文和非中文{特制电阻,-Resist-/5v3pf },当然如果穿插有中英文“特制电阻-Resist-高-压-/5v3pf”则拆分为{特制电阻,-Resist-,高,-,压,-/5v3pf }的切割文本集。
102、读取切割文本集中的切割文本;
在本实施例中,读取是遍历读取切割文本集{特制电阻,-Resist-,高,-,压,-/5v3pf },依次读取“特制电阻”、“-Resist-”、“高”、“-”、“压”、“-/5v3pf”中的切割文本,独立分析每个切割文本。
103、判断切割文本是否为中文文本;
在本实施例中,读取出“特制电阻”,“高”,“压”则认定为中文文本,读取出“-Resist-”, “-/5v3pf”则认为是非中文文本。
进一步的,103可以执行以下步骤:
1031、根据预置字母数字正则表达式,对切割文本中进行匹配处理,判断切割文本是否存在匹配的字符。
在1031步骤中,正则表达式检验“-/5v3pf”中是否存在字母或者是数字,只要检测出一个相关的字符就可以认为是非中文文本,而“-”这样的字符也可以使用正则表达式进行检验。
104、若为中文文本,则根据预置jieba函数,对切割文本进行分词处理,得到切割分词集,以及将切割分词集确定为分词数据;
在本实施例中,jieba函数的数据库中把“电阻”、“特制”作为最小粒度数据,则切分“特制电阻”,得到{特制,电阻}切割分词集,而{特制,电阻}确定为分词数据。
105、若不为中文文本,则根据的预置英文数字校验筛选算法,对切割文本进行筛选拆分处理,得到英文数字的分词数据;
在本实施例中,会根据切割文本的长度情况,进行两种分支校验。对于切割文本很长的情况,直接统计总体参数比例情况决定输出。对于切割文本较短的情况,采用精细参数匹配,会遍历切分后的参数列表进行参数判断。
例如“-/5v3pf”、“-Resist-”的拆分方式不同,对于英文中混杂的数据,基于数学字符和符号进行拆分,“-/5v3pf”拆分为“-/”、“5v”、“3pf”,“-Resist-”拆分为“-”、“Resist”、“-”,将{-/,5v ,3pf }确定为英文数字的分词数据,而将{-,Resist,-}确定为另一个英文数字的分词数据。
进一步的,在105可以执行以下步骤:
1051、读取切割文本的字符数,读取预置筛选词典;
1052、判断字符数是否小于预置文本长度阈值;
1053、若小于文本长度阈值,则判断字符数是否为大于预置整体拆分阈值;
1054、若大于预置整体拆分阈值,则根据预置独立拆分算法,对切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据;
1055、若不大于预置整体拆分阈值,则根据预置整体拆分算法和筛选词典,对切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据;
1056、若未小于文本长度阈值,则根据预置字符比例算法和筛选词典,对切割文本进行比例拆分处理,得到英文数字的分词数据。
在1051-1056步骤中,切割文本“-/5v3pf”共有7个字符,而如果文本长度阈值为5时,7个字符大于5个字符,则进一步判断7个字符是否大于整体拆分阈值6。7大于6后则认为对“-/5v3pf”进行独立拆分,将“-/5v3pf”应该分出“-/”、“5v”、“3pf”。
在另一个实施例中,切割文本“-/5v3pf”共有7个字符,判断7个字符是否大于整体拆分阈值9时,7不大于9后则认为对“-/5v3pf”进行整体拆分。,筛选词典中的预设筛选词“5v”、“pf”,则认为存在匹配值,不需要舍弃,直接将“-/5v3pf”确定为英文数字整体组合的分词数据。
而如果文本长度阈值为9时,“-/5v3pf”的7个字符小于9个字符,访问筛选词典中的预设筛选词“5v”、“pf”,匹配中的词字符数为4,匹配占比有4/7大于预设的50%的比例阈值,则直接将“-/5v3pf”确定为英文数字的分词数据。
进一步的,在1056可以执行以下步骤:
10561、读取预置分割字符集,根据分割字符集,对切割文本进行全切分处理,得到全切分字符集;
10562、将全切分字符集中全切分字符与筛选词典进行匹配筛选,得到N个全切分匹配字符,其中,N为非负整数;
10563、统计N个全切分匹配字符占全切分字符集的比例值;
10564、判断比例值是否超过预置比例阈值;
10565、若超过比例阈值,则将全切分字符集确定为英文数字的分词数据;
10566、若未超过比例阈值,则将切割文本确定为英文数字的分词数据。
在10561-10566步骤中,分割字符为“-”和“3”,则全切分“-/5v3pf”为“-”、“/5v”“3”、“pf”,访问筛选词典中的预设筛选词“5v”、“pf”,匹配出的全切分匹配字符为“pf”,“pf”占“-/5v3pf”的2/7。若比例阈值为1/7,则将{-,/5v,3,pf }全切分字符集确定为英文数字的分词数据,若比例阈值为6/7,则将“-/5v3pf”确定为英文数字的分词数据。
进一步的,在1055可以执行以下步骤:
10551、根据筛选词典中的筛选词匹配切割文本中的字符数据,得到匹配结果;
10552、基于所述匹配结果,对所述切割文本进行数字英文整体拆分处理,得到英文数字相互独立的分词数据。
在10551、10552步骤中,筛选词典“5v”、“pf”与“-/5v3pf”字符排序的进行匹配,在“-/5v3pf”中的5v位置被标记匹配,在pf位置被标记匹配。根据“-/5v3pf”是否存在标记匹配位置,来判断“-/5v3pf”是否为分词数据。
进一步的,在10552可以执行以下步骤:
105521、判断匹配结果是否存在匹配成功的字符数据;
105522、若存在,则将切割文本确定为英文数字的分词数据;
105523、若不存在,则将切割文本剔除,不作为分词数据。
在105521-105223步骤中,当筛选词典中的预设筛选词“5v”、“pf”时,则认为存在匹配字符,不需要舍弃,直接将“-/5v3pf”确定为英文数字整体组合的分词数据。
当筛选词典中的预设筛选词“Jc”、“iu”时,则认为不存在匹配字符,将“-/5v3pf”剔除不作为分词数据。
进一步的,在1054可以执行以下步骤:
10541、识别切割文本中的数字字符;
10542、基于数字字符的位置,对切割文本进行拆分处理,得到英文数字独立组合的分词数据。
在10541、10542步骤中,识别“-/5v3pf”中的数字“5”和“3”,对“-/5v3pf”进行文本拆分,将数字字符前的数据进行截断分出“-/”、“5v”、“3pf”。
106、将所有的分词数据组合为分词数据集,将分词数据集确定为BOM文本数据的分词结果。
在本实施例中,将切割文本集中所有的切割文本分别进行判断和拆分,而切割文本集的多个切割文本被进一步切分确定为分词数据,将所有的分词数据组合为分词数据集,此时分词数据集就为BOM文本数据的分词结果。当然,可以对分词数据集进行去重处理和排序处理,这是较为容易想到的。
在本发明实施例中,BOM 领域专有名词众多,尤其是型号词千变万化,根据BOM 文本特点,对于中英文进行分开处理,并且重点初步解决了非中文的分隔符的判断问题,分词速度快,可以不断迭代。根据每个BOM词汇的具体构成细分处理,最终解决现有BOM文件的分词不准确的技术问题。
上面对本发明实施例中BOM文本的分词方法进行了描述,下面对本发明实施例中BOM文本的分词装置进行描述,请参阅图2,本发明实施例中BOM文本的分词装置一个实施例,所述BOM文本的分词装置包括:
中英文拆分模块201,用于获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;
读取模块202,用于读取所述切割文本集中的切割文本;
判断模块203,用于判断所述切割文本是否为中文文本;
分词模块204,用于若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;
筛选拆分模块205,用于若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;
组合模块206,用于将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
在本发明实施例中,BOM 领域专有名词众多,尤其是型号词千变万化,根据BOM 文本特点,对于中英文进行分开处理,并且重点初步解决了非中文的分隔符的判断问题,分词速度快,可以不断迭代。根据每个BOM词汇的具体构成细分处理,最终解决现有BOM文件的分词不准确的技术问题。
请参阅图3,本发明实施例中BOM文本的分词装置的另一个实施例,所述BOM文本的分词装置包括:
中英文拆分模块201,用于获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;
读取模块202,用于读取所述切割文本集中的切割文本;
判断模块203,用于判断所述切割文本是否为中文文本;
分词模块204,用于若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;
筛选拆分模块205,用于若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;
组合模块206,用于将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
其中,所述筛选拆分模块205包括:
读取单元2051,用于读取所述切割文本的字符数,读取预置筛选词典;
第一判断单元2052,用于判断所述字符数是否小于预置文本长度阈值;
第二判断单元2053,用于若小于文本长度阈值,则判断所述字符数是否为大于预置整体拆分阈值;
独立拆分单元2054,用于若大于预置整体拆分阈值,则根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据;
整体拆分单元2055,用于若不大于预置整体拆分阈值,则根据预置整体拆分算法和所述筛选词典,对所述切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据;
比例拆分单元2056,用于若未小于文本长度阈值,则根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据。
其中,所述比例拆分单元2056具体用于:
读取预置分割字符集,根据所述分割字符集,对所述切割文本进行全切分处理,得到全切分字符集;
将所述全切分字符集中全切分字符与所述筛选词典进行匹配筛选,得到N个全切分匹配字符,其中,N为非负整数;
统计N个全切分匹配字符占所述全切分字符集的比例值;
判断所述比例值是否超过预置比例阈值;
若超过比例阈值,则将所述全切分字符集确定为英文数字的分词数据;
若未超过比例阈值,则将所述切割文本确定为英文数字的分词数据。
其中,所述整体拆分单元2055具体用于:
根据所述筛选词典中的筛选词匹配所述切割文本中的字符数据,得到匹配结果;
基于所述匹配结果,对所述切割文本进行数字英文整体拆分处理,得到英文数字相互独立的分词数据。
其中,所述整体拆分单元2055还可以具体用于:
判断所述匹配结果是否存在匹配成功的字符数据;
若存在,则将所述切割文本确定为英文数字的分词数据;
若不存在,则将所述切割文本剔除,不作为分词数据。
其中,所述独立拆分单元2054具体用于:
识别所述切割文本中的数字字符;
基于所述数字字符的位置,对所述切割文本进行拆分处理,得到英文数字独立组合的分词数据。
其中,所述判断模块203具体用于:
根据预置字母数字正则表达式,对所述切割文本中进行匹配处理,判断所述切割文本是否存在匹配的字符。
在本发明实施例中,BOM 领域专有名词众多,尤其是型号词千变万化,根据BOM 文本特点,对于中英文进行分开处理,并且重点初步解决了非中文的分隔符的判断问题,分词速度快,可以不断迭代。根据每个BOM词汇的具体构成细分处理,最终解决现有BOM文件的分词不准确的技术问题。
上面图2和图3从模块化功能实体的角度对本发明实施例中的BOM文本的分词装置进行详细描述,下面从硬件处理的角度对本发明实施例中BOM文本的分词设备进行详细描述。
图4是本发明实施例提供的一种BOM文本的分词设备的结构示意图,该BOM文本的分词设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对BOM文本的分词设备400中的一系列指令操作。更进一步地,处理器410可以设置为与存储介质430通信,在BOM文本的分词设备400上执行存储介质430中的一系列指令操作。
基于BOM文本的分词设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460,和/或,一个或一个以上操作系统431,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图4示出的BOM文本的分词设备结构并不构成对基于BOM文本的分词设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述BOM文本的分词方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种BOM文本的分词方法,其特征在于,包括步骤:
获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;
读取所述切割文本集中的切割文本;
判断所述切割文本是否为中文文本;
若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;
若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;
将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
2.根据权利要求1所述的BOM文本的分词方法,其特征在于,所述根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据包括:
读取所述切割文本的字符数,读取预置筛选词典;
判断所述字符数是否小于预置文本长度阈值;
若小于文本长度阈值,则判断所述字符数是否为大于预置整体拆分阈值;
若大于预置整体拆分阈值,则根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据;
若不大于预置整体拆分阈值,则根据预置整体拆分算法和所述筛选词典,对所述切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据;
若未小于文本长度阈值,则根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据。
3.根据权利要求2所述的BOM文本的分词方法,其特征在于,所述根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据包括:
读取预置分割字符集,根据所述分割字符集,对所述切割文本进行全切分处理,得到全切分字符集;
将所述全切分字符集中全切分字符与所述筛选词典进行匹配筛选,得到N个全切分匹配字符,其中,N为非负整数;
统计N个全切分匹配字符占所述全切分字符集的比例值;
判断所述比例值是否超过预置比例阈值;
若超过比例阈值,则将所述全切分字符集确定为英文数字的分词数据;
若未超过比例阈值,则将所述切割文本确定为英文数字的分词数据。
4.根据权利要求2所述的BOM文本的分词方法,其特征在于,所述根据预置整体拆分算法和所述筛选词典,对所述切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据包括:
根据所述筛选词典中的筛选词匹配所述切割文本中的字符数据,得到匹配结果;
基于所述匹配结果,对所述切割文本进行数字英文整体拆分处理,得到英文数字相互独立的分词数据。
5.根据权利要求4所述的BOM文本的分词方法,其特征在于,所述基于所述匹配结果,对所述切割文本进行数字英文整体拆分处理,得到英文数字相互独立的分词数据包括:
判断所述匹配结果是否存在匹配成功的字符数据;
若存在,则将所述切割文本确定为英文数字的分词数据;
若不存在,则将所述切割文本剔除,不作为分词数据。
6.根据权利要求2所述的BOM文本的分词方法,其特征在于,所述根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据包括:
识别所述切割文本中的数字字符;
基于所述数字字符的位置,对所述切割文本进行拆分处理,得到英文数字独立组合的分词数据。
7.根据权利要求1所述的BOM文本的分词方法,其特征在于,所述判断所述切割文本是否为中文文本包括:
根据预置字母数字正则表达式,对所述切割文本中进行匹配处理,判断所述切割文本是否存在匹配的字符。
8.一种BOM文本的分词装置,其特征在于,所述BOM文本的分词装置包括:
中英文拆分模块,用于获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;
读取模块,用于读取所述切割文本集中的切割文本;
判断模块,用于判断所述切割文本是否为中文文本;
分词模块,用于若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;
筛选拆分模块,用于若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;
组合模块,用于将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
9.一种BOM文本的分词设备,其特征在于,所述BOM文本的分词设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述BOM文本的分词设备执行如权利要求1-7中任一项所述的BOM文本的分词方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的BOM文本的分词方法。
CN202111625704.4A 2021-12-29 2021-12-29 Bom文本的分词方法、装置、设备及存储介质 Active CN113988068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111625704.4A CN113988068B (zh) 2021-12-29 2021-12-29 Bom文本的分词方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111625704.4A CN113988068B (zh) 2021-12-29 2021-12-29 Bom文本的分词方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113988068A true CN113988068A (zh) 2022-01-28
CN113988068B CN113988068B (zh) 2022-04-15

Family

ID=79734785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111625704.4A Active CN113988068B (zh) 2021-12-29 2021-12-29 Bom文本的分词方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113988068B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246472A (zh) * 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
CN107992475A (zh) * 2017-11-27 2018-05-04 武汉中海庭数据技术有限公司 一种基于车载导航仪全文检索的多语言分词方法及装置
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质
CN113627168A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种元器件封装冲突的检查方法、装置、介质及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246472A (zh) * 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
CN107992475A (zh) * 2017-11-27 2018-05-04 武汉中海庭数据技术有限公司 一种基于车载导航仪全文检索的多语言分词方法及装置
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置
CN113627168A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种元器件封装冲突的检查方法、装置、介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王茜: "基于字符串匹配的中英文混合分词技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Also Published As

Publication number Publication date
CN113988068B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN105808526B (zh) 商品短文本核心词提取方法和装置
Stamatatos et al. Automatic authorship attribution
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
EP3016002A1 (en) Non-factoid question-and-answer system and method
US10755045B2 (en) Automatic human-emulative document analysis enhancements
CN112506951B (zh) 数据库慢查询日志的处理方法、服务器、计算设备和系统
CN103514213B (zh) 词语提取方法及装置
US7266554B2 (en) Document extracting device, document extracting program, and document extracting method
WO2017091985A1 (zh) 停用词识别方法与装置
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN108052509B (zh) 一种文本相似度计算方法、装置及服务器
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN115098650B (zh) 基于历史数据模型的评论信息分析方法及相关装置
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN111984845B (zh) 网站错别字识别方法和系统
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN108536673B (zh) 新闻事件抽取方法及装置
Bokinsky et al. Application of natural language processing techniques to marine V-22 maintenance data for populating a CBM-oriented database
Koirala et al. A Nepali Rule Based Stemmer and its performance on different NLP applications
US7072827B1 (en) Morphological disambiguation
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN113988068B (zh) Bom文本的分词方法、装置、设备及存储介质
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
CN112487181B (zh) 关键词确定方法和相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 901, Building 3, Shenzhen New Generation Industrial Park, 136 Zhongkang Road, Meidu Community, Meilin Street, Futian District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Foresea Allchips Information & Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: SHENZHEN QIANHAI YINGZHICHENG INFORMATION TECHNOLOGY Co.,Ltd.