CN117057347B - 一种分词方法、电子设备及存储介质 - Google Patents
一种分词方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117057347B CN117057347B CN202311323994.6A CN202311323994A CN117057347B CN 117057347 B CN117057347 B CN 117057347B CN 202311323994 A CN202311323994 A CN 202311323994A CN 117057347 B CN117057347 B CN 117057347B
- Authority
- CN
- China
- Prior art keywords
- words
- basic
- list
- preset
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000011218 segmentation Effects 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000012216 screening Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种分词方法、电子设备及存储介质,涉及分词算法模型领域,所述方法包括:获取预设领域训练文本集和基础词列表,基于基础词列表和预设领域训练文本进行匹配,获取预设领域训练文本中相邻的基础词,记为相邻字符组,从而获取相邻字符组列表,并获取对应的相邻次数列表,获取相邻次数最大的相邻字符组记为待添加词语,获取基础词列表中的基础词的数量,若基础词的数量大于预设词表数量阈值,将基础词列表作为最终词列表,否则,将待添加词语作为基础词添加到基础词列表中,直到基础词列表中的基础词的数量大于预设词表数量阈值,解决直接使用字符拆分导致的丢弃了所有的词语信息的问题。
Description
技术领域
本发明涉及分词算法模型领域,特别是涉及一种分词方法、电子设备及存储介质。
背景技术
目前,分词器的目标是将输入的文本流,切分成一个个子串,使得每个子串具有相对完整的语义,便于学习embedding表达和后续模型的使用,分词器包括三种粒度:词、字符、子词级别,如果使用字符级别做编码,比如“我爱中国”就会拆分为“我 爱 中 国”,使用字符级别的拆分太细,在拆分后直接丢弃了所有的词语信息;如果使用词级别做编码,比如“我爱中国”就会拆分为“我 爱 中国”,使用词级别做编码的缺点如下:①不可能收录所有词语,当出现新词语时由于没有见过该词语,那么只能使用统一的特殊字符 [KNOWN] 来表示,这种方式也会导致语义的丢失。②词级别做编码有非常多的词语,汉字可能只有几千个,而词语可能有几十万个,因此,如何有一种同时解决上述两种分词级别的缺点的分词方法尤为重要。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种分词方法,所述方法包括如下步骤:
S010,获取预设领域训练文本集和基础词列表Q={Q1,Q2,…,Qd,…,Qd0},Qd是第d个基础词,d的取值范围是1到d0,d0是基础词的数量,所述基础词初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符;
S020,按照任一预设领域训练文本VN中的字符从前到后的顺序,对预设领域训练文本VN中的字符VNa,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表;
S030,按照中间词的字符数量从大到小的顺序,使用中间词和VN中的字符VNa及字符VNa的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本VN进行拆分,从而获取拆分词列表L={L1,L2,…,LM,…,LM1},LM是预设领域训练文本集中第M个拆分词,M的取值范围是1到M1,M1是预设领域训练文本集中拆分词的数量;
S040,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表QA={QA1,QA2,…,QAε,…,QAβ},并获取对应的相邻次数列表QB={QB1,QB2,…,QBε,…,QBβ},
QAε是预设领域训练文本中的第ε个相邻字符组,QBε是第ε个相邻字符组QAε在预设领域训练文本中的出现次数,ε的取值范围是1到β,β是预设领域训练文本中的相邻字符组的数量;其中,不同顺序的相邻的拆分词为不同的相邻字符组;
S050,获取QB0=max{QB1,QB2,…,QBε,…,QBβ}和QB0对应的相邻字符组QA0,并将QA0记为待添加词语;
S060,获取基础词列表Q中的基础词的当前数量d01,若d01>预设词表数量阈值d02,将基础词列表作为最终词列表,流程结束;否则,将待添加词语作为基础词添加到基础词列表Q中,从而进行更新基础词列表Q,执行S020;其中,d02>1。
一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的分词方法。
一种电子设备,包括处理器和上述的非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
综上,获取预设领域训练文本集和基础词列表,按照任一预设领域训练文本中的字符从前到后的顺序,对预设领域训练文本中的字符,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表,按照中间词的字符数量从大到小的顺序,使用中间词和字符及字符所在的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本进行拆分,从而获取拆分词列表,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表,并获取对应的相邻次数列表,获取相邻次数最大的相邻字符组记为待添加词语,获取基础词列表中的基础词的数量,若基础词的数量大于预设词表数量阈值,将基础词列表作为最终词列表,否则,将待添加词语作为基础词添加到基础词列表中,直到基础词列表中的基础词的数量大于预设词表数量阈值,通过训练一个变长的分词方式,解决直接使用字符拆分导致的丢弃了所有的词语信息的问题,也解决了使用词级别进行拆分无法收录所有词语或者收录词语太多的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分词方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种分词方法,如图1所示,所述方法包括如下步骤:
S010,获取预设领域训练文本集和基础词列表Q={Q1,Q2,…,Qd,…,Qd0},Qd是第d个基础词,d的取值范围是1到d0,d0是基础词的数量,所述基础词初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符。其中,基础词两两不相同。
可以理解为,将预设领域训练文本集中每一预设领域训练文本按照字符进行拆分,从而获取基础词列表,例如,预设领域训练文本集包括“我爱中国”,“窗户的length为20cm”;将预设领域训练文本进行拆分,基础词列表Q={我,爱,中,国,窗,户,的,length,为,20,cm};其中,英文单词认为是一个基础词,相邻的数字认为是一个基础词,进一步的,有标点符号相隔的中文字符/英文单词/相邻的数字认为不是基础词。
具体的,本领域技术人员知晓,现有技术中任何一种将英文单词认定一个词的方法均属于本发明保护范围,此处不再赘述。
具体的,本领域技术人员知晓,现有技术中任何一种将相邻的数字认为是一个词的方法均属于本发明保护范围,此处不再赘述。
S020,按照任一预设领域训练文本VN中的字符从前到后的顺序,对预设领域训练文本VN中的字符VNa,和基础词列表进行匹配,获取匹配成功的基础词作为字符VNa中间词,获取字符VNa的中间词列表。
具体的,对任一预设领域训练文本VN中的字符按照从前到后的顺序,和基础词列表进行匹配,例如,预设领域训练文本集VN包括:“我爱中国”,基础词列表Q={我,爱,中,国,窗,户,的,length,为,20,cm,中国},依次按照“我”“爱”“中”“国”的顺序和基础词列表进行匹配,对于字符VNa“中”,和基础词列表Q中“中”、“中国”匹配成功,将“中”“中国”均作为VNa的中间词。
S030,按照VNa的中间词的字符数量从大到小的顺序,使用中间词和VN中的字符VNa及字符VNa的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本VN进行拆分,从而获取拆分词列表L={L1,L2,…,LM,…,LM1},LM是预设领域训练文本集中第M个拆分词,M的取值范围是1到M1,M1是预设领域训练文本集中拆分词的数量。
具体的,将VNa的中间词按照字符数量从大到小的顺序进行排序,使用中间词和字符VNa及字符VNa在VN中的后续字符进行匹配,例如,对于VNa的中间词“中”“中国”,“中国”的字符数量为2,优先使用“中国”进行匹配,并和VN“中”和“中”后的一个字符进行匹配,使用“中国”和“我爱中国”的“中国”进行匹配,匹配成功,则将“中国”作为拆分词。
S040,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表QA={QA1,QA2,…,QAε,…,QAβ},并获取对应的相邻次数列表QB={QB1,QB2,…,QBε,…,QBβ},
QAε是预设领域训练文本中的第ε个相邻字符组,QBε是第ε个相邻字符组QAε在预设领域训练文本中的出现次数,ε的取值范围是1到β,β是预设领域训练文本中的相邻字符组的数量;其中,不同顺序的相邻的拆分词为不同的相邻字符组。
具体的,所述相邻字符组是指在预设领域训练文本中相邻的基础词,例如,基础词“中”“国”构成相邻字符组“中国”并获取“中国”在预设领域训练文本集中出现的次数“1”。
S050,获取QB0=max{QB1,QB2,…,QBε,…,QBβ}和QB0对应的相邻字符组QA0,并将QA0记为待添加词语。
具体的,获取在预设领域训练文本集中相邻字符组出现的次数,并获取出现次数最多的相邻字符组记为待添加词语,若出现次数最多的相邻字符组不仅一个时,将出现最多的相邻字符组全部作为待添加词语。
S060获取基础词列表Q中的基础词的当前数量d01,若d01>预设词表数量阈值d02,将基础词列表作为最终词列表,流程结束;否则,将待添加词语作为基础词添加到基础词列表Q中,从而进行更新基础词列表Q,执行S020;其中,d02>1。
具体的,所述预设词表数量阈值d02可根据实际需求确定,d02>1,避免基础词出现一整句话的情况。
可以理解为,获取待添加词语,将待添加词语作为基础词添加到基础词列表中,从而进行更新基础词列表,直到基础词列表Q中的基础词的数量>预设词表数量阈值,将基础词列表作为最终词列表。
综上,获取预设领域训练文本集和基础词列表,按照任一预设领域训练文本中的字符从前到后的顺序,对预设领域训练文本中的字符,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表,按照中间词的字符数量从大到小的顺序,使用中间词和字符及字符所在的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本进行拆分,从而获取拆分词列表,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表,并获取对应的相邻次数列表,获取相邻次数最大的相邻字符组记为待添加词语,获取基础词列表中的基础词的数量,若基础词的数量大于预设词表数量阈值,将基础词列表作为最终词列表,否则,将待添加词语作为基础词添加到基础词列表中,直到基础词列表中的基础词的数量大于预设词表数量阈值,通过训练一个变长的分词方式,解决直接使用字符拆分导致的丢弃了所有的词语信息的问题,也解决了使用词级别进行拆分无法收录所有词语或者收录词语太多的问题。
进一步的,将S060替换为S070:
S070,获取待添加词语的字符数量,若待添加词语的字符数量>预设字符数量阈值,将基础词列表作为最终词列表;否则,将待添加词语作为基础词添加到基础词列表Q中,从而进行更新基础词列表,执行S020。
可以理解为,将待添加词语作为基础词添加到基础词列表中,从而进行更新基础词列表,直到待添加词语的字符数量大于预设字符数量阈值,通过S010-S030,待添加词语的字符数量是不断增加的,当待添加词语的字符数量不断增加,最后可能会导致待添加词语过长的情况。
进一步的,本发明在S060后还包括:基于最终词列表,对预设领域训练文本集进行分词,并将分词后的预设领域训练文本集输入BERT,从而进行实体关系的抽取。
进一步的,本发明在S060后还包括:基于最终词列表,对预设领域训练文本集进行分词,并将分词后的预设领域训练文本集输入LLM,从而进行实体关系的抽取。
具体的,在本发明一实施例中,所述预设领域训练文本集为目标问题所在领域的文本。
进一步的,本发明还包括如下步骤:
S080,从最终词列表中按照预设筛选规则进行筛选,获取关键词列表;将关键词列表中每一关键词作为目标问题所在领域的关键词。
具体的,从最终词列表中按照预设筛选规则进行筛选包括:从最终词列表中基于最终词在预设领域训练文本集中的出现次数进行筛选。
在本发明另一实施例中,从最终词列表中按照预设筛选规则进行筛选包括:从最终词列表中基于最终词的词性进行筛选。
综上,本发明通过从最终词列表中按照预设筛选规则进行筛选,从而获取关键词列表,并将关键词列表中的每一关键词作为目标问题所在领域的关键词,本发明可用于警情数据、医疗数据等专业名词较多的领域,使得目标问题所在领域的关键词更加准确。
进一步的,在获取目标问题所在领域的关键词后,本发明还包括如下步骤:
S100,获取目标问题语句列表A={A1,A2,…,Ai,…,Am},Ai是第i个目标问题语句,i的取值范围是1到m,m是目标问题语句的数量,所述目标问题语句为预设领域中针对处于同一级别的不同问题分别设置的语句。
具体的,所述目标问题语句可以为预设产品所在领域的专家提出的m个关于预设产品的同一级别的问题语句。例如,所述目标问题语句为:请给出文书1的填写规范;请给出业务1的办理方式。所述目标问题语句列表至少包括预设产品所在领域的经典问题、常见问题、和其它领域有差别的问题所构成的语句。
在本发明另一实施例中,所述目标问题语句根据实际需求进行人工配置。
S200,向LLM发出第一指令,所述第一指令为:参考目标问题语句列表A生成n条新问题语句,其中,n≥1。
具体的,LLM即Large-scale Language Model,为大规模语言模型,是一种基于深度学习的自然语言处理模型,通常具有数十亿甚至数千亿的参数,可以实现多种自然语言处理任务,包括熟知的ChatGPT-3、BERT、XLNet等。
S300,获取LLM生成的新问题语句列表B={B1,B2,…,Bj,…,Bn},Bj是LLM生成的第j条新问题语句,j的取值范围是1到n。
具体的,向LLM输入:参考目标问题语句列表A生成n条新问题语句,获取LLM生成的新问题语句列表。
S400,遍历B,计算Bj和Ai的重复度Cij,若存在Cij≥预设重复度阈值C0,将Bj从新问题语句列表B中删除,从而获取中间问题语句列表D={D1,D2,…,Dr,…,Ds},Dr是第r个中间问题语句,r的取值范围是1到s,s是中间问题语句的数量。
具体的,S400中,Bj和Ai的重复度为Bj和Ai的Rouge-L距离,通过Bj和Ai的最长公共子序列获取Bj和Ai的Rouge-L距离。可以理解为,新问题语句和目标问题语句的重复度不能太高,太高的重复度可能和目标问题语句相同又增加了一些其它特征,并不是真正想要的新问题语句。
更进一步的,若存在Cij≤最小重复度阈值,将Bj从新问题语句列表B中删除。可以理解为,新问题语句和目标问题语句的重复度不能太高,也不能太低,需要有一定的相似度,但相似度不能过于高。
S500,遍历D,若中间问题语句Dr包含子类型Eg,x,将中间问题语句中的Eg,x替换为Eg中除Eg,x外其它q(g)-1个子类型关键词,从而生成q(g)-1个扩充问题语句,并将扩充问题语句和中间问题语句都作为候选问题语句,从而获取候选问题语句列表F={F1,F2,…,Fy,…,Fp},y的取值范围是1到p,p是候选问题语句的数量。
其中,预设类型关键词列表E={E1,E2,…,Eg,…,Ez},Eg是第g个预设类型关键词列表,Eg={Eg,1,Eg,2,…,Eg,x,…,Eg,q(g)},Eg,x是第g个预设类型关键词列表Eg中的第x个子类型关键词,x的取值范围是1到q(g),q(g)是第g个预设类型关键词列表Eg中子类型关键词的数量,g的取值范围是1到z,z是预设类型关键词列表的数量。
在本发明一个实施例中,所述预设类型列表E={E1,E2},E1={E11,E12},E2={E21,E22},E1为设备故障类型,E2为设备型号,E11为零件1故障,E12为零件2故障,E21为型号1,E22为型号2;若中间问题语句列表D={D1,D2},D1:请给出零件1故障时的原理,D2:请给出型号1的生产时间;D1包括子类型“零件1故障”,进行替换,获取扩充问题语句:请给出零件2故障时的原理;D2包括子类型“型号1”,进行替换,获取扩充问题语句:请给出型号2的生产时间;从而获取候选问题语句列表,候选问题语句列表包括:请给出零件1故障时的原理,请给出零件2故障时的原理,请给出型号1的生产时间,请给出型号2的生产时间。
S600,获取候选问题语句Fy的重要程度Wy,若Wy>预设重要程度阈值W0,将候选问题语句Fy作为最终问题语句,从而获取最终问题语句列表;其中,所述候选问题语句的重要程度基于该候选问题语句与目标问题语句以及所述预设领域的相关性确定。
S700,将最终问题语句列表输入到LLM,获取每一最终问题语句的最终答案。
综上,获取目标问题语句列表,向LLM发出第一指令,所述第一指令为:参考目标问题语句列表A生成n条新问题语句,获取LLM生成的新问题语句列表,遍历新问题语句列表,计算新问题语句和目标问题语句的重复度,若重复度不小于预设重复阈值,则将新问题语句在新问题语句列表中删除,获取中间问题语句列表,若中间问题语句包括子类型,则将子类型替换为子类型列表中的其它类型,生成扩充问题语句,从而获取候选问题语句列表,获取候选问题语句的重要程度,若重要程度>预设重要程度阈值,将候选问题语句作为最终问题语句,并将最终问题语句输入到LLM,获取最终问题语句的最终答案;通过上述步骤,获取到目标问题的不同维度上的问题和问题的答案,从而更加全面的了解产品的各个过程,更加全面的获取到完成产品所需的问题语句和问题语句的答案。
具体的,S600中,获取候选问题语句Fy的重要程度Wy,包含如下步骤:
S1,获取第y个候选问题语句Fy对应的候选关键词列表Hy={Hy1,Hy2,…,Hyt,…,Hyα}和候选关键词列表Hy对应的候选权重列表HWy={HWy1,HWy2,…,HWyt,…,HWyα},并基于候选权重列表HWy,计算Hy和目标领域关键词列表SF0的相关度Wy1。Hyt是Fy的第t个候选关键词,HWyt是Hyt对应的候选权重,t的取值范围是1到α,α是Fy中候选关键词的数量,目标领域关键词列表SF0中包括的目标领域关键词是所述预设领域对应的关键词。
具体的,本领域技术人员知晓,现有技术中的任何一种获取语句关键词的方法均属于本发明保护范围,此处不再赘述。
具体的,候选关键词列表对应的候选权重列表中的每一候选权重可以通过人为进行设置,也可以按照词性进行相应权重的设置,所述词性包括名词、形容词、动词等。
具体的,S1中,基于候选权重列表HWy,计算Hy和目标领域关键词列表SF0的相关度Wy1包括:
S11,若Hyt和目标领域关键词匹配成功,将Hyt作为所述预设领域关键词。
具体的,在本发明一个实施例中,所述Hyt和目标领域关键词匹配成功,即Hyt和一目标领域关键词完全相同。
在本发明另一实施例中,所述Hyt和目标领域关键词匹配成功,即Hyt和一目标领域关键词的语义相同。
S12,获取指定领域关键词的权重,并将指定领域关键词的权重的和作为相关度Wy1。
S2,获取目标问题语句列表A的目标问题关键词列表AH,并基于候选权重列表HWy,获取Hy和目标问题关键词列表AH的相关度Wy2。
具体的,S2中基于候选权重列表HWy获取Hy和目标问题关键词列表AH的相关度Wy2包括:
S21,若Hyt和目标问题关键词匹配成功,将Hyt作为指定关键词。
具体的,在本发明一个实施例中,所述Hyt和目标问题关键词匹配成功,即Hyt和一目标问题关键词匹配成功完全相同。
在本发明另一实施例中,所述Hyt和目标问题关键词匹配成功,即Hyt和一目标问题关键词匹配成功的语义相同。
S22,获取指定关键词的权重,并将指定关键词的权重的和作为相关度Wy2。
S3,获取第y个候选问题语句Fy和目标问题语句列表A的相关度Wy3,Wy3=(1/m)∑m i= 1BM25(Fy,Ai),BM25(Fy,Ai)=∑h e=1KyeR(Fye,Ai),Fye是Fy+按照预定规则划分的第e个词语,e的取值范围是1到h,h是Fy划分的词语的数量,其中,R(Fye,Ai)=fye (k1+1)/>qfye/>(k2+1)/(fye+k1/>(1-b+b/>(dAi/avgdAi)))/(qfye+k2),k1为第一调节因子,k2为第二调节因子,k3为第三调节因子,fye是Fye在Ai中的出现频率,qfye是Fye在Fy中的出现频率,dAi是Ai的字符长度,avgdAi是A1到Am的平均字符长度,Kye是Fye在A中的权重。
具体的,k1=2;b=0.75。
S4,获取候选问题语句Fy的重要程度Wy=Wy1+Wy2+Wy3。
基于S1-S4,获取第y个候选问题语句Fy的候选关键词列表和候选关键词列表对应的候选权重列表,并基于候选权重列表HWy计算Hy和目标领域关键词列表的相关度,获取目标问题语句列表A的目标问题关键词列表,并基于候选权重列表HWy获取Hy和目标问题关键词列表AH的相关度,获取第y个候选问题语句Fy和目标问题语句列表A的相关度,从而获取候选问题语句Fy的重要程度,候选问题语句的重要程度考虑了和目标问题语句的关键词、所在领域的关键词和相关性三个维度,使得最终问题语句既部分符合目标问题语句,又有一些新的问题语句出现。
进一步的,在S600后还包括以下步骤:
S601,获取预设类型Eg的预设关键词列表EKg。
具体的,所述预设关键词列表为预设类型所在领域的关键词,例如,预设类型为故障类型,所述预设关键词列表为故障类型相关的词语。
S602,使用任一最终问题语句Pu和EKg进行匹配,获取最终问题语句Pu中包含的最终词组列表WVug={WVug1,WVug2,…,WVugη,…,WVugθ},WVugη是最终问题语句Pu中出现EKg的第η个词组,η的取值范围是1到θ,θ是共同出现的词组数量。
S603,若WVugη属于共现黑名单列表,将最终问题语句Pu在最终问题语句列表中删除,其中,所述共现黑名单列表是指不同共同出现的词组列表。
具体的,所述共现黑名单列表是指不同共同出现的词组列表,可以理解为在业务上不会同时出现的词组列表。
综上,获取预设类型的预设关键词列表,使用任一最终问题语句Pu和EKg进行匹配,获取最终问题语句Pu中包含的最终词组列表,若任一最终词组属于黑名单列表,则将该最终问题语句在最终问题语句列表中删除,排除了最终问题语句列表中不符合业务情况最终问题语句。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (9)
1.一种分词方法,其特征在于,所述方法包括如下步骤:
S010,获取预设领域训练文本集和基础词列表Q={Q1,Q2,…,Qd,…,Qd0},Qd是第d个基础词,d的取值范围是1到d0,d0是基础词的数量,所述基础词列表Q初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符;
S020,按照任一预设领域训练文本VN中的字符从前到后的顺序,对预设领域训练文本VN中的预设领域训练字符,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表;
S030,按照中间词的字符数量从大到小的顺序,使用中间词和VN中的预设领域训练字符及预设领域训练字符的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本VN进行拆分,从而获取拆分词列表L={L1,L2,…,LM,…,LM1},LM是预设领域训练文本集中第M个拆分词,M的取值范围是1到M1,M1是预设领域训练文本集中拆分词的数量;
S040,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表QA={QA1,QA2,…,QAε,…,QAβ},并获取对应的相邻次数列表QB={QB1,QB2,…,QBε,…,QBβ},
QAε是预设领域训练文本集中的第ε个相邻字符组,QBε是第ε个相邻字符组QAε在预设领域训练文本集中的出现次数,ε的取值范围是1到β,β是预设领域训练文本集中的相邻字符组的数量;其中,不同顺序的相邻的拆分词为不同的相邻字符组;
S050,获取QB0=max{QB1,QB2,…,QBε,…,QBβ}和QB0对应的相邻字符组QA0,并将QA0记为待添加词语;
S060,获取基础词列表Q中的基础词的当前数量d01,若d01>预设词表数量阈值d02,将基础词列表作为最终词列表,流程结束;否则,将待添加词语作为基础词添加到基础词列表Q中,从而进行更新基础词列表Q,执行S020;其中,d02>1。
2.根据权利要求1所述的分词方法,其特征在于,还包括:将S060替换为S070:
S070,获取待添加词语的字符数量,若待添加词语的字符数量>预设字符数量阈值,将基础词列表作为最终词列表;否则,将待添加词语作为基础词添加到基础词列表Q中,从而进行更新基础词列表,执行S020。
3.根据权利要求1所述的分词方法,其特征在于,在S060后还包括:基于最终词列表,对预设领域训练文本集进行分词,并将分词后的预设领域训练文本集输入BERT,从而进行实体关系的抽取。
4.根据权利要求1所述的分词方法,其特征在于,所述预设领域训练文本集为目标问题所在领域的文本。
5.根据权利要求4所述的分词方法,其特征在于,所述分词方法还包括如下步骤:
S080,从最终词列表中按照预设筛选规则进行筛选,获取关键词列表;将关键词列表中每一关键词作为目标问题所在领域的关键词。
6.根据权利要求5所述的分词方法,其特征在于,从最终词列表中按照预设筛选规则进行筛选包括:从最终词列表中基于最终词在预设领域训练文本集中的出现次数进行筛选。
7.根据权利要求5所述的分词方法,其特征在于,从最终词列表中按照预设筛选规则进行筛选包括:从最终词列表中基于最终词的词性进行筛选。
8.一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的分词方法。
9.一种电子设备,其特征在于,包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311323994.6A CN117057347B (zh) | 2023-10-13 | 2023-10-13 | 一种分词方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311323994.6A CN117057347B (zh) | 2023-10-13 | 2023-10-13 | 一种分词方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117057347A CN117057347A (zh) | 2023-11-14 |
CN117057347B true CN117057347B (zh) | 2024-01-19 |
Family
ID=88666744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311323994.6A Active CN117057347B (zh) | 2023-10-13 | 2023-10-13 | 一种分词方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117057347B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991182A (zh) * | 2019-12-03 | 2020-04-10 | 东软集团股份有限公司 | 用于专业领域的分词方法、装置、存储介质及电子设备 |
CN111814466A (zh) * | 2020-06-24 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
CN116069174A (zh) * | 2023-02-21 | 2023-05-05 | 中航信移动科技有限公司 | 一种输入联想方法、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200342172A1 (en) * | 2019-04-26 | 2020-10-29 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for tagging text based on adversarial learning |
-
2023
- 2023-10-13 CN CN202311323994.6A patent/CN117057347B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991182A (zh) * | 2019-12-03 | 2020-04-10 | 东软集团股份有限公司 | 用于专业领域的分词方法、装置、存储介质及电子设备 |
CN111814466A (zh) * | 2020-06-24 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
CN116069174A (zh) * | 2023-02-21 | 2023-05-05 | 中航信移动科技有限公司 | 一种输入联想方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117057347A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN107273355B (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
Lhoussain et al. | Adaptating the levenshtein distance to contextual spelling correction | |
CN101133411B (zh) | 非罗马字符的容错罗马化输入方法 | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
US10795878B2 (en) | System and method for identifying answer key problems in a natural language question and answering system | |
US11151202B2 (en) | Exploiting answer key modification history for training a question and answering system | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112434520A (zh) | 命名实体识别方法、装置及可读存储介质 | |
CN111626041A (zh) | 一种基于深度学习的音乐评论生成方法 | |
CN114722833A (zh) | 一种语义分类方法及装置 | |
CN112446217B (zh) | 情感分析方法、装置及电子设备 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN117057347B (zh) | 一种分词方法、电子设备及存储介质 | |
CN112784536B (zh) | 数学应用题解答模型的处理方法、系统和存储介质 | |
CN113886521A (zh) | 一种基于相似词汇表的文本关系自动标注方法 | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
CN114328848B (zh) | 文本处理方法及装置 | |
Medina Herrera et al. | Semi-supervised learning for disabilities detection on English and Spanish biomedical text | |
CN114676684B (zh) | 一种文本纠错方法、装置、计算机设备及存储介质 | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 | |
CN115905500B (zh) | 问答对数据的生成方法及装置 | |
Udagedara et al. | Language model-based spell-checker for sri lankan names and addresses | |
CN113326694B (zh) | 基于情感传播的隐式情感词典生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |