CN111985208A - 一种实现标点符号填充的方法、装置及设备 - Google Patents
一种实现标点符号填充的方法、装置及设备 Download PDFInfo
- Publication number
- CN111985208A CN111985208A CN202010830788.4A CN202010830788A CN111985208A CN 111985208 A CN111985208 A CN 111985208A CN 202010830788 A CN202010830788 A CN 202010830788A CN 111985208 A CN111985208 A CN 111985208A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- clause
- label value
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013145 classification model Methods 0.000 claims abstract description 162
- 238000012549 training Methods 0.000 claims description 132
- 230000015654 memory Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 206010008479 Chest Pain Diseases 0.000 description 27
- 230000001788 irregular Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 208000002193 Pain Diseases 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 208000002151 Pleural effusion Diseases 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种实现标点符号填充的方法、装置及设备,该方法包括:先将目标文本输入文本分类模型,获得目标文本对应的标签值;进而根据各个目标文本对应的标签值,在原始文本中确定应添加标点符号的位置;之后根据原始文本中确定应添加标点符号的位置,将原始文本划分为至少一个目标分句;最后,将目标分句输入实体识别模型,获得目标分句之后的标点符号。本申请实施例提供的标点符号填充的方法先确定添加标点符号的位置,再确定对应位置上填充的标点符号,可以实现对于原始文本的标点符号的填充,得到具有正确的标点符号的文本。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种实现标点符号填充的方法、装置及设备。
背景技术
在文本生成的过程中,为了明确文本所表示的语义,通常会在文本中加入标点符号进行文本的断句。
目前,文本中可能存在着部分标点符号使用错误,导致文本的语义错误,或者是文本中不存在标点符号,无法准确地确定文本的语义的问题。错误的或者是缺失的标点符号会导致文本所表示语义不准确,需要在文本中确定正确的标点符号。
发明内容
有鉴于此,本申请实施例提供一种实现标点符号填充的方法、装置及设备,能够较为准确地确定文本中的标点符号。
为解决上述问题,本申请实施例提供的技术方案如下:
一种实现标点符号填充的方法,所述方法包括:
将目标文本输入文本分类模型,获得所述目标文本对应的标签值;所述目标文本为待识别文本的首个字符,或者为上一次输入所述文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合;所述待识别文本是原始文本,或者所述待识别文本在初始时是原始文本,在符合预设条件时为所述原始文本的一部分;所述原始文本不包含标点符号;所述目标文本对应的标签值表征所述目标文本包括的连续完整分句的数量;
根据各个所述目标文本对应的标签值,在所述原始文本中确定应添加标点符号的位置;
根据所述原始文本中确定应添加标点符号的位置将所述原始文本划分为至少一个目标分句;
将所述目标分句输入实体识别模型,获得所述目标分句之后的标点符号;所述实体识别模型是根据待训练分句以及所述待训练分句对应的标点符号训练生成的。
在一种可能的实现方式中,所述方法还包括:
获取第一训练数据,所述第一训练数据包括第一训练文本以及所述第一训练文本对应的标签值,所述第一训练文本对应的标签值表征所述第一训练文本包括的连续完整分句的数量;
利用所述第一训练数据训练生成文本分类模型。
在一种可能的实现方式中,所述获取第一训练数据,包括:
获取语料文本中的待训练分句,所述待训练分句对应的标签值为1;
在所述待训练分句之后随机添加与所述待训练分句相连且在下一待训练分句中的至少一个连续字符,生成第一文本,所述第一文本对应的标签值为1;
在所述待训练分句的句尾随机减少至少一个连续字符,生成第二文本,所述第二文本对应的标签值为0;
将多个连续的所述待训练分句进行组合得到第三文本,所述第三文本对应的标签值为包括的所述待训练分句的数量;
在所述第三文本之后随机添加与所述第三文本相连且在下一待训练分句中的至少一个连续字符,生成第四文本,所述第四文本对应的标签值与对应的第三文本的标签值相同;
将所述待训练分句、所述第一文本、所述第二文本、所述第三文本以及所述第四文本组成第一训练文本,将所述第一训练文本以及所述第一训练文本对应的标签值作为第一训练数据。
在一种可能的实现方式中,所述将目标文本输入文本分类模型,获得所述目标文本对应的标签值,包括:
将原始文本作为待识别文本;
将所述待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值;
将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值;
返回执行所述将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值,直到所述待识别文本作为目标文本输入所述文本分类模型。
在一种可能的实现方式中,所述将目标文本输入文本分类模型,获得所述目标文本对应的标签值,包括:
将原始文本作为待识别文本;
将所述待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值;
将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值;
返回执行所述将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值,直到所述待识别文本作为目标文本输入所述文本分类模型,或者,所述目标文本对应的标签值达到第一取值;
如果所述目标文本对应的标签值达到第一取值,将最后一次所述标签值由第二取值转换为第三取值时对应的目标文本确定为待处理文本;所述第一取值比所述第三取值多1,所述第三取值比所述第二取值多1,所述第一取值为大于或等于2的整数;
从所述待识别文本中去除所述待处理文本后重新作为所述待识别文本,返回执行所述将待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值以及后续步骤。
在一种可能的实现方式中,所述根据各个所述目标文本对应的标签值,在所述原始文本中确定应添加标点符号的位置,包括:
在各个所述目标文本对应的标签值中,如果任一所述目标文本对应的标签值为最后一次从该标签值的前一数值转换为该标签值,则将该目标文本之后确定为在所述原始文本中应添加标点符号的位置。
在一种可能的实现方式中,将所述目标分句输入实体识别模型,获得所述目标分句之后的标点符号,包括:
将所述目标分句以及空格字符输入实体识别模型,获得所述实体识别模型输出的所述目标分句中的每个字符以及所述空格字符对应的实体类别标签;
将所述空格字符对应的实体类别标签确定为所述目标分句之后的标点符号。
在一种可能的实现方式中,所述方法还包括:
获取语料文本中的待训练分句以及所述待训练分句对应的标点符号;
将非实体类别添加为所述待训练分句中的每个字符对应的实体类别标签;
将所述待训练分句对应的标点符号添加为所述待训练分句之后的空格字符对应的实体类别标签;
将所述待训练分句中的每个字符以及所述待训练分句之后的空格字符组成第二训练文本,将所述第二训练文本以及所述第二训练文本对应的实体类别标签作为第二训练数据;
利用所述第二训练数据训练生成实体识别模型。
一种实现标点符号填充的装置,所述装置包括:
获取单元,用于将目标文本输入文本分类模型,获得所述目标文本对应的标签值;所述目标文本为待识别文本的首个字符,或者为上一次输入所述文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合;所述待识别文本是原始文本,或者所述待识别文本在初始时是原始文本,在符合预设条件时为所述原始文本的一部分;所述原始文本不包含标点符号;所述目标文本对应的标签值表征所述目标文本包括的连续完整分句的数量;
位置确定单元,用于根据各个所述目标文本对应的标签值,在所述原始文本中确定应添加标点符号的位置;
划分单元,用于根据所述原始文本中确定应添加标点符号的位置将所述原始文本划分为至少一个目标分句;
标点确定单元,用于将所述目标分句输入实体识别模型,获得所述目标分句之后的标点符号;所述实体识别模型是根据待训练分句以及所述待训练分句对应的标点符号训练生成的。
一种实现标点符号填充的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的实现标点符号填充的方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的实现标点符号填充的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的实现标点符号填充的方法中,先将目标文本输入文本分类模型,获得目标文本对应的标签值;其中,目标文本为待识别文本的首个字符,或者为上一次输入文本分类模型的目标文本以及上一次输入文本分类模型的目标文本之后一个字符的组合;待识别文本是原始文本或者是在符合预设条件时为原始文本的一部分,原始文本中不包含标点符号;目标文本对应的标签值用于表征目标文本包括的连续完整分句的数量;进而根据各个目标文本对应的标签值,在原始文本中确定应添加标点符号的位置;之后根据原始文本中确定应添加标点符号的位置,将原始文本划分为至少一个目标分句;最后,将目标分句输入实体识别模型,获得目标分句之后的标点符号,其中,实体识别模型是根据待训练分句以及待训练分句对应的标点符号训练生成的。本申请实施例提供的标点符号填充的方法先通过文本分类模型,确定目标文本中添加标点符号的位置;再根据添加标点符号的位置将原始文本划分为多个目标分句,并通过实体识别模型确定目标分句中的标点符号。通过先确定添加标点符号的位置,再确定对应位置上填充的标点符号,可以实现对于原始文本的标点符号的填充,得到具有正确标点符号的文本。
附图说明
图1为本申请实施例提供的实现标点符号填充的方法的示例性应用场景的框架示意图;
图2为本申请实施例提供的一种实现标点符号填充的方法的流程图;
图3为本申请实施例提供的一种文本分类模型的示意图;
图4为本申请实施例提供的一种实现标点符号填充的方法的流程图;
图5为本申请实施例提供的另一种实现标点符号填充的方法的流程图;
图6为本申请实施例提供的一种实体识别模型的示意图;
图7为本申请实施例提供的一种实现标点符号填充的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人对文本中的标点符号进行研究后发现,部分文本中的标点符号是人为主观添加的,添加标点符号的规则并不统一,使得文本的质量层次不齐,难以保证文本质量的统一。例如,医生在诊断病人时会撰写病历文本,而病历文本中的标点符号是医生根据自身的书写习惯进行添加的。各个医生之间的书写习惯不同,使得病历文本中的标点符号的添加方法不同,部分标点符号的使用并不规范,各个病历文本的质量并不能统一,不能直接从病历文本中准确地获取相关信息。
基于此,本申请实施例提供了一种实现标点符号填充的方法,该方法包括:先将目标文本输入文本分类模型,获得目标文本对应的标签值;目标文本为待识别文本的首个字符,或者为上一次输入文本分类模型的目标文本以及上一次输入文本分类模型的目标文本之后一个字符的组合;其中,待识别文本是原始文本或者是在符合预设条件时为原始文本的一部分,原始文本中不包含标点符号;目标文本对应的标签值用于表征目标文本包括的连续完整分句的数量;再根据各个目标文本对应的标签值,在原始文本中确定应添加标点符号的位置;之后根据原始文本中确定应添加标点符号的位置,将原始文本划分为至少一个目标分句;最后,将目标分句输入实体识别模型,获得目标分句之后的标点符号,其中,实体识别模型是根据待训练分句以及待训练分句对应的标点符号训练生成的。
为了便于理解本申请实施例提供的实现标点符号填充的方法,下面先结合图1对本申请实施例提供的实现标点符号填充的方法的应用场景进行说明。其中,图1为本申请实施例提供的实现标点符号填充的方法的示例性应用场景的框架示意图。
如图1所示,在实际应用中,先根据原始文本“停用止痛药CT示无胸腔积液”确定待识别文本“停用止痛药CT示无胸腔积液”,再将待识别文本的首个字符“停”作为目标文本输入至文本分类模型中,得到对应的标签值0。之后按照字符顺序依次增加输入的目标文本的字符,得到对应的标签值。根据各个目标文本的标签值对原始文本进行划分,得到目标分句“停用止痛药”和“CT示无胸腔积液”。将得到的目标分句分别输入至实体识别模型中,得到实体识别模型输出的对应的标点符号“,”和“。”。根据实体识别模型输出的标点符号,对“停用止痛药CT示无胸腔积液”中的对应位置进行标点符号的填充,得到的填充后的文本为“停用止痛药,CT示无胸腔积液。”。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
为便于理解本申请实施例提供的技术方案,下面将结合附图对本申请实施例提供的实现标点符号填充的方法进行说明。
参见图2,该图为本申请实施例提供的一种实现标点符号填充的方法的流程图,如图2所示,该方法可以包括S201-S204:
S201:将目标文本输入文本分类模型,获得目标文本对应的标签值;目标文本为待识别文本的首个字符,或者为上一次输入文本分类模型的目标文本以及上一次输入文本分类模型的目标文本之后一个字符的组合;待识别文本是原始文本,或者待识别文本在初始时是原始文本,在符合预设条件时为原始文本的一部分;原始文本不包含标点符号;目标文本对应的标签值表征目标文本包括的连续完整分句的数量。
在进行标点符号填充之前,先要获取需要进行标点符号填充的文本,也就是原始文本。可以理解的是,为了对原始文本进行较为准确的标点符号的填充,避免已具有的标点符号对于标点符号填充的影响,原始文本中不包括标点符号。原始文本可以是通过不具有标点符号的文本得到的,也可以是通过将具有标点符号的文本中的标点符号删除后得到的。
在获取到原始文本之后,需要通过文本分类模型确定标签值。当原始文本的内容较少时,可以将原始文本作为待识别文本。当原始文本的内容较多或者是为了提高文本分类模型确定目标文本对应的标签值的效率,可以在初始将原始文本作为待识别文本,在符合预设条件时对原始文本进行一定的划分处理,将一部分的原始文本作为待识别文本。
对应于上述两种不同的待识别文本,本申请实施例提供了S201的两种实施方式,具体请参见下文具体实施方式。
确定待识别文本之后,通过文本分类模型获取待识别文本对应的目标文本的标签值。其中,目标文本是待识别文本中输入文本分类模型的文本。当待识别文本是首次需要输入文本分类模型中时,目标文本为待识别文本的首个字符。之后在进行文本分类模型的输入时,将上一次输入的目标文本与上一次输入的目标文本之后的一个字符组合成为本次输入的目标文本。通过依次增加一个字符得到输入的目标文本,能够实现文本分类模型对待识别文本对应的所有目标文本的标签值的确定,提高了填充标点符号的准确性。
例如,当待识别文本为“停用止痛药胸部CT示无胸腔积液”时,首次输入至文本识别模型中的目标文本为“停”。在得到首次输入的“停”对应的标签值后,第二次输入至文本识别模型中的目标文本为“停用”,第三次输入至文本识别模型中的目标文本为“停用止”,并以此类推,进行目标文本的输入。
目标文本中可能包含着连续完整的分句,标签值是用于表示目标文本中包括的连续完整的分句的数量。标签值与目标文本中包含的连续完整分句的数量相对应,通过标签值可以确定目标文本中具有的连续完整分句的数量,可以根据标签值进一步确定添加标点符号的位置。
仍以上述待识别文本为例,若“停用止痛药”为连续完整分句,当目标文本为“停用止”输入至文本分类模型中时,目标文本中包含的连续完整分句为0句,输出的标签值为0。在当目标文本为“停用止痛药胸部CT”时,“停用止痛药胸部CT”中包含的连续完整分句为1句,文本分类模型输出的标签值为1。
本申请实施例还提供了一种训练文本分类模型的方法,可以参见下文具体实施方式。
S202:根据各个目标文本对应的标签值,在原始文本中确定应添加标点符号的位置。
在将目标文本输入至文本分类模型后,得到目标文本对应的标签值。根据标签值所表征的目标文本所包括的连续完整分句的数量的变化,可以确定需要添加标点符号的位置。
具体的,根据各个目标文本对应的标签值,在原始文本中确定应添加标点符号的位置,包括:
在各个目标文本对应的标签值中,如果任一目标文本对应的标签值为最后一次从该标签值的前一数值转换为该标签值,则将该目标文本之后确定为在原始文本中应添加标点符号的位置。
获取各个目标文本对应的标签值,当目标文本对应的标签值的数值发生变化时,目标文本中的连续完整分句的数量发生了变化。可以根据标签值的变化情况进行添加标点符号的位置的确定。
但是,目标文本中具有的部分字符或者是词汇可能会对目标文本对应的标签值的变化产生影响。一些能够形成一个连续完整分句的词汇或者是字符需要基于后续字符的增加进行是否是连续完整分句的确定。对于同一个标签值,在最后一次发生变化时,也就是当任意一个目标文本对应的标签值最后一次从前一个标签值转换为该标签值时,将该目标文本之后确定为添加标点符号的位置。
例如,待识别文本为“今日查房患者诉近期胸痛”。输入的目标文本为“今”,对应的标签值为0。后续输入的目标文本为“今日”,由于“今日”是可以组成一个连续完整分句的词汇,对应的标签值为1。但是,“今日”也可以与后续的字符组成连续完整分句,需要根据后续输入的目标文本确定“今日”之后是否是添加标点符号的位置。之后输入的目标文本为“今日查”,显然“今日”是与后续的字符可以共同组成连续完整分句的,对应的“今日查”的标签值为0。输入“今日查房”后,对应的标签值为1,后续输入“今日查房患”对应的标签值为1。直到后续输入“今日查房患者诉近期胸痛”,对应的标签值为2,此时不会出现标签值为0对应的目标文本。最后一次出现标签值从0转换为1时,对应的目标文本“今日查房”之后可以确定为应当添加标点符号的位置。
通过标签值最后一次的转换情况确定目标文本之后为需要添加标点符号的位置,使得得到的添加标点符号的位置更加准确。由此,不会由于部分特殊词汇或者是字符对确定标点符号的位置造成影响,提高了确定标点符号的位置的准确程度。
S203:根据原始文本中确定应添加标点符号的位置将原始文本划分为至少一个目标分句。
原始文本中确定应当添加标点符号的位置是需要在对应的位置上添加标点符号的位置。对应的,根据需要添加标点符号的位置将原始文本进行分句的划分。
将原始文本划分得到至少一个目标分句,目标分句的数量是由原始文本中确定的添加标点符号的位置的数量确定的。得到的目标分句用于输入至实体识别模型中确定所要添加的标点符号。
S204:将目标分句输入实体识别模型,获得目标分句之后的标点符号;实体识别模型是根据待训练分句以及待训练分句对应的标点符号训练生成的。
将目标分句输入至实体识别模型中,得到实体识别模型输出的目标分句之后的标点符号。通过实体识别模型可以确定目标分句之后对应的标点符号,将实体识别模型输出的目标分句对应的标点符号填充至目标分句之后,就可以得到标点符号填充后的文本。
其中,实体识别模型是用于确定目标分句对应的标点符号的,实体识别模型是根据待训练分句以及待训练分句对应的标点符号训练生成的。
本申请实施例提供了一种训练实体识别模型的方法,具体请参见下文。
基于上述S201-S204的相关内容可知,通过将目标文本输入至文本分类模型中,可以确定目标文本对应的标签值。再根据目标文本的标签值,在原始文本中确定需要添加标点符号的位置,并进行原始文本的划分。利用划分后的目标分句输入至实体识别模型中,可以确定目标分句之后的标点符号。通过文本分类模型可以确定需要添加标点符号的位置,通过实体识别模型确定添加的标点符号,如此可以较为准确地对文本进行标点符号的填充,得到具有正确的标点符号的文本。
在获取目标文本对应的标签值之前,先需要训练得到文本分类模型。在一种可能的实现方式中,还可以包括以下两个步骤:
A1:获取第一训练数据,第一训练数据包括第一训练文本以及第一训练文本对应的标签值,第一训练文本对应的标签值表征第一训练文本包括的连续完整分句的数量。
获取用于进行训练文本分类模型的第一训练数据。第一训练数据中包括第一训练文本以及第一训练文本对应的标签值,需要说明的是,第一训练数据中不具有标点符号。
第一训练文本对应的标签值可以表征第一训练文本中包括的连续完整分句的数量。连续完整分句是指第一训练文本中具有连续上下文联系的完整的分句。第一训练文本对应的标签值可以是根据第一训练文本中原始具有的连续完整分句的数量决定的。
A2:利用第一训练数据训练生成文本分类模型。
利用获取得到的第一训练数据进行文本分类模型的训练。
在一种可能的实现方式中,文本分类模型中可以包括特征提取模型和分类模型两个部分。特征提取模型可以为bert模型,通过特征提取模型先对第一训练数据中的第一训练文本进行特征提取,进而利用提取到的特征以及第一训练文本对应的标签值训练分类模型。分类模型具体可以由Bi-LSTM(Bidirectional Long Short-Term Memory,双向长短期记忆网络)构成。
需要说明的是,在利用文本分类模型确定目标文本对应的标签值时,先利用文本分类模型中的特征提取模型对目标文本进行特征提取,再将提取到的目标文本的特征输入至分类模型中,得到文本分类模型输出的目标文本的标签值。参见图3,图3为本申请实施例提供的一种文本分类模型的示意图。将目标文本“今日查房”输入至bert模型中,输出与“今日查房”中各个字符分别对应的特征向量W1、W2、W3和W4。通过bert模型先提取目标文本的字符与上下文相关的特征向量,增强了目标文本中各个字符之间的关联程度的特征。将bert模型提取的特征向量W1、W2、W3和W4输入至Bi-LSTM层,得到输出的标签值1。
先通过bert模型提取特征向量,再根据提取到的特征向量进行分类,可以提高文本分类模型的准确度,使得输出的标签值更加准确,进而使得确定的需要添加标点符号的位置更加准确。
在本申请实施例中,通过第一训练数据中的第一训练文本以及第一训练文本对应的标签值,可以训练生成用于确定目标文本的标签值的文本分类模型。如此可以使得确定的目标文本对应的标签值更加准确,进而提高确定的标点符号填充位置的准确度。
具体的,第一训练数据中可以包括对应于不同的标签值的文本,获取第一训练数据,包括以下六个步骤:
B1:获取语料文本中的待训练分句,待训练分句对应的标签值为1。
语料文本中具有多个待训练分句,待训练分句可以是将具有标准的标点符号的文本进行划分得到的。
其中,每个待训练分句均为一个完整的分句,待训练分句对应的标签值为1,并且在语料文本中具有与该待训练分句相连续的其他待训练分句。通过对待训练分句以及对待训练分句相连接的其他待训练分句进行处理,可以得到不同标签值的文本,使得训练得到的文本分类模型对于标签值确定的准确度更高。
作为示例,语料文本中具有的三个待训练分句为“患者诉近期偶有胸痛”、“无规律”和“程度较轻”。以上三个待训练分句均为完整的分句,对应的标签值均为1。其中,“患者诉近期偶有胸痛”和“无规律”是连续的,“无规律”和“程度较轻”是连续的。
B2:在待训练分句之后随机添加与待训练分句相连且在下一待训练分句中的至少一个连续字符,生成第一文本,第一文本对应的标签值为1。
在一种可能的情况中,需要确定的目标文本可能是由一个完整的分句和后续完整分句中的部分字符组成的。
对应的,可以选取一个任意的待训练分句,将待训练分句之后随机添加与该待训练分句相连的下一待训练分句的至少一个连续字符,得到第一文本。
例如,选取待训练分句为“无规律”,对应的相连的下一待训练分句为“程度较轻”。在“无规律”后添加“程度较轻”中的至少一个连续字符,可以得到“无规律程”或者“无规律程度”或者“无规律程度较”,对应的标签值为1。
需要说明的是,第一文本是由一个完整的分句和连续的部分字符组成的,待训练分句之后添加的是相连的下一待训练分句中的部分连续字符,并非是全部的下一待训练分句。得到的第一文本中仅具有待训练分句一个连续完整的分句,第一文本对应的标签值为1。
B3:在待训练分句的句尾随机减少至少一个连续字符,生成第二文本,第二文本对应的标签值为0。
在另一种可能的情况下,目标文本可能是不足一个连续完整分句的文本。对应的,将待训练分句从句尾开始随机减少至少一个字符,将得到的剩余的待训练分句的文本作为第二文本。并且为了保证第二文本具有字符,待训练分句从句尾随机减少的字符的数量应当小于待训练分句中字符的数量。
由于第二文本不是具有完整的分句的文本,第二文本对应的标签值为0。
仍以上述待训练分句为“无规律”为例,对“无规律”从句尾随机减少至少一个字符,可以得到“无规”或者“无”,对应的标签值为0。
B4:将多个连续的待训练分句进行组合得到第三文本,第三文本对应的标签值为包括的待训练分句的数量。
另外,目标文本还可能是由多个连续完整分句组成的文本。在训练文本分类模型之前,可以将多个连续的待训练分句进行组合得到第三文本。第三文本中具有多个连续完整的分句,第三文本的标签值与第三文本中具有的待训练分句的数量相对应。
以待训练分句“无规律”和连续的待训练分句“程度较轻”为例,组合得到的第三文本为“无规律程度较轻”,对应的标签值为2。
B5:在第三文本之后随机添加与第三文本相连且在下一待训练分句中的至少一个连续字符,生成第四文本,第四文本对应的标签值与对应的第三文本的标签值相同。
此外,目标文本还可能是多个连续完整的分句与后续字符的组合。在得到第三文本的基础上,在第三文本后随机添加与第三文本相连并且在下一待训练分句中的至少一个连续字符,得到第四文本。需要说明的是,在第三文本后添加的连续字符的数量小于第三文本相连的待训练分句中字符的数量。
第四文本是第三文本添加后续的字符得到的,第四文本中具有的连续完整分句的数量与第三文本中的分句的数量相同,第四文本的标签值与第三文本的标签值相同。
需要说明的是,本申请实施例不限定B2、B3、B4各步骤之间的执行顺序,而B5步骤在B4步骤之后执行。
B6:将待训练分句、第一文本、第二文本、第三文本以及第四文本组成第一训练文本,将第一训练文本以及第一训练文本对应的标签值作为第一训练数据。
将得到的待训练分句、第一文本、第二文本、第三文本和第四文本组成第一训练文本。本申请实施例中不限定第一训练文本中各类文本所占比例,可以根据文本分类模型的训练需要进行设置。
将第一训练文本与第一训练文本对应的标签值作为第一训练数据,用于训练生成文本分类模型。
在本申请实施例中,通过对待训练分句进行对应的字符添加、减少或者是组合,可以得到多种情况对应的文本。基于得到的文本和待训练分句生成第一训练文本,并与对应的标签值组成第一训练数据。通过第一训练数据训练生成的文本分类模型可以确定多种文本对应的标签值,得到的目标文本的标签值更加准确。
基于上述S201的相关内容可知,待识别文本可以为原始文本,或者在初始是原始文本,在符合预设条件时对原始文本进行一定的划分处理,将原始文本的一部分作为待识别文本。以下针对于两种不同的待识别文本,进行对应的将目标文本输入文本分类模型,获得目标文本对应的标签值的实现方法的说明。
在一种可能的实现方式中,原始文本为待识别文本,将目标文本输入文本分类模型,获得目标文本对应的标签值,参见图4,该图为本申请实施例提供的一种实现标点符号填充的方法的流程图,包括S401-S404:
S401:将原始文本作为待识别文本。
将原始文本作为待识别文本,直接对原始文本进行处理。
例如,原始文本为“今日查房患者诉近期偶有胸痛无规律程度较轻”,待识别文本为“今日查房患者诉近期偶有胸痛无规律程度较轻”。
S402:将待识别文本的首个字符作为目标文本输入文本分类模型,获得目标文本对应的标签值。
将待识别文本的首个字符作为目标文本输入文本分类模型中,得到首个字符作为目标文本时对应的标签值。
仍以上述待识别文本为例,将“今”作为目标文本输入至文本分类模型中,输出“今”对应的标签值。
S403:将上一次输入文本分类模型的目标文本以及上一次输入文本分类模型的目标文本之后一个字符的组合作为目标文本输入文本分类模型,获得目标文本对应的标签值。
将上一次输入文本分类模型的目标文本与后续的一个字符进行组合,得到本次输入文本分类模型的目标文本。将本次确定的目标文本输入至文本分类模型中,得到对应的标签值。
例如,将上一次输入的目标文本“今”与后续的“日”进行组合,得到“今日”作为本次的目标文本,输入至文本分类模型中,得到对应的标签值。
S404:返回执行将上一次输入文本分类模型的目标文本以及上一次输入文本分类模型的目标文本之后一个字符的组合作为目标文本输入文本分类模型,获得目标文本对应的标签值,直到待识别文本作为目标文本输入文本分类模型。
返回执行将上一次输入的目标文本与之后一个字符进行组合,得到本次输入文本分类模型的目标文本,继续输入至文本分类模型中,得到对应的标签值。并继续返回执行与后续字符进行组合的步骤,直到待识别文本作为目标文本输入至文本分类模型中,得到待识别文本作为目标文本对应的标签值。如此可以得到待识别文本对应的全部目标文本的标签值,以便后续根据目标文本的标签值的转换情况对原始文本进行划分。
在本申请实施例中,通过将原始文本作为待识别文本,将目标文本中具有的字符逐渐增加,输入至文本分类模型中。可以确定各个目标文本的标签值,以便后续根据标签值确定原始文本中需要添加标点符号的位置。
对应的,当原始文本作为待识别文本时,目标文本的标签值会随着目标文本中包含的连续完整分句的数量依次增加。
在原始文本作为待识别文本时,根据各个目标文本对应的标签值,在原始文本中确定应添加标点符号的位置,包括:
在各个目标文本对应的标签值中,如果任一目标文本对应的标签值为最后一次从该标签值的前一数值转换为该标签值,则将该目标文本之后确定为在原始文本中应添加标点符号的位置。
原始文本为待识别文本时,对应的目标文本中具有的连续完整的分句的数量可能较多。以上述待识别文本为“今日查房患者诉近期偶有胸痛无规律”为例。从待识别文本的首个字符作为目标文本输入至文本分类模型中开始,直到待识别文本作为目标文本输入文本分类模型,目标文本对应的标签值转换情况如表1所示:
目标文本 | 标签值 |
今 | 0 |
今日 | 1 |
今日查 | 0 |
今日查房 | 1 |
今日查房患 | 1 |
今日查房患者 | 1 |
…… | 1 |
今日查房患者诉近期偶有胸 | 1 |
今日查房患者诉近期偶有胸痛 | 2 |
今日查房患者诉近期偶有胸痛无 | 2 |
今日查房患者诉近期偶有胸痛无规 | 2 |
今日查房患者诉近期偶有胸痛无规律 | 3 |
表1
其中,“今日查房”为最后一次标签值从0转换为1的目标文本,在“今日查房”之后确定为在原始文本中应添加标点符号的位置。相同的,“今日查房患者诉近期偶有胸痛”是最后一次标签值从1转换为2的目标文本,在“今日查房患者诉近期偶有胸痛”之后确定为原始文本中应添加标点符号的位置。最后,“今日查房患者诉近期偶有胸痛无规律”是最后一次标签值由2转换为3的目标文本,对应的,在之后添加标点符号的位置。
在本申请实施例中,待识别文本是原始文本,在确定标签值的过程中不会发生变化。直到目标文本作为待识别文本输入文本分类模型之后,可以得到全部的目标文本的标签值的转换情况,再根据转换情况确定每个标签值的数值最后一次转换对应的目标文本,进而确定添加标点符号的位置,提高了确定标点符号的位置的准确程度。
而当原始文本中具有的连续完整的分句数量较多时,标签值的数值可能较大,标签值的数量较多,不便于确定添加标点符号的位置。并且每次都将可以确定原始文本中标点符号添加位置的目标文本与后续字符组合,输入至文本分类模型中,影响文本分类模型的确定效率,会降低确定目标文本的标签值的速度。
基于此,本申请实施例还提供了另一种S201的实现方法,参见图5,该图为本申请实施例提供的另一种实现标点符号填充的方法的流程图,包括S501-S506:
其中,S501-S503与上述S401-S403类似,在此不再赘述。
S504:返回执行将上一次输入文本分类模型的目标文本以及上一次输入文本分类模型的目标文本之后一个字符的组合作为目标文本输入文本分类模型,获得目标文本对应的标签值,直到待识别文本作为目标文本输入文本分类模型,或者,目标文本对应的标签值达到第一取值。
返回执行将上一次输入的目标文本与之后一个字符进行组合,得到本次输入文本分类模型的目标文本,继续输入至文本分类模型中得到对应的标签值,并继续返回执行与后续字符进行组合的步骤。直到待识别文本作为目标文本输入至文本分类模型中,或者,目标文本对应的标签值达到第一取值时,停止确定本次目标文本。
需要说明的是,标签值达到第一取值时,可以根据对应的目标文本,在原始文本中确定应添加标点符号的位置。此时需要对目标文本和待识别文本进行进一步的处理。
S505:如果目标文本对应的标签值达到第一取值,将最后一次标签值由第二取值转换为第三取值时对应的目标文本确定为待处理文本;第一取值比第三取值多1,第三取值比第二取值多1,第一取值为大于或等于2的整数。
首先需要说明的是,当根据目标文本对应的标签值,在原始文本中确定应添加标点符号的位置时,需要确定不再出现相同的标签值的变换情况。例如,对于标签值0而言,后续出现的标签值1可能是受到较为特殊的字符或者是词汇的影响,之后的标签值可能仍为0。而在出现标签值为2后,标签值最低仅能为1,此时可以确定后续的标签值不会出现0,可以根据标签值最后一次从0转换为1时对应的目标文本,在原始文本中确定添加标点符号的位置。
第一取值为大于或者等于2的整数,第三取值为比第一取值小于1的整数,第二取值为比第三取值小于1的整数。当目标文本对应的标签值达到第一取值时,说明出现了最后一次由第二取值转换为第三取值对应的目标文本。可以根据最后一次由第二取值转换为第三取值对应的目标文本确定原始文本中添加标点符号的位置。将最后一次标签值由第二取值转换为第三取值时对应的目标文本作为待处理文本,对待识别文本中的待处理文本进行对应的处理。
S506:从待识别文本中去除待处理文本后重新作为待识别文本,返回执行将待识别文本的首个字符作为目标文本输入文本分类模型,获得目标文本对应的标签值以及后续步骤。
根据待处理文本可以确定对应的原始文本中添加标点符号的位置,对应的,可以在待识别文本中将待处理文本进行去除。如此可以减少输入至文本分类模型中的目标文本的字符的数量,提高文本分类模型确定目标文本标签值的速度。
将去除待处理文本的待识别文本重新作为待识别文本。此后,需要将重新确定的待识别文本从首个字符开始作为目标文本输入至文本分类模型中,并返回执行待识别文本的首个字符作为目标文本输入,获取目标文本对应的标签值以及后续步骤。
以原始文本为“今日查房患者诉近期偶有胸痛无规律程度较轻”为例。第一取值为2,第三取值为1,第二取值为0。初始的待识别文本为“今日查房患者诉近期偶有胸痛无规律程度较轻”,“今”作为目标文本输入至文本分类模型中,输出“今”对应的标签值0。之后将上一次输入的目标文本“今”与后续的“日”进行组合,得到“今日”作为本次的目标文本,输入至文本分类模型中,得到对应的标签值1。以此类推,得到“今日查”对应的标签值为0,“今日查房”以及后续的目标文本对应的标签值为1。直到得到“今日查房患者诉近期偶有胸痛”对应的标签值2,达到了第一取值。将最后一次由第二取值0转换为第三取值1对应的目标文本“今日查房”作为待处理文本。在待识别文本为“今日查房患者诉近期偶有胸痛无规律程度较轻”中,将“今日查房”去除,得到的待识别文本为“患者诉近期偶有胸痛无规律程度较轻”。此时再将“患”作为目标文本输入至文本分类模型中,获取“患”对应的标签值0,并以此类推执行后续的步骤。
基于上述S501至S506的相关内容可知,通过在目标文本对应的标签值达到第一取值时确定待处理文本,将待处理文本从待识别文本中去除,减少后续需要输入文本分类模型的字符,可以提高确定目标文本对应的标签值的速度。
当待识别文本是需要根据待处理文本进行重新确定时,目标文本的标签值的数值会维持在一定的范围之内。
对应的,根据各个目标文本对应的标签值,在原始文本中确定应添加标点符号的位置,包括:
在各个目标文本对应的标签值中,如果任一目标文本对应的标签值为最后一次从该标签值的前一数值转换为该标签值,则将该目标文本之后确定为在原始文本中应添加标点符号的位置。
仍以上述待识别文本为“今日查房患者诉近期偶有胸痛无规律”为例。从待识别文本的首个字符作为目标文本输入至文本分类模型中开始,直到待识别文本作为目标文本输入文本分类模型,或者,目标文本对应的标签值达到第一取值时,确定待处理文本,并对待识别文本进行对应的处理。目标文本对应的标签值转换情况如表2所示:
表2
其中,在出现“今日查房患者诉近期偶有胸痛”对应的标签值为2时,可以确定“今日查房”为该待识别文本中最后一次标签值从0转换为1的目标文本,在“今日查房”之后确定为在原始文本中应添加标点符号的位置。并且“今日查房”是待处理文本,将“今日查房”从待识别文本中去除。再对重新确定的待识别文本中的目标文本的标签值进行确定,在出现“患者诉近期偶有胸痛无规律”对应的标签值为2时,可以确定“患者诉近期偶有胸痛”为该待识别文本中最后一次标签值从0转换为1的目标文本。并且“患者诉近期偶有胸痛”为待处理文本,从待识别文本中删除。最后,“无规律”对应的标签值1,为最后一次该待识别文本中标签值从0转换为1的目标文本,在“无规律”之后确定为在原始文本中应添加标点符号的位置。
在本申请实施例中,在确定标签值达到第一取值时,可以确定最后一次标签值由第二取值转换为第一取值所对应的目标文本。进而确定原始文本中应添加标点符号的位置。在确定标签值的过程中可以确定原始文本中添加标点符号的位置,减少了输入至文本分类模型的目标文本的字符数量,提高了确定标点符号位置的速度。
在对原始文本进行划分,得到至少一个目标分句后,需要将目标分句输入至实体识别模型,以确定目标分句后的标点符号。
在一种可能的实现方式中,为了便于通过实体识别模型确定标点符号,可以在目标分句后添加空格字符,使得实体识别模型输出对应于空格字符的标点符号。
将目标分句输入实体识别模型,获得目标分句之后的标点符号,可以包括以下两个步骤:
C1:将目标分句以及空格字符输入实体识别模型,获得实体识别模型输出的目标分句中的每个字符以及空格字符对应的实体类别标签。
在一种可能的实现方式中,实体识别模型可以是由embbeding层、BiRNN(Bidirectional Recurrent Neural Network,双向循环神经网络)解码层以及CRF(conditional random field,条件随机场)层组成的。
参见图6,图6为本申请实施例提供的一种实体识别模型的示意图。将目标分句“无规律”以及之后的空格字符输入至实体识别模型中,先通过embbeding层得到字符对应的特征向量V1、V2、V3和V4。在分别将得到的特征向量V1、V2、V3和V4输入至正向循环神经网络和反向循环神经网络中,得到特征向量C1、C2、C3和C4。最后通过CRF层输出识别的标签“O”、“O”、“O”和“。”,其中“O”表示非实体标签,“。”表示实体类别标签。
将目标分句以及目标分句之后的空格字符输入至实体识别模型中,可以得到实体识别模型输出的目标分句中各个字符对应的非实体标签以及空格字符对应的实体类别标签。其中,空格字符是用于表示标点符号所在的位置,以便实体识别模型根据目标分句中的字符确定空格字符对应的实体类别标签。空格字符对应的实体类别标签对应于标点符号,根据实体类别标签可以确定空格字符的位置上所要添加的标点符号。
C2:将空格字符对应的实体类别标签确定为目标分句之后的标点符号。
根据实体识别模型中输出的空格字符对应的实体类别标签,确定目标分句之后确定的标点符号。如此可以实现对于原始文本的标点符号的填充。
在本申请实施例中,通过在目标分句之后添加空格字符,可以使得实体识别模型对空格字符对应的实体类别标签进行识别,得到空格字符的位置对应的标点符号。从而可以确定目标分句之后需要添加的标点符号,实现对于文本的标点符号的填充。
进一步的,本申请实施例提供了一种训练实体识别模型的方法,所述方法还包括以下五个步骤:
D1:获取语料文本中的待训练分句以及待训练分句对应的标点符号。
先从语料文本中获取待训练分句以及待训练分句对应的标点符号。语料文本中的待训练分句具有对应的标准的标点符号。
为了提高实体识别模型识别的准确度,语料文本中可以具有对应不同种类的标点符号的待训练分句。
D2:将非实体类别添加为待训练分句中的每个字符对应的实体类别标签。
实体识别模型是针对空格字符进行实体识别的,为了不干扰训练得到的实体识别模型对于空格字符的实体识别,将待训练分句中的每个字符对应地添加非实体类别的实体类别标签。
例如,语料文本中的待训练分句为“今日查房”,对应的标点符号为“,”。将“今日查房”中的每个字符对应地添加非实体类别的实体类别标签。
在一种可能的实现方式中,可以自动对待训练分句中的每个字符标记非实体类别的实体类别标签,提高对于实体类别标签标记的效率。
D3:将待训练分句对应的标点符号添加为待训练分句之后的空格字符对应的实体类别标签。
相对应的,将待训练分句之后的空格字符添加对应的标点符号的实体类别标签,以便对实体识别模型进行对于空格字符对应的标点符号的实体识别的训练。
以上述“今日查房”为例,“今日查房”之后还具有空格字符,将空格字符标记为对应于“,”的实体类别标签。
D4:将待训练分句中的每个字符以及待训练分句之后的空格字符组成第二训练文本,将第二训练文本以及第二训练文本对应的实体类别标签作为第二训练数据。
将待训练分句中的每个字符以及待训练分句之后的空格字符组成第二训练文本。并将第二训练文本以及对应的实体类别标签作为第二训练数据。通过第二训练数据,可以训练得到针对目标分句之后的空格字符进行实体识别的实体识别模型。
D5:利用第二训练数据训练生成实体识别模型。
利用第二训练数据训练生成实体识别模型,得到用于确定标点符号的实体识别模型。实体识别模型可以根据输入的目标分句确定目标分句之后的空格字符对应的实体类别标签。
需要说明的是,实体识别模型可以是由embbedeing层、BiRNN解码层以及CRF层组成的。
通过语料文本中的待训练分句以及对应的标点符号,可以训练得到用于识别标点符号的实体识别模型。并且通过对字符添加非实体类别的标签,对空格字符添加对应的标点符号的实体类别标签,使得训练得到的实体识别模型对于空格字符对应的标点符号识别更加准确。
基于上述方法实施例提供的实现标点符号填充的方法,本申请实施例还提供了一种实现标点符号填充的装置,下面将结合附图对该实现标点符号填充的装置进行说明。
参见图7,该图为本申请实施例提供的一种实现标点符号填充的装置的结构示意图。如图7所示,该实现标点符号填充的装置包括:
获取单元701,用于将目标文本输入文本分类模型,获得所述目标文本对应的标签值;所述目标文本为待识别文本的首个字符,或者为上一次输入所述文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合;所述待识别文本是原始文本,或者所述待识别文本在初始时是原始文本,在符合预设条件时为所述原始文本的一部分;所述原始文本不包含标点符号;所述目标文本对应的标签值表征所述目标文本包括的连续完整分句的数量;
位置确定单元702,用于根据各个所述目标文本对应的标签值,在所述原始文本中确定应添加标点符号的位置;
划分单元703,用于根据所述原始文本中确定应添加标点符号的位置将所述原始文本划分为至少一个目标分句;
标点确定单元704,用于将所述目标分句输入实体识别模型,获得所述目标分句之后的标点符号;所述实体识别模型是根据待训练分句以及所述待训练分句对应的标点符号训练生成的。
可选的,所述装置还包括:
训练数据获取单元,用于获取第一训练数据,所述第一训练数据包括第一训练文本以及所述第一训练文本对应的标签值,所述第一训练文本对应的标签值表征所述第一训练文本包括的连续完整分句的数量;
第一模型训练单元,用于利用所述第一训练数据训练生成文本分类模型。
可选的,所述训练数据获取单元,包括:
第一获取子单元,用于获取语料文本中的待训练分句,所述待训练分句对应的标签值为1;
第一生成子单元,用于在所述待训练分句之后随机添加与所述待训练分句相连且在下一待训练分句中的至少一个连续字符,生成第一文本,所述第一文本对应的标签值为1;
第二生成子单元,用于在所述待训练分句的句尾随机减少至少一个连续字符,生成第二文本,所述第二文本对应的标签值为0;
第三生成子单元,用于将多个连续的所述待训练分句进行组合得到第三文本,所述第三文本对应的标签值为包括的所述待训练分句的数量;
第四生成子单元,用于在所述第三文本之后随机添加与所述第三文本相连且在下一待训练分句中的至少一个连续字符,生成第四文本,所述第四文本对应的标签值与对应的第三文本的标签值相同;
训练数据生成子单元,用于将所述待训练分句、所述第一文本、所述第二文本、所述第三文本以及所述第四文本组成第一训练文本,将所述第一训练文本以及所述第一训练文本对应的标签值作为第一训练数据。
可选的,所述获取单元701,包括:
第一确认子单元,用于将原始文本作为待识别文本;
第二获取子单元,用于将所述待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值;
第三获取子单元,用于将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值;
第一返回执行子单元,用于返回执行所述将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值,直到所述待识别文本作为目标文本输入所述文本分类模型。
可选的,所述获取单元701,包括:
第二确认子单元,用于将原始文本作为待识别文本;
第四获取子单元,用于将所述待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值;
第五获取子单元,用于将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值;
第二返回执行子单元,用于返回执行所述将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值,直到所述待识别文本作为目标文本输入所述文本分类模型,或者,所述目标文本对应的标签值达到第一取值;
确定子单元,用于如果所述目标文本对应的标签值达到第一取值,将最后一次所述标签值由第二取值转换为第三取值时对应的目标文本确定为待处理文本;所述第一取值比所述第三取值多1,所述第三取值比所述第二取值多1,所述第一取值为大于或等于2的整数;
更新子单元,用于从所述待识别文本中去除所述待处理文本后重新作为所述待识别文本,返回执行所述将待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值以及后续步骤。
可选的,其特征在于,所述位置确定单元702,具体用于在各个所述目标文本对应的标签值中,如果任一所述目标文本对应的标签值为最后一次从该标签值的前一数值转换为该标签值,则将该目标文本之后确定为在所述原始文本中应添加标点符号的位置。
可选的,所述标点确定单元704,包括:
输入子单元,用于将所述目标分句以及空格字符输入实体识别模型,获得所述实体识别模型输出的所述目标分句中的每个字符以及所述空格字符对应的实体类别标签;
标点确定子单元,用于将所述空格字符对应的实体类别标签确定为所述目标分句之后的标点符号。
可选的,所述装置还包括:
语料文本获取单元,用于获取语料文本中的待训练分句以及所述待训练分句对应的标点符号;
第一标签添加单元,用于将非实体类别添加为所述待训练分句中的每个字符对应的实体类别标签;
第二标签添加单元,用于将所述待训练分句对应的标点符号添加为所述待训练分句之后的空格字符对应的实体类别标签;
训练数据生成单元,用于将所述待训练分句中的每个字符以及所述待训练分句之后的空格字符组成第二训练文本,将所述第二训练文本以及所述第二训练文本对应的实体类别标签作为第二训练数据;
第二模型训练单元,用于利用所述第二训练数据训练生成实体识别模型。
另外,本申请实施例还提供了一种实现标点符号填充的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的实现标点符号填充的方法的任一实施方式。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述实施例所述的实现标点符号填充的方法的任一实施方式。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种实现标点符号填充的方法,其特征在于,所述方法包括:
将目标文本输入文本分类模型,获得所述目标文本对应的标签值;所述目标文本为待识别文本的首个字符,或者为上一次输入所述文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合;所述待识别文本是原始文本,或者所述待识别文本在初始时是原始文本,在符合预设条件时为所述原始文本的一部分;所述原始文本不包含标点符号;所述目标文本对应的标签值表征所述目标文本包括的连续完整分句的数量;
根据各个所述目标文本对应的标签值,在所述原始文本中确定应添加标点符号的位置;
根据所述原始文本中确定应添加标点符号的位置将所述原始文本划分为至少一个目标分句;
将所述目标分句输入实体识别模型,获得所述目标分句之后的标点符号;所述实体识别模型是根据待训练分句以及所述待训练分句对应的标点符号训练生成的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一训练数据,所述第一训练数据包括第一训练文本以及所述第一训练文本对应的标签值,所述第一训练文本对应的标签值表征所述第一训练文本包括的连续完整分句的数量;
利用所述第一训练数据训练生成文本分类模型。
3.根据权利要求2所述的方法,其特征在于,所述获取第一训练数据,包括:
获取语料文本中的待训练分句,所述待训练分句对应的标签值为1;
在所述待训练分句之后随机添加与所述待训练分句相连且在下一待训练分句中的至少一个连续字符,生成第一文本,所述第一文本对应的标签值为1;
在所述待训练分句的句尾随机减少至少一个连续字符,生成第二文本,所述第二文本对应的标签值为0;
将多个连续的所述待训练分句进行组合得到第三文本,所述第三文本对应的标签值为包括的所述待训练分句的数量;
在所述第三文本之后随机添加与所述第三文本相连且在下一待训练分句中的至少一个连续字符,生成第四文本,所述第四文本对应的标签值与对应的第三文本的标签值相同;
将所述待训练分句、所述第一文本、所述第二文本、所述第三文本以及所述第四文本组成第一训练文本,将所述第一训练文本以及所述第一训练文本对应的标签值作为第一训练数据。
4.根据权利要求1所述的方法,其特征在于,所述将目标文本输入文本分类模型,获得所述目标文本对应的标签值,包括:
将原始文本作为待识别文本;
将所述待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值;
将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值;
返回执行所述将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值,直到所述待识别文本作为目标文本输入所述文本分类模型。
5.根据权利要求1所述的方法,其特征在于,所述将目标文本输入文本分类模型,获得所述目标文本对应的标签值,包括:
将原始文本作为待识别文本;
将所述待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值;
将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值;
返回执行所述将上一次输入文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合作为目标文本输入所述文本分类模型,获得所述目标文本对应的标签值,直到所述待识别文本作为目标文本输入所述文本分类模型,或者,所述目标文本对应的标签值达到第一取值;
如果所述目标文本对应的标签值达到第一取值,将最后一次所述标签值由第二取值转换为第三取值时对应的目标文本确定为待处理文本;所述第一取值比所述第三取值多1,所述第三取值比所述第二取值多1,所述第一取值为大于或等于2的整数;
从所述待识别文本中去除所述待处理文本后重新作为所述待识别文本,返回执行所述将待识别文本的首个字符作为目标文本输入文本分类模型,获得所述目标文本对应的标签值以及后续步骤。
6.根据权利要求1、4、5任一项所述的方法,其特征在于,所述根据各个所述目标文本对应的标签值,在所述原始文本中确定应添加标点符号的位置,包括:
在各个所述目标文本对应的标签值中,如果任一所述目标文本对应的标签值为最后一次从该标签值的前一数值转换为该标签值,则将该目标文本之后确定为在所述原始文本中应添加标点符号的位置。
7.根据权利要求1所述的方法,其特征在于,将所述目标分句输入实体识别模型,获得所述目标分句之后的标点符号,包括:
将所述目标分句以及空格字符输入实体识别模型,获得所述实体识别模型输出的所述目标分句中的每个字符以及所述空格字符对应的实体类别标签;
将所述空格字符对应的实体类别标签确定为所述目标分句之后的标点符号。
8.一种实现标点符号填充的装置,其特征在于,所述装置包括:
获取单元,用于将目标文本输入文本分类模型,获得所述目标文本对应的标签值;所述目标文本为待识别文本的首个字符,或者为上一次输入所述文本分类模型的目标文本以及上一次输入所述文本分类模型的目标文本之后一个字符的组合;所述待识别文本是原始文本,或者所述待识别文本在初始时是原始文本,在符合预设条件时为所述原始文本的一部分;所述原始文本不包含标点符号;所述目标文本对应的标签值表征所述目标文本包括的连续完整分句的数量;
位置确定单元,用于根据各个所述目标文本对应的标签值,在所述原始文本中确定应添加标点符号的位置;
划分单元,用于根据所述原始文本中确定应添加标点符号的位置将所述原始文本划分为至少一个目标分句;
标点确定单元,用于将所述目标分句输入实体识别模型,获得所述目标分句之后的标点符号;所述实体识别模型是根据待训练分句以及所述待训练分句对应的标点符号训练生成的。
9.一种实现标点符号填充的设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的实现标点符号填充的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-7任一项所述的实现标点符号填充的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010830788.4A CN111985208B (zh) | 2020-08-18 | 2020-08-18 | 一种实现标点符号填充的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010830788.4A CN111985208B (zh) | 2020-08-18 | 2020-08-18 | 一种实现标点符号填充的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985208A true CN111985208A (zh) | 2020-11-24 |
CN111985208B CN111985208B (zh) | 2024-03-26 |
Family
ID=73435742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010830788.4A Active CN111985208B (zh) | 2020-08-18 | 2020-08-18 | 一种实现标点符号填充的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985208B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580299A (zh) * | 2020-12-30 | 2021-03-30 | 讯飞智元信息科技有限公司 | 智能评标方法、评标设备及计算机存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1571980A (zh) * | 2001-10-15 | 2005-01-26 | 西尔弗布鲁克研究有限公司 | 字符串识别 |
CN101751656A (zh) * | 2008-12-22 | 2010-06-23 | 北京大学 | 一种水印嵌入和提取方法及装置 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN103680500A (zh) * | 2012-08-29 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种语音识别的方法和装置 |
CN103971684A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、系统及其语言模型建立方法、装置 |
CN104142915A (zh) * | 2013-05-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
CN106504744A (zh) * | 2016-10-26 | 2017-03-15 | 科大讯飞股份有限公司 | 一种语音处理方法及装置 |
CN107894974A (zh) * | 2017-11-02 | 2018-04-10 | 华南农业大学 | 基于标签路径和文本标点比特征融合的网页正文提取方法 |
CN109858038A (zh) * | 2019-03-01 | 2019-06-07 | 科大讯飞股份有限公司 | 一种文本标点确定方法及装置 |
-
2020
- 2020-08-18 CN CN202010830788.4A patent/CN111985208B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1571980A (zh) * | 2001-10-15 | 2005-01-26 | 西尔弗布鲁克研究有限公司 | 字符串识别 |
CN101751656A (zh) * | 2008-12-22 | 2010-06-23 | 北京大学 | 一种水印嵌入和提取方法及装置 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN103680500A (zh) * | 2012-08-29 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种语音识别的方法和装置 |
CN103971684A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、系统及其语言模型建立方法、装置 |
CN104142915A (zh) * | 2013-05-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
CN106504744A (zh) * | 2016-10-26 | 2017-03-15 | 科大讯飞股份有限公司 | 一种语音处理方法及装置 |
CN107894974A (zh) * | 2017-11-02 | 2018-04-10 | 华南农业大学 | 基于标签路径和文本标点比特征融合的网页正文提取方法 |
CN109858038A (zh) * | 2019-03-01 | 2019-06-07 | 科大讯飞股份有限公司 | 一种文本标点确定方法及装置 |
Non-Patent Citations (6)
Title |
---|
FERNANDO 等: "Bilingual Experiments on Automatic Recovery of Capitalization and Punctuation of Automatic Speech Transcripts", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》, pages 474 - 485 * |
LUKASZ 等: "Punctuation Prediction in Spontaneous Conversations: Can We Mitigate ASR Errors with Retrofitted Word Embeddings?", 《ARXIV》, pages 1 - 6 * |
PIOTR ZELASKO 等: "Punctuation Prediction Model for Conversational Speech", 《ARXIV》, pages 1 - 5 * |
T.LEVY 等: "The Effect of Pitch, Intensity and Pause Duration in Punctuation Detection", 《2012 IEEE 27TH CONVENTION OF ELECTRICAL AND ELECTRONICS ENGINEERS IN ISRAEL》, pages 1 - 4 * |
TIBOR KISS 等: "Unsupervised Multilingual Sentence Boundary Detection", 《COMPUTATIONAL LINGUISTICS》, pages 485 - 525 * |
姜玉璞: "基于CTC的语音识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 136 - 46 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580299A (zh) * | 2020-12-30 | 2021-03-30 | 讯飞智元信息科技有限公司 | 智能评标方法、评标设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111985208B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111949787B (zh) | 基于知识图谱的自动问答方法、装置、设备及存储介质 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
Creutz et al. | Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0 | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
US20180365209A1 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
CN111611775B (zh) | 一种实体识别模型生成方法、实体识别方法及装置、设备 | |
US11232263B2 (en) | Generating summary content using supervised sentential extractive summarization | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN111651986B (zh) | 事件关键词提取方法、装置、设备及介质 | |
US20230076658A1 (en) | Method, apparatus, computer device and storage medium for decoding speech data | |
CN114547274B (zh) | 多轮问答的方法、装置及设备 | |
US11507746B2 (en) | Method and apparatus for generating context information | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112560450A (zh) | 一种文本纠错方法及装置 | |
CN113420122A (zh) | 分析文本的方法、装置、设备及存储介质 | |
US11416678B2 (en) | Question group extraction method, question group extraction device, and recording medium | |
CN111563380A (zh) | 一种命名实体识别方法及其装置 | |
JP7043429B2 (ja) | 医療テキスト中の医療エンティティを識別するための方法、装置およびコンピュータ読取可能な記憶媒体 | |
CN111985208B (zh) | 一种实现标点符号填充的方法、装置及设备 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111104481A (zh) | 一种识别匹配字段的方法、装置及设备 | |
CN113255319B (zh) | 模型训练方法、文本分段方法、摘要抽取方法及装置 | |
CN113850383A (zh) | 文本匹配模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |