CN108932226A - 一种对无标点文本添加标点符号的方法 - Google Patents
一种对无标点文本添加标点符号的方法 Download PDFInfo
- Publication number
- CN108932226A CN108932226A CN201810528685.5A CN201810528685A CN108932226A CN 108932226 A CN108932226 A CN 108932226A CN 201810528685 A CN201810528685 A CN 201810528685A CN 108932226 A CN108932226 A CN 108932226A
- Authority
- CN
- China
- Prior art keywords
- punctuate
- text
- punctuation mark
- sequence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种对无标点文本添加标点符号的方法,其包括:处理获得平行语料;通过神经网络框架训练平行语料,以得到符号添加模型;之后使用符号添加模型为待处理文本添加对应标点。通过本发明,可以简单方便地实现标点符号的添加,并提高标点符号的准确性和广泛适用性。
Description
技术领域
本发明涉及自然语言处理(NLP)及信息处理领域,其具体地说是一种对语音识别后,所识别出来的无标点的文本序列进行符号添加的方法。
背景技术
在现代社会中,自动语音识别(ASR)系统越来越受到重视和应用。ASR能够运用到各个领域和环境中,例如语音助手、智能客服和语音翻译等等。但是目前的ASR系统只能够生成没有标点符号的文本序列,这就导致较长语音的识别后生成的无标点的句子很难被理解,会产生较严重的歧义问题,从而不能够被分析且使用。在一些语音助手、智能客服和语音翻译的使用场景中,纯文字的序列带来巨大的阅读压力和极差的用户体验。具体以语音翻译场景为例,对语音输入的英文进行语音识别并翻译后,此时得到的英文翻译后的中文文本序列,该文本序列没有中文标点符号进行语义的断句,给用户带来阅读上的困难。因此,需要提出一个对无标点文本进行符号标注的的方法,来提高实际生活中相关场景中的文本阅读的可读性和ASR系统的整体易用性。
目前国内外诸多学者在针对该问题提出不同的解决方法。现有方案主要分为两大类,一种为对语音信号进行处理,另一种为对文本序列进行处理。对语音信号处理可以根据语音信号的静音间隔,为语音识别的结果对应的文本进行标点符号的添加。具体地,可以首先设置静音长短的阈值,如果语音信号中讲话用户说话时的静音间隔的长度超过该阈值,则在对应位置上添加标点;反之,如果语音信号中讲话用户说话时的静音间隔的长度未超过阈值,则不添加标点。然而,这种方法并不能取得较满意的效果,因为用户的说话语速并不相同,如果语速过慢就会产生一字一标点地情况,而且进行添加的标点也较为单一,导致标点的准确率较低且效果较差。对文本序列进行处理,采用基于特征模板与条件随机场CRF结合的方法,或者基于神经网络的方法。但是这两种方法并不能很好的提取文本序列的特征,因此对文本序列对应的符号标签的预测准确率较低,不能取得较好的符号添加效果。
发明内容
本发明的目的是针对现有技术的不足而提出的一种标点符号添加的方法,能够克服上述所存在的问题或者至少部分的解决上述问题,提高中文标点符号添加的准确性。
实现本发明目的的具体技术方案是:
一种对无标点文本添加标点符号的方法,特点是该方法包括以下具体步骤:步骤1:自动化处理有标点的文本数据,获得平行语料,即带有标点的用于模型训练的源训练语料和用于检验效果的目标语料;
步骤2:通过神经网络框架训练平行语料,得到符号添加模型;具体包括:
A1:通过对源训练语料中词序列的文本进行词向量编码,以得到源训练语料的高纬度的向量化表示;
A2:运用卷积神经网络CNN,对每一个中文字符进行编码,得到字符级的向量化表示,将其与高纬度的词向量结合,最终得到语料中的词的向量化表示;
A3:将向量化表示的源训练语料作为输入,放入神经网络框架中,获取完整的源训练语料词序列的隐含状态序列;其中神经网络为双向的长短期记忆网络Bi-LSTM,包括正向隐含状态序列与反向隐含状态序列,按位置拼接后得到完整的隐含状态序列;设置全连接层,将隐状态向量映射到k维,其中k为需要添加的标点符号种类;
A4:将k维的向量输入到条件随机场CRF中,通过转移矩阵A得到无标点的文本中待加标点的位置的得分;
A5:通过对无标点的文本中待加标点的位置的得分进行归一化(即softmax)处理,得到词序列对应标点符号的概率;
A6:训练步骤1中平行语料得到符号添加模型;
步骤3:利用步骤2所得模型添加无标点符号文本中各类标点符号对应的概率,选取最大概率作为最终预测结果,完成标点符号添加。
与现有技术相比,本发明有以下优点:
1、多种语言场景广泛使用:能够适用于如中文、英文、德文、法文等多种需要进行标点符号添加的语言,即只要准备相关语言文本数据,便可以通过该方法完成对应文本的标点符号添加。
2、语言文本序列表示充分:采用词向量技术,联系文本序列内在表示,充分表示待预测的文本序列,同时利用CNN卷积神经网络,进行字向量的训练,完成对词表中未登录词的补充。
3、显著提高的准确率:结合词性特征与语义特征,采用双向的神经网络(Bi-LSTM)与条件随机场(CRF)的优点相结合来训练预测模型,提高准确率;同时在自动处理数据获取平行语料时,自动的增加词性与语义特征,避免手工劳动,额外的特征使标点预测的更为准确。
4、支持较长的文本序列:目前的方法在针对段落或较长文本时,不能进行预测,或者预测结果较差,本发明使用双向的长短时记忆网络即BiLSTM方法对上下文具有优秀的记忆能力,解决或部分解决了这一问题。
附图说明
图1为本发明流程图;
图2为本发明实施例标点标注方案示意图;
图3为本发明实施例自动获取平行语料的流程图;
图4为本发明符号添加模型结构示意图;
图5为本发明实施例符号添加过程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明进一步详细的描述。
本发明提供了一种对无标点文本添加标点符号的方法,对语音识别后的无标点文本进行标点添加,参阅图1。通过该流程,只要预先准备好相关语言序列数据集,即可自动的获取平行语料且完成模型训练,通过训练得到的模型,即可完成对一句或一段无标点的文章进行标点符号的添加。
本发明能够支持不同的语言种类如中文、英文、德文等,可以应用于在语音识别、语音翻译、智能客服等需要添加标点的任意应用场景,本发明对于具体的应用场景不加以限制。
本发明在不同的环境下都可以完成配置预测,可应用于终端或者服务器等装置的应用环境中。
本发明将标点添加的问题转换为词汇标点标注的问题,即将文本序列语料转换成平行语料,并通过基于平行语料训练得到的神经网络模型处理词汇标点标注问题。通过词向量表示平行语料中的词汇,词向量之间的距离可以来表征词汇之间的语义距离,这样可以将词汇对应的众多上下文向量参与到神经网络模型的训练。
本实施例包括以下具体步骤:
1、处理获得平行语料的方法
1)实施例中为对中文语料处理,使用jieba分词方法对准备的带标点的中文数据集进行分词,得到对应的中文词序列。
2)参考图2的标签设计方案,获取中文词序列中的候选标点的对应标签序列,与词序列一一对应。
3)使用Part-of-Speech tagging即POS技术,获取中文词序列的对应的多种词性信息,其中词性的添加结果以标签序列保存,与词序列对应。
4)获取所述的中文词序列对应的多种依存语法信息,其中语法信息的添加结果以标签序列保存,与词序列对应。
5)获取所述词序列与三个所述标签序列的结果作为最终语料,完成自动化获得平行语料,所获得平行语料流程与结果参阅图3。
2、参阅图4,通过神经网络框架训练平行语料,以得到符号添加模型,之后使用符号添加模型为待处理文本添加对应标点,其中平行语料包括:源训练语料和目标语料。
1)通过对源训练语料中词序列的文本进行词向量编码,以得到源训练语料的高纬度的向量化表示。具体做法为,对得到的文本序列分词后的词序列,同时生成对应词袋——词序列中不同词的集合。运用Word2Vec技术,对中文数据集训练词向量模型,使词袋中的词通过词向量模型得到唯一的向量表示,实施例中词向量维度设定为300维。
2)运用卷积神经网络CNN,对每一个中文字符进行编码,得到字符级的向量化表示,将其与高纬度的词向量结合,最终得到语料中的词的向量化表示。
3)通过将向量化表示的源训练语料作为输入,放入神经网络框架中,获取完整的源训练语料词序列的隐含状态序列,其中神经网络结构为双向的长短期记忆网络Bi-LSTM,包含正向隐含状态序列与反向隐含状态序列按位置拼接后得到完整的隐含状态序列。设置全连接层,将隐状态向量映射到k维,其中k为需要预测的标点对应的标签种类的数目,从而完成自动提取句子特征的过程,记作矩阵
4)通过将k维的向量输入到条件随机场CRF中,设置转移矩阵A,其中转移矩阵的维度为(k+2)×(k+2),Aij表示第i个状态到第j个状态的转移得分,进而利用源训练语料中已经自动获取的标点符号标签。之所以是(k+2)维,是因为要在句子首位添加初始状态和终止状态。整个序列的打分为神经网络双向的长短期记忆网络Bi-LSTM与条件随机场CRF的转移矩阵A决定,模型对于句子x的标签等于y的打分为
5)通过对无标点的文本中待加标点的位置的得分进行归一化softmax,得到标签即词序列对应符号的概率p(x|y)。至此神经网络模型参数包括:正向连接权重W1,反向连接权重W2,输出层权重U,以及转移矩阵A,以及其他偏置参数。激活函数使用ReLU函数产生非线性变换,增加L2正则化减少过拟合,同时设置dropout-prop即神经单元随机失活系数为0.8,进行泛化神经网络模型。本实施例对模型及其对应的模型参数不加以限制。通过以上步骤学习模型内在参数,对预测值与目标语料中的标准值使用交叉熵技术计算模型loss,对模型内部参数进行梯度下降学习。最后通过模型预测待预测数据的词序列对应的符号的概率,进而选取最大概率作为最终预测标签序列,在模型预测的过程,根据不同标签的概率,采用Viterbi算法来求解最优路径,对一句话中每一个词对应的标签的概率预测进行整条序列上的分析,得到整条序列上的最优解即完成符号添加。
综上所述,整体无标点文本的符号添加过程参阅图5。需要说明的是,对于具体方法步骤,为了简单描述清楚,因此将其表述为顺序执行的任务,但本发明实施例并不受描述顺序限制,某些步骤可以顺寻或同时进行。
以上对本发明所提供对无标点文本进行自动标点添加的方法,进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (1)
1.一种对无标点文本添加标点符号的方法,其特征在于,该方法包括以下具体步骤:
步骤1:自动化处理有标点的文本数据,获得平行语料,即带有标点的用于模型训练的源训练语料和用于检验效果的目标语料;
步骤2:通过神经网络框架训练平行语料,得到符号添加模型;具体包括:
A1:通过对源训练语料中词序列的文本进行词向量编码,以得到源训练语料的高纬度的向量化表示;
A2:运用卷积神经网络CNN,对每一个中文字符进行编码,得到字符级的向量化表示,将其与高纬度的词向量结合,最终得到语料中的词的向量化表示;
A3:将向量化表示的源训练语料作为输入,放入神经网络框架中,获取完整的源训练语料词序列的隐含状态序列;其中神经网络为双向的长短期记忆网络Bi-LSTM,包括正向隐含状态序列与反向隐含状态序列,按位置拼接后得到完整的隐含状态序列;设置全连接层,将隐状态向量映射到k维,其中k为需要添加的标点符号种类;
A4:将k维的向量输入到条件随机场CRF中,通过转移矩阵A得到无标点的文本中待加标点的位置的得分;
A5:通过对无标点的文本中待加标点的位置的得分进行归一化即softmax处理,得到词序列对应标点符号的概率;
A6:训练步骤1中平行语料得到符号添加模型;
步骤3:利用步骤2所得模型添加无标点符号文本中各类标点符号对应的概率,选取最大概率作为最终预测结果,完成标点符号添加。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810528685.5A CN108932226A (zh) | 2018-05-29 | 2018-05-29 | 一种对无标点文本添加标点符号的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810528685.5A CN108932226A (zh) | 2018-05-29 | 2018-05-29 | 一种对无标点文本添加标点符号的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108932226A true CN108932226A (zh) | 2018-12-04 |
Family
ID=64449876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810528685.5A Pending CN108932226A (zh) | 2018-05-29 | 2018-05-29 | 一种对无标点文本添加标点符号的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108932226A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829163A (zh) * | 2019-02-01 | 2019-05-31 | 浙江核新同花顺网络信息股份有限公司 | 一种语音识别结果处理方法及相关装置 |
CN109918666A (zh) * | 2019-03-06 | 2019-06-21 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
CN110032732A (zh) * | 2019-03-12 | 2019-07-19 | 平安科技(深圳)有限公司 | 一种文本标点预测方法、装置、计算机设备及存储介质 |
CN110046344A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 添加分隔符的方法及终端设备 |
CN110276081A (zh) * | 2019-06-06 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 文本生成方法、装置及存储介质 |
CN110674629A (zh) * | 2019-09-27 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 标点符号标注模型及其训练方法、设备、存储介质 |
CN110852040A (zh) * | 2019-11-05 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
CN110909549A (zh) * | 2019-10-11 | 2020-03-24 | 北京师范大学 | 对古汉语进行断句的方法、装置以及存储介质 |
CN111027291A (zh) * | 2019-11-27 | 2020-04-17 | 达而观信息科技(上海)有限公司 | 文本中标点符号添加、模型训练方法、装置及电子设备 |
CN111261162A (zh) * | 2020-03-09 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN111581911A (zh) * | 2020-04-23 | 2020-08-25 | 北京中科智加科技有限公司 | 实时文本自动添加标点的方法、模型构建方法及装置 |
CN111709242A (zh) * | 2020-06-01 | 2020-09-25 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
WO2020192237A1 (zh) * | 2019-03-22 | 2020-10-01 | 北京京东尚科信息技术有限公司 | 基于人工智能的语义识别的方法、装置系统及存储介质 |
CN111883137A (zh) * | 2020-07-31 | 2020-11-03 | 龙马智芯(珠海横琴)科技有限公司 | 基于语音识别的文本处理方法及装置 |
CN112199927A (zh) * | 2020-10-19 | 2021-01-08 | 古联(北京)数字传媒科技有限公司 | 古籍标点填充方法和装置 |
CN112765957A (zh) * | 2021-02-27 | 2021-05-07 | 中电万维信息技术有限责任公司 | 一种无标点文本分句方法 |
CN112906366A (zh) * | 2021-01-29 | 2021-06-04 | 深圳力维智联技术有限公司 | 基于albert的模型构建方法、装置、系统及介质 |
CN112906348A (zh) * | 2021-02-04 | 2021-06-04 | 云从科技集团股份有限公司 | 对文本自动添加标点符号的方法、系统、设备及介质 |
US20210319176A1 (en) * | 2020-04-13 | 2021-10-14 | Capital One Services, Llc | Efficient automatic punctuation with robust inference |
CN113918031A (zh) * | 2020-11-03 | 2022-01-11 | 北京沃东天骏信息技术有限公司 | 使用子字符信息进行中文标点恢复的系统和方法 |
CN116018639A (zh) * | 2020-10-27 | 2023-04-25 | 谷歌有限责任公司 | 用于流式文本的文本到语音合成的方法和系统 |
CN117113941A (zh) * | 2023-10-23 | 2023-11-24 | 新声科技(深圳)有限公司 | 标点符号恢复方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
-
2018
- 2018-05-29 CN CN201810528685.5A patent/CN108932226A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829163A (zh) * | 2019-02-01 | 2019-05-31 | 浙江核新同花顺网络信息股份有限公司 | 一种语音识别结果处理方法及相关装置 |
CN109918666A (zh) * | 2019-03-06 | 2019-06-21 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
CN109918666B (zh) * | 2019-03-06 | 2024-03-15 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
CN110032732A (zh) * | 2019-03-12 | 2019-07-19 | 平安科技(深圳)有限公司 | 一种文本标点预测方法、装置、计算机设备及存储介质 |
CN110046344A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 添加分隔符的方法及终端设备 |
CN110046344B (zh) * | 2019-03-12 | 2022-05-06 | 平安科技(深圳)有限公司 | 添加分隔符的方法及终端设备 |
WO2020192237A1 (zh) * | 2019-03-22 | 2020-10-01 | 北京京东尚科信息技术有限公司 | 基于人工智能的语义识别的方法、装置系统及存储介质 |
CN110276081A (zh) * | 2019-06-06 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 文本生成方法、装置及存储介质 |
CN110674629A (zh) * | 2019-09-27 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 标点符号标注模型及其训练方法、设备、存储介质 |
CN110909549A (zh) * | 2019-10-11 | 2020-03-24 | 北京师范大学 | 对古汉语进行断句的方法、装置以及存储介质 |
CN110852040A (zh) * | 2019-11-05 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
CN110852040B (zh) * | 2019-11-05 | 2023-08-04 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
CN111027291A (zh) * | 2019-11-27 | 2020-04-17 | 达而观信息科技(上海)有限公司 | 文本中标点符号添加、模型训练方法、装置及电子设备 |
CN111027291B (zh) * | 2019-11-27 | 2024-03-26 | 达观数据有限公司 | 文本中标点符号添加、模型训练方法、装置及电子设备 |
CN111261162A (zh) * | 2020-03-09 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN111261162B (zh) * | 2020-03-09 | 2023-04-18 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
US11886813B2 (en) * | 2020-04-13 | 2024-01-30 | Capital One Services, Llc | Efficient automatic punctuation with robust inference |
US20210319176A1 (en) * | 2020-04-13 | 2021-10-14 | Capital One Services, Llc | Efficient automatic punctuation with robust inference |
CN111581911A (zh) * | 2020-04-23 | 2020-08-25 | 北京中科智加科技有限公司 | 实时文本自动添加标点的方法、模型构建方法及装置 |
CN111709242B (zh) * | 2020-06-01 | 2024-02-02 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
CN111709242A (zh) * | 2020-06-01 | 2020-09-25 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
CN111883137A (zh) * | 2020-07-31 | 2020-11-03 | 龙马智芯(珠海横琴)科技有限公司 | 基于语音识别的文本处理方法及装置 |
CN112199927A (zh) * | 2020-10-19 | 2021-01-08 | 古联(北京)数字传媒科技有限公司 | 古籍标点填充方法和装置 |
CN112199927B (zh) * | 2020-10-19 | 2024-09-13 | 古联(北京)数字传媒科技有限公司 | 古籍标点填充方法和装置 |
CN116018639A (zh) * | 2020-10-27 | 2023-04-25 | 谷歌有限责任公司 | 用于流式文本的文本到语音合成的方法和系统 |
CN113918031A (zh) * | 2020-11-03 | 2022-01-11 | 北京沃东天骏信息技术有限公司 | 使用子字符信息进行中文标点恢复的系统和方法 |
CN112906366A (zh) * | 2021-01-29 | 2021-06-04 | 深圳力维智联技术有限公司 | 基于albert的模型构建方法、装置、系统及介质 |
CN112906348A (zh) * | 2021-02-04 | 2021-06-04 | 云从科技集团股份有限公司 | 对文本自动添加标点符号的方法、系统、设备及介质 |
CN112906348B (zh) * | 2021-02-04 | 2022-04-26 | 云从科技集团股份有限公司 | 对文本自动添加标点符号的方法、系统、设备及介质 |
CN112765957A (zh) * | 2021-02-27 | 2021-05-07 | 中电万维信息技术有限责任公司 | 一种无标点文本分句方法 |
CN117113941B (zh) * | 2023-10-23 | 2024-02-06 | 新声科技(深圳)有限公司 | 标点符号恢复方法、装置、电子设备及存储介质 |
CN117113941A (zh) * | 2023-10-23 | 2023-11-24 | 新声科技(深圳)有限公司 | 标点符号恢复方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932226A (zh) | 一种对无标点文本添加标点符号的方法 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN110232439B (zh) | 一种基于深度学习网络的意图识别方法 | |
CN108124477B (zh) | 基于伪数据改进分词器以处理自然语言 | |
CN110083831A (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN111666427B (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
WO2020143163A1 (zh) | 基于注意力机制的命名实体识别方法、装置和计算机设备 | |
CN111339750B (zh) | 去除停用语并预测句子边界的口语文本处理方法 | |
Xu et al. | A deep neural network approach for sentence boundary detection in broadcast news. | |
CN110008469A (zh) | 一种多层次命名实体识别方法 | |
CN109918681B (zh) | 一种基于汉字-拼音的融合问题语义匹配方法 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN113283236B (zh) | 一种复杂中文文本中的实体消歧方法 | |
CN112528649B (zh) | 针对多语言混合文本的英文拼音识别方法和系统 | |
CN110196963A (zh) | 模型生成、语义识别的方法、系统、设备及存储介质 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN114417874B (zh) | 一种基于图注意力网络的中文命名实体识别方法和系统 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181204 |