CN107767870B - 标点符号的添加方法、装置和计算机设备 - Google Patents

标点符号的添加方法、装置和计算机设备 Download PDF

Info

Publication number
CN107767870B
CN107767870B CN201710911956.0A CN201710911956A CN107767870B CN 107767870 B CN107767870 B CN 107767870B CN 201710911956 A CN201710911956 A CN 201710911956A CN 107767870 B CN107767870 B CN 107767870B
Authority
CN
China
Prior art keywords
chinese character
text
chinese
punctuation marks
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710911956.0A
Other languages
English (en)
Other versions
CN107767870A (zh
Inventor
李剑风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710911956.0A priority Critical patent/CN107767870B/zh
Publication of CN107767870A publication Critical patent/CN107767870A/zh
Application granted granted Critical
Publication of CN107767870B publication Critical patent/CN107767870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

本申请提出一种标点符号的添加方法、装置和计算机设备,其中,上述标点符号的添加方法包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率;根据概率最高的添加结果在所述汉字后添加标点符号。本申请可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。

Description

标点符号的添加方法、装置和计算机设备
技术领域
本申请涉及语音识别技术领域,尤其涉及一种标点符号的添加方法、装置和计算机设备。
背景技术
目前语音识别结果的准确率已经达到较高水平,但标点符号在语音中是不发音的,单纯根据语音信息加入标点符号的效果较差,使用文本信息为语音识别结果自动添加标点可以显著提高语音识别的用户体验。
现有的添加标点符号的方法,一般使用语音信息进行规则匹配,根据语音中的停顿等信息设置规则添加标点符号,但通常只能加入逗号等分隔符进行分句。
但是,由于标点不发音,只能通过静音长度判断是否需要加入分隔符,效果较差,用户体验不高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种标点符号的添加方法,以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
本申请的第二个目的在于提出一种标点符号的添加装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出一种标点符号的添加方法,包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;根据概率最高的添加结果在所述汉字后添加标点符号。
本申请实施例的标点符号的添加方法,对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量,然后将上述汉字的特征向量输入双向的长短时记忆(Long Short-Term Memory;以下简称:LSTM)模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征,将上述汉字的输入特征输入深层神经网络模型,获得上述汉字后每种标点符号的添加结果对应的概率,最后根据概率最高的添加结果在上述汉字后添加标点符号,从而可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
为达上述目的,本申请第二方面实施例提出了一种标点符号的添加装置,包括:生成模块,用于对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;以及将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;获得模块,用于将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;添加模块,用于根据概率最高的添加结果在所述汉字后添加标点符号。
本申请实施例的标点符号的添加装置,生成模块对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量,以及将上述汉字的特征向量输入双向的LSTM模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征,获得模块将上述汉字的输入特征输入深层神经网络模型,获得上述汉字后每种标点符号的添加结果对应的概率,最后添加模块根据概率最高的添加结果在上述汉字后添加标点符号,从而可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请标点符号的添加方法一个实施例的流程图;
图2为本申请标点符号的添加方法另一个实施例的流程图;
图3为本申请标点符号的添加方法再一个实施例的流程图;
图4为本申请标点符号的添加方法再一个实施例的流程图;
图5为本申请标点符号的添加装置一个实施例的结构示意图;
图6为本申请标点符号的添加装置另一个实施例的结构示意图;
图7为本申请计算机设备一个实施例的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
图1为本申请标点符号的添加方法一个实施例的流程图,如图1所示,上述标点符号的添加方法可以包括:
步骤101,对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量。
步骤102,将上述汉字的特征向量输入双向的LSTM模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征。
本实施例中,双向的LSTM模型通过LSTM结构中的状态结构缓存历史的状态信息,并且通过输入门、遗忘门以及输出门对历史状态进行维护,从而实现了长距离的文本信息(例如:整句文本)的有效缓存和提取。双向的LSTM模型可以获取上述汉字的从前至后和从后至前两个方向整句文本的上下文信息,上述上下文信息包括上述汉字所属的句子成分、上述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和上述汉字的上下文文本的语义信息。
其中,上述汉字所属的句子成分是指上述汉字属于句子的主语、谓语、宾语、状语或定语等;上述汉字的上下文文本中各分词的分词属性是指上述汉字的上下文文本中各分词的词性,例如上述分词为动词或名词等。
具体地,双向的LSTM模型获得由待识别文本中每个汉字的特征向量组成的特征向量序列之后,需要按照序列的先后顺序来构建输出,将待识别文本看作序列,就存在从前至后和从后至前两个方向。从前往后,LSTM模型依据汉字前面的汉字特征(先输入的)来获取上文信息,从后往前,LSTM会依据汉字后面的汉字特征(反向先输入)来获取下文信息。
本实施例中,双向的LSTM模型由于使用了大量语料,双向的LSTM模型获取的上述汉字的双方向的上下文信息中还蕴含了上述汉字的上下文文本的语义信息,从而可以避免一些因为建模能力不足而在出现次数较少的词中间添加了标点符号的错误。
同时,双向的LSTM模型可以使用多层堆叠来进一步加强对复杂句子、长句子的信息控制,实现更高的精度。
步骤103,将上述汉字的输入特征输入深层神经网络(Deep Neural Networks;以下简称:DNN)模型,获得上述汉字后每种标点符号的添加结果对应的概率。
其中,上述汉字后每种标点符号的添加结果对应的概率包括:上述汉字后不加标点符号的概率,以及上述汉字后加每种标点符号的概率。
具体地,DNN模型的输出为上述汉字对应的一维向量,上述一维向量分别代表了该字后不加标点以及加每种标点符号的概率。
步骤104,根据概率最高的添加结果在上述汉字后添加标点符号。
举例来说,对于待识别文本“今天天气晴朗适合出游”,假设对于“今”这个字,“今”后面每种标点符号的添加结果对应的概率为:不加标点符号的概率80%,加逗号的概率5%,加句号的概率5%,加感叹号的概率1%……,因此概率最高的添加结果为不加标点符号,于是根据概率最高的添加结果在“今”这个字后面不加标点符号;
对于“朗”这个字,“朗”后面每种标点符号的添加结果对应的概率为:加逗号的概率60%,加句号的概率为20%,加感叹号的概率为10%,不加标点符号的概率为5%……,因此概率最高的添加结果为加逗号,于是根据概率最高的添加结果在“朗”这个字后面加逗号。
上述标点符号的添加方法中,对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量,然后根据上述汉字的特征向量,结合双向的LSTM模型获取的上述汉字的双方向的上下文信息,生成上述汉字的输入特征,将上述汉字的输入特征输入DNN模型,获得上述汉字后每种标点符号的添加结果对应的概率,最后根据概率最高的添加结果在上述汉字后添加标点符号,从而可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
图2为本申请标点符号的添加方法另一个实施例的流程图,如图2所示,本申请图1所示实施例中,步骤101可以包括:
步骤201,利用预先统计的字典,对待识别文本中的每个汉字进行编码。
本实施例中,可以从海量文本中统计字典,然后利用预先统计的字典,对待识别文本中的每个汉字进行编码。
步骤202,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量。
图3为本申请标点符号的添加方法再一个实施例的流程图,如图3所示,本申请图1所示实施例中,步骤103之前,还可以包括:
步骤301,对训练语句中的每个汉字进行编码,作为输入特征。
具体地,可以利用预先统计的字典,对训练语句中的每个汉字进行编码。
步骤302,将上述训练语句中上述汉字后的标点符号的添加结果进行编码,作为输出特征。
步骤303,通过上述输入特征和上述输出特征对DNN模型进行训练,当上述DNN模型的输出结果与上述输出特征误差最小时,获得训练好的DNN模型。
具体地,在对DNN模型进行训练时,可以定义目标函数为DNN模型的输出结果与上述输出特征的加权和,通过误差的反向传播更新上述DNN模型中的参数,使上述DNN模型的输出结果与上述输出特征的误差越来越小,取最小的误差对应的DNN模型作为训练好的DNN模型,从而利用上述训练好的DNN模型在待识别文本中添加标点符号,提高了添加标点符号的准确度。
上述步骤301~步骤303可以与步骤101~步骤102并行执行,也可以先后执行,本实施例对步骤301~步骤303与步骤101~步骤102的执行顺序不作限定。
图4为本申请标点符号的添加方法再一个实施例的流程图,如图4所示,本申请图1所示实施例中,步骤101之前,还可以包括:
步骤401,对用户输入的语音进行识别,获得待识别文本,上述待识别文本中包括上述语音的间隔信息。
这样,步骤104之后,还可以包括:
步骤402,对上述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测。
步骤403,在尚未添加标点符号的语音间隔添加标点符号。
也就是说,本实施例结合语音的间隔信息,对上述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测,在尚未添加标点符号的语音间隔添加标点符号,从而可以进一步提高添加标点符号的准确率。
上述标点符号的添加方法利用双向的LSTM模型可以获取当前待识别汉字的整句的上下文信息,整句的上下文信息可以提升标点符号添加的准确率。并且,本实施例采用字作为基本单元建模,避免了词建模因需要分词带来的一些错误,同时避免了词的数量过多引起的数据稀疏问题,即有大量的词在语料中出现次数少,不能得到充分训练的问题。另外,本实施例采用海量语料对DNN模型进行训练,训练好的DNN模型稳定性较好,能够适应多种使用场景;双向的LSTM模型由于使用了大量语料,双向的LSTM模型获取的上述汉字的双方向的上下文信息中还蕴含了上述汉字的上下文文本的语义信息,从而可以避免一些因为建模能力不足而在出现次数较少的词中间添加了标点符号的错误。
图5为本申请标点符号的添加装置一个实施例的结构示意图,本申请实施例中的标点符号的添加装置可以作为计算机设备,或者计算机设备的一部分实现本申请实施例提供的标点符号的添加方法。
上述计算机设备可以为终端设备或者服务器,上述终端设备可以为智能手机、平板电脑、笔记本电脑或者个人计算机(Personal Computer;以下简称:PC)等智能终端设备,本实施例对上述计算机设备的形态不作限定。
如图5所示,上述标点符号的添加装置可以包括:生成模块51、获得模块52和添加模块53;
其中,生成模块51,用于对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量;以及将上述汉字的特征向量输入双向的LSTM模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征。
本实施例中,双向的LSTM模型通过LSTM结构中的状态结构缓存历史的状态信息,并且通过输入门、遗忘门以及输出门对历史状态进行维护,从而实现了长距离的文本信息(例如:整句文本)的有效缓存和提取。双向的LSTM模型可以获取上述汉字的从前至后和从后至前两个方向整句文本的上下文信息,上述上下文信息包括上述汉字所属的句子成分、上述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和上述汉字的上下文文本的语义信息。
其中,上述汉字所属的句子成分是指上述汉字属于句子的主语、谓语、宾语、状语或定语等;上述汉字的上下文文本中各分词的分词属性是指上述汉字的上下文文本中各分词的词性,例如上述分词为动词或名词等。
具体地,双向的LSTM模型获得由待识别文本中每个汉字的特征向量组成的特征向量序列之后,需要按照序列的先后顺序来构建输出,将待识别文本看作序列,就存在从前至后和从后至前两个方向。从前往后,LSTM模型依据汉字前面的汉字特征(先输入的)来获取上文信息,从后往前,LSTM会依据汉字后面的汉字特征(反向先输入)来获取下文信息。
本实施例中,双向的LSTM模型由于使用了大量语料,双向的LSTM模型获取的上述汉字的双方向的上下文信息中还蕴含了上述汉字的上下文文本的语义信息,从而可以避免一些因为建模能力不足而在出现次数较少的词中间添加了标点符号的错误。
同时,双向的LSTM模型可以使用多层堆叠来进一步加强对复杂句子、长句子的信息控制,实现更高的精度。
获得模块52,用于将上述汉字的输入特征输入DNN模型,获得上述汉字后每种标点符号的添加结果对应的概率,上述汉字后每种标点符号的添加结果对应的概率包括:上述汉字后不加标点符号的概率,以及上述汉字后加每种标点符号的概率;其中,上述汉字后每种标点符号的添加结果对应的概率包括:上述汉字后不加标点符号的概率,以及上述汉字后加每种标点符号的概率。
具体地,DNN模型的输出为上述汉字对应的一维向量,上述一维向量分别代表了该字后不加标点以及加每种标点符号的概率。
添加模块53,用于根据概率最高的添加结果在上述汉字后添加标点符号。
举例来说,对于待识别文本“今天天气晴朗适合出游”,假设对于“今”这个字,“今”后面每种标点符号的添加结果对应的概率为:不加标点符号的概率80%,加逗号的概率5%,加句号的概率5%,加感叹号的概率1%……,因此概率最高的添加结果为不加标点符号,于是添加模块53根据概率最高的添加结果在“今”这个字后面不加标点符号;
对于“朗”这个字,“朗”后面每种标点符号的添加结果对应的概率为:加逗号的概率60%,加句号的概率为20%,加感叹号的概率为10%,不加标点符号的概率为5%……,因此概率最高的添加结果为加逗号,于是添加模块53根据概率最高的添加结果在“朗”这个字后面加逗号。
上述标点符号的添加装置中,生成模块51对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量,以及根据上述汉字的特征向量,结合双向的LSTM模型获取的上述汉字的双方向的上下文信息,生成上述汉字的输入特征,获得模块52将上述汉字的输入特征输入DNN模型,获得上述汉字后每种标点符号的添加结果对应的概率,最后添加模块53根据概率最高的添加结果在上述汉字后添加标点符号,从而可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
图6为本申请标点符号的添加装置另一个实施例的结构示意图,与图5所示的标点符号的添加装置相比,本实施例中,生成模块51,具体用于利用预先统计的字典,对待识别文本中的每个汉字进行编码。
本实施例中,可以从海量文本中统计字典,然后生成模块51利用预先统计的字典,对待识别文本中的每个汉字进行编码。
进一步地,上述标点符号的添加装置还可以包括:
训练模块54,用于对训练语句中的每个汉字进行编码,作为输入特征;将上述训练语句中上述汉字后的标点符号的添加结果进行编码,作为输出特征;通过上述输入特征和上述输出特征对DNN模型进行训练,当上述DNN模型的输出结果与上述输出特征误差最小时,获得训练好的DNN模型。
具体地,在训练模块54对DNN模型进行训练时,可以定义目标函数为DNN模型的输出结果与上述输出特征的加权和,通过误差的反向传播更新上述DNN模型中的参数,使上述DNN模型的输出结果与上述输出特征的误差越来越小,取最小的误差对应的DNN模型作为训练好的DNN模型,从而利用上述训练好的DNN模型在待识别文本中添加标点符号,提高了添加标点符号的准确度。
进一步地,上述标点符号的添加装置还可以包括:识别模块55和检测模块56;
识别模块55,用于对用户输入的语音进行识别,获得待识别文本,上述待识别文本中包括上述语音的间隔信息。
检测模块56,用于在添加模块53根据概率最高的添加结果在上述汉字后添加标点符号之后,对上述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测;
添加模块53,还用于在尚未添加标点符号的语音间隔添加标点符号。
也就是说,检测模块56结合语音的间隔信息,对上述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测,然后,添加模块53在尚未添加标点符号的语音间隔添加标点符号,从而可以进一步提高添加标点符号的准确率。
上述标点符号的添加装置利用双向的LSTM模型可以获取当前待识别汉字的整句的上下文信息,整句的上下文信息可以提升标点符号添加的准确率。并且,本实施例采用字作为基本单元建模,避免了词建模因需要分词带来的一些错误,同时避免了词的数量过多引起的数据稀疏问题,即有大量的词在语料中出现次数少,不能得到充分训练的问题。另外,本实施例采用海量语料对DNN模型进行训练,训练好的DNN模型稳定性较好,能够适应多种使用场景;双向的LSTM模型由于使用了大量语料,双向的LSTM模型获取的上述汉字的双方向的上下文信息中还蕴含了上述汉字的上下文文本的语义信息,从而可以避免一些因为建模能力不足而在出现次数较少的词中间添加了标点符号的错误。
图7为本申请计算机设备一个实施例的结构示意图,如图7所示,上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时,可以实现本申请实施例提供的标点符号的添加方法。
其中,上述计算机设备可以为终端设备,也可以为服务器,本实施例对上述计算机设备的形态不作限定,其中,上述终端设备可以为智能手机、平板电脑、笔记本电脑或PC等智能终端设备,本实施例对此不作限定。
图7示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的标点符号的添加方法。
本申请还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的标点符号的添加方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++、python,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(Local Area Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(Random AccessMemory;以下简称:RAM),只读存储器(Read Only Memory;以下简称:ROM),可擦除可编辑只读存储器(Erasable Programmable Read Only Memory;以下简称:EPROM)或闪速存储器,光纤装置,以及便携式光盘只读存储器(Compact Disc Read Only Memory;以下简称:CD-ROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(ProgrammableGate Array;以下简称:PGA),现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种标点符号的添加方法,其特征在于,包括:
对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;
将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;
将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;
根据所述汉字后不加标点符号的概率和所述汉字后加每种标点符号的概率中概率最高的添加结果在所述汉字后添加标点符号。
2.根据权利要求1所述的方法,其特征在于,所述对待识别文本中的每个汉字进行编码包括:
利用预先统计的字典,对待识别文本中的每个汉字进行编码。
3.根据权利要求1所述的方法,其特征在于,所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息包括:所述汉字的从前至后和从后至前两个方向整句文本的上下文信息,所述上下文信息包括所述汉字所属的句子成分、所述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和所述汉字的上下文文本的语义信息。
4.根据权利要求1所述的方法,其特征在于,所述将所述汉字的输入特征输入深层神经网络模型之前,还包括:
对训练语句中的每个汉字进行编码,作为输入特征;
将所述训练语句中所述汉字后的标点符号的添加结果进行编码,作为输出特征;
通过所述输入特征和所述输出特征对深层神经网络模型进行训练,当所述深层神经网络模型的输出结果与所述输出特征误差最小时,获得训练好的深层神经网络模型。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述对待识别文本中的每个汉字进行编码之前,还包括:
对用户输入的语音进行识别,获得待识别文本,所述待识别文本中包括所述语音的间隔信息;
所述根据概率最高的添加结果在所述汉字后添加标点符号之后,还包括:
对所述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测;
在尚未添加标点符号的语音间隔添加标点符号。
6.一种标点符号的添加装置,其特征在于,包括:
生成模块,用于对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;以及将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;
获得模块,用于将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;
添加模块,用于根据所述汉字后不加标点符号的概率和所述汉字后加每种标点符号的概率中概率最高的添加结果在所述汉字后添加标点符号。
7.根据权利要求6所述的装置,其特征在于,
所述生成模块,具体用于利用预先统计的字典,对待识别文本中的每个汉字进行编码。
8.根据权利要求6所述的装置,其特征在于,所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息包括:所述汉字的从前至后和从后至前两个方向整句文本的上下文信息,所述上下文信息包括所述汉字所属的句子成分、所述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和所述汉字的上下文文本的语义信息。
9.根据权利要求6所述的装置,其特征在于,还包括:
训练模块,用于对训练语句中的每个汉字进行编码,作为输入特征;将所述训练语句中所述汉字后的标点符号的添加结果进行编码,作为输出特征;通过所述输入特征和所述输出特征对深层神经网络模型进行训练,当所述深层神经网络模型的输出结果与所述输出特征误差最小时,获得训练好的深层神经网络模型。
10.根据权利要求6-9任意一项所述的装置,其特征在于,还包括:
识别模块,用于对用户输入的语音进行识别,获得待识别文本,所述待识别文本中包括所述语音的间隔信息;
检测模块,用于在所述添加模块根据概率最高的添加结果在所述汉字后添加标点符号之后,对所述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测;
所述添加模块,还用于在尚未添加标点符号的语音间隔添加标点符号。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710911956.0A 2017-09-29 2017-09-29 标点符号的添加方法、装置和计算机设备 Active CN107767870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710911956.0A CN107767870B (zh) 2017-09-29 2017-09-29 标点符号的添加方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710911956.0A CN107767870B (zh) 2017-09-29 2017-09-29 标点符号的添加方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN107767870A CN107767870A (zh) 2018-03-06
CN107767870B true CN107767870B (zh) 2021-03-23

Family

ID=61266817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710911956.0A Active CN107767870B (zh) 2017-09-29 2017-09-29 标点符号的添加方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN107767870B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597517B (zh) * 2018-03-08 2020-06-05 深圳市声扬科技有限公司 标点符号添加方法、装置、计算机设备和存储介质
CN108564953B (zh) * 2018-04-20 2020-11-17 科大讯飞股份有限公司 一种语音识别文本的标点处理方法及装置
CN108932226A (zh) * 2018-05-29 2018-12-04 华东师范大学 一种对无标点文本添加标点符号的方法
CN108831481A (zh) * 2018-08-01 2018-11-16 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
CN109410949B (zh) * 2018-10-11 2021-11-16 厦门大学 基于加权有限状态转换器的文本内容添加标点方法
CN109614627B (zh) * 2019-01-04 2023-01-20 平安科技(深圳)有限公司 一种文本标点预测方法、装置、计算机设备及存储介质
CN109918666B (zh) * 2019-03-06 2024-03-15 北京工商大学 一种基于神经网络的中文标点符号添加方法
CN110032732A (zh) * 2019-03-12 2019-07-19 平安科技(深圳)有限公司 一种文本标点预测方法、装置、计算机设备及存储介质
CN110413987B (zh) * 2019-06-14 2023-05-30 平安科技(深圳)有限公司 基于多个预测模型的标点符号预测方法及相关设备
CN110245334B (zh) * 2019-06-25 2023-06-16 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110705264A (zh) * 2019-09-27 2020-01-17 上海智臻智能网络科技股份有限公司 标点符号的校正方法及设备、介质
CN110852040B (zh) * 2019-11-05 2023-08-04 中电科大数据研究院有限公司 一种标点预测模型训练方法及文本标点确定方法
CN110941744A (zh) * 2019-11-14 2020-03-31 广州江南科友科技股份有限公司 一种数据列表添加器及添加方法
CN112837688B (zh) * 2019-11-22 2024-04-02 阿里巴巴集团控股有限公司 语音转写方法、装置、相关系统及设备
CN111027291B (zh) * 2019-11-27 2024-03-26 达观数据有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111651985A (zh) * 2019-12-18 2020-09-11 创新工场(广州)人工智能研究有限公司 一种用于中文分词的方法与装置
CN111145732B (zh) * 2019-12-27 2022-05-10 思必驰科技股份有限公司 多任务语音识别后的处理方法及系统
CN111241810B (zh) * 2020-01-16 2023-08-01 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN111261162B (zh) * 2020-03-09 2023-04-18 北京达佳互联信息技术有限公司 语音识别方法、语音识别装置及存储介质
US11886813B2 (en) * 2020-04-13 2024-01-30 Capital One Services, Llc Efficient automatic punctuation with robust inference
CN112001167B (zh) * 2020-08-26 2021-04-23 四川云从天府人工智能科技有限公司 一种标点符号添加方法、系统、设备和介质
CN112183084B (zh) * 2020-09-07 2024-03-15 北京达佳互联信息技术有限公司 一种音视频数据处理方法和装置及设备
CN112906348B (zh) * 2021-02-04 2022-04-26 云从科技集团股份有限公司 对文本自动添加标点符号的方法、系统、设备及介质
CN115099189A (zh) * 2021-08-06 2022-09-23 宿迁硅基智能科技有限公司 基于并行计算的语音识别模型及确定方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094030A1 (en) * 2005-10-20 2007-04-26 Kabushiki Kaisha Toshiba Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN103164399A (zh) * 2013-02-26 2013-06-19 北京捷通华声语音技术有限公司 一种语音识别中的标点添加方法和装置
CN103971684A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
CN104143331A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置
CN106653030A (zh) * 2016-12-02 2017-05-10 北京云知声信息技术有限公司 标点添加方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
US10268671B2 (en) * 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
CN105975455A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向递归神经网络的信息分析系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094030A1 (en) * 2005-10-20 2007-04-26 Kabushiki Kaisha Toshiba Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN103971684A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
CN103164399A (zh) * 2013-02-26 2013-06-19 北京捷通华声语音技术有限公司 一种语音识别中的标点添加方法和装置
CN104143331A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置
CN106653030A (zh) * 2016-12-02 2017-05-10 北京云知声信息技术有限公司 标点添加方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Investigating LSTM for punctuation prediction";Kaituo Xu 等;《2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP)》;20170504;第1-5页 *
"LSTM for punctuation restoration in speech transcripts";Ottokar Tilk 等;《INTERSPEECH-2015》;20151230;全文 *
"基于双向LSTM神经网络的中文分词研究分析";黄积杨;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20161015;全文 *
"面向机器翻译的口语标点加注技术研究";吴新林;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20100115;全文 *

Also Published As

Publication number Publication date
CN107767870A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107767870B (zh) 标点符号的添加方法、装置和计算机设备
CN110196894B (zh) 语言模型的训练方法和预测方法
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN108537176B (zh) 目标弹幕的识别方法、装置、终端及存储介质
US10372821B2 (en) Identification of reading order text segments with a probabilistic language model
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN112507706A (zh) 知识预训练模型的训练方法、装置和电子设备
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN112464642A (zh) 文本添加标点的方法、装置、介质及电子设备
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN116681083A (zh) 文本数据涉敏检测方法、装置、设备及介质
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN113361523A (zh) 文本确定方法、装置、电子设备和计算机可读存储介质
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
CN110929749B (zh) 文本识别方法、装置、介质及电子设备
CN114781359A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN114220505A (zh) 病历数据的信息抽取方法、终端设备及可读存储介质
CN114758649A (zh) 一种语音识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant