CN112001167A - 一种标点符号添加方法、系统、设备和介质 - Google Patents

一种标点符号添加方法、系统、设备和介质 Download PDF

Info

Publication number
CN112001167A
CN112001167A CN202010869974.9A CN202010869974A CN112001167A CN 112001167 A CN112001167 A CN 112001167A CN 202010869974 A CN202010869974 A CN 202010869974A CN 112001167 A CN112001167 A CN 112001167A
Authority
CN
China
Prior art keywords
decoder
sequence
characters
symbol
punctuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010869974.9A
Other languages
English (en)
Other versions
CN112001167B (zh
Inventor
周曦
姚志强
郝东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Original Assignee
Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd filed Critical Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Priority to CN202010869974.9A priority Critical patent/CN112001167B/zh
Publication of CN112001167A publication Critical patent/CN112001167A/zh
Application granted granted Critical
Publication of CN112001167B publication Critical patent/CN112001167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种标点符号添加方法、系统、设备和介质,包括:获取经过语音处理后生成的文本信息,并对所述文本信息进行编码处理,获取包含字符间关联关系的编码序列;为所述编码序列添加符号标识,获取输出序列;对所述输出序列进行分类,获取包含标点符号的输出文本;本发明可有效提高文本意图识别及命名实体提取的准确性。

Description

一种标点符号添加方法、系统、设备和介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种标点符号添加方法、系统、设备和介质。
背景技术
随着人工智能的发展,人机对话技术也逐渐从实验室走出并应用到我们的日常生活。人机对话是一种新的人机接口,通过文本或者语音可以实现跟智能系统的有效交互。所以我们知道人机对话是新的范式的转变。人机对话也被广泛地应用到智能门禁、客服聊天、商品导购等场景。
目前的人机对话技术一个很重要的环节,便是要理解用户的语意,这一环节通常包括意图识别和命名实体提取(NER)。如果语音作为人机交互的输入,那么经过语音ASR(自动语音识别技术)的处理后便会转变为文本,进而进行之后的意图识别和命名实体提取(Name Entity Recognition,NER)。
然而,从语音ASR生成的文本并没有标点符号。通常来说,意图识别模型和命名实体提取(NER)模型的训练语料中均是包含标点符号的,如果在应用时将不含标点符号的文本语句输入到模型中,势必会影响模型的预测结果,进而影响智能对话系统对用户语意的理解及判断。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种标点符号添加方法、系统、设备和介质,主要解决传统语音识别方法无法在转换出的文本中添加标点符号的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种标点符号添加方法,包括:
获取经过语音处理后生成的文本信息,并对所述文本信息进行编码处理,获取包含字符间关联关系的编码序列;
为所述编码序列添加符号标识,获取输出序列;
对所述输出序列进行分类,获取包含标点符号的输出文本。
可选地,将所述编码序列映射到解码器中,通过所述解码器为所述编码序列添加符号标识;其中,所述解码器至少包括两层注意力网络层、一层前馈神经网络层。
可选地,为所述编码序列添加符号标识包括:
向所述解码器输入句子起始标识,并将所述编码序列中的字符逐个映射到所述解码器的各网络层;
所述解码器根据所述字符间的关联关系,获取待插入符号标识与当前字符的对应关系,并插入对应的符号标识,得到所述解码器的输出;
将所述解码器的输出作为所述解码器的输入进行多次迭代,直到满足结束条件,得到所述输出序列。
可选地,所述结束条件包括:
当所述解码器输出的字符的数量等于所述编码序列对应的字符数量,且出现第一个句子结束标识时,迭代结束。
可选地,在对所述文本信息进行编码处理之前:
将所述文本信息进行基于文字和序列位置的词嵌入,获取向量化后的序列;
将所述向量化后的序列输入编码器获取所述编码序列。
可选地,获取包含标点符号的文本作为训练文本,并预训练所述解码器,获取标点符号与文字以及标点符号之间的关联关系;所述解码器根据所述标点符号与文字以及标点符号的关联关系为所述编码序列添加符号标识。
可选地,获取指定领域的文本作为样本,根据所述样本属于预设分类类别的概率,构建解码损失函数;其中,所述解码损失函数至少包括以下损失函数中的一种:最小化交叉熵、KL散度;
通过所述解码损失函数预训练所述解码器。
可选地,在为所述编码序列添加符号标识之前,对所述符号标识进行标准化,获取统一编码格式和/或字体的符号标识;将标准化后的符号标识输入所述解码器中,通过所述解码器添加所述符号标识。
可选地,所述编码格式至少包括utf-8、gbk。
可选地,通过分类器对所述输出序列进行分类,获取包含字符和符号的分类结果;
根据所述分类结果中的所述字符在所述编码序列中的序列位置,将对应的文字插入所述分类结果对应的字符位置,获取所述输出文本。
一种标点符号添加系统,包括:
编码模块,用于获取经过语音处理后生成的文本信息,并对所述文本信息进行编码处理,获取包含字符间关联关系的编码序列;
符号添加模块,用于为所述编码序列添加符号标识,获取输出序列;
分类模块,用于对所述输出序列进行分类,获取包含标点符号的输出文本。
可选地,所述符号添加模块包括解码单元,用于将所述编码序列映射到解码器中,通过所述解码器为所述编码序列添加符号标识;其中,所述解码器至少包括两层注意力网络层、一层前馈神经网络层。
可选地,还包括解码器预训练模块,用于获取包含标点符号的文本作为训练文本,并预训练所述解码器,获取标点符号与文字以及标点符号之间的关联关系;所述解码器根据所述标点符号与文字以及标点符号的关联关系为所述编码序列添加符号标识。
可选地,包括标准化模块,所述标准化模块与所述解码单元连接;所述标准化模块用于在为所述编码序列添加符号标识之前,对所述符号标识进行标准化,获取统一编码格式和/或字体的符号标识;将标准化后的符号标识输入所述解码器中,通过所述解码器添加所述符号标识。
可选地,包括文本生成模块,所述文本生成模块分别连接所述编码模块和所述解码单元;所述文本生成模块用于通过分类器对所述输出序列进行分类,获取包含字符和符号的分类结果;
根据所述分类结果中的所述字符在所述编码序列中的序列位置,将对应的文字插入所述分类结果对应的字符位置,获取所述输出文本。
一种设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行所述的标点符号添加方法。
一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行所述的标点符号添加方法。
如上所述,本发明一种标点符号添加方法、系统、设备和介质,具有以下有益效果。
通过学习字符间的关联关系,基于字符间的关联关系添加符号标识,使得输出序列关注字符与标点符号的关系以及标点符号之间的关系,可适用于各种语境复杂的场景,提高文本识别的准确性。
附图说明
图1为本发明一实施例中标点符号添加方法的流程图。
图2为本发明一实施例中标点符号添加系统的模块图。
图3为本发明一实施例中终端设备的结构示意图。
图4为本发明另一实施例中终端设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种标点符号添加方法,包括步骤S01-S04。
在步骤S01中,获取文本信息,并对文本信息进行编码处理,获取包含字符间关联关系的编码序列。
在一实施例中,文本信息可包括汉字文本信息、英文文本信息等。可通过语音采集设备采集用户输入的语音信息(如对话、咨询问话等),并通过语音识别技术(AutomaticSpeech Recognition,ASR)将语音信息转化为纯文本信息。传统的ASR技术如隐马尔可夫模型、基于神经网络的方法等均是较为成熟的语音识别技术,这里不再赘述。
在一实施例中,可对文本信息中的每个字符分别映射为一个数字ID,得到与文本信息中原始语句一样长度的序列,进一步地,基于每个字符以及字符在序列中的位置对应的序列进行词嵌入,获取对应的数字序列。以汉字对应的文本信息为例,输入的语句为“我很好”,其中“我”对应的数字序列为[1,0,0],“很”对应的数字序列为[0,1,0],“好”对应的数字序列为[0,0,1],进一步地,序列中可嵌入每个字符对应的位置,通过位置标示该字符与语句中其他字符的距离,则前述数字序列可分别表示为[1,1,2],[1,1,1],[2,1,1]。
在一实施例中可采用transformer模型对数字序列进行处理。transformer模型通常包括编码器和解码器两部分。
在一实施例中,可通过预训练的一个或多个编码器对文本信息进行编码,具体地,可从网络中收集各类不包含标点符号的纯文本信息,并整理成训练样本集,用于训练编码器。transformer模型中的编码器通常至少包括一层注意力网络层和一层前馈神经网络层,注意力网络层通常采用多头注意力层(multi-head layer),多头注意力层的输出作为前馈神经网络层的输入。具体地,多头注意力层可看作是将注意力层划分为了多个表示子空间,每个表示子空间将输入的数字序列转换为三个向量化序列(查询序列/键序列/值序列),以8个表示子空间为例,通过8个表示子空间相对独立计算输入的数字序列的查询序列/键序列/值序列,最后将8个表示子空间得到的输出进行拼接,获取多头注意力层的输出。进一步通过前馈神经网络层获取编码序列。当存在多个编码器时,多个编码器为串联关系,第一个编码器的输入为数字序列,其它编码器的输入分别为前一个编码器的输出。通过编码器的注意力网络层,可获取文本句子中某一个词语其他词之间的关联关系,如“吗”、“呢”等疑问词位于句尾,表示疑问,某一个词与其他词同属于一个句子等。
在一实施例中,可根据文本信息中某一字符在编码序列中某一索引处的概率分布,构建编码损失函数,通过训练样本集训练编码损失函数,当损失函数值达到最小时,完成编码器的预训练。
在一实施例中,可采用交叉熵损失或KL散度损失等损失函数用于构建编码器的编码损失函数。以交叉熵损失函数为例,其表达式可表示为:
Figure BDA0002650767160000051
其中,L为句子长度;N为训练样本集的总样本数;M为所有编码序列对应的字符类别数;
Figure BDA0002650767160000061
表示第i个编码序列中索引j位置对应的字符,<j为索引j之前的语法单位;y为标签;p为预测概率分布。
在一实施例中,在完成编码器预训练后,可对编码器中的一个或多个神经元采用dropout算子进行屏蔽。具体地可对前馈神经网络的隐含层中部分权重或输出随机置零。如隐含层神经元与下一层神经元A、B、C连接,可将隐含层神经元与A的连接权重置零,保留与B、C的连接权重。通过dropout算子屏蔽可以降低节点间的相互依赖性,从而使神经网络正则化,防止过拟合,降低结构风险。
在一实施例中,通过预训练的编码器对文本信息进行编码之前,还可收集文本信息所属特定领域的文本作为测试文本对编码器进行微调,以提高编码器处理特定领域文本信息的精度。
在步骤S02中,为编码序列添加符号标识,获取输出序列;
在一实施例中,可收集包含丰富标点符号的文本作为样本输入语言模型,预训练解码器。解码器可包括两层注意力网络层和一层前馈神经网络层,通过注意力网络层获取标点符号与文本中文字以及标点符号之间的对应关系,如“呢”、“吗”等疑问词后面通常接问号;单引号与双引号的对应关系等。预先对样本进行分句处理,以句子为单位,输入编码器中进行模型训练。输入待处理文本信息和预先设置的符号标识,编码器根据训练得到的字符与标点符号的对应关系以及标点符号之间的对应关系,从预设的符号标识中选择需要的符号标识输入编码器,为编码序列添加符号标识。
具体地,为编码序列添加符号标识的步骤包括:
步骤一:向解码器输入句子起始标识,并将编码器得到的编码序列中的字符逐个映射到解码器的各网络层;
步骤二:解码器根据编码序列中字符间的关联关系,获取待插入符号标识与当前字符的对应关系,并插入对应的符号标识,得到解码器的输出;如,字符为“但是”等表示转折的词,则可在该字符前插入逗号或其他对应的符号标识。字符为“说”,则说后面的内容通常为说的内容,则可在该字符后面插入冒号和前引号;
步骤三中,将解码器的输出作为解码器的输入进行多次迭代,直到满足结束条件,得到输出序列。解码器经过一次运算后的输出包含字符和已添加的符号标识。再次输入解码器,通过解码器的注意力网络层可获取已添加符号标识与字符的对应关系,可根据已添加符号标识与字符的对应关系判断编码序列中下一个字符是否需要添加符号标识。如添加冒号和前引号后,是否需要添加后引号等。经过多次迭代,直到编码器输出的字符的数量等于编码序列中的字符数量,且出现第一个句子的结束标识时,则完成一个句子的符号标识添加任务,结束当前迭代过程。如
再次启动迭代时,再次输入句子起始标识,按前述步骤对编码序列进行符号标识添加操作。
在一实施例中,为了提高模型的准确性,在模型应用前,可根据模型应用领域如医疗、电子、化工等,采用特定领域的文本数据库对解码器进行微调。
在一实施例中,由于用于训练解码器的样本格式可能与当前待处理的文本字体或编码格式不同,在添加符号标识之前,需要的符号标识进行标准化,使得标点符号的编码格式和/或字体与待处理的文本信息的编码格式和/或字体保持一致。
在一实施例中,编码格式可包括utf-8、gbk等。
在一实施例中,以transformer模型为例,可通过transformer模型的解码器为编码序列添加符号标识。在一实施例中,解码器至少包括两层注意力网络层和一层前馈神经网络层。解码器的各层网络的结构与编码器对应网络结构相同,可进行参数共享。
在一实施例中,可获取特定领域的文本作为样本,根据样本属于预设分类类别的概率,构建分类损失函数,通过分类损失函数预训练解码器。具体地,可采用最小交叉熵损失或KL散度损失等常规的损失函数,构造用于训练解码器的解码损失函数。以最小交叉熵为例,具体解码损失函数可表示为:
Figure BDA0002650767160000071
其中,p为预测概率;y为标签;M为字符对应类别数;N为总样本数。
在步骤S03中,对输出序列进行分类,获取包含标点符号的输出文本。
在一实施例中,若文本信息为汉字文本,预设分类类别仅包括汉字标签、标点符号标签和序列句子结束标识(end of sentence,EOS),将所有汉字对应一个标签,以减少分类类别数量,提高分类的准确度。
在一实施例中,可通过分类器对输出序列对应的每个字符进行分类,当输出序列对应的汉字标签的数量与编码器输入的汉字数量相等后,若第一次出现“EOS”标签,则判定完成一个句子的分类任务。将分类器输出结果序列中对应汉字的位置用编码器中编码序列相应位置对应的汉字替代,便可得到输出文本。通过句末标签作为终止判据,编码器每次输入的句子不需要用固定的长度序列表示,可实现不等长序列的转换。在另一实施例中,分类器可以为全连接层,用于连接解码器的输出,对输出序列进行分类。
输出文本包含了输入的字符及所需要的标点符号,可将输出文本用于意图识别和命名实体提取。如用户语音输入“我来面试”,通过意图识别后会被解析为{intent:“takeinterview”},用户输入“我是张三”则命名实体会被解析为{name:“张三”}。具体的意图识别及命名实体提取方法已有较为成熟的现有技术可以实现,这里不再赘述。
在一实施例中,在通过本实施例的方法为待处理文本信息添加标点符号之前,可预先获取待处理文本信息对应领域的文本,对预训练好的编码器和解码器进行微调(即通过少量样本再训练)以提高添加标点符号的准确度;同时可以使模型快速迁移到新的应用场景,提高泛化性能。
请参阅图2,本实施例中提供了一种标点符号添加系统,用于执行前述方法实施例中所述的标点符号添加方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。
在一实施例中,标点符号添加系统包括编码模块10、符号添加模块11和分类模块12;编码模块10用于辅助执行前述方法实施例介绍的步骤S01;符号预添加模块11用于执行前述方法实施例介绍的步骤S02;分类模块12用于执行前述方法实施例介绍的步骤S03。
在一实施例中,符号添加模块包括解码单元,用于将编码序列映射到解码器中,通过解码器为编码序列添加符号标识;其中,解码器至少包括两层注意力网络层、一层前馈神经网络层。
在一实施例中,还包括解码器预训练模块,用于获取包含标点符号的文本作为训练文本,并预训练解码器,获取标点符号与文字以及标点符号之间的关联关系;解码器根据标点符号与文字以及标点符号的关联关系为编码序列添加符号标识。
在一实施例中,包括标准化模块,标准化模块与解码单元连接;标准化模块用于在为编码序列添加符号标识之前,对符号标识进行标准化,获取统一编码格式和/或字体的符号标识;将标准化后的符号标识输入解码器中,通过解码器添加符号标识。
在一实施例中,包括文本生成模块,文本生成模块分别连接编码模块和解码单元;文本生成模块用于通过分类器对输出序列进行分类,获取包含字符和符号的分类结果;
根据分类结果中的字符在编码序列中的序列位置,将对应的文字插入分类结果对应的字符位置,获取输出文本。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中标点符号添加方法所包含步骤的指令(instructions)。
图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图4为本申请的另一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第一处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述图1所示方法的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
综上所述,本发明一种标点符号添加方法、系统、设备和介质,采用注意力机制的transformer模型结构,可以使输入和输出的序列不等长。而且Attention机制不仅会使输出序列关注到目标标点与汉字的关系(如“我很好,你呢”中“?”与“呢”),也会使目标标点关注到与之前标点的关系(如“你真是个‘活宝’啊”中“’”与“‘”的关系),使得模型能够适用于较复杂语义应用场景;通过在人机对话系统的语音ASR模块后面加入基于包含encoder-decoder的transformer生成式模型,为纯文本添加标点符号,输出带有标点符号的文本进行后面的意图识别和命名实体提取(NER)处理,提高了智能人机对话系统对用户语意的理解;通过预训练通用模型加微调的方法,能够将对应模型快速的迁移到新的应用场景,提高泛化性能。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (17)

1.一种标点符号添加方法,其特征在于,包括:
获取经过语音处理后生成的文本信息,并对所述文本信息进行编码处理,获取包含字符间关联关系的编码序列;
为所述编码序列添加符号标识,获取输出序列;
对所述输出序列进行分类,获取包含标点符号的输出文本。
2.根据权利要求1所述的标点符号添加方法,其特征在于,将所述编码序列映射到解码器中,通过所述解码器为所述编码序列添加符号标识;其中,所述解码器至少包括两层注意力网络层、一层前馈神经网络层。
3.根据权利要求2所述的标点符号添加方法,其特征在于,为所述编码序列添加符号标识包括:
向所述解码器输入句子起始标识,并将所述编码序列中的字符逐个映射到所述解码器的各网络层;
所述解码器根据所述字符间的关联关系,获取待插入符号标识与当前字符的对应关系,并插入对应的符号标识,得到所述解码器的输出;
将所述解码器的输出作为所述解码器的输入进行多次迭代,直到满足结束条件,得到所述输出序列。
4.根据权利要求3所述的标点符号添加方法,其特征在于,所述结束条件包括:
当所述解码器输出的文字序列的数量等于所述编码序列对应的文字序列数量,且出现第一个句子结束符号时,迭代结束。
5.根据权利要求1所述的标点符号添加方法,其特征在于,在对所述文本信息进行编码处理之前:
将所述文本信息进行基于文字和序列位置的词嵌入,获取向量化后的序列;
将所述向量化后的序列输入编码器获取所述编码序列。
6.根据权利要求2所述的标点符号添加方法,其特征在于,获取包含标点符号的文本作为训练文本,并预训练所述解码器,获取标点符号与文字以及标点符号之间的关联关系;所述解码器根据所述标点符号与文字以及标点符号的关联关系为所述编码序列添加符号标识。
7.根据权利要求6所述的标点符号添加方法,其特征在于,获取指定领域的文本作为样本,根据所述样本属于预设分类类别的概率,构建解码损失函数;其中,所述解码损失函数至少包括以下损失函数中的一种:最小化交叉熵、KL散度;通过所述解码损失函数预训练所述解码器。
8.根据权利要求1所述的标点符号添加方法,其特征在于,在为所述编码序列添加符号标识之前,对所述符号标识进行标准化,获取统一编码格式和/或字体的符号标识;将标准化后的符号标识输入所述解码器中,通过所述解码器添加所述符号标识。
9.根据权利要求8所述的标点符号添加方法,其特征在于,所述编码格式至少包括utf-8、gbk。
10.根据权利要求1至9中任一项所述的标点符号添加方法,其特征在于,通过分类器对所述输出序列进行分类,获取包含字符和符号的分类结果;
根据所述分类结果中的所述字符在所述编码序列中的序列位置,将对应的文字插入所述分类结果对应的字符位置,获取所述输出文本。
11.一种标点符号添加系统,其特征在于,包括:
编码模块,用于获取经过语音处理后生成的文本信息,并对所述文本信息进行编码处理,获取包含字符间关联关系的编码序列;
符号添加模块,用于为所述编码序列添加符号标识,获取输出序列;
分类模块,用于对所述输出序列进行分类,获取包含标点符号的输出文本。
12.根据权利要求11所述的标点符号添加系统,其特征在于,所述符号添加模块包括解码单元,用于将所述编码序列映射到解码器中,通过所述解码器为所述编码序列添加符号标识;其中,所述解码器至少包括两层注意力网络层、一层前馈神经网络层。
13.根据权利要求12所述的标点符号添加系统,其特征在于,还包括解码器预训练模块,用于获取包含标点符号的文本作为训练文本,并预训练所述解码器,获取标点符号与文字以及标点符号之间的关联关系;所述解码器根据所述标点符号与文字以及标点符号的关联关系为所述编码序列添加符号标识。
14.根据权利要求12所述的标点符号添加系统,其特征在于,包括标准化模块,所述标准化模块与所述解码单元连接;所述标准化模块用于在为所述编码序列添加符号标识之前,对所述符号标识进行标准化,获取统一编码格式和/或字体的符号标识;将标准化后的符号标识输入所述解码器中,通过所述解码器添加所述符号标识。
15.根据权利要求12所述的标点符号添加系统,其特征在于,包括文本生成模块,所述文本生成模块分别连接所述编码模块和所述解码单元;所述文本生成模块用于通过分类器对所述输出序列进行分类,获取包含字符和符号的分类结果;根据所述分类结果中的所述字符在所述编码序列中的序列位置,将对应的文字插入所述分类结果对应的字符位置,获取所述输出文本。
16.一种设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-10中一个或多个所述的方法。
17.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-10中一个或多个所述的方法。
CN202010869974.9A 2020-08-26 2020-08-26 一种标点符号添加方法、系统、设备和介质 Active CN112001167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010869974.9A CN112001167B (zh) 2020-08-26 2020-08-26 一种标点符号添加方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010869974.9A CN112001167B (zh) 2020-08-26 2020-08-26 一种标点符号添加方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN112001167A true CN112001167A (zh) 2020-11-27
CN112001167B CN112001167B (zh) 2021-04-23

Family

ID=73470996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010869974.9A Active CN112001167B (zh) 2020-08-26 2020-08-26 一种标点符号添加方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN112001167B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528938A (zh) * 2020-12-22 2021-03-19 四川云从天府人工智能科技有限公司 车辆检测模型训练及其检测方法、装置及计算机存储介质
CN112906348A (zh) * 2021-02-04 2021-06-04 云从科技集团股份有限公司 对文本自动添加标点符号的方法、系统、设备及介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN106653030A (zh) * 2016-12-02 2017-05-10 北京云知声信息技术有限公司 标点添加方法及装置
CN107767870A (zh) * 2017-09-29 2018-03-06 百度在线网络技术(北京)有限公司 标点符号的添加方法、装置和计算机设备
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
CN109918666A (zh) * 2019-03-06 2019-06-21 北京工商大学 一种基于神经网络的中文标点符号添加方法
CN110175330A (zh) * 2019-05-29 2019-08-27 广州伟宏智能科技有限公司 一种基于注意力机制的命名实体识别方法
CN110674629A (zh) * 2019-09-27 2020-01-10 上海智臻智能网络科技股份有限公司 标点符号标注模型及其训练方法、设备、存储介质
CN110688822A (zh) * 2019-09-27 2020-01-14 上海智臻智能网络科技股份有限公司 标点符号的添加方法及设备、介质
CN110826301A (zh) * 2019-09-19 2020-02-21 厦门快商通科技股份有限公司 标点符号添加方法、系统、移动终端及存储介质
CN110851564A (zh) * 2019-10-10 2020-02-28 安徽听见科技有限公司 一种语音数据处理方法和相关装置
CN111027291A (zh) * 2019-11-27 2020-04-17 达而观信息科技(上海)有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111090981A (zh) * 2019-12-06 2020-05-01 中国人民解放军战略支援部队信息工程大学 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统
CN111324708A (zh) * 2020-02-07 2020-06-23 普强时代(珠海横琴)信息技术有限公司 一种基于人机交互的自然语言处理系统
CN111444715A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111488742A (zh) * 2019-08-19 2020-08-04 北京京东尚科信息技术有限公司 用于翻译的方法和装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN106653030A (zh) * 2016-12-02 2017-05-10 北京云知声信息技术有限公司 标点添加方法及装置
CN107767870A (zh) * 2017-09-29 2018-03-06 百度在线网络技术(北京)有限公司 标点符号的添加方法、装置和计算机设备
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
CN109918666A (zh) * 2019-03-06 2019-06-21 北京工商大学 一种基于神经网络的中文标点符号添加方法
CN110175330A (zh) * 2019-05-29 2019-08-27 广州伟宏智能科技有限公司 一种基于注意力机制的命名实体识别方法
CN111488742A (zh) * 2019-08-19 2020-08-04 北京京东尚科信息技术有限公司 用于翻译的方法和装置
CN110826301A (zh) * 2019-09-19 2020-02-21 厦门快商通科技股份有限公司 标点符号添加方法、系统、移动终端及存储介质
CN110674629A (zh) * 2019-09-27 2020-01-10 上海智臻智能网络科技股份有限公司 标点符号标注模型及其训练方法、设备、存储介质
CN110688822A (zh) * 2019-09-27 2020-01-14 上海智臻智能网络科技股份有限公司 标点符号的添加方法及设备、介质
CN110851564A (zh) * 2019-10-10 2020-02-28 安徽听见科技有限公司 一种语音数据处理方法和相关装置
CN111027291A (zh) * 2019-11-27 2020-04-17 达而观信息科技(上海)有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111090981A (zh) * 2019-12-06 2020-05-01 中国人民解放军战略支援部队信息工程大学 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统
CN111324708A (zh) * 2020-02-07 2020-06-23 普强时代(珠海横琴)信息技术有限公司 一种基于人机交互的自然语言处理系统
CN111444715A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李金亮: ""基于深度学习的中文标点符号审校算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
段大高: ""基于自注意力机制的中文标点符号预测模型"", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528938A (zh) * 2020-12-22 2021-03-19 四川云从天府人工智能科技有限公司 车辆检测模型训练及其检测方法、装置及计算机存储介质
CN112906348A (zh) * 2021-02-04 2021-06-04 云从科技集团股份有限公司 对文本自动添加标点符号的方法、系统、设备及介质
CN112906348B (zh) * 2021-02-04 2022-04-26 云从科技集团股份有限公司 对文本自动添加标点符号的方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112001167B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110209812B (zh) 文本分类方法和装置
CN110827831A (zh) 基于人机交互的语音信息处理方法、装置、设备及介质
CN112527962A (zh) 基于多模态融合的智能应答方法、装置、机器可读介质及设备
CN110909543A (zh) 意图识别方法、装置、设备及介质
CN111814465A (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112001167B (zh) 一种标点符号添加方法、系统、设备和介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN111739520A (zh) 一种语音识别模型训练方法、语音识别方法、装置
CN114722837A (zh) 一种多轮对话意图识别方法、装置及计算机可读存储介质
CN113342935A (zh) 语义识别方法、装置、电子设备及可读存储介质
CN115730237B (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
CN117275466A (zh) 一种业务意图识别方法、装置、设备及其存储介质
US20230186613A1 (en) Sample Classification Method and Apparatus, Electronic Device and Storage Medium
CN111783424A (zh) 一种文本分句方法和装置
CN112084780B (zh) 自然语言处理中共指消解方法、装置、设备及介质
CN114239601A (zh) 语句的处理方法、装置及电子设备
CN113627197A (zh) 文本的意图识别方法、装置、设备及存储介质
CN111222334A (zh) 命名实体识别方法、装置、设备及介质
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN113705194A (zh) 简称抽取方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant