CN107221330B - 标点添加方法和装置、用于标点添加的装置 - Google Patents

标点添加方法和装置、用于标点添加的装置 Download PDF

Info

Publication number
CN107221330B
CN107221330B CN201710382058.0A CN201710382058A CN107221330B CN 107221330 B CN107221330 B CN 107221330B CN 201710382058 A CN201710382058 A CN 201710382058A CN 107221330 B CN107221330 B CN 107221330B
Authority
CN
China
Prior art keywords
text
processed
neural network
punctuation
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710382058.0A
Other languages
English (en)
Other versions
CN107221330A (zh
Inventor
姜里羊
王宇光
陈伟
郑宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201710382058.0A priority Critical patent/CN107221330B/zh
Publication of CN107221330A publication Critical patent/CN107221330A/zh
Application granted granted Critical
Publication of CN107221330B publication Critical patent/CN107221330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种标点添加方法和装置、用于标点添加的装置,其中的方法具体包括:获取待处理文本;通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。本发明实施例可以提高标点添加的准确度。

Description

标点添加方法和装置、用于标点添加的装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种标点添加方法和装置、以及一种用于标点添加的装置。
背景技术
在通信领域以及互联网领域等信息处理技术领域,在某些应用场景中需要为一些缺少标点的文件添加标点。例如,为了方便阅读,为语音识别结果对应的文本添加标点等。
现有方案,可以依据语音信号的静音间隔,为语音识别结果对应的文本添加标点。具体地,可以首先设置静音长短的阈值,如果语音信号中讲话用户说话时的静音间隔的长度超过该阈值,则在对应的位置上添加标点;反之,如果语音信号中讲话用户说话时的静音间隔的长度未超过该阈值,则不添加标点。
然而,发明人在实现本发明实施例的过程中发现,不同讲话用户往往具有不同的语速,这样,现有方案中依据语音信号的静音间隔,为语音识别结果对应的文本添加标点,将影响标点添加的准确度。例如,若讲话用户的语速过快,则语句之间没有间隔、或者间隔很短以至于小于阈值,那么将不为文本添加任何标点;又如,若讲话用户的语速过慢,接近一字一顿的情况,那么文本将对应有很多的标点;上述两种情况均会造成标点添加错误,也即标点添加的准确度较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的标点添加方法、标点添加装置、用于标点添加的装置,本发明实施例可以提高标点添加的准确度。
为了解决上述问题,本发明公开了一种标点添加方法,包括:
获取待处理文本;
通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
可选地,所述通过神经网络转换模型为所述待处理文本添加标点,包括:
对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
可选地,所述通过神经网络转换模型为所述待处理文本添加标点,还包括:
确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,包括:
依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
依据所述上下文向量,确定目标端隐层状态;
依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
可选地,所述确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率,包括:
依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
通过比较所述源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
可选地,所述源端隐层状态包括:前向的源端隐层状态;或者,所述源端隐层状态包括:前向的源端隐层状态和后向的源端隐层状态。
可选地,依据平行语料训练得到神经网络转换模型,包括:
依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
可选地,所述神经网络结构包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
另一方面,本发明公开了一种标点添加装置,包括:
文本获取模块,用于获取待处理文本;
标点添加模块,用于通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
可选地,所述标点添加模块包括:
编码子模块,用于对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
解码子模块,用于依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
结果确定子模块,用于依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
可选地,所述标点添加模块还包括:
对齐概率确定子模块,用于确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述解码子模块包括:
上下文向量确定单元,用于依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
目标端隐层状态确定单元,用于依据所述上下文向量,确定目标端隐层状态;
概率确定单元,用于依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
可选地,所述对齐概率确定子模块包括:
第一对齐概率确定单元,用于依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
第二对齐概率确定单元,用于通过比较所述源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
第三对齐概率确定单元,用于确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
可选地,所述源端隐层状态包括:前向的源端隐层状态,或者,所述源端隐层状态包括:前向的源端隐层状态和后向的源端隐层状态。
可选地,所述装置还包括:用于依据平行语料训练得到神经网络转换模型的训练模块;
所述训练模块包括:
模型建立子模块,用于依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
模型参数训练子模块,用于利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
可选地,所述神经网络结构包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
再一方面,本发明公开了一种用于标点添加的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待处理文本;
通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
又一方面,本发明公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的标点添加方法。
本发明实施例包括以下优点:
本发明实施例将标点添加的问题转换为词汇标点转换的问题,该词汇标点转换具体为将源端语料中各词汇转换为目标端对应的标点,并通过基于平行语料训练得到的神经网络转换模型处理该词汇标点转换问题,由于神经网络可以通过词向量来表示一个词汇,并通过词向量之间的距离来表征词汇之间的语义距离,这样本发明实施例可将一个词汇对应的众多上下文参与到网络转换模型的训练,使得该神经网络转换模型具备准确的标点添加能力;因此,通过神经网络转换模型为所述待处理文本添加标点,可以提高标点添加的准确度。
附图说明
图1是本发明的一种语音识别系统的示例性结构示意图;
图2是本发明的一种标点添加方法实施例的步骤流程图;
图3是本发明的一种标点添加装置实施例的结构框图;
图4是根据一示例性实施例示出的一种用于标点添加的装置作为终端时的框图;及
图5是根据一示例性实施例示出的一种用于标点添加的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种标点添加方案,该方案可以获取待处理文本,并通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料可以包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
本发明实施例将标点添加的问题转换为词汇标点转换的问题,该词汇标点转换具体为将源端语料中各词汇转换为目标端对应的标点,并通过基于平行语料训练得到的神经网络转换模型处理该词汇标点转换问题,由于神经网络可以通过词向量来表示一个词汇,并通过词向量之间的距离来表征词汇之间的语义距离,这样本发明实施例可将一个词汇对应的众多上下文参与到神经网络转换模型的训练,使得该神经网络转换模型具备准确的标点添加能力;因此,通过神经网络转换模型为所述待处理文本添加标点,可以提高标点添加的准确度。
本发明实施例可以应用于在语音识别、语音翻译等需要添加标点的任意应用场景,可以理解,本发明实施例对于具体的应用场景不加以限制。
本发明实施例提供的标点添加方法可应用于终端或者服务器等装置的应用环境中。可选地,上述终端可以包括但不限于:智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。上述服务器可以为云服务器或者普通服务器,用于向客户端提供标点添加服务。
本发明实施例提供的标点添加方法可适用于中文、日文、韩文等语言的处理处理,用于提高标点添加的准确度。可以理解,任意的需要进行添加标点的语言均在本发明实施例的标点添加方法方法的适用范围内。
参照图1,示出了本发明的一种语音识别系统的示例性结构示意图,其具体可以包括:语音识别装置101和标点添加装置102。其中,语音识别装置101和标点添加装置102可以作为单独的装置(包括服务器或者终端),可以共同设置于同一个装置中;可以理解,本发明实施例对于语音识别装置101和标点添加装置102的具体设置方式不加以限制。
其中,语音识别装置101可用于将讲话用户的语音信号转换为文本信息,具体地,语音识别装置101可以输出语音识别结果。在实际应用中,讲话用户可以为语音翻译的场景中讲话并发出语音信号的用户,则可以通过麦克风或其他语音采集器件接收讲话用户的语音信号,并向语音识别装置101发送所接收的语音信号;或者,该语音识别装置101可以具有接收讲话用户的语音信号的功能。
可选地,语音识别装置101可以采用语音识别技术将讲话用户的语音信号转换为文本信息。如果将用户讲话用户的语音信号记作S,对S进行一系列处理后得到与之相对应的语音特征序列O,记作O={O1,O2,…,Ok,…,OT},其中Oi是第k个语音特征,T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串,记作W={w1,w2,…,wn}。语音识别的过程就是根据已知的语音特征序列O,求出最可能的词串W,其中,k、T和n为正整数。
具体来说,语音识别是一个模型匹配的过程,在这个过程中,可以首先根据人的语音特点建立语音模型,通过对输入的语音信号的分析,抽取所需的特征,来建立语音识别所需的模板;对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程,最后确定与所述用户所输入语音匹配的最佳模板,从而获得语音识别的结果。具体的语音识别算法,可采用基于统计的隐含马尔可夫模型的训练和识别算法,也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法,本发明实施例对于具体的语音识别过程不加以限制。
标点添加装置102可以与语音识别装置101连接,其可以接收语音识别装置101发送的语音识别结果,为接收到的语音识别结果添加标点。具体地,其可以将接收到的语音识别结果作为待处理文本,通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果,并输出所述待处理文本对应的标点添加结果。
可选地,在语音识别的应用场景下,标点添加装置102可以向用户或者用户对应的客户端输出该标点添加结果;在语音翻译的应用场景下,标点添加装置102可以向机器翻译装置输出该标点添加结果。可以理解,本领域技术人员可以根据实际的应用场景,确定所述待处理文本对应的标点添加结果对应的输出方式,本发明实施例对于所述待处理文本对应的标点添加结果对应的具体输出方式不加以限制。
方法实施例
参照图2,示出了本发明的一种标点添加方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201、获取待处理文本;
步骤202、通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型可以为依据平行语料训练得到,所述平行语料可以包括:源端语料和目标端语料,所述目标端语料可以为所述源端语料中各词汇对应的标点。
本发明实施例中,待处理文本可用于表示需要进行添加标点的文本,该待处理文本可以来源于用户通过装置输入的文本或者语音,也可以来自其他装置。需要说明的是,上述待处理文本中可以包括:一种语言、或者一种以上的语言,例如,上述待处理文本中可以包括中文,也可以包括中文与例如英文的其他语言的混合,本发明实施例对具体的待处理文本不加以限制。
在实际应用中,本发明实施例可以通过客户端APP(应用,Application)执行本发明实施例的标点添加方法流程,客户端应用可以运行在终端上,例如,该客户端应用可以为终端上运行的任意APP,则该客户端应用可以从终端的其他应用获取待处理文本。或者,本发明实施例可以通过客户端应用的功能装置执行本发明实施例的标点添加方法流程,则该功能装置可以从其他功能装置获取待处理文本。或者,本发明实施例可以通过服务器执行本发明实施例的标点添加方法。
在本发明的一种可选实施例中,步骤201可以依据讲话用户的语音信号获取待处理文本,此种情况下,步骤201可以将讲话用户的语音信号转换为文本信息,并从该文本信息中获取待处理文本。或者,步骤201可以直接从语音识别装置接收用户的语音信号对应的文本信息,并从从该文本信息中获取待处理文本。
在实际应用中,步骤201可以根据实际应用需求,从语音信号对应的文本或者用户输入的文本中获取待处理文本。可选地,可以依据语音信号S的间隔时间,从语音信号S对应的文本中获取待处理文本;例如,在语音信号S的间隔时间大于时间阈值时,可以依据该时间点确定对应的第一分界点,将该第一分界点之前的语音信号S对应的文本作为待处理文本,并对该第一分界点之后的语音信号S对应的文本进行处理,以继续从中获取待处理文本。或者,可选地,可以依据语音信号对应的文本或者用户输入的文本所包含的字数,从语音信号对应的文本或者用户输入的文本中获取待处理文本;例如,在语音信号对应的文本或者用户输入的文本包含的字数大于字数阈值时,可以依据该字数阈值确定对应的第二分界点,可以将该第二分界点之前的语音信号S对应的文本作为待处理文本,并对该第二分界点之后的语音信号S对应的文本进行处理,以继续从中获取待处理文本。可以理解,本发明实施例对于从语音信号对应的文本或者用户输入的文本中获取待处理文本的具体过程不加以限制。
本发明实施例的神经网络转换模型可以为依据平行语料训练得到。由于神经网络可以通过词向量来表示一个词汇,并通过词向量之间的距离来表征词汇之间的语义距离,这样本发明实施例可将一个词汇对应的众多上下文参与到网络转换模型的训练,使得该神经网络转换模型具备准确的标点添加能力。
在实际应用中,所述平行语料可以包括:源端语料和目标端语料,所述目标端语料可以为所述源端语料中各词汇对应的标点,通常,各词汇对应的标点可以为该词汇后面添加的标点。在实际应用中,源端语料可以包括:若干个源端句子,目标端语料可以为上述源端句子中各词汇对应的标点。在实际应用中,目标端语料包括的标点可以为实际的标点符号,和/或,目标端语料包括的标点可以为实际的标点符号对应的标识,和/或,目标端语料包括的标点可以为标点添加结果对应的标识,可以理解,本发明实施例对于目标端语料包括的标点的具体表征方式不加以限制。可选地,对于“在对应词汇后不加标点”对应的标点添加结果,可以将“_”作为其对应的标识;例如,对于源端句子“今天天气怎么样我们出去玩吧”,其中各词汇“今天天气怎么样我们出去玩吧”对应的目标端标点可以为“__?___!”,其中,“_”表示在对应词汇后不加标点。
在本发明的一种可选实施例中,依据平行语料训练得到神经网络转换模型的过程可以包括以下至少一种:依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;并利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
在本发明的一种可选实施例中,所述神经网络结构可以包括:RNN(循环神经网络,Recurrent Neural Networks)、LSTM(长短期记忆,Long Short-Term Memory)、或者GRU(门控循环单元,Gated Recurrent Unit)等。可以理解,本领域技术人员可以根据实际应用需求,采用所需的神经网络结构,可以理解,本发明实施例对于具体的神经网络结构不加以限制。
可选地,上述神经网络转换模型可以包括:源端的词汇到目标端的标点的映射函数,该映射函数可以表示成条件概率的形式,如P(y︱x)或者p(yj︱y<j,x),其中,x表示源端信息(例如待处理文本的信息),y表示目标端信息(例如待处理文本中各词汇对应的标点);通常添加标点的准确率越高,则该条件概率越大。
在实际应用中,神经网络结构可以包括有多个神经元层,具体地,该神经元层可以包括:输入层、隐层及输出层,其中,输入层负责接收源端信息,并将其分发到隐层,隐层负责所需的计算、并向输出层输出计算结果,输出层负责输出目标端信息也即计算结果。在本发明的一种可选实施例中,神经网络转换模型的模型参数可以包括:输入层与隐层之间的第一连接权重W、输出层与隐层之间的第二连接权重U、以及输出层和隐层的偏置参数中的至少一种,可以理解,本发明实施例对于具体的网络转换模型及其对应的模型参数不加以限制。
对平行语料进行训练,神经网络转换模型的最大化目标是给定源端信息x输出正确标点信息y的概率。在实际应用中,可以利用神经网络学习算法,对平行语料进行训练,并利用例如随机梯度下降方法的优化方法对模型参数进行优化,例如,上述优化可以根据输出层的误差对模型参数求梯度,并依据优化方法对模型参数进行更新,这样可以实现神经网络转换模型的最大化目标。可选地,神经网络学习算法可以包括:BP(误差反向传播,error BackPropagation)算法、遗传等,可以理解,本发明实施例对于具体的神经网络学习算法、以及利用神经网络学习算法,对平行语料进行训练的具体过程不加以限制。
在实际应用中,可以将所述待处理文本输入训练得到的神经网络转换模型,由该神经网络转换模型对该待处理文本进行处理,并输出所述待处理文本对应的标点添加结果。在本发明的一种可选实施例中,上述通过神经网络转换模型为所述待处理文本添加标点涉及的神经网络转换模型对该待处理文本进行处理的过程可以包括:
步骤S1、对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
步骤S2、依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
步骤S3、依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
在实际应用中,步骤S1可以首先将待处理文本中各词汇转化为对应的词表向量,该词表向量的维度可以与词汇表的大小相同,但由于词汇表的大小导致词表向量的维度较大,为了避免维数灾难、且更好地表达词汇与词汇之间的语义关系,可以将该词表向量映射到一个低维的语义空间,每个词汇将由一个固定维度的稠密向量表示,该稠密向量被称作词向量,该词向量之间的距离可以在一定程度上衡量词汇之间的相似性。进一步,可以利用神经网络结构压缩待处理文本对应的词序列,以得到整个待处理文本的压缩表示,也即待处理文本对应的源端隐层状态。可选地,可以采用神经网络结构隐层的激活函数(如sigmoid(S型函数)、tanh(双曲正切函数)等),压缩待处理文本对应的词序列,以得到待处理文本对应的源端隐层状态,本发明实施例对于待处理文本对应的源端隐层状态的具体压缩方式不加以限制。
在本发明的一种可选实施例中,所述源端隐层状态可以包括:前向的源端隐层状态。这样,待处理文本中各词汇的隐层状态只压缩了其前面的词汇。或者,所述源端隐层状态可以包括:前向的源端隐层状态和后向的源端隐层状态,这样,待处理文本中各词汇的隐层状态不仅压缩了其前面的词汇,还可以压缩器后面的词汇,这样可以将一个词汇对应的众多上下文参与到网络转换模型的训练,使得该神经网络转换模型具备准确的标点添加能力。
在本发明的一种实施例中,步骤S2可以依据待处理文本对应的源端隐层状态得到源端对应的上下文向量,依据所述上下文向量,确定目标端隐层状态,并依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
需要说明的是,本领域技术人员可以根据实际应用需求,确定需要在相邻词汇之间添加的候选标点,可选地,上述候选标点可以包括:逗号、问号、句号、感叹号、空格等,其中,空格“_”可以起到词分割的作用或者不起任何作用,例如,对于英文而言,空格可用于分割不同的词,对于中文而言,空格可以为不起任何作用的标点符号,可以理解,本发明实施例对于具体的候选标点不加以限制。
在本发明的一种可选实施例中,源端对应的上下文向量可以为固定向量,具体地,源端对应的上下文向量可以为源端所有源端隐层状态的组合。在源端对应的上下文向量可以为固定向量的情况下,源端每个词汇对于每个目标端位置的贡献是相同的,但这存在一定的不合理性,例如,与目标端位置一致的源端位置对于目标端位置的贡献明显更大。上述合理性在源端句子比较短的时候问题不大,但是如果源端句子比较长,缺点将比较明显,因此将降低标点添加的准确度、且容易增加运算量。
针对上述源端对应的上下文向量可以为固定向量带来的准确度下降的问题,在本发明的一种可选实施例中,可以采用可变的上下文向量,相对应地,上述通过神经网络转换模型为所述待处理文本添加标点还可以包括:步骤S3、确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述步骤S2、依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码的过程可以包括:依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;依据所述上下文向量,确定目标端隐层状态;依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
上述对齐概率可用于表征第i个源端位置与第j个目标端位置之间的匹配程度,i和j分别为源端位置和目标端位置的编号,i和j可以均为正整数。依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量,这样可以使源端对应的上下文向量更多地关注于源端的部分词汇,因此可以在一定程度上降低运算量,且可以提高标点添加的准确度。
本发明实施例可以提供所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率的如下确定方式:
确定方式1、依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定方式2、通过比较所述源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定方式3、确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
其中,确定方式1可以依据神经网络转换模型的模型参数和目标端隐层状态,得到对齐概率,具体地,可以对第一连接权重和目标端隐层状态的乘积输入softmax函数,由softmax函数输出对齐概率。其中,softmax函数为归一化函数,其可以把一堆实数的值映射到[0,1]区间,并且使它们的和为1。
确定方式2可以通过对齐函数对所述源端隐层状态和目标端隐层状态进行比较。对齐函数的例子可以为打分函数的指数与基于隐层状态对打分函数的指数的求和结果之间的比值,打分函数可以为与源端隐层状态和目标端隐层状态相关的函数,可以理解,本发明实施例对于具体的对齐函数不加以限制。
确定方式3可以针对第j个目标端位置生成对应的对齐源端位置pj,并在源端取窗口[pj-D,pj+D],D为正整数,则上下文向量可以通过计算窗口内的源端隐层状态的加权平均得到,如果窗口超出源端句子的边界,则以句子的边界为准。其中,pj可以为预设值,也可以为在线估计得到的值,本发明实施例对于对齐源端位置pj的具体确定过程不加以值。
以上通过确定方式1至确定方式3对于对齐概率的确定过程进行了详细介绍,可以理解,本领域技术人员可以根据实际应用需求,采用确定方式1至确定方式3中的任一,或者,还可以采用其他确定方式,本发明实施例对于对齐概率的具体确定过程不加以限制。
步骤S3可以依据步骤S2得到的待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果,具体地,可以将针对一个词汇将概率最大的候选标点作为其对应的目标标点。进一步,可以依据待处理文本中各词汇对应的目标标点,得到待处理文本对应的标点添加结果,该标点添加结果可以为经过标点添加处理的待处理文本。例如,待处理文本“你好我是小明很高兴认识你”对应的标点添加结果可以为“你好,我是小明,很高兴认识你”。当然,该标点添加结果可以为待处理文本中各词汇对应的目标标点,可以理解,本发明实施例对于该标点添加结果的具体表征方式不加以限制。
综上,本发明实施例的标点添加方法,将标点添加的问题转换为词汇标点转换的问题,该词汇标点转换具体为将源端语料中各词汇转换为目标端对应的标点,并通过基于平行语料训练得到的神经网络转换模型处理该词汇标点转换问题,由于神经网络可以通过词向量来表示一个词汇,并通过词向量之间的距离来表征词汇之间的语义距离,这样本发明实施例可将一个词汇对应的众多上下文参与到网络转换模型的训练,使得该神经网络转换模型具备准确的标点添加能力;因此,通过神经网络转换模型为所述待处理文本添加标点,可以提高标点添加的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图3,示出了本发明的一种标点添加装置实施例的结构框图,具体可以可以包括:
文本获取模块301,用于获取待处理文本;
标点添加模块302,用于通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料可以包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
可选地,所述标点添加模块302可以包括:
编码子模块,用于对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
解码子模块,用于依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
结果确定子模块,用于依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
可选地,所述标点添加模块302还可以包括:
对齐概率确定子模块,用于确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述解码子模块可以包括:
上下文向量确定单元,用于依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
目标端隐层状态确定单元,用于依据所述上下文向量,确定目标端隐层状态;
概率确定单元,用于依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
可选地,所述对齐概率确定子模块可以包括:
第一对齐概率确定单元,用于依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
第二对齐概率确定单元,用于通过比较所述源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
第三对齐概率确定单元,用于确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
可选地,所述源端隐层状态可以包括:前向的源端隐层状态,或者,所述源端隐层状态可以包括:前向的源端隐层状态和后向的源端隐层状态。
可选地,所述装置还可以包括:用于依据平行语料训练得到神经网络转换模型的训练模块;
所述训练模块可以包括:
模型建立子模块,用于依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
模型参数训练子模块,用于利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
可选地,所述神经网络结构可以包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种标点添加装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取待处理文本;通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
可选地,所述通过神经网络转换模型为所述待处理文本添加标点,包括:
对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
可选地,所述通过神经网络转换模型为所述待处理文本添加标点,还包括:
确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,包括:
依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
依据所述上下文向量,确定目标端隐层状态;
依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
可选地,所述确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率,包括:
依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
通过比较所述源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
可选地,所述源端隐层状态包括:前向的源端隐层状态;或者,所述源端隐层状态包括:前向的源端隐层状态和后向的源端隐层状态。
可选地,依据平行语料训练得到神经网络转换模型,包括:
依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
可选地,所述神经网络结构包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
图4是根据一示例性实施例示出的一种用于标点添加的装置作为终端时的框图。例如,终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是根据一示例性实施例示出的一种用于标点添加的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种标点添加方法,所述方法包括:获取待处理文本;通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
可选地,所述通过神经网络转换模型为所述待处理文本添加标点,包括:
对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
可选地,所述通过神经网络转换模型为所述待处理文本添加标点,还包括:
确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,包括:
依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
依据所述上下文向量,确定目标端隐层状态;
依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
可选地,所述确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率,包括:
依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
通过比较所述源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
可选地,所述源端隐层状态包括:前向的源端隐层状态;或者,所述源端隐层状态包括:前向的源端隐层状态和后向的源端隐层状态。
可选地,依据平行语料训练得到神经网络转换模型,包括:
依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
可选地,所述神经网络结构包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种标点添加方法、一种标点添加装置、以及一种用于标点添加的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1.一种标点添加方法,其特征在于,包括:
获取待处理文本;所述待处理文本为依据语音信号的间隔时间、和/或、语音信号对应的文本包含的字数,从所述语音信号对应的文本中得到;
通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点;所述标点添加结果包括:所述待处理文本中各词汇分别对应的标点;
其中,所述标点添加结果为依据源端对应的上下文向量得到,所述上下文向量为依据对齐概率得到;所述对齐概率为所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
所述对齐概率的确定方式包括:
依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
通过比较源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
2.根据权利要求1所述的方法,其特征在于,所述通过神经网络转换模型为所述待处理文本添加标点,包括:
对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
3.根据权利要求2所述的方法,其特征在于,所述通过神经网络转换模型为所述待处理文本添加标点,还包括:
确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,包括:
依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
依据所述上下文向量,确定目标端隐层状态;
依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
4.根据权利要求2所述的方法,其特征在于,所述源端隐层状态包括:前向的源端隐层状态;或者,所述源端隐层状态包括:前向的源端隐层状态和后向的源端隐层状态。
5.根据权利要求1至4中任一所述的方法,其特征在于,依据平行语料训练得到神经网络转换模型,包括:
依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
6.根据权利要求5所述的方法,其特征在于,所述神经网络结构包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
7.一种标点添加装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;所述待处理文本为依据语音信号的间隔时间、和/或、语音信号对应的文本包含的字数,从所述语音信号对应的文本中得到;
标点添加模块,用于通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点;所述标点添加结果包括:所述待处理文本中各词汇分别对应的标点;
其中,所述标点添加结果为依据源端对应的上下文向量得到,所述上下文向量为依据对齐概率得到;所述对齐概率为所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
所述对齐概率的确定方式包括:
依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
通过比较源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
8.根据权利要求7所述的装置,其特征在于,所述标点添加模块包括:
编码子模块,用于对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
解码子模块,用于依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
结果确定子模块,用于依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
9.根据权利要求8所述的装置,其特征在于,所述标点添加模块还包括:
对齐概率确定子模块,用于确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述解码子模块包括:
上下文向量确定单元,用于依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
目标端隐层状态确定单元,用于依据所述上下文向量,确定目标端隐层状态;
概率确定单元,用于依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
10.根据权利要求8所述的装置,其特征在于,所述源端隐层状态包括:前向的源端隐层状态,或者,所述源端隐层状态包括:前向的源端隐层状态和后向的源端隐层状态。
11.根据权利要求7至10中任一所述的装置,其特征在于,所述装置还包括:用于依据平行语料训练得到神经网络转换模型的训练模块;
所述训练模块包括:
模型建立子模块,用于依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
模型参数训练子模块,用于利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
12.根据权利要求11所述的装置,其特征在于,所述神经网络结构包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
13.一种用于标点添加的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待处理文本;所述待处理文本为依据语音信号的间隔时间、和/或、语音信号对应的文本包含的字数,从所述语音信号对应的文本中得到;
通过神经网络转换模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点;所述标点添加结果包括:所述待处理文本中各词汇分别对应的标点;
其中,所述标点添加结果为依据源端对应的上下文向量得到,所述上下文向量为依据对齐概率得到;所述对齐概率为所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
所述对齐概率的确定方式包括:
依据神经网络转换模型的模型参数和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
通过比较源端隐层状态和目标端隐层状态,得到所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;或者
确定目标端位置对应的对齐源端位置,确定各目标端位置与其对应的对齐源端位置之间的对齐概率。
14.根据权利要求13所述的装置,其特征在于,所述通过神经网络转换模型为所述待处理文本添加标点,包括:
对所述待处理文本进行编码,以得到所述待处理文本对应的源端隐层状态;
依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,以得到所述待处理文本中各词汇属于候选标点的概率;
依据待处理文本中各词汇属于候选标点的概率,得到所述待处理文本对应的标点添加结果。
15.根据权利要求14所述的装置,其特征在于,所述通过神经网络转换模型为所述待处理文本添加标点,还包括:
确定所述待处理文本对应的源端位置与标点添加结果对应的目标端位置之间的对齐概率;
则所述依据神经网络转换模型的模型参数,对所述待处理文本对应的源端隐层状态进行解码,包括:
依据所述对齐概率和所述待处理文本对应的源端隐层状态,得到源端对应的上下文向量;
依据所述上下文向量,确定目标端隐层状态;
依据所述隐层状态和神经网络转换模型的模型参数,确定所述待处理文本中各词汇属于候选标点的概率。
16.根据权利要求13所述的装置,其特征在于,所述源端隐层状态包括:前向的源端隐层状态;或者,所述源端隐层状态包括:前向的源端隐层状态和后向的源端隐层状态。
17.根据权利要求13至16中任一所述的装置,其特征在于,依据平行语料训练得到神经网络转换模型,包括:
依据神经网络结构,建立源端的词汇到目标端的标点的神经网络转换模型;
利用神经网络学习算法,对平行语料进行训练,以得到所述神经网络转换模型的模型参数。
18.根据权利要求17所述的装置,其特征在于,所述神经网络结构包括以下至少一种:循环神经网络RNN、长短期记忆LSTM、以及门控循环单元GRU。
19.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的标点添加方法。
CN201710382058.0A 2017-05-26 2017-05-26 标点添加方法和装置、用于标点添加的装置 Active CN107221330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710382058.0A CN107221330B (zh) 2017-05-26 2017-05-26 标点添加方法和装置、用于标点添加的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710382058.0A CN107221330B (zh) 2017-05-26 2017-05-26 标点添加方法和装置、用于标点添加的装置

Publications (2)

Publication Number Publication Date
CN107221330A CN107221330A (zh) 2017-09-29
CN107221330B true CN107221330B (zh) 2020-11-27

Family

ID=59944779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710382058.0A Active CN107221330B (zh) 2017-05-26 2017-05-26 标点添加方法和装置、用于标点添加的装置

Country Status (1)

Country Link
CN (1) CN107221330B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979435B (zh) * 2017-12-28 2021-10-22 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN108564953B (zh) * 2018-04-20 2020-11-17 科大讯飞股份有限公司 一种语音识别文本的标点处理方法及装置
CN108932226A (zh) * 2018-05-29 2018-12-04 华东师范大学 一种对无标点文本添加标点符号的方法
CN109614627B (zh) * 2019-01-04 2023-01-20 平安科技(深圳)有限公司 一种文本标点预测方法、装置、计算机设备及存储介质
CN109918666B (zh) * 2019-03-06 2024-03-15 北京工商大学 一种基于神经网络的中文标点符号添加方法
CN110032732A (zh) * 2019-03-12 2019-07-19 平安科技(深圳)有限公司 一种文本标点预测方法、装置、计算机设备及存储介质
CN110413987B (zh) * 2019-06-14 2023-05-30 平安科技(深圳)有限公司 基于多个预测模型的标点符号预测方法及相关设备
CN110245334B (zh) * 2019-06-25 2023-06-16 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110852040B (zh) * 2019-11-05 2023-08-04 中电科大数据研究院有限公司 一种标点预测模型训练方法及文本标点确定方法
CN111145732B (zh) * 2019-12-27 2022-05-10 思必驰科技股份有限公司 多任务语音识别后的处理方法及系统
CN111261162B (zh) * 2020-03-09 2023-04-18 北京达佳互联信息技术有限公司 语音识别方法、语音识别装置及存储介质
CN111883137A (zh) * 2020-07-31 2020-11-03 龙马智芯(珠海横琴)科技有限公司 基于语音识别的文本处理方法及装置
CN112199927A (zh) * 2020-10-19 2021-01-08 古联(北京)数字传媒科技有限公司 古籍标点填充方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971684A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
CN106653030A (zh) * 2016-12-02 2017-05-10 北京云知声信息技术有限公司 标点添加方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231278B (zh) * 2011-06-10 2013-08-21 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
WO2016065327A1 (en) * 2014-10-24 2016-04-28 Google Inc. Neural machine translation systems with rare word processing
CN104361896B (zh) * 2014-12-04 2018-04-13 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及系统
CN106601228B (zh) * 2016-12-09 2020-02-04 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971684A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
CN106653030A (zh) * 2016-12-02 2017-05-10 北京云知声信息技术有限公司 标点添加方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bidirectional Recurrent Neural network with Attention Mechanism for Punctuation Restoration;Ottokar Tilk等;《INTERSPEECH2016》;20160912;3047-3051 *
Effective Approaches to Attention-based Neural Machine Translation;Minh-thang Luong等;《arXiv》;20150920;1-11 *
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation;kyunghyun Cho等;《arXiv》;20140903;1-15 *
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE;Dzmitry Bahdanau等;《ICLR2015》;20160519;1-15 *

Also Published As

Publication number Publication date
CN107221330A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107221330B (zh) 标点添加方法和装置、用于标点添加的装置
CN107291690B (zh) 标点添加方法和装置、用于标点添加的装置
CN109243430B (zh) 一种语音识别方法及装置
CN110210310B (zh) 一种视频处理方法、装置和用于视频处理的装置
CN113362812B (zh) 一种语音识别方法、装置和电子设备
CN107291704B (zh) 处理方法和装置、用于处理的装置
CN108399914B (zh) 一种语音识别的方法和装置
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN108628813B (zh) 处理方法和装置、用于处理的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
US11556761B2 (en) Method and device for compressing a neural network model for machine translation and storage medium
CN110992942B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN108073572B (zh) 信息处理方法及其装置、同声翻译系统
CN108628819B (zh) 处理方法和装置、用于处理的装置
CN111369978B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111128183A (zh) 语音识别方法、装置和介质
CN110633470A (zh) 命名实体识别方法、装置及存储介质
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
CN113362813A (zh) 一种语音识别方法、装置和电子设备
CN111640452B (zh) 一种数据处理方法、装置和用于数据处理的装置
WO2022147692A1 (zh) 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质
CN108733657B (zh) 神经机器翻译中注意力参数的修正方法、装置及电子设备
CN113657101A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant