CN112528645A - 文本处理方法、装置、电子设备和计算机可读存储介质 - Google Patents

文本处理方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112528645A
CN112528645A CN201910822834.3A CN201910822834A CN112528645A CN 112528645 A CN112528645 A CN 112528645A CN 201910822834 A CN201910822834 A CN 201910822834A CN 112528645 A CN112528645 A CN 112528645A
Authority
CN
China
Prior art keywords
processing
text
result
preprocessing result
preprocessing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910822834.3A
Other languages
English (en)
Inventor
李思
李明正
王蓬辉
张斯曼
李安新
郭心语
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
NTT Korea Co Ltd
Original Assignee
NTT Korea Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Korea Co Ltd filed Critical NTT Korea Co Ltd
Priority to CN201910822834.3A priority Critical patent/CN112528645A/zh
Priority to JP2020085110A priority patent/JP2021039727A/ja
Publication of CN112528645A publication Critical patent/CN112528645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质。所述文本处理方法,包括:获取输入文本;对所述输入文本进行第一文本处理,获取所述输入文本的第一预处理结果;对所述输入文本进行第二文本处理,获取所述输入文本的第二预处理结果;以及基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果,其中,所述第一文本处理是基于深度学习的分类处理,并且所述第二文本处理是基于统计学习的分类处理。根据本公开的文本处理方法,融合深度学习和统计学习的处理结果,使用少量特定领域的训练语料实现对于领域的自适应,并且获得优于深度学习和统计学习的处理性能。

Description

文本处理方法、装置、电子设备和计算机可读存储介质
技术领域
本申请涉及自然语言处理领域,并且具体涉及一种基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质。
背景技术
自然语言处理(NLP)是人工智能技术重要的应用领域之一。自然语言处理能够让计算机像人一样能够阅读文字,理解文字背后的含义,从而完成机器翻译、自动问答、信息检索、情感分析、自动文本摘要等具体应用。让计算机懂得人类的文本,就必须要让计算机准确把握每一个词的含义。因而在自然语言处理中,分词技术是非常基础的模块。
现有的分词方法主要包括基于统计学习的分词方法和基于深度学习的分词方法。基于统计学习分词方法包括例如基于隐式马尔可夫模型(Hiden Markov Model,HMM)、N元文法模型(N-gram)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等的分词方法。基于统计学习分词方法通常具有较强的泛化性,但是其分词性能有限(例如,F1分数较低)。基于深度学习的分词方法包括例如利用卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆(LSTM)神经网络等的分词方法。基于深度学习的分词方法在有足够的训练语料数据时,其分词性能好于基于统计学习的分词方法,但是当训练语料数据不足时,其分词性能将迅速下降。因此,希望能够融合不同分词方法的优点,并且实现对于训练语料较少的特定领域的自适应,从而获得高于基于统计学习的分词方法和基于深度学习的分词方法的分词性能。
发明内容
鉴于上述问题,本公开提供了一种基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质。
根据本公开的一个方面,提供了一种基于神经网络的文本处理装置,包括:接收单元,用于获取输入文本;第一处理单元,用于对所述输入文本进行第一文本处理,获取所述输入文本的第一预处理结果;第二处理单元,用于对所述输入文本进行第二文本处理,获取所述输入文本的第二预处理结果;以及处理结果生成单元,用于基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果,其中,所述第一文本处理是基于深度学习的分类处理,并且所述第二文本处理是基于统计学习的分类处理。
此外,根据本公开的一个方面的文本处理装置,其中,所述处理结果输出单元包括:判断单元,用于判断所述第一预处理结果和所述第二预处理结果是否相同;第三处理单元,用于在所述第一预处理结果和所述第二预处理结果相同的情况下,以相同的所述第一预处理结果和所述第二预处理结果作为所述处理结果;以及在所述第一预处理结果和所述第二预处理结果不同的情况下,对不同的所述第一预处理结果和所述第二预处理结果进行第三文本处理,生成所述输入文本的处理结果,其中,所述第三文本处理是基于支持向量机的分类处理。
此外,根据本公开的一个方面的文本处理装置,还包括:训练单元,用于利用第一语料库训练进行所述第一文本处理的第一处理单元以及进行所述第二文本处理的第二处理单元;利用第二语料库训练进行所述第三文本处理的第三处理单元,其中,所述第一语料库包含的语料数多于所述第二语料库包含的语料数。
此外,根据本公开的一个方面的文本处理装置,还包括:输出单元,用于基于所述处理结果生成所述输入文本对应的输出文本,其中,所述第一预处理结果、所述第二预处理结果和所述第三处理结果分别指示所述输入文本中各个字的位置标签,所述输出文本为所述输入文本对应的分词文本。
根据本公开的另一个方面,提供了一种基于神经网络的文本处理方法,包括:获取输入文本;对所述输入文本进行第一文本处理,获取所述输入文本的第一预处理结果;对所述输入文本进行第二文本处理,获取所述输入文本的第二预处理结果;以及基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果,其中,所述第一文本处理是基于深度学习的分类处理,并且所述第二文本处理是基于统计学习的分类处理。
此外,根据本公开的另一个方面的文本处理方法,其中,基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果包括:判断所述第一预处理结果和所述第二预处理结果是否相同;在所述第一预处理结果和所述第二预处理结果相同的情况下,以相同的所述第一预处理结果和所述第二预处理结果作为所述处理结果;以及在所述第一预处理结果和所述第二预处理结果不同的情况下,对不同的所述第一预处理结果和所述第二预处理结果进行第三文本处理,生成所述输入文本的处理结果,其中,所述第三文本处理是基于支持向量机的分类处理。
此外,根据本公开的另一个方面的文本处理方法,还包括:利用第一语料库训练进行所述第一文本处理的第一处理单元以及进行所述第二文本处理的第二处理单元;利用第二语料库训练进行所述第三文本处理的第三处理单元,其中,所述第一语料库包含的语料数多于所述第二语料库包含的语料数。
此外,根据本公开的另一个方面的文本处理方法,还包括:基于所述处理结果生成所述输入文本对应的输出文本,其中,所述第一预处理结果、所述第二预处理结果和所述第三处理结果分别指示所述输入文本中各个字的位置标签,所述输出文本为所述输入文本对应的分词文本。
根据本公开的又一个方面,提供了一种电子设备,包括:处理器;以及存储器,用于存储计算机程序指令;其中,当所述计算机程序指令由所述处理器加载并运行时,所述处理器执行如上所述的文本处理方法。
根据本公开的再一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,其中,所述计算机程序指令被处理器加载并运行时,所述处理器执行如上所述的文本处理方法。
如以下将详细描述的,根据本公开实施例的基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质,通过融合不同分词方法的优点,并且实现对于训练语料较少的特定领域的自适应,从而获得高于基于统计学习的分词方法和基于深度学习的分词方法的分词性能。
要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是概述根据本公开实施例的文本处理方法的应用场景的示意图;
图2是图示根据本公开实施例的文本处理方法的流程图;
图3是进一步图示根据本公开实施例的文本处理方法的流程图;
图4是图示根据本公开实施例的文本处理装置的框图;
图5是图示根据本公开实施例的文本处理方法中的训练过程的流程图;
图6A和6B是图示根据本公开实施例的文本处理方法中的训练过程的框图;
图7是图示根据本公开实施例的电子设备的硬件框图;以及
图8是图示根据本公开的实施例的计算机可读存储介质的示意图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
首先,参照图1描述根据本公开实施例的文本处理方法的应用场景。
图1是概述根据本公开实施例的文本处理方法的应用场景的示意图。如图1所示,根据本公开实施例的文本处理方法可以应用于自然语言处理系统10。自然语言处理系统10配置有自然语言处理装置100。自然语言处理装置100经由通信网络103与用户101a-101c各自的用户设备102a-102c执行数据通信。
自然语言处理系统10例如可以是智能客服系统。智能客服系统需要融合自然语言理解的语义检索技术、多渠道知识服务技术以及大规模知识库建构技术,让用户以最自然的方式表达自己的信息或知识需求,并能够向用户反馈其最想要的精准信息。因此,智能客服系统的首要任务就是对用户的查询问题进行自然语言分析,确定查询问题的含义以及其他等价的查询问法,此后再通过对于知识库的检索向用户反馈对于查询问题的精确应答。
此外,如上所述的自然语言处理系统10例如还可以是智能聊天机器人系统。智能聊天机器人系统在于用户进行实时互动聊天的过程中,首要任务也是对用户的聊天内容进行自然语言分析,确定聊天内容的含义以及其他等价的内容,此后再通过对于知识库的检索向用户反馈对于聊天内容的适当回应。
自然语言处理装置100包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置,诸如搜索引擎服务器、内容提供服务器等。用户设备102a-102c包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。通信网络103包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。
在本公开的一个实施例中,自然语言处理装置100例如为搜索引擎服务器。自然语言处理装置100接收由用户设备102a-102c通过通信网络103提出的问题,自然语言处理装置100基于对于问题与自身来源文档的理解,自动向用户101a-101c提供答案。
在本公开的另一个实施例中,自然语言处理装置100例如还可以为机器翻译装置、情感分析装置、自动文本摘要装置等。
如下将描述的,根据本公开实施例的文本处理装置可以配置在自然语言处理装置100中,用于执行根据本公开实施例的文本处理方法。具体地,根据本公开实施例的文本处理方法可以是用于执行自然语言处理中的分词处理。
以下,将参照图2到图4描述根据本公开实施例的文本处理装置和方法。图2是图示根据本公开实施例的文本处理方法的流程图;图3是进一步图示根据本公开实施例的文本处理方法的流程图;图4是图示根据本公开实施例的文本处理装置的框图。
如图2所示,根据本公开实施例的文本处理方法包括以下步骤。
在步骤S201中,获取输入文本。在本公开的一个实施例中,可以接收用户通过键盘等输入设备输入的文本数据,或者可以接收用户输入的语音数据,然后通过语音识别和转换将语音数据转换为文本数据。可替代地,可以读取本地存储的文本数据或者经由通信网络接收从外部传输的文本数据。在后续步骤中对获取的输入文本执行文本处理。具体地,在本公开的一个实施例中,对获取的输入文本执行分词处理。容易理解的是,根据本公开实施例的文本处理不限于分词处理,而是可以包括诸如命名实体识别、词性标注、句法分析、语义分析、篇章分析等。
在步骤S202中,对输入文本信息进行第一文本处理,获取输入文本的第一预处理结果。在本公开的一个实施例中,所述第一文本处理是基于深度学习的分类处理。例如,所述第一文本处理是利用诸如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆(LSTM)神经网络等对输入文本信息执行的。
具体地,所述第一文本处理是利用卷积神经网络(CNN)的分词处理。在利用卷积神经网络(CNN)的分词处理中,首先对输入文本信息的每个字符执行向量化表示,例如,对输入文本信息执行独热编码(One-hot Representation)。此后,利用各卷积层对向量化表示的文本信息提取特征。最后,利用维特比(Viterbi)算法获得输入文本信息的每个字符属于相应标签的概率。在分词处理的情况下,每个字符的标签包括{B,M,E,S}四类,其中B代表是词语中的起始字,M代表是词语中的中间字,E代表是词语中的结束字,S则代表是单字成词。如此获得的输入文本信息的每个字符属于相应标签的概率作为输入文本的第一预处理结果。
在步骤S203中,对输入文本信息进行第二文本处理,获取输入文本的第二预处理结果。在本公开的一个实施例中,所述第二文本处理是基于统计学习的分类处理。例如,所述第二文本处理是利用诸如隐式马尔可夫模型(Hiden Markov Model,HMM)、N元文法模型(N-gram)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等对输入文本信息执行的。
具体地,所述第二文本处理是利用隐式马尔可夫模型(HMM)的分词处理。隐式马尔可夫模型由初始状态概率分布π、状态转移概率分布A以及观测概率分布B确定。存在两个假设,即1)假设任意时刻t的状态只依赖于前一个时刻的状态,与其他时刻的状态和观测序列无关;2)假设任意时刻的观测只依赖于该时刻的马尔科夫状态,与其他观测、状态无关。将状态值集合Q置为{B,M,E,S},其中B,M,E,S的含义如上所述。观测序列为句子。通过HMM求解得到观测序列对应的状态序列。如此获得的输入文本信息的每个字符属于相应标签的概率作为输入文本的第二预处理结果。
不同于直接采用基于深度学习获得的第一预处理结果或基于统计学习获得的第二预处理结果作为用于分词的处理结果,根据本公开的实施例进一步在步骤S204中基于所述第一预处理结果和所述第二预处理结果两者,生成所述输入文本的处理结果。
图3是进一步图示根据本公开实施例的文本处理方法的流程图。如图3所示的步骤S301到S303与图2中示出的步骤S201到S203相同,在此将省略其重复描述。
在步骤S303之后,已经基于深度学习获得第一预处理结果和基于统计学习获得第二预处理结果,处理进到步骤S304。
在步骤S304中,判断第一预处理结果和第二预处理结果是否相同。
如果第一预处理结果和第二预处理结果中对于一个字符获得的标签{B,M,E,S}序列中的最大可能标签相同,例如第一预处理结果{B 0.5,M 0.1,E 0.2,S 0.2}和第二预处理结果{B 0.4,M 0.2,E 0.2,S 0.2}都显示该字符为B标签的概率最大,则认为对于该字符的第一预处理结果的第二预处理结果相同,处理进到步骤S305。
在步骤S305中,以相同的第一预处理结果和第二预处理结果作为最终的处理结果。
与此不同,如果第一预处理结果和第二预处理结果中对于一个字符获得的标签{B,M,E,S}序列中的最大可能标签不相同,例如第一预处理结果{B0.5,M 0.1,E 0.2,S0.2}显示该字符为B标签的概率最大,而第二预处理结果{B 0.2,M 0.4,E 0.2,S 0.2}显示该字符为M标签的概率最大,则认为对于该字符的第一预处理结果的第二预处理结果不同,处理进到步骤S306。
在步骤S306中,对不同的所述第一预处理结果和所述第二预处理结果进行第三文本处理,生成所述输入文本的处理结果。
在本公开的一个实施例中,所述第三文本处理是基于支持向量机的分类处理。在所述第三文本处理中,将不同的所述第一预处理结果和所述第二预处理结果作为所述第三文本处理的输入。例如,将{B 0.5,M 0.1,E 0.2,S 0.2}和{B 0.2,M 0.4,E 0.2,S 0.2}作为特征向量,使用支持向量机的分类处理对输入的特征向量进一步分类获得所述输入文本的最终处理结果。
在步骤S307中,基于所述处理结果生成所述输入文本对应的输出文本。
在本公开的一个实施例中,所述输出文本为所述输入文本对应的分词文本。例如,输入文本为“今天天气不错”,通过所述处理结果为“B E B E B E”,则输入文本对应的分词文本为“今天/天气/不错”。
图4是图示根据本公开实施例的文本处理装置的框图。如图4所示,根据本公开实施例的文本处理装置400包括输入单元401、第一处理单元402、第二处理单元403、处理结果生成单元404和输出单元405。处理结果生成单元404进一步包括判断单元4041和第三处理单元4042。此外,图4中未示出,根据本公开实施例的文本处理装置400还可以包括训练单元406(如图6A和6B所示)。本领域的技术人员理解:这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现,并且本公开不限于它们的任何一个。
输入单元401用于获取输入文本TIN。在本公开的一个实施例中,输入单元401可以接收用户通过键盘等输入设备输入的文本数据,或者可以接收用户输入的语音数据,然后通过语音识别和转换将语音数据转换为文本数据。可替代地,输入单元401可以读取本地存储的文本数据或者经由通信网络接收从外部传输的文本数据。在后续步骤中对获取的输入文本执行文本处理。具体地,在本公开的一个实施例中,对获取的输入文本执行分词处理。容易理解的是,根据本公开实施例的文本处理不限于分词处理,而是可以包括诸如命名实体识别、词性标注、句法分析、语义分析、篇章分析等。
第一处理单元402用于对输入文本信息TIN进行第一文本处理,获取输入文本的第一预处理结果R1。在本公开的一个实施例中,第一处理单元402执行基于深度学习的分类处理。例如,第一处理单元402利用诸如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆(LSTM)神经网络等对输入文本信息执行第一文本处理。
第二处理单元403用于对输入文本信息进行第二文本处理,获取输入文本的第二预处理结果R2。在本公开的一个实施例中,第二处理单元403执行基于统计学习的分类处理。例如,第二处理单元403利用诸如隐式马尔可夫模型(Hiden Markov Model,HMM)、N元文法模型(N-gram)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等对输入文本信息执行第二文本处理。
处理结果生成单元404用于基于所述第一预处理结果和所述第二预处理结果两者,生成所述输入文本的处理结果。
具体地,处理结果生成单元404中的判断单元4041判断第一预处理结果R1和第二预处理结果R2是否相同。如果第一预处理结果和第二预处理结果中对于一个字符获得的标签{B,M,E,S}序列中的最大可能标签相同,例如第一预处理结果{B 0.5,M 0.1,E 0.2,S0.2}和第二预处理结果{B 0.4,M 0.2,E 0.2,S 0.2}都显示该字符为B标签的概率最大,则判断单元4041认为对于该字符的第一预处理结果的第二预处理结果相同。在此情况下,判断单元4041将相同的第一预处理结果R1和第二预处理结果R2作为最终的处理结果提供给输出单元405。
如果第一预处理结果R1和第二预处理结果R2中对于一个字符获得的标签{B,M,E,S}序列中的最大可能标签不相同,例如第一预处理结果{B 0.5,M 0.1,E 0.2,S 0.2}显示该字符为B标签的概率最大,而第二预处理结果{B0.2,M 0.4,E 0.2,S 0.2}显示该字符为M标签的概率最大,则判断单元4041认为对于该字符的第一预处理结果R1的第二预处理结果R2不同。在此情况下,判断单元4041将不同的第一预处理结果R1和第二预处理结果R2提供给第三处理单元4042。
第三处理单元4042对不同的所述第一预处理结果R1和所述第二预处理结果R2进行第三文本处理,生成所述输入文本的处理结果。
在本公开的一个实施例中,第三处理单元4042执行基于支持向量机的分类处理。第三处理单元4042将{B 0.5,M 0.1,E 0.2,S 0.2}和{B 0.2,M 0.4,E 0.2,S 0.2}作为特征向量,使用支持向量机的分类处理对输入的特征向量进一步分类获得所述输入文本的最终处理结果。
输出单元405用于基于所述处理结果生成所述输入文本对应的输出文本TOUT。在本公开的一个实施例中,所述输出文本TOUT为所述输入文本TIN对应的分词文本。例如,输入文本TIN为“今天天气不错”,通过所述处理结果为“B E B E B E”,则输入文本TIN对应的分词文本TOUT为“今天/天气/不错”。
如上参照图2到4描述的根据本公开实施例的文本处理方法和装置,通过融合不同分词方法的优点,在不同分词方法的结果相同的情况下,直接使用该相同的结果以节约处理时间。在不同分词方法的结果不同的情况下,进一步使用一个轻量级的第三分类器以对不同分词方法的结果再次进行分类处理,从而确保比不同分词方法都更高精度的分词效果。
以下,将参照图5到图6B描述根据本公开实施例的文本处理方法中的训练过程。图5是图示根据本公开实施例的文本处理方法中的训练过程的流程图;图6A和6B是图示根据本公开实施例的文本处理方法中的训练过程的框图。
如图5所示,根据本公开实施例的文本处理方法中的训练过程包括以下步骤。
在步骤S501中,利用第一语料库训练进行所述第一文本处理的第一处理单元。
在步骤S502中,利用第一语料库训练进行所述第二文本处理的第二处理单元。
在步骤S503中,利用第二语料库训练进行所述第三文本处理的第三处理单元。
具体地,根据本公开实施例的文本处理方法中的训练过程包括如图6A所示的对于第一处理单元402和第二处理单元403的第一训练阶段,以及如图6B所示的对于第三处理单元4042的第二训练阶段。
如图6A所示,在第一训练阶段中,训练单元406利用第一语料库C1对第一处理单元402和第二处理单元403执行训练,以获得满足训练结束条件的第一处理单元402和第二处理单元403。容易理解的是,用于训练第一处理单元402和第二处理单元403的语料库也可以是不同的,只要满足用于训练第一处理单元402和第二处理单元403的语料库是语料数多于在第二训练阶段中用于训练第三处理单元4042的语料库包含的语料数。
如图6B所示,在第二训练阶段中,训练单元406利用第二语料库C2对第三处理单元4042执行训练。第一处理单元402和第二处理单元403对于第二语料库C2的语料分别生成预处理结果RC21和RC22,预处理结果RC21和RC22作为输入与第二语料库C2共同训练第三处理单元4042,以获得满足训练结束条件的第三处理单元4042。
如上所述,根据本公开实施例的文本处理方法和装置不光通过融合不同分词方法实现更高精度的分词效果,还能够在训练过程中仅对第一处理单元和第二处理单元使用较大的语料库训练,而对第三处理单元仅需要使用较小的语料库训练,实现对于训练语料较少的特定领域的自适应。
另外,上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外,各功能块的实现手段并不特别限定。即,各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现,也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。
例如,本发明的一个实施方式中的电子设备可以作为执行本发明的文本处理方法的处理的计算机来发挥功能。图7是图示根据本公开实施例的电子设备的硬件框图。如图7所示,电子设备700可以作为在物理上包括处理器1001、内存1002、存储器1003、通信装置1004、输入装置1005、输出装置1006、总线1007等的计算机装置来构成。
另外,在以下的说明中,“装置”这样的文字也可替换为电路、设备、单元等。电子设备700的硬件结构可以包括一个或多个图中所示的各装置,也可以不包括部分装置。
例如,处理器1001仅图示出一个,但也可以为多个处理器。此外,可以通过一个处理器来执行处理,也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外,处理器1001可以通过一个以上的芯片来安装。
电子设备700中的各功能例如通过如下方式实现:通过将规定的软件(程序)读入到处理器1001、内存1002等硬件上,从而使处理器1001进行运算,对由通信装置1004进行的通信进行控制,并对内存1002和存储器1003中的数据的读出和/或写入进行控制。
处理器1001例如使操作系统进行工作从而对计算机整体进行控制。处理器1001可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(CPU,CentralProcessing Unit)构成。
此外,处理器1001将程序(程序代码)、软件模块、数据等从存储器1003和/或通信装置1004读出到内存1002,并根据它们执行各种处理。作为程序,可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。例如,电子设备10的控制单元401可以通过保存在内存1002中并通过处理器1001来工作的控制程序来实现,对于其它功能块,也可以同样地来实现。
内存1002是计算机可读取记录介质,例如可以由只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(EPROM,Erasable Programmable ROM)、电可编程只读存储器(EEPROM,Electrically EPROM)、随机存取存储器(RAM,Random Access Memory)、其它适当的存储介质中的至少一个来构成。内存1002也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存1002可以保存用于实施本发明的一实施方式所涉及的无线通信方法的可执行程序(程序代码)、软件模块等。
存储器1003是计算机可读取记录介质,例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如,只读光盘(CD-ROM(Compact Disc ROM)等)、数字通用光盘、蓝光(Blu-ray,注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如,卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器1003也可以称为辅助存储装置。
通信装置1004是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备),例如也称为网络设备、网络控制器、网卡、通信模块等。
输入装置1005是接受来自外部的输入的输入设备(例如,键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置1006是实施向外部的输出的输出设备(例如,显示器、扬声器、发光二极管(LED,Light Emitting Diode)灯等)。另外,输入装置1005和输出装置1006也可以为一体的结构(例如触控面板)。
此外,处理器1001、内存1002等各装置通过用于对信息进行通信的总线1007连接。总线1007可以由单一的总线构成,也可以由装置间不同的总线构成。
此外,电子设备700可以包括微处理器、数字信号处理器(DSP,Digital SignalProcessor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、可编程逻辑器件(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)等硬件,可以通过该硬件来实现各功能块的部分或全部。例如,处理器1001可以通过这些硬件中的至少一个来安装。
软件无论被称为软件、固件、中间件、微代码、硬件描述语言,还是以其它名称来称呼,都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。
此外,软件、命令、信息等可以经由传输介质被发送或接收。例如,当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL,Digital Subscriber Line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时,这些有线技术和/或无线技术包括在传输介质的定义内。
图8是图示根据本公开的实施例的计算机可读存储介质的示意图。如图8所示,根据本公开实施例的计算机可读存储介质800其上存储有计算机程序指令801。当所述计算机程序指令801由处理器运行时,执行如上所述的文本处理方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。
以上,参照附图描述了根据本公开实施例的基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质,通过融合不同分词方法的优点,并且实现对于训练语料较少的特定领域的自适应,从而获得高于基于统计学习的分词方法和基于深度学习的分词方法的分词性能。
本说明书中说明的各方式/实施方式可以单独使用,也可以组合使用,还可以在执行过程中进行切换来使用。此外,本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾,就可以更换顺序。例如,关于本说明书中说明的方法,以示例性的顺序给出了各种各样的步骤单元,而并不限定于给出的特定顺序。
本说明书中使用的“根据”这样的记载,只要未在其它段落中明确记载,则并不意味着“仅根据”。换言之,“根据”这样的记载是指“仅根据”和“至少根据”这两者。
本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照,均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此,第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。
在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时,这些用语与用语“具备”同样是开放式的。进一步地,在本说明书或权利要求书中使用的用语“或(or)”并非是异或。
本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本发明进行了详细说明,但对于本领域技术人员而言,显然,本发明并非限定于本说明书中说明的实施方式。本发明在不脱离由权利要求书的记载所确定的本发明的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本发明而言并非具有任何限制性的意义。

Claims (10)

1.一种基于神经网络的文本处理装置,包括:
接收单元,用于获取输入文本;
第一处理单元,用于对所述输入文本进行第一文本处理,获取所述输入文本的第一预处理结果;
第二处理单元,用于对所述输入文本进行第二文本处理,获取所述输入文本的第二预处理结果;以及
处理结果生成单元,用于基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果,
其中,所述第一文本处理是基于深度学习的分类处理,并且所述第二文本处理是基于统计学习的分类处理。
2.根据权利要求1所述的文本处理装置,其中,所述处理结果输出单元包括:
判断单元,用于判断所述第一预处理结果和所述第二预处理结果是否相同;
第三处理单元,用于在所述第一预处理结果和所述第二预处理结果相同的情况下,以相同的所述第一预处理结果和所述第二预处理结果作为所述处理结果;以及在所述第一预处理结果和所述第二预处理结果不同的情况下,对不同的所述第一预处理结果和所述第二预处理结果进行第三文本处理,生成所述输入文本的处理结果,
其中,所述第三文本处理是基于支持向量机的分类处理。
3.根据权利要求1或2所述的文本处理装置,还包括:
训练单元,用于利用第一语料库训练进行所述第一文本处理的第一处理单元以及进行所述第二文本处理的第二处理单元;
利用第二语料库训练进行所述第三文本处理的第三处理单元,
其中,所述第一语料库包含的语料数多于所述第二语料库包含的语料数。
4.根据权利要求1到3的任一项所述的文本处理装置,还包括:
输出单元,用于基于所述处理结果生成所述输入文本对应的输出文本,
其中,所述第一预处理结果、所述第二预处理结果和所述第三处理结果分别指示所述输入文本中各个字的位置标签,所述输出文本为所述输入文本对应的分词文本。
5.一种基于神经网络的文本处理方法,包括:
获取输入文本;
对所述输入文本进行第一文本处理,获取所述输入文本的第一预处理结果;
对所述输入文本进行第二文本处理,获取所述输入文本的第二预处理结果;以及
基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果,
其中,所述第一文本处理是基于深度学习的分类处理,并且所述第二文本处理是基于统计学习的分类处理。
6.根据权利要求5所述的文本处理方法,其中,基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果包括:
判断所述第一预处理结果和所述第二预处理结果是否相同;
在所述第一预处理结果和所述第二预处理结果相同的情况下,以相同的所述第一预处理结果和所述第二预处理结果作为所述处理结果;以及
在所述第一预处理结果和所述第二预处理结果不同的情况下,对不同的所述第一预处理结果和所述第二预处理结果进行第三文本处理,生成所述输入文本的处理结果,
其中,所述第三文本处理是基于支持向量机的分类处理。
7.根据权利要求5或6所述的文本处理方法,还包括:
利用第一语料库训练进行所述第一文本处理的第一处理单元以及进行所述第二文本处理的第二处理单元;
利用第二语料库训练进行所述第三文本处理的第三处理单元,
其中,所述第一语料库包含的语料数多于所述第二语料库包含的语料数。
8.根据权利要求5到7的任一项所述的文本处理方法,还包括:
基于所述处理结果生成所述输入文本对应的输出文本,
其中,所述第一预处理结果、所述第二预处理结果和所述第三处理结果分别指示所述输入文本中各个字的位置标签,所述输出文本为所述输入文本对应的分词文本。
9.一种电子设备,包括:
处理器;以及
存储器,用于存储计算机程序指令;
其中,当所述计算机程序指令由所述处理器加载并运行时,所述处理器执行如权利要求5到8的任一项所述的文本处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,其中,所述计算机程序指令被处理器加载并运行时,所述处理器执行如权利要求5到8的任一项所述的文本处理方法。
CN201910822834.3A 2019-09-02 2019-09-02 文本处理方法、装置、电子设备和计算机可读存储介质 Pending CN112528645A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910822834.3A CN112528645A (zh) 2019-09-02 2019-09-02 文本处理方法、装置、电子设备和计算机可读存储介质
JP2020085110A JP2021039727A (ja) 2019-09-02 2020-05-14 テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910822834.3A CN112528645A (zh) 2019-09-02 2019-09-02 文本处理方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112528645A true CN112528645A (zh) 2021-03-19

Family

ID=74848681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910822834.3A Pending CN112528645A (zh) 2019-09-02 2019-09-02 文本处理方法、装置、电子设备和计算机可读存储介质

Country Status (2)

Country Link
JP (1) JP2021039727A (zh)
CN (1) CN112528645A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011187A (zh) * 2021-03-12 2021-06-22 平安科技(深圳)有限公司 命名实体处理方法、系统及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Also Published As

Publication number Publication date
JP2021039727A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
US11503155B2 (en) Interactive voice-control method and apparatus, device and medium
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
CN111191016B (zh) 一种多轮对话处理方法、装置及计算设备
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN110807332A (zh) 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
CN118349673A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
CN110795945A (zh) 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110019742B (zh) 用于处理信息的方法和装置
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
CN110807333A (zh) 一种语义理解模型的语义处理方法、装置及存储介质
US20220148576A1 (en) Electronic device and control method
CN111144093B (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
Amanova et al. Creating annotated dialogue resources: Cross-domain dialogue act classification
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
US11538462B1 (en) Apparatuses and methods for querying and transcribing video resumes
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN112528645A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN117033582A (zh) 对话模型的训练方法、装置、电子设备和存储介质
WO2023177723A1 (en) Apparatuses and methods for querying and transcribing video resumes
Ostendorf Continuous-space language processing: Beyond word embeddings
CN113515611B (zh) 一种任务型多意图对话的意图识别方法和识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210319

WD01 Invention patent application deemed withdrawn after publication