CN111460096A - 一种碎片文本的处理方法、装置及电子设备 - Google Patents

一种碎片文本的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN111460096A
CN111460096A CN202010224736.2A CN202010224736A CN111460096A CN 111460096 A CN111460096 A CN 111460096A CN 202010224736 A CN202010224736 A CN 202010224736A CN 111460096 A CN111460096 A CN 111460096A
Authority
CN
China
Prior art keywords
text
processed
scene category
vertical scene
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010224736.2A
Other languages
English (en)
Other versions
CN111460096B (zh
Inventor
许晏铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN202010224736.2A priority Critical patent/CN111460096B/zh
Publication of CN111460096A publication Critical patent/CN111460096A/zh
Application granted granted Critical
Publication of CN111460096B publication Critical patent/CN111460096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种碎片文本的处理方法、装置及电子设备,包括:获取待处理的待处理文本,并且确定待处理文本所属的垂直场景类别,以及当待处理文本的所属的垂直场景类别为预设垂直场景类别时,将待处理文本输入至与预设垂直场景类别对应的关键词兜底模块,以得到对应待处理文本的兜底语音,由于通过预先训练的神经网络模型可以确定碎片文本的垂直场景类别,进而可以将属于预设垂直场景类别输入至关键词兜底模块,使得输入至关键词兜底模块的碎片文本均为属于预设垂直场景类别的碎片文本,从而提高了关键词兜底模块反馈的正确率。

Description

一种碎片文本的处理方法、装置及电子设备
技术领域
本发明涉及文本处理技术领域,特别是涉及一种碎片文本的处理方法、装置及电子设备。
背景技术
随着技术的发展,语音识别技术被广泛的应用在不同的应用领域,例如,利用语音识别技术开发的对话机器人,可以很好的完成商场、酒店、机场、医院等场景中的引导服务。
如图1所示,为一种常规的语音对话过程示意图,图中语音识别模块采集用户的语音,并将采集到的用户语音通过语音识别技术转换为文本段,作为语音文本段,进一步的,将该语音文本段输入到自然语言理解模块进行处理,生成对应该语音文本段的反馈语音并输出,完成语音对话过程。
在实际使用过程中,语音识别模块采集到的用户语音往往存在大量的环境噪音,使得语音识别模块输出的语音文本段中往往包含大量不规则的碎片文本。举例而言,语音识别模块输出的语音文本段为“呷哺呷哺呀哈哈”、或“我呀阿的哈根达斯斯”等。将这些碎片文本输入到自然语言理解模块,由于其构成文字的不规则性,使得自然语言理解模块无法生成对应的反馈语音,造成语音对话的召回率较低。
为了解决这一问题,业界在语音对话的过程中引入了关键词兜底模块,如图2所示,关键词兜底模块根据输入的碎片文本,输出对应该碎片文本的兜底语音,从而提高语音对话的召回率。
发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
由于很多碎片文本都是无意义,将这些碎片文本输入至关键词兜底模块后,可能导致关键词兜底模块反馈错误的兜底语音,使得关键词兜底模块反馈的正确率较低。
发明内容
本发明实施例的目的在于提供一种碎片文本的处理方法,以提高关键词兜底模块反馈的正确率。具体技术方案如下:
本发明实施例提供一种碎片文本的处理方法,包括:
获取待处理的碎片文本,作为待处理文本;
基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的文本矩阵;
基于所述第一文本矩阵,生成所述待处理文本的文本特征数据;
将所述文本特征数据输入到预先训练的神经网络模型,确定所述待处理文本所属的垂直场景类别;其中,所述神经网络模型为基于样本文本的样本文本特征数据和所述样本文本所属的样本垂直场景类别预先训练完成的;
当所述待处理文本的所属的垂直场景类别为预设垂直场景类别时,将所述待处理文本输入至与所述预设垂直场景类别对应的关键词兜底模块,以得到对应所述待处理文本的兜底语音。
进一步的,在所述基于所述第一文本矩阵,生成所述待处理文本的文本特征数据之前,还包括:
确定所述待处理文本中属于所述预设垂直场景类别的实体词,作为目标实体词;
基于所述目标实体词在所述待处理文本中所处的位置,生成所述待处理文本的文本向量,其中,所述文本向量的维度与所述待处理文本所包含的文字数量相同,所述文本向量中与所述目标实体词在所述待处理文本中所处的位置相同位置处的数值为第一数值,不同的位置处的数值为第二数值;
所述基于所述第一文本矩阵,生成所述待处理文本的文本特征数据,包括:
将所述第一文本矩阵与所述文本向量合并,得到第二文本矩阵,作为所述待处理文本的文本特征数据。
进一步的,所述待处理文本包含N个文字;
所述基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的文本矩阵,包括:
针对所述待处理文本中每个文字,基于预设的词嵌入模型,生成用于表征该文字的M维字向量;
按照所述待处理文本中各文字的在所述待处理文本中的位置,将生成的N个M维字向量合并为行数为N,列数为M的特征矩阵,作为所述待处理文本的文本矩阵。
进一步的,所述方法还包括:
当所述待处理文本的所属的垂直场景类别与所述预设垂直场景类别不同时,确定所述待处理文本为无意义文本;
反馈与所述无意义文本相匹配的预设反馈语音。
进一步的,所述神经网络模型的训练步骤包括:
将所述样本文本特征数据输入至所述神经网络模型,得到所述神经网络模型预测的所述样本文本的垂直场景类别,作为预测垂直场景类别;
基于所述预测垂直场景类别和样本垂直场景类别,计算所述神经网络模型的损失函数值;
根据所述损失函数值,判断所述神经网络模型是否收敛,当所述神经网络模型未收敛时,根据所述损失函数值调整所述神经网络模型参数,并进行下一次训练,当所述神经网络模型收敛时,得到训练完成的所述深度神经网络模型。
进一步的,所述神经网络模型包括卷积层、batchnorm层、修正线性单元、池化层和全连接层。
本发明实施例还提供一种碎片文本的处理装置,所述装置包括:
文本获取模块,用于获取待处理的碎片文本,作为待处理文本;
文本矩阵转换模块,用于基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的文本矩阵;
特征数据生成模块,用于基于所述第一文本矩阵,生成所述待处理文本的文本特征数据;
垂直场景确定模块,用于将所述文本特征数据输入到预先训练的神经网络模型,确定所述待处理文本所属的垂直场景类别;其中,所述神经网络模型为基于样本文本的样本文本特征数据和所述样本文本所属的样本垂直场景类别预先训练完成的;
文本输入模块,用于当所述待处理文本的所属的垂直场景类别为预设垂直场景类别时,将所述待处理文本输入至与所述预设垂直场景类别对应的关键词兜底模块,以得到对应所述待处理文本的兜底语音。
进一步的,所述装置还包括:
文本向量生成模块,用于在所述特征数据生成模块执行基于所述第一文本矩阵,生成所述待处理文本的文本特征数据之前,确定所述待处理文本中属于所述预设垂直场景类别的实体词,作为目标实体词,并且基于所述目标实体词在所述待处理文本中所处的位置,生成所述待处理文本的文本向量,其中,所述文本向量的维度与所述待处理文本所包含的文字数量相同,所述文本向量中与所述目标实体词在所述待处理文本中所处的位置相同位置处的数值为第一数值,不同的位置处的数值为第二数值;
所述特征数据生成模块,具体用于将所述第一文本矩阵与所述文本向量合并,得到第二文本矩阵,作为所述待处理文本的文本特征数据。
进一步的,所述待处理文本包含N个文字;
所述文本矩阵转换模块,具体用于针对所述待处理文本中每个文字,基于预设的词嵌入模型,生成用于表征该文字的M维字向量,并且按照所述待处理文本中各文字的在所述待处理文本中的位置,将生成的N个M维字向量合并为行数为N,列数为M的特征矩阵,作为所述待处理文本的文本矩阵。
进一步的,所述文本输入模块,还用于当所述待处理文本的所属的垂直场景类别与所述预设垂直场景类别不同时,确定所述待处理文本为无意义文本,并且反馈与所述无意义文本相匹配的预设反馈语音。
进一步的,所述装置还包括:
神经网络模型训练模块,用于将所述样本文本特征数据输入至所述神经网络模型,得到所述神经网络模型预测的所述样本文本的垂直场景类别,作为预测垂直场景类别,并且基于所述预测垂直场景类别和样本垂直场景类别,计算所述神经网络模型的损失函数值,以及根据所述损失函数值,判断所述神经网络模型是否收敛,当所述神经网络模型未收敛时,根据所述损失函数值调整所述神经网络模型参数,并进行下一次训练,当所述神经网络模型收敛时,得到训练完成的所述深度神经网络模型。
进一步的,所述神经网络模型包括卷积层、batchnorm层、修正线性单元、池化层和全连接层。
本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一碎片文本的处理方法的步骤。
本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一碎片文本的处理方法的步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一碎片文本的处理方法。
本发明实施例提供的一种碎片文本的处理方法、装置及电子设备,方案中,获取待处理的碎片文本,作为待处理文本,并且基于预设的词嵌入模型,将待处理文本转换为表征所述待处理文本的文本矩阵,以及基于文本矩阵,生成待处理文本的文本特征数据,以及将文本特征数据输入到预先训练的神经网络模型,确定待处理文本所属的垂直场景类别,以及当待处理文本的所属的垂直场景类别为预设垂直场景类别时,将待处理文本输入至与预设垂直场景类别对应的关键词兜底模块,以得到对应待处理文本的兜底语音,由于通过预先训练的神经网络模型可以确定碎片文本的垂直场景类别,进而可以将属于预设垂直场景类别输入至关键词兜底模块,使得输入至关键词兜底模块的碎片文本均为属于预设垂直场景类别的碎片文本,从而提高了关键词兜底模块反馈的正确率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为一种语音对话过程示意图;
图2为另一种语音对话过程示意图;
图3为本发明一个实施例提供的碎片文本的处理方法的流程图;
图4为本发明另一个实施例提供的碎片文本的处理方法的流程图;
图5为本发明又一个实施例提供的碎片文本的处理装置的结构示意图;
图6为本发明实施例提供的语音对话过程示意图;
图7为本发明一个实施例提供的神经网络模型的训练方法的流程图;
图8为本发明一个实施例提供的碎片文本的处理装置的结构示意图;
图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了给出提高关键词兜底模块反馈的正确率的实现方案,本发明实施例提供了一种碎片文本的处理方法、装置及电子设备,以下结合说明书附图对本发明的实施例进行说明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的一个实施例中,提供一种碎片文本的处理方法,如图3所示,该方法包括以下步骤:
S301:获取待处理的碎片文本,作为待处理文本。
S302:基于预设的词嵌入模型,将待处理文本转换为表征待处理文本的文本矩阵。
S303:基于文本矩阵,生成待处理文本的文本特征数据。
S304:将文本特征数据输入到预先训练的神经网络模型,确定待处理文本所属的垂直场景类别。
S305:当待处理文本的所属的垂直场景类别为预设垂直场景类别时,将待处理文本输入至与预设垂直场景类别对应的关键词兜底模块,以得到对应待处理文本的兜底语音。
本发明实施例提供的上述如图3所示的碎片文本的处理方法中,可以获取待处理的碎片文本,作为待处理文本,并且基于预设的词嵌入模型,将待处理文本转换为表征待处理文本的文本矩阵,以及基于文本矩阵,生成待处理文本的文本特征数据,以及将文本特征数据输入到预先训练的神经网络模型,确定待处理文本所属的垂直场景类别,以及当待处理文本的所属的垂直场景类别为预设垂直场景类别时,将待处理文本输入至与预设垂直场景类别对应的关键词兜底模块,以得到对应待处理文本的兜底语音,由于通过预先训练的神经网络模型可以确定碎片文本的垂直场景类别,进而可以将属于预设垂直场景类别输入至关键词兜底模块,使得输入至关键词兜底模块的碎片文本均为属于预设垂直场景类别的碎片文本,从而提高了关键词兜底模块反馈的正确率。
针对步骤S301,可以获取自然语言理解模块无法进行处理的碎片文本,其中,碎片文本为语音识别过程中,经过自然语言理解模块处理后,无法识别的不规则的文本,例如“呷哺呷哺呀哈哈”、“我呀阿的哈根达斯斯”等。
针对步骤S302,预设的词嵌入模型可以为word2vec模型,也可以为GloVe(Globalvectors for word representation,字表示的全局向量)模型,其中word2vec为2013年Google(谷歌)的Tomas Mikolov(托马斯米科尔)团队发布了一种基于深度学习的开源词向量生成算法。该算法能够在较短的时间内从大规模真实文档语料库中学习到高质量的词向量,并用于方便地计算词与词之间的语义相似性。
可选的,可以针对待处理文本中每个文字,基于预设的词嵌入模型,生成用于表征该文字的M维字向量,并且按照待处理文本中各文字的在待处理文本中的位置,将生成的N个M维字向量合并为行数为N,列数为M的特征矩阵,作为待处理文本的文本矩阵。
举例而言,待处理文本为“我是谁”,N为3,分别为“我”、“是”和“谁”。当M为4时,针对文字“我”,通过预设的词嵌入模型,确定用于表征文字“我”的4维字向量为(1,0,0,0),表征文字“是”的4维字向量为(0,1,0,0),表征文字“谁”的4维字向量为(0,0,1,0)。进一步的,“我是谁”第一个文字为“我”,第二个文字为“是”,第三个文字为“谁”,将生成的3个4维字向合并,得到的3×4的文本矩阵为:
Figure BDA0002427268440000081
针对上述步骤S302,可以将文本矩阵作为待处理文本的文本特征数据,可选的,还可以基于文本矩阵,加入待处理文本其它特征数据,具体的,后续详细描述,在此不再赘述。
针对步骤S304,可选的,上述预先训练的神经网络模型为基于样本文本的样本文本特征数据和样本文本所属的样本垂直场景类别预先训练完成的,因此,将待处理文本输入至神经网络模型后,可以得到待处理文本所属的垂直场景类别。
示例性的,待处理文本为“我要吃哈根达斯斯”,将“我要吃哈根达斯斯”的文本特征数据输入至预先训练的神经网络模型,得到“我要吃哈根达斯斯”所属的垂直场景类别为商场场景类别。
针对步骤S304,预设垂直场景类别可以为根据实际需求确定的,当语音识别设备需要应用于商场时,则预设垂直场景类别可以为商场场景类别,当语音识别设备需要应用于医院时,则预设垂直场景类别可以为医院场景类别。
当待处理文本的所属的垂直场景类别为预设垂直场景类别时,可以将待处理文本输入至与预设垂直场景类别对应的关键词兜底模块,以得到对应所述待处理文本的兜底语音。
其中,与预设垂直场景类别对应的关键词兜底模块为基于预设垂直场景类别进行开发,其处理属于预设垂直场景类别的碎片文本的准确率较高。对应所述待处理文本的兜底语音为就基于关键词兜底模块的兜底逻辑生成的,示例性的,当待处理文本为“我要吃哈根达斯斯”,其兜底语音可以为“好的,请选择您需要的口味!”等。
在如图3所示的碎片文本的处理方法的基础上,在本发明的另一个实施例中,还提供一种碎片文本的处理方法,如图4所示,在步骤S304之后,还包括:
S306:当待处理文本的所属的垂直场景类别与预设垂直场景类别不同时,确定待处理文本为无意义文本。
本步骤中,当待处理文本的所属的垂直场景类别与预设垂直场景类别不同时,说明待处理文本为无意义文本、或关键词兜底模块无法有效进行处理的碎片文本,因此,可以确定待处理文本为无意义文本。
S307:反馈与无意义文本相匹配的预设反馈语音。
本步骤中,不在将无意义文本输入至关键词兜底模块,而是直接反馈与无意义文本相匹配的预设反馈语音,例如反馈“我没有听清,麻烦您再说一遍”。
本发明实施例提供的上述如图4所示的碎片文本的处理方法,由于将属于预设垂直场景类别输入至关键词兜底模块,而对于不属于预设垂直场景类别的待处理文本反馈预设反语音,不需要输入至关键词兜底模块,使得输入至关键词兜底模块的碎片文本均为属于预设垂直场景类别的碎片文本,从而提高了关键词兜底模块反馈的正确率。
在本发明的又一个实施例中,还提供一种碎片文本的处理方法,如图5所示,该方法包括以下步骤:
S501:获取待处理的碎片文本,作为待处理文本。
本步骤中,与步骤S301的实施方式相同或相似,在此不再赘述。
S502:基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的第一文本矩阵。
本步骤中,与步骤S302的实施方式相同或相似,在此不再赘述。
S503:确定待处理文本中属于预设垂直场景类别的实体词,作为目标实体词。
本步骤中,可以通过建立预设垂直场景类别的实体词数据库的方式实现,进而可以确定出待处理文本中属于预设垂直场景类别的实体词。
示例性的,对于待处理文本为“我呀阿的哈根达斯斯”,预设垂直场景类别为商场场景类别,通过在商场场景类别数据库中查找到“哈根达斯”,则取得待处理文本中目标实体词为“哈根达斯”。
S504:基于目标实体词在待处理文本中所处的位置,生成待处理文本的文本向量。
本步骤中,文本向量的维度与待处理文本所包含的文字数量相同,文本向量中与目标实体词在待处理文本中的位置相同位置处的数值为第一数值,不同的位置处的数值为第二数值。
举例而言,待处理文本为“我要吃哈根达斯斯”,包含8个文字,则文本向量中的维度为8维。当第一数值为1,第二数值为0时,由于“哈根达斯”位于待处理文本的第4-7位,则文本向量中第4-7位为1,其余部分为0,既(0,0,0,1,1,1,1,0)。
S505:将第一文本矩阵与文本向量合并,得到第二文本矩阵,作为待处理文本的文本特征数据。
本步骤中,示例性的,第一文本矩阵为:
Figure BDA0002427268440000101
文本向量为(0,1,1)时,合并后的第二文本矩阵为:
Figure BDA0002427268440000102
进而,将上述第二文本矩阵作为待处理文本的文本特征数据。
S506:将文本特征数据输入到预先训练的神经网络模型,确定待处理文本所属的垂直场景类别。
本步骤中,与步骤S304的实施方式相同或相似,在此不再赘述。
S507:当待处理文本的所属的垂直场景类别为预设垂直场景类别时,将待处理文本输入至与预设垂直场景类别对应的关键词兜底模块,以得到对应待处理文本的兜底语音。
本步骤中,与步骤S305的实施方式相同或相似,在此不再赘述。
在一个实施例中,本发明实施例提供的上述如图3所示的碎片文本的处理方法可以应用于图2中所示的自然语言理解模块中。
可选的,上述碎片文本的处理方法还可以应用于独立的模块中,如图6所示,为本发明实施提供的语音对话过程示意图,本发明实施例提供的上述碎片文本的处理方法可以应用于图6中的预处理模块。此时,从自然语言理解模块输出的碎片文本需要先经过预处理模块,预处理模块再将垂直场景类别为预设垂直场景类别的碎片文本发送给关键词兜底模块。
针对本发明实施例提供的如图3-5任一碎片文本处理方法中的神经网络模型,本发明实施例还提供一种神经网络模型的训练方法,如图7所示,包括:
S701:将样本文本特征数据输入至神经网络模型,得到神经网络模型预测的样本文本的垂直场景类别,作为预测垂直场景类别。
本步骤中,神经网络模型包括卷积层、batchnorm层、修正线性单元、池化层和全连接层。
进一步的,了减少模型参数,提供并行化训练和推导速度,同时也为了解决碎片化严重的待处理文本,可以采采取能有效提取局部信息且泛化能力较强的卷积层作为基础的特征提取层,其卷积核分别为1、3、5,卷积核个数为128,进一步的,在卷积层之后加入batchnorm层进行标准化,加入relu层函数引入非线形特征,加入池化层提取整体信息。
S702:基于预测垂直场景类别和样本垂直场景类别,计算神经网络模型的损失函数值。
本步骤中,可以通过全连接层计算最终结果,并计算损失函数。
S703:根据损失函数值,判断神经网络模型是否收敛,当神经网络模型未收敛时,根据损失函数值调整神经网络模型参数,并进行下一次训练,当神经网络模型收敛时,得到训练完成的深度神经网络模型。
基于同一发明构思,根据本发明实施例提供的碎片文本的处理方法,本发明实施例还提供了一种碎片文本的处理装置,如图8所示,该装置包括:
文本获取模块801,用于获取待处理的碎片文本,作为待处理文本;
文本矩阵转换模块802,用于基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的文本矩阵;
特征数据生成模块803,用于基于所述第一文本矩阵,生成所述待处理文本的文本特征数据;
垂直场景确定模块804,用于将所述文本特征数据输入到预先训练的神经网络模型,确定所述待处理文本所属的垂直场景类别;其中,所述神经网络模型为基于样本文本的样本文本特征数据和所述样本文本所属的样本垂直场景类别预先训练完成的;
文本输入模块805,用于当所述待处理文本的所属的垂直场景类别为预设垂直场景类别时,将所述待处理文本输入至与所述预设垂直场景类别对应的关键词兜底模块,以得到对应所述待处理文本的兜底语音。
进一步的,所述装置还包括:
文本向量生成模块806,用于在所述特征数据生成模块803执行基于所述第一文本矩阵,生成所述待处理文本的文本特征数据之前,确定所述待处理文本中属于所述预设垂直场景类别的实体词,作为目标实体词,并且基于所述目标实体词在所述待处理文本中所处的位置,生成所述待处理文本的文本向量,其中,所述文本向量的维度与所述待处理文本所包含的文字数量相同,所述文本向量中与所述目标实体词在所述待处理文本中所处的位置相同位置处的数值为第一数值,不同的位置处的数值为第二数值;
所述特征数据生成模块803,具体用于将所述第一文本矩阵与所述文本向量合并,得到第二文本矩阵,作为所述待处理文本的文本特征数据。
进一步的,所述待处理文本包含N个文字;
所述文本矩阵转换模块802,具体用于针对所述待处理文本中每个文字,基于预设的词嵌入模型,生成用于表征该文字的M维字向量,并且按照所述待处理文本中各文字的在所述待处理文本中的位置,将生成的N个M维字向量合并为行数为N,列数为M的特征矩阵,作为所述待处理文本的文本矩阵。
进一步的,所述文本输入模块805,还用于当所述待处理文本的所属的垂直场景类别与所述预设垂直场景类别不同时,确定所述待处理文本为无意义文本,并且反馈与所述无意义文本相匹配的预设反馈语音。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
获取待处理的碎片文本,作为待处理文本;
基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的第一文本矩阵;
基于所述第一文本矩阵,生成所述待处理文本的文本特征数据;
将所述文本特征数据输入到预先训练的神经网络模型,确定所述待处理文本所属的垂直场景类别;其中,所述神经网络模型为基于样本文本的样本文本特征数据和所述样本文本所属的样本垂直场景类别预先训练完成的;
当所述待处理文本的所属的垂直场景类别为预设垂直场景类别时,将所述待处理文本输入至与所述预设垂直场景类别对应的关键词兜底模块,以得到对应所述待处理文本的兜底语音。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一碎片文本的处理方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一碎片文本的处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种碎片文本的处理方法,其特征在于,包括:
获取待处理的碎片文本,作为待处理文本;
基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的第一文本矩阵;
基于所述第一文本矩阵,生成所述待处理文本的文本特征数据;
将所述文本特征数据输入到预先训练的神经网络模型,确定所述待处理文本所属的垂直场景类别;其中,所述神经网络模型为基于样本文本的样本文本特征数据和所述样本文本所属的样本垂直场景类别预先训练完成的;
当所述待处理文本的所属的垂直场景类别为预设垂直场景类别时,将所述待处理文本输入至与所述预设垂直场景类别对应的关键词兜底模块,以得到对应所述待处理文本的兜底语音。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述第一文本矩阵,生成所述待处理文本的文本特征数据之前,还包括:
确定所述待处理文本中属于所述预设垂直场景类别的实体词,作为目标实体词;
基于所述目标实体词在所述待处理文本中所处的位置,生成所述待处理文本的文本向量,其中,所述文本向量的维度与所述待处理文本所包含的文字数量相同,所述文本向量中与所述目标实体词在所述待处理文本中所处的位置相同位置处的数值为第一数值,不同的位置处的数值为第二数值;
所述基于所述第一文本矩阵,生成所述待处理文本的文本特征数据,包括:
将所述第一文本矩阵与所述文本向量合并,得到第二文本矩阵,作为所述待处理文本的文本特征数据。
3.根据权利要求1或2所述的方法,其特征在于,所述待处理文本包含N个文字;
所述基于预设的词嵌入模型,将所述理文本转换为表征所述待处理文本的第一文本矩阵,包括:
针对所述待处理文本中每个文字,基于预设的词嵌入模型,生成用于表征该文字的M维字向量;
按照所述待处理文本中各文字的在所述待处理文本中的位置,将生成的N个M维字向量合并为行数为N,列数为M的特征矩阵,作为所述待处理文本的第一文本矩阵。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
当所述待处理文本的所属的垂直场景类别与所述预设垂直场景类别不同时,确定所述待处理文本为无意义文本;
反馈与所述无意义文本相匹配的预设反馈语音。
5.根据权利要求1或2所述的方法,其特征在于,所述神经网络模型的训练步骤包括:
将所述样本文本特征数据输入至所述神经网络模型,得到所述神经网络模型预测的所述样本文本的垂直场景类别,作为预测垂直场景类别;
基于所述预测垂直场景类别和样本垂直场景类别,计算所述神经网络模型的损失函数值;
根据所述损失函数值,判断所述神经网络模型是否收敛,当所述神经网络模型未收敛时,根据所述损失函数值调整所述神经网络模型参数,并进行下一次训练,当所述神经网络模型收敛时,得到训练完成的所述深度神经网络模型。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型包括卷积层、batchnorm层、修正线性单元、池化层和全连接层。
7.一种碎片文本的处理装置,其特征在于,包括:
文本获取模块,用于获取待处理的碎片文本,作为待处理文本;
文本矩阵转换模块,用于基于预设的词嵌入模型,将所述待处理文本转换为表征所述待处理文本的文本矩阵;
特征数据生成模块,用于基于所述第一文本矩阵,生成所述待处理文本的文本特征数据;
垂直场景确定模块,用于将所述文本特征数据输入到预先训练的神经网络模型,确定所述待处理文本所属的垂直场景类别;其中,所述神经网络模型为基于样本文本的样本文本特征数据和所述样本文本所属的样本垂直场景类别预先训练完成的;
文本输入模块,用于当所述待处理文本的所属的垂直场景类别为预设垂直场景类别时,将所述待处理文本输入至与所述预设垂直场景类别对应的关键词兜底模块,以得到对应所述待处理文本的兜底语音。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
文本向量生成模块,用于在所述特征数据生成模块执行基于所述第一文本矩阵,生成所述待处理文本的文本特征数据之前,确定所述待处理文本中属于所述预设垂直场景类别的实体词,作为目标实体词,并且基于所述目标实体词在所述待处理文本中所处的位置,生成所述待处理文本的文本向量,其中,所述文本向量的维度与所述待处理文本所包含的文字数量相同,所述文本向量中与所述目标实体词在所述待处理文本中所处的位置相同位置处的数值为第一数值,不同的位置处的数值为第二数值;
所述特征数据生成模块,具体用于将所述第一文本矩阵与所述文本向量合并,得到第二文本矩阵,作为所述待处理文本的文本特征数据。
9.根据权利要求7或8所述的装置,其特征在于,所述待处理文本包含N个文字;
所述文本矩阵转换模块,具体用于针对所述待处理文本中每个文字,基于预设的词嵌入模型,生成用于表征该文字的M维字向量,并且按照所述待处理文本中各文字的在所述待处理文本中的位置,将生成的N个M维字向量合并为行数为N,列数为M的特征矩阵,作为所述待处理文本的文本矩阵。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
CN202010224736.2A 2020-03-26 2020-03-26 一种碎片文本的处理方法、装置及电子设备 Active CN111460096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010224736.2A CN111460096B (zh) 2020-03-26 2020-03-26 一种碎片文本的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010224736.2A CN111460096B (zh) 2020-03-26 2020-03-26 一种碎片文本的处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111460096A true CN111460096A (zh) 2020-07-28
CN111460096B CN111460096B (zh) 2023-12-22

Family

ID=71680878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010224736.2A Active CN111460096B (zh) 2020-03-26 2020-03-26 一种碎片文本的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111460096B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250369A (zh) * 2016-07-28 2016-12-21 海信集团有限公司 语音交互方法、装置和终端
CN107168954A (zh) * 2017-05-18 2017-09-15 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN107491434A (zh) * 2017-08-10 2017-12-19 北京邮电大学 基于语义相关性的文本摘要自动生成方法及装置
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
WO2018153265A1 (zh) * 2017-02-23 2018-08-30 腾讯科技(深圳)有限公司 关键词提取方法、计算机设备和存储介质
US20180357540A1 (en) * 2017-06-09 2018-12-13 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for optimizing trained model
CN109785840A (zh) * 2019-03-05 2019-05-21 湖北亿咖通科技有限公司 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN110309308A (zh) * 2019-06-27 2019-10-08 北京金山安全软件有限公司 一种文字信息的分类方法、装置及电子设备
CN110597992A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 基于知识图谱的语义推理方法及装置、电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250369A (zh) * 2016-07-28 2016-12-21 海信集团有限公司 语音交互方法、装置和终端
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
WO2018153265A1 (zh) * 2017-02-23 2018-08-30 腾讯科技(深圳)有限公司 关键词提取方法、计算机设备和存储介质
CN107168954A (zh) * 2017-05-18 2017-09-15 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
US20180357540A1 (en) * 2017-06-09 2018-12-13 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for optimizing trained model
CN107491434A (zh) * 2017-08-10 2017-12-19 北京邮电大学 基于语义相关性的文本摘要自动生成方法及装置
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN109785840A (zh) * 2019-03-05 2019-05-21 湖北亿咖通科技有限公司 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质
CN110309308A (zh) * 2019-06-27 2019-10-08 北京金山安全软件有限公司 一种文字信息的分类方法、装置及电子设备
CN110597992A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 基于知识图谱的语义推理方法及装置、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114677691B (zh) * 2022-04-06 2023-10-03 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111460096B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN110263324B (zh) 文本处理方法、模型训练方法和装置
WO2022121257A1 (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
CN112528672A (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN110853626B (zh) 基于双向注意力神经网络的对话理解方法、装置及设备
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN111767796B (zh) 一种视频关联方法、装置、服务器和可读存储介质
WO2022121178A1 (zh) 文本纠错模型训练方法、识别方法、装置及计算机设备
CN109215630B (zh) 实时语音识别方法、装置、设备及存储介质
CN110737768A (zh) 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN111967264B (zh) 一种命名实体识别方法
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN110321562B (zh) 一种基于bert的短文本匹配方法及装置
CN110968697B (zh) 文本分类方法、装置、设备及可读存储介质
CN111159409A (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN112417855A (zh) 文本意图识别方法、装置以及相关设备
CN111460096A (zh) 一种碎片文本的处理方法、装置及电子设备
CN112860907A (zh) 一种情感分类方法及设备
CN110717313B (zh) 一种基于标准化流的全并行化文本生成方法
CN112765357A (zh) 文本分类方法、装置和电子设备
CN112765330A (zh) 文本数据处理方法、装置、电子设备和存储介质
CN116955561A (zh) 问答方法、装置、电子设备以及存储介质
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN110597985A (zh) 基于数据分析的数据分类方法、装置、终端及介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant