CN114020881B - 话题定位的方法及系统 - Google Patents
话题定位的方法及系统 Download PDFInfo
- Publication number
- CN114020881B CN114020881B CN202210019199.7A CN202210019199A CN114020881B CN 114020881 B CN114020881 B CN 114020881B CN 202210019199 A CN202210019199 A CN 202210019199A CN 114020881 B CN114020881 B CN 114020881B
- Authority
- CN
- China
- Prior art keywords
- text data
- topic
- positioning
- sample set
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及话题定位的方法及系统,包括:基于预处理后的文本数据构建文本数据样本集;以文本数据样本集作为输入,根据注意力机制提取文本数据样本集的语义特征,通过定位识别网络定位目标话题,调整定位识别网络的卷积层的输入张量,输出目标话题的位置信息。本发明的有益效果为:提高了话题定位的效率的同时提高了话题定位的精确性。
Description
技术领域
本发明涉及计算机技术领域,具体涉及了一种话题定位的方法及系统。
背景技术
在实际场景中,销售在特定的销售关键环节,销售人员需向客户明确按照相关话术告知客户相关重要信息,为确保销售人员落实到位以保障客户和销售公司的相关权益,会对该环节进行录音录像并进行质检,本发明是对录音进行语音转文本后得到的话题进行定位,以确定销售人员有明确告知相关信息。
现有技术的通常根据各已知话题内容的规则进行匹配定位,实践发现,在只有少量的不同类别的各已知话题内容时,具有高效、简单的优势,但随着各已知话题内容的类别数增加,同一类别文本段落具有不同规则时,往往会导致正则匹配规则复杂,编写难度大,定位精确性不高。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种话题定位的方法及系统,提高了话题定位的效率和精确率。
本发明的技术方案包括一种话题定位的方法,该方法包括以下步骤:基于预处理后的文本数据构建文本数据样本集;以文本数据样本集作为输入,根据注意力机制提取文本数据样本集的语义特征,通过定位识别网络定位目标话题,调整定位识别网络的卷积层的输入张量,输出目标话题的位置信息。
根据话题定位的方法,构建文本数据样本集,包括:对文本数据的话题标签进行标注,以及,对文本数据进行格式化;将格式化后的文本数据与话题标签生成文本数据样本,至少一个文本数据样本构成文本数据样本集。
根据话题定位的方法,对文本数据进行格式化,包括:依据分词算法对文本数据进行划分,将文本数据转换为由至少一个字或词组成的第一词向量;基于滑动窗口从第一词向量中截取固定字数的第二词向量。
根据话题定位的方法,调整定位识别网络的卷积层输入张量,包括:根据文本数据的顺序性,将卷积层的输入张量调整为单通道;调整输入张量的规格,使的输入张量的规格,大于等于,语义特征的张量规格。
根据话题定位的方法,目标话题定位的位置信息为目标话题起始单位位置和终止单位位置,定位目标话题,包括:根据目标话题的维度信息,调整定位识别网络输出的维度信息;依据金字塔特征图,将语义特征进行卷积和矩阵拼接,得到不同尺寸的特征图;融合特征图,预测得到不同范围的目标话题起始单位位置和终止单位位置;设置过滤条件,过滤得到目标话题的目标话题起始单位位置和终止单位位置。
根据话题定位的方法,提取文本数据样本集的语义特征,包括:通过多头自注意力子层,计算文本数据对应的矩阵注意力特征向量;将文本数据与特征向量相加,并进行多头自注意力子层的标准化,得到第一输出向量;通过前馈神经网络子层,计算第一输出向量对应的前馈向量;将第一输出向量与前馈向量相加,并进行前馈神经网络子层的标准化,提取到文本数据样本集的语义特征。
根据话题定位的方法,输出目标话题的位置信息之后,还包括:通过优化损失函数,对目标话题的位置信息进行评估,优化损失函数至少包括预测坐标损失、置信度损失或分类损失优化之一。
本发明的技术方案还包括一种话题定位的系统,包括:第一模块,用于基于预处理后的文本数据构建文本数据样本集;第二模块,用于以文本数据样本集作为输入,根据注意力机制提取文本数据样本集的语义特征,通过定位识别网络定位目标话题,调整所述定位识别网络的卷积层的输入张量,输出目标话题的位置信息。
根据话题定位的系统,第一模块,包括:样本构建模块,用于对文本数据的话题标签进行标注,以及,对文本数据进行格式化;将格式化后的文本数据与话题标签生成文本数据样本,多个文本数据样本构成文本数据样本集;格式化模块,用于依据分词算法对文本数据进行划分,将文本数据转换为由至少一个字或词组成的第一词向量;基于滑动窗口从第一词向量中截取固定字数的第二词向量。
根据话题定位的系统,第二模块,包括:语义特征提取模块,用于通过多头自注意力子层,计算文本数据对应的矩阵注意力特征向量;将文本数据与特征向量相加,并进行多头自注意力子层的标准化,得到第一输出向量;通过前馈神经网络子层,计算第一输出向量对应的前馈向量;将第一输出向量与前馈向量相加,并进行前馈神经网络子层的标准化,提取到文本数据样本集的语义特征;话题定位模块,根据目标话题的维度信息,调整定位识别网络输出的维度信息;依据金字塔特征图,将语义特征进行卷积和矩阵拼接,得到不同尺寸的特征图;融合特征图,预测得到不同范围的目标话题起始单位位置和终止单位位置;设置过滤条件,过滤得到目标话题的目标话题起始单位位置和终止单位位置。
本发明的有益效果为:结合输入文本数据的特点,对定位模型进行调整,提高了各已知话题内容的定位效率的同时,进一步减少计算的复杂度,基于多头自注意力机制能够提取丰富的语义特征,借助金字塔思想,预测得到不同范围的目标话题位置信息,设置过滤条件,得到最后的预测结果,进一步提高了定位精确性。
附图说明
图1所示为根据本发明实施方式的方法流程图。
图2所示为根据本发明实施方式的细节流程图。
图3所示为根据本发明实施方式一子流程图。
图4所示为根据本发明实施方式又一子流程图。
图5所示为根据本发明实施方式的系统结构图。
图6所示为根据本发明实施方式的示意图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
本发明的描述中,除非另有明确的限定,设置等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本发明的特定术语具体为:
话题定位:在一段文本中定位出各已知话题内容的位置信息;
Transformer:一种基于编码-解码结构的深度学习的模型;
Darknet-53:一种目标图像定位模型。
话题定位是从大段语音或者长文中定位确定话题的方法,例如微信语音,用户希望直接获取到确定的内容而不是从头听到尾,首先利用现有的语音转换技术将语音转换为文本,用户确定感兴趣的话题,定位文本的指定位置供用户阅读,从而节省用户的时间;又例如对销售人员与客户录音录像进行质检时,批量、准确地定位不同话题的位置,以提高质检的效率。
如图1所示,一种话题定位的方法,具体步骤如下:
S100,基于预处理后的文本数据构建文本数据样本集;与将话题定位问题转换为图像定位问题的方式不同,本发明直接以文本为研究对象,利用文本上下文的逻辑关系,构建话题定位模型,输出目标话题的位置信息,简化模型的复杂度,进一步提取能够全面表征文本的特征,提高话题定位的精确性。由于文本数据中的词语难以被计算机理解且文本数据的长度难以统一,需要将文本数据进行相应的格式化。
S200,以文本数据样本集作为输入,根据注意力机制提取文本数据样本集的语义特征,通过定位识别网络定位目标话题,调整定位识别网络的卷积层的输入张量,输出目标话题的位置信息。注意力机制具有全面的语义特征提取能力,且保留了输入句子单词之间的相对位置信息;目标检测模型利用金字塔思想,具有较高的小目标识别精度。本发明的目标话题的定位是以文本数据样本集作为输入,利用Transformer语义特征提取的优势、结合Darknet-53小目标识别的高精度,构建一个精确的话题定位模型。
对于本实施例的技术方案,还提供了如下详细技术方案,如图2所示:
步骤S100包括文本数据话题标签的标注和文本数据的格式化,格式化后的文本数据与其对应的话题标签构成文本数据样本,作为模型的输入,具体包括:
S110,依据文本的长度确定文本数据的基本单位。在标注话题时,可以以页、段、句、词为基本单位,根据文本的长度选择相对应的基本单位,对于长文本可以以页为基本单位进行标注,例如32万字的研究报告,第1-3页属于话题A,第4-10页属于话题B;对于中等长度的文本可以以段为单位,例如1千字的对话,第1-10段属于话题C,第11-20段属于话题D;对于短文本的相关资料,例如产品的使用说明,可以以句为单位,例如第4-6句属于话题F,第10-20句属于话题G;对于超短文本的相关资料,例如微信语音,可以以词为单位,例如第1-5个词属于话题H,第15-20个词属于话题I。
S120,文本数据的格式化包括文本数据中字或词的向量化和文本数据长度的截取,具体包括:
S121,依据分词算法对文本数据进行划分,将文本数据转换为由至少一个字或词组成的第一词向量。上述文本数据分词的过程是文本处理的一个基础步骤,能够帮助计算机理解复杂的语意。本发明可以采用现有的分词算法对文本数据进行分词,例举的,采用结巴分词算法对如下文本数据进行分词:
文本数据:“黄明先生您好,请问您的身份证尾号是不是6623。是。好,根据监管部门规定为规范销售行为,更好地保障您的正当权益,我们将以录音录像方式对我的销售过程关键环节进行记录,请问您是否同意。好”
话题标签:“征求客户意见”
分词后:[‘黄明’,‘先生’,‘您好’,‘,’,‘请问’,‘您’,‘的’,‘身份证’,‘尾号’,‘是不是’,‘6623’,‘。’,‘是’,‘。’,‘好’,‘,’,‘根据’,‘监管部门’,‘规定’,‘为’,.....,‘请问’,‘您’,‘是否’,‘同意’,‘。’,‘好’]
以页或段或句或词为单位的文本数据分词后形成一个由字或词组成的列表,其中字与词之间的顺序保持不变。
S122,基于滑动窗口从第一词向量中截取固定字数的第二词向量。由于深度学习模型要求输入文本为固定长度,而实际情况中待处理文本的长度却并不固定,为确保每个文本数据的长度一致,本发明设定一个固定的滑动窗口对向量化后的文本数据进行截取,对于长度小于滑动窗口的文本数据,可以采用补零或者添加占位符等方式补齐,以将向量化后的文本数据截取成固定长度的文本数据,例举的,滑动窗口的长度可为512个字。
话题标签:“征求客户意见”
截取后:[‘黄明’,‘先生’,‘您好’,‘,’,‘请问’,‘您’,‘的’,‘身份证’,‘尾号’,‘是不是’,‘6623’,‘。’,‘是’,‘。’,‘好’,‘,’,‘根据’,‘监管部门’,‘规定’,‘为’,.....,‘请问’,‘您’,‘是否’,‘同意’,‘。’,‘好’,‘0’,‘0’,...,...,‘0’]
S130,格式化后的文本数据与其对应的话题标签构成文本数据样本,作为模型的输入。格式化的文本数据与其对应的话题标签构成一个文本数据样本,其中文本数据样本保存为.json格式的文件,多个文本数据样本组成文本数据样本集。例如,
格式化的文本数据:[‘黄明’,‘先生’,‘您好’,‘,’,‘请问’,‘您’,‘的’,‘身份证’,‘尾号’,‘是不是’,‘6623’,‘。’,‘是’,‘。’,‘好’,‘,’,‘根据’,‘监管部门’,‘规定’,‘为’,.....,‘请问’,‘您’,‘是否’,‘同意’,‘。’,‘好’,‘0’,‘0’,...,...,‘0’]
话题标签:“征求客户意见”
保存为:Test1.json文件。
S200,文本语义特征的提取与目标话题的定位,本发明融合特征提取和目标话题的定位两个模型各自的优势,提高话题定位的精确性,如图3所示,具体包括:
S210,包括通过Transformer模型的编码器对格式化的文本数据进行处理,提取文
本语义特征,其中Transformer网络结构包括输入层、多头自注意力子层和前馈神经网络子
层以及两个残差连接层,其中多头自注意力子层和前向反馈子层都包含一个残差连接结
构,例举的,通过Transformer模型的编码器对格式化的文本数据x[n]进行处理,得到包含
字、词之间关系更加丰富的特征,其中为综合考虑多个字、词之间联系的特征,具
体包括:
S211,通过多头自注意力子层,计算文本数据对应的矩阵注意力特征向量。格式化的文本数据输入到多头自注意力子层输出得到矩阵注意力特征向量。例举的,格式化的文本数据x[n]输入多头自注意力子层输出得到矩阵注意力特征向量A[n]。其中多头自注意力的输入首先进过一个线性变换,然后输入到放缩点积,重复多次,然后将多次的放缩点积结果进行拼接,再进行一次线性变换得到的值作为多头的输出,使得模型在不同的子空间里学习到更多关于字、词之间信息。
S212,将文本数据与特征向量相加,并进行多头自注意力子层的标准化,得到第一输出向量。将格式化的文本数据与矩阵注意力特征向量相加后进行层的标准得到注意力子层标准化后的输出向量。例举的,将格式化后文本数据x[n]与注意力特征向量A[n]相加后进行层的标准后得到向量B[n],其中,在编码器的一个网络块中,由一个多头自注意力子层和一个前馈神经网络子层组成,将子层输出与子层输入相加再做标准化作为子层标准化后的输出,如公式(1)所示,
Output=input+sublayer(input) (1)
其中,Output表示子层的标准化后的输出,inpu表示子层的输入,sublayer(input)为子层的输出。
S213,通过前馈神经网络子层,计算第一输出向量对应的前馈向量;将第一输出向
量与前馈向量相加,并进行前馈神经网络子层的标准化,提取到文本数据样本集的语义特
征。将注意力子层标准化后的输出向量输入到前馈神经网络中得到前馈向量,将注意力子
层标准化后的输出向量和前馈向量相加后进行层标准化得到文本语义特征。例举的,将注
意力子层标准化后的输出向量B[n]输入到前馈神经网络中得到前馈向量C[n],将注意力子
层标准化后的输出向量B[n]和前馈向量C[n]相加后进行层标准化得到文本语义特征。
在一实施例中,本发明采用3层Transformer网络构建文本语义特征提取模型,因
此3层注意力子层加上3层前馈神经网络子层共6个子层,输入为包含512个字的格式化文本
数据x[n],文本语义特征提取模型的输出为768维文本语义特征,即文本语义特征的
维度为512*768*1。本发明采用逐步固定初始权重的方式对特征提取模型进行训练,与采用
传统的随机初始化方式不同的是,对文本样本集的全部数据进行一次完整的训练称为1个
epoch,前10个epoch固定该模块的所有权重,在10-20个epoch之间,固定前6层模型权重,之
后的epoch全不固定,基于上述逐步固定初始权重的方式训练基于Transformer的文本语义
特征提取模型有利于该模块与下游模块逐步结合。
Transformer的文本语义特征提取模型具有较强的综合特征抽取能力,能够全局地提取文本语义特征。
S220,提取得到的文本语义特征作为输入,通过Darknet-53目标识别模型对目标话题进行定位,通过文本语义特征的提取和目标检测模块无缝对接,实现模型训练时整体的统一,提高了话题定位的精确性。如图4所示,具体包括:
S221,根据目标话题的维度信息,调整定位识别网络输出的维度信息;
S222,借助金字塔特征图思想,将语义特征进行卷积和矩阵拼接,得到不同尺寸的特征图。
(1)基于文本数据单通道特性对卷积层通道数进行调整。基于Darknet-53目标识别模型的输入主要是图像数据,例如,一张量规格为256*256*3的图像作为卷积层的输入,其中数值3表示RGB三通道的信息,对于文本数据而言词语间顺序关系所获取的信息更具价值,为减少不必要的计算,加快运算速度,本发明不再考虑通道之间的信息,而是将卷积层的三通道调整为单通道。
在一实施例中,为避免对矩阵进行压缩而导致特征信息的缺失,将Darknet-53目标识别模型的输入张量由原本的规格256*256*3调整为768*768*1。基于Transformer的文本语义特征提取模型的输出维度为512*768*1,Darknet-53输入张量的规格256*256*3,首先基于文本数据单通道特性对卷积层通道数进行调整,即卷积层的输入张量的规格由256*256*3调整为256*256*1,基于Darknet-53目标识别模型在与基于Transformer的文本语义特征提取模型进行对接时,为避免对矩阵进行压缩而导致特征信息的缺失,卷积层的输入张量的规格由256*256*1调整为768*768*1,基于Transformer的文本语义特征提取模型的输出维度为512*768*1,可以采用零填充等方式填充没有实际意义的数值,文本语义特征经填充后维度变成768*768*1。
(2)通过卷积层对输入的文本数据进行特征提取。对Darknet-53网络的倒数三次卷积组得到的特征图分别进行上采样操作、3×3卷积操作、1×1卷积操作、矩阵拼接等操作得到不同尺寸的特征图。
S223,融合特征图,预测得到不同范围的目标话题起始单位位置和终止单位位置;设置过滤条件,过滤得到目标话题的目标话题起始单位位置和终止单位位置。
基于输出为单通道语义镜像下目标话题定位语句起始单位位置和终止单位位置的信息这一特点,进一步减少预测输出的维度。一方面文本数据具有单通道特性,因此只需要在单通道的语义镜像下定位目标话题即可;另一方面文本段落内语句是带有顺序的,因此只需要预测出目标话题的坐标的起始单位位置和终止单位位置即可,例如,以页为单位的待测文本数据,输出目标话题的预测坐标为起始页和终止页。故此基于Transformer的文本语义特征提取模型输出调整如下:原先输出维度为N*N*[3*(4+1+r)],其中N表示不同尺寸的特征图的高和宽,3表示三通道语义镜像下的定位,4表示目标位置上、下、左、右4个点的位置信息,1表示预测坐标的置信度值,r为目标的类别,将原先输出维度N*N*[3*(4+1+r)]调整为N*N*[1*(2+1+r)],其中,1表示单通道语义镜像下的定位,2表示目标话题定位语句起始单位位置和终止单位位置2个点的位置信息。
在一实施例中,待定位的文本数据共有50句,目标话题为a,将其输入基于
Darknet-53目标识别模型后,通过Darknet-53网络的倒数三次的卷积组得到的特征图,基
于上采样操作、3×3卷积操作、1×1卷积操作、矩阵拼接操作,采用金字塔特征图思想将相
邻尺寸的特征图通过拼接操作进行融合,得到大、中、小3个范围的目标话题a的预测坐标,
例如,目标话题a的预测坐标为起始第1句到终止第20句,视为大范围预测;目标话题a的
预测坐标为起始第4句到终止第15句,视为中范围预测;目标话题a的预测坐标为起始第
6句到终止第8句,视为小范围预测。假设默认置信度阈值为70%,过滤掉置信度低于阈值
的目标话题的预测坐标,对保留的目标话题的预测坐标进行非极大值抑制处理,去掉重复
部分,选取目标类别出现概率最高的目标话题的预测坐标,得到最终结果。
S300,通过优化损失函数,对目标话题的位置信息进行评估,优化损失函数至少包括预测坐标损失、置信度损失或分类损失优化之一。损失函数是话题定位模型在训练过程中关键的组成部分,用来衡量模型输出定位坐标的预测值与真实坐标之间的差距,一方面可为模型的优化提供参考,另一方面可用来评估话题定位模型的预测水平,目前的损失函数考虑的因素较为单一,难以表征模型的泛化性水平,本发明通过进一步优化损失函数使得话题定位模型更易收敛,进一步提高了预测精确性。具体包括:
S310,综合考虑预测坐标损失、置信度损失、分类损失优化损失函数以来评估话题
定位模型。如公式(2)所示,其中,坐标损失是目标话题起始单位位置和终止单位位置带来
的误差,记为box带来的loss;目标置信度带来的误差,记为obj带来的loss;类别带来的误
差记为class带来的loss,表示起始位置在图像分割形成的个待检区域之中,
第i个区域的中心坐标;c表示分类目标的总数;是单个候选框的执行度;和分
别表示类别的实际概率和预测概率;表示若是正例则输出1,否则为0,表示若是负
例则输出1,否则为0。在训练过程中,常系数可以自由调节,可选的。
(2)
基于Transformer的文本语义特征提取模型的结构与基于Darknet-53目标识别模
型融合形成一个整体,实现将文本语义特征与目标检测模块无缝对接,采用优化后的损失
函数对模型进行评估,综合考虑了增强了预测坐标损失、置信度损失、分类损失,增强
了深度学习网络对于目标话题泛化性使得模型更容易收敛、易于求导。
借助Transformer在语义特征提取准确、全面性、Darknet-53在识别小目标具有较高的精确度,结合本发明输入的文本数据的特点,对模型进行调整,提高了各已知话题内容的定位效率的同时进一步减少计算的复杂度,相比于原始人工质检相比,提高了定位效率,降低人工审查的错误率。
第二方面,本发明的实施例还提供一种话题定位的系统,如图5所示,具体包括:
第一模块,用于基于预处理后的文本数据构建文本数据样本集;
第二模块,用于以文本数据样本集作为输入,根据注意力机制提取文本数据样本集的语义特征,调整定位识别网络的卷积层的输入张量,基于语义特征定位目标话题,输出目标话题的位置信息。
第一模块包括:
样本构建模块,用于对文本数据的话题标签进行标注,以及,对文本数据进行格式化;将格式化后的文本数据与话题标签生成文本数据样本,至少一个文本数据样本构成文本数据样本集;
格式化模块,用于依据分词算法对文本数据进行划分,将文本数据转换为由至少一个字或词组成的第一词向量;基于滑动窗口从第一词向量中截取固定字数的第二词向量。
第二模块包括:
语义特征提取模块,用于通过多头自注意力子层,计算文本数据对应的矩阵注意力特征向量;将文本数据与特征向量相加,并进行多头自注意力子层的标准化,得到第一输出向量;通过前馈神经网络子层,计算第一输出向量对应的前馈向量;将第一输出向量与前馈向量相加,并进行前馈神经网络子层的标准化,提取到文本数据样本集的语义特征;
话题定位模块,用于根据目标话题的维度信息,调整定位识别网络输出的维度信息;依据金字塔特征图,将语义特征进行卷积和矩阵拼接,得到不同尺寸的特征图;融合特征图,预测得到不同范围的目标话题起始单位位置和终止单位位置;设置过滤条件,过滤得到目标话题的目标话题起始单位位置和终止单位位置。
在一实施例中,文本数据样本集输入到话题定位模块后,通过文本语义特征提取模块提取特征,话题定位模块基于提取的语义特征进行特征的融合,基于金字塔思想输出得到不同范围的预测目标话题定位坐标,结果过滤模块过滤置信度过低的预测结果,通过非极大值抑制处理,得到最后的目标检测定位识别的预测结果,通过评估模型对结果进行评估。
在一实施例中,如图6所示,本发明话题定位的系统可加载到网页,用户输入长文本并指定目标话题,通过web服务输出包含目标话题的特定文本段落,实现批量检测,此外该系统可以通过docker镜像进行本地化部署,极大的减少部署的时间成本和人力成本。
本发明的话题定位的系统,能够实现目标话题的批量检测,保证定位精确性的同时,进一步提高了目标话题检测的效率,通过docker镜像进行本地化部署,有效解决解环境配置问题。
应当认识到,本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (10)
1.一种话题定位的方法,其特征在于,该方法包括以下步骤:
基于预处理后的文本数据构建文本数据样本集;
所述构建文本数据样本集包括对所述文本数据的话题标签进行标注,根据文本的长度,选择页、段、句其中一个单位为基本单位标注话题;
以所述文本数据样本集作为输入,根据注意力机制提取所述文本数据样本集的语义特征,调整定位识别网络卷积层的输入张量,基于所述语义特征定位目标话题,输出所述目标话题的位置信息,
采用零填充文本语义特征,避免对矩阵进行压缩而导致特征信息的缺失;
所述调整定位识别网络卷积层的输入张量包括基于文本数据单通道特性对卷积层通道数进行调整,调整所述输入张量的通道为单通道;
所述目标话题的位置信息为目标话题的起始单位位置和终止单位位置。
2.根据权利要求1所述的话题定位的方法,其特征在于,所述构建文本数据样本集包括:
对所述文本数据进行格式化;
将格式化后的所述文本数据与所述话题标签生成文本数据样本,至少一个的所述文本数据样本构成所述文本数据样本集。
3.根据权利要求2所述的话题定位的方法,其特征在于,所述对所述文本数据进行格式化包括:
依据分词算法对所述文本数据进行划分,将所述文本数据转换为由至少一个字或词组成的第一词向量;
基于滑动窗口从所述第一词向量中截取固定字数的第二词向量,所述第二词向量作为格式化后的所述文本数据。
4.根据权利要求1所述的话题定位的方法,其特征在于,所述调整定位识别网络的卷积层的输入张量,包括:
调整所述输入张量的规格,使所述输入张量的规格,大于等于所述语义特征的张量规格。
5.根据权利要求1所述的话题定位的方法,其特征在于,所述定位目标话题,包括:
根据所述目标话题的维度信息,调整所述定位识别网络输出的维度信息;
依据金字塔特征图,将所述语义特征进行卷积和矩阵拼接,得到不同尺寸的特征图;
融合所述特征图,预测得到不同范围的所述目标话题的起始单位位置和终止单位位置;
设置过滤条件,过滤得到目标话题的所述目标话题的起始单位位置和终止单位位置。
6.根据权利要求1所述的话题定位的方法,其特征在于,所述提取所述文本数据样本集的语义特征,包括:
通过多头自注意力子层,计算所述文本数据对应的矩阵注意力特征向量;
将所述文本数据与所述特征向量相加,并进行所述多头自注意力子层的标准化,得到第一输出向量;
通过前馈神经网络子层,计算所述第一输出向量对应的前馈向量;
将所述第一输出向量与所述前馈向量相加,并进行所述前馈神经网络子层的标准化,提取到所述文本数据样本集的语义特征。
7.根据权利要求1所述的话题定位的方法,其特征在于,所述输出所述目标话题的位置信息之后,还包括:
通过优化损失函数,对所述输出所述目标话题的位置信息进行评估,所述优化损失函数包括预测坐标损失、置信度损失和分类损失优化;
其中,所述坐标损失是目标话题起始单位位置和终止单位位置带来的误差。
8.一种话题定位的系统,用于实现如权利要求1-7任一项所述的话题定位的方法,其特征在于,包括:
第一模块,用于基于预处理后的文本数据构建文本数据样本集;
第二模块,用于以所述文本数据样本集作为输入,根据注意力机制提取所述文本数据样本集的语义特征,调整定位识别网络的卷积层的输入张量,基于所述语义特征定位目标话题,输出所述目标话题的位置信息。
9.根据权利要求8所述的话题定位的系统,其特征在于,所述第一模块,包括:
样本构建模块,用于对所述文本数据的话题标签进行标注,以及,对所述文本数据进行格式化;将格式化后的所述文本数据与所述话题标签生成文本数据样本,多个所述文本数据样本构成所述文本数据样本集;
格式化模块,用于依据分词算法对所述文本数据进行划分,将所述文本数据转换为由至少一个字或词组成的第一词向量;基于滑动窗口从所述第一词向量中截取固定字数的第二词向量。
10.根据权利要求8所述的话题定位的系统,其特征在于,所述第二模块,包括:
语义特征提取模块,用于通过多头自注意力子层,计算所述文本数据对应的矩阵注意力特征向量;将所述文本数据与所述特征向量相加,并进行所述多头自注意力子层的标准化,得到第一输出向量;通过前馈神经网络子层,计算所述第一输出向量对应的前馈向量;将所述第一输出向量与所述前馈向量相加,并进行所述前馈神经网络子层的标准化,提取到所述文本数据样本集的语义特征;
话题定位模块,根据所述目标话题的维度信息,调整所述定位识别网络输出的维度信息;依据金字塔特征图,将所述语义特征进行卷积和矩阵拼接,得到不同尺寸的特征图;融合所述特征图,预测得到不同范围的所述目标话题的起始单位位置和终止单位位置;设置过滤条件,过滤得到目标话题的所述目标话题起始单位位置和终止单位位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019199.7A CN114020881B (zh) | 2022-01-10 | 2022-01-10 | 话题定位的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019199.7A CN114020881B (zh) | 2022-01-10 | 2022-01-10 | 话题定位的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114020881A CN114020881A (zh) | 2022-02-08 |
CN114020881B true CN114020881B (zh) | 2022-05-27 |
Family
ID=80069780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210019199.7A Active CN114020881B (zh) | 2022-01-10 | 2022-01-10 | 话题定位的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020881B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050383B (zh) * | 2023-03-29 | 2023-06-23 | 珠海金智维信息科技有限公司 | 一种理财产品销售环节飞单话术检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740158A (zh) * | 2018-12-29 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 一种文本语义解析方法及装置 |
CN112487827A (zh) * | 2020-12-28 | 2021-03-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 问题回答方法及电子设备、存储装置 |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
CN113033315A (zh) * | 2021-02-26 | 2021-06-25 | 江西理工大学 | 一种稀土开采高分影像识别与定位方法 |
CN113051371A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 中文机器阅读理解方法、装置、电子设备及存储介质 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959246B (zh) * | 2018-06-12 | 2022-07-12 | 北京慧闻科技(集团)有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
US11256960B2 (en) * | 2020-04-15 | 2022-02-22 | Adobe Inc. | Panoptic segmentation |
CN113159023A (zh) * | 2021-03-14 | 2021-07-23 | 西北工业大学 | 基于显式监督注意力机制的场景文本识别方法 |
-
2022
- 2022-01-10 CN CN202210019199.7A patent/CN114020881B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740158A (zh) * | 2018-12-29 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 一种文本语义解析方法及装置 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN112487827A (zh) * | 2020-12-28 | 2021-03-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 问题回答方法及电子设备、存储装置 |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
CN113033315A (zh) * | 2021-02-26 | 2021-06-25 | 江西理工大学 | 一种稀土开采高分影像识别与定位方法 |
CN113051371A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 中文机器阅读理解方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114020881A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102071582B1 (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
US10650276B1 (en) | Learning to process images depicting faces without leveraging sensitive attributes in deep learning models | |
US10475442B2 (en) | Method and device for recognition and method and device for constructing recognition model | |
US11443193B2 (en) | Domain adaptation for machine learning models | |
CN110188202B (zh) | 语义关系识别模型的训练方法、装置及终端 | |
WO2018121690A1 (zh) | 对象属性检测、神经网络训练、区域检测方法和装置 | |
US11907675B2 (en) | Generating training datasets for training neural networks | |
US20210034817A1 (en) | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system | |
KR102548732B1 (ko) | 신경망 학습 방법 및 이를 적용한 장치 | |
CN111542841A (zh) | 一种内容识别的系统和方法 | |
CN111052128B (zh) | 用于检测和定位视频中的对象的描述符学习方法 | |
CN113111968B (zh) | 图像识别模型训练方法、装置、电子设备和可读存储介质 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN117079299B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114020881B (zh) | 话题定位的方法及系统 | |
CN116186237A (zh) | 一种基于事件因果推断的实体关系的联合抽取方法 | |
CN110472673B (zh) | 参数调整方法、眼底图像处理方法、装置、介质及设备 | |
CN113723367B (zh) | 一种答案确定方法、判题方法及装置和电子设备 | |
CN114913871A (zh) | 目标对象分类方法、系统、电子设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN111868752B (zh) | 神经网络层权重的连续参数化 | |
CN114118410A (zh) | 图结构的节点特征提取方法、设备及存储介质 | |
Sindhu et al. | Aspect based opinion mining leveraging weighted bigru and CNN module in parallel | |
CN113792627B (zh) | 一种基于表情识别的风险学生预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |