CN111553148A - 标签建立方法、装置、电子设备及介质 - Google Patents

标签建立方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN111553148A
CN111553148A CN202010243203.9A CN202010243203A CN111553148A CN 111553148 A CN111553148 A CN 111553148A CN 202010243203 A CN202010243203 A CN 202010243203A CN 111553148 A CN111553148 A CN 111553148A
Authority
CN
China
Prior art keywords
vector
feature vector
target
text
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010243203.9A
Other languages
English (en)
Inventor
赵焕丽
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010243203.9A priority Critical patent/CN111553148A/zh
Priority to PCT/CN2020/105633 priority patent/WO2021196468A1/zh
Publication of CN111553148A publication Critical patent/CN111553148A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0435Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply symmetric encryption, i.e. same key used for encryption and decryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种标签建立方法、装置、电子设备及介质。该方法能够当接收到打标签指令时,从打标签指令中提取新闻文本,对新闻文本进行预处理,得到分词,对分词进行编码,得到第一特征向量,对每个第一特征向量进行上下文特征提取,得到第二特征向量,将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到目标特征向量,对目标特征向量进行映射处理,得到概率向量,并确定新闻文本的标签,通过将第一特征向量及第二特征向量进行融合处理,能够得到准确的目标特征向量,进而提高了标签的准确率,另外,通过标签的确定,不仅便于用户筛选出具有某些标签的新闻文本,还能使用户在阅读所述新闻文本之前了解新闻文本的内容。

Description

标签建立方法、装置、电子设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种标签建立方法、装置、电子设备及介质。
背景技术
随着信息网络的发展,新闻文本爆炸式地增长,且文本大多篇幅较长,为了方便读者在阅读之前就可以大致了解文本的内容,在对新闻事件进行报导或者评论时,会对文本内容进行表征,进而筛选出有用的信息。由于新闻文本涵盖了娱乐、科技等各行各业的信息,因此,人工对新闻文本进行打标签时需要熟知各行各业的专有名词,进而影响标签建立的效率,为此,基于新闻标签的建立方法应运而生。
在现有的基于新闻标签的建立方法中,采用隐马尔科夫模型对文本内容中的实体进行确定,然而,隐马尔科夫模型在确定实体时只考虑当前词及前面的词,而没有考虑后面的词对当前词带来的影响,不够全面,进而导致建立的标签准确率低。
因此,如何构建准确的新闻标签建立方案,成了有待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种标签建立方法、装置、电子设备及介质,能够提高标签的准确率。
一种标签建立方法,所述方法包括:
当接收到打标签指令时,从所述打标签指令中提取新闻文本;
对所述新闻文本进行预处理,得到至少一个分词;
对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;
对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;
将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;
对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;
根据所述至少一个概率向量确定所述新闻文本的标签。
根据本发明优选实施例,所述对所述新闻文本进行预处理,得到至少一个分词包括:
过滤所述新闻文本中的配置字符,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设词典对所述第二文本进行切分,得到切分位置;
根据所述第二文本及所述切分位置,构建有向无环图;
根据所述预设词典中的权值计算所述有向无环图中每条路径的概率;
将概率最大的路径对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定所述至少一个分词。
根据本发明优选实施例,所述对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:
接收配置的向量个数;
对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集;
将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算相乘后的向量的平均值,得到中间向量;
将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量;
采用激活函数计算所述目标矩阵中每个词的概率;
将概率最大的词对应的向量确定为所述第二特征向量。
根据本发明优选实施例,在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之前,所述方法还包括:
采用网络爬虫技术获取历史数据;
将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量;
采用交叉验证法将所述训练数据划分为训练集及验证集;
基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器;
将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量;
当所述待测输出向量及所述已知输出向量不一致时,根据所述验证集中的第一输入向量、第二输入向量及已知输出向量调整所述学习器,得到所述目标模型。
根据本发明优选实施例,所述对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量包括:
将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到至少一个分数向量;
对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。
根据本发明优选实施例,所述根据所述至少一个概率向量确定所述新闻文本的标签包括:
从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携带的信息包括所述目标领域;
从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与多个词典的映射关系;
对于所述至少一个概率向量,将每个概率向量中概率最大的维度确定为目标维度,得到所述至少一个概率向量的至少一个目标维度;
将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的标签。
根据本发明优选实施例,在根据所述至少一个概率向量确定所述新闻文本的标签后,所述方法还包括:
从所述打标签指令中获取所述新闻文本的文本编号;
根据所述文本编号及所述标签生成提示信息;
采用对称加密技术加密所述提示信息,得到密文;
将所述密文发送至指定联系人的终端设备。
一种标签建立装置,所述装置包括:
提取单元,用于当接收到打标签指令时,从所述打标签指令中提取新闻文本;
预处理单元,用于对所述新闻文本进行预处理,得到至少一个分词;
编码单元,用于对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;
所述提取单元,还用于对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;
输入单元,用于将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;
处理单元,用于对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;
确定单元,用于根据所述至少一个概率向量确定所述新闻文本的标签。
根据本发明优选实施例,所述预处理单元具体用于:
过滤所述新闻文本中的配置字符,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设词典对所述第二文本进行切分,得到切分位置;
根据所述第二文本及所述切分位置,构建有向无环图;
根据所述预设词典中的权值计算所述有向无环图中每条路径的概率;
将概率最大的路径对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定所述至少一个分词。
根据本发明优选实施例,所述提取单元对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:
接收配置的向量个数;
对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集;
将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算相乘后的向量的平均值,得到中间向量;
将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量;
采用激活函数计算所述目标矩阵中每个词的概率;
将概率最大的词对应的向量确定为所述第二特征向量。
根据本发明优选实施例,所述装置还包括:
获取单元,用于在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之前,采用网络爬虫技术获取历史数据;
所述处理单元,还用于将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量;
划分单元,用于采用交叉验证法将所述训练数据划分为训练集及验证集;
训练单元,基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器;
所述输入单元,还用于将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量;
调整单元,用于当所述待测输出向量及所述已知输出向量不一致时,根据所述验证集中的第一输入向量、第二输入向量及已知输出向量,根据所述验证集中的数据,调整所述学习器,得到所述目标模型。
根据本发明优选实施例,所述处理单元对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量包括:
将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到至少一个分数向量;
对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。
根据本发明优选实施例,所述确定单元根据所述至少一个概率向量确定所述新闻文本的标签包括:
从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携带的信息包括所述目标领域;
从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与多个词典的映射关系;
对于所述至少一个概率向量,将每个概率向量中概率最大的维度确定为目标维度,得到所述至少一个概率向量的至少一个目标维度;
将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的标签。
根据本发明优选实施例,所述获取单元,还用于在根据所述至少一个概率向量确定所述新闻文本的标签后,从所述打标签指令中获取所述新闻文本的文本编号;
所述装置还包括:
生成单元,用于根据所述文本编号及所述标签生成提示信息;
加密单元,用于采用对称加密技术加密所述提示信息,得到密文;
发送单元,用于将所述密文发送至指定联系人的终端设备。
一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,获取所述存储器中存储的指令以实现所述标签建立方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器获取以实现所述标签建立方法。
由以上技术方案可以看出,本发明通过将第一特征向量及第二特征向量进行融合处理,能够得到准确的目标特征向量,进而提高了所述标签的准确率,另外,通过所述标签的确定,不仅便于用户筛选出具有某些标签的新闻文本,还能使用户在阅读所述新闻文本之前了解所述新闻文本的内容。
附图说明
图1是本发明标签建立方法的较佳实施例的流程图。
图2是本发明标签建立装置的较佳实施例的功能模块图。
图3是本发明实现标签建立方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明标签建立方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述标签建立方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,当接收到打标签指令时,从所述打标签指令中提取新闻文本。
在本发明的至少一个实施例中,所述打标签指令中的内容可以包括,但不限于:所述新闻文本、所述新闻文本的文本编号等。所述新闻文本所属的领域可以包括,但不限于:娱乐、教育、科技等。
在本发明的至少一个实施例中,所述打标签指令可以由用户触发(例如:通过预设功能按键进行触发),也可以在预设时间内自动触发,本发明不作限制。
其中,所述预设时间可以是个时间点(例如:每天早上九点),也可以是个时间段。
在本发明的至少一个实施例中,所述电子设备从所述打标签指令中确定目标标签,进一步地,所述电子设备从所述打标签指令所携带的所有信息中提取与所述目标标签对应的信息,作为所述新闻文本。
其中,所述目标标签为所述新闻文本在所述打标签指令中相应的标签。
例如:打标签指令A为“标签1:文本编号200;标签2:成立于1881年的甲大学是世界著名的大学”,所述电子设备确定目标标签为标签2,进一步地,所述电子设备从“标签1:文本编号200;标签2:成立于1881年的甲大学是世界著名的大学”中提取与所述标签2对应的“成立于1881年的甲大学是世界著名的大学”,作为所述新闻文本。
S11,对所述新闻文本进行预处理,得到至少一个分词。
在本发明的至少一个实施例中,所述至少一个分词是指对所述新闻文本切分后的分词,另外,所述至少一个分词可以包括TOKEN标签。
其中,所述TOKEN标签包括,但不限于:时间、联系电话、网址、其他数字等。
在本发明的至少一个实施例中,所述电子设备对所述新闻文本进行预处理,得到至少一个分词包括:
所述电子设备过滤所述新闻文本中的配置字符,得到第一文本,进一步地,所述电子设备对所述第一文本中的预设字段进行词法分析处理,得到第二文本,根据预设词典对所述第二文本进行切分,得到切分位置,所述电子设备根据所述第二文本及所述切分位置,构建有向无环图(Directed acyclic graph,DAG),更进一步地,所述电子设备根据所述预设词典中的权值计算所述有向无环图中每条路径的概率,将概率最大的路径对应的切分位置确定为目标切分位置,所述电子设备根据所述目标切分位置确定所述至少一个分词。
其中,所述配置字符包括,但不限于:表情符号、符号图案等。
进一步地,所述预设字段包括,但不限于:时间、联系方式、网址等。
更进一步地,所述预设词典中存储至少一个自定义词及每个自定义词对应的权值,其中,所述至少一个自定义词可以包括,但不限于:网络新词等。
通过过滤所述配置字符,不仅能够节省所述电子设备的内存,还能节省处理所述新闻文本的时间,进而提高打标签的效率;通过对所述预设字段进行词法分析处理,能够避免后续提取上下文特征时发生不必要的扰动;通过具有权值的预设词典切分所述第二文本,能够准确地确定所述至少一个分词。
在本发明的至少一个实施例中,所述电子设备对所述第一文本中的预设字段进行词法分析处理,得到第二文本包括:
所述电子设备通过所述TOKEN标签替代所述第一文本中的预设字段,得到所述第二文本。
具体地,所述电子设备采用浅层语义分析技术确定所述预设字段所属的类型,进一步地,所述电子设备根据所述类型从所述TOKEN标签中确定与所述类型匹配的标识,所述电子设备采用所述标识替代所述第一文本中的预设字段,得到所述第二文本。
S12,对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量。
在本发明的至少一个实施例中,所述至少一个第一特征向量是指对所述至少一个分词编码后的向量。
在本发明的至少一个实施例中,所述电子设备可以采用one-hot编码对所述至少一个分词进行编码。
具体地,所述电子设备采用二进制编码表示所述至少一个分词中的每个分词,其中,表示每个分词的二进制编码中只有一位为1,其他位都为0。
例如:分词“英国”用二进制编码“001”表示,分词“大学”用二进制编码“010”表示,分词“世界”用二进制编码“100”表示。
当然,进行one-hot编码的词数量越多,所述至少一个第一特征向量的维度越高。
例如:进行one-hot编码的词数量为3个,则编码后的第一特征向量的维度为3。如:“今天”编码为001、“天气”编码为010以及“真好”编码为100。进行one-hot编码的词数量为5个,则编码后的第一特征向量的维度为5。如:“今”编码为00001、“天”编码为00010、“真”编码为00100、“晴”编码为01000、“朗”编码为10000。
通过上述实施方式,采用one-hot编码,将所述至少一个分词转化为所述至少一个第一特征向量,不仅能保证所述至少一个分词与所述至少一个第一特征向量之间的唯一性,而且使用所述第一特征向量表示所述至少一个分词,比较直观,另外,将所述至少一个分词转化为所述至少一个第一特征向量,便于后续对每个第一特征向量进行上下文特征提取。
S13,对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量。
在本发明的至少一个实施例中,所述第二特征向量表征所述第一特征向量的上下文语义向量。
在本发明的至少一个实施例中,所述电子设备对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:
所述电子设备接收配置的向量个数,对于每个第一特征向量,所述电子设备根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集,进一步地,所述电子设备将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘,及计算相乘后的向量的平均值,得到中间向量,所述电子设备将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量,更进一步地,所述电子设备采用激活函数计算所述目标矩阵中每个词的概率,及将概率最大的词对应的向量确定为所述第二特征向量。
其中,所述向量个数可以根据用户需求配置,本发明对所述向量个数的取值不作限制。所述第一预设矩阵的取值及所述第二预设矩阵的取值是通过反复训练语料库中的数据得来的,具体的训练方式为现有技术,本发明在此不再赘述。
S14,将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的。
在本发明的至少一个实施例中,所述至少一个目标特征向量是通过将所述第一特征向量及所述第二特征向量进行融合处理后得到的。
在本发明的至少一个实施例中,在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与每个第一特征向量对应的目标特征向量之前,所述方法还包括:
所述电子设备采用网络爬虫技术获取历史数据,进一步地,所述电子设备将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量,更进一步地,所述电子设备采用交叉验证法将所述训练数据划分为训练集及验证集,并基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器,所述电子设备将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量,更进一步地,所述电子设备当所述待测输出向量及所述已知输出向量不一致时,根据所述验证集中的第一输入向量、第二输入向量及已知输出向量,根据所述验证集中的数据,调整所述学习器,得到所述目标模型。
在本发明的至少一个实施例中,所述电子设备根据所述验证集中的数据,调整所述学习器,得到所述目标模型包括:
所述电子设备采用超参数网格搜索方法从所述验证集中的数据确定最优超参数点,进一步地,所述电子设备通过所述最优超参数点对所述学习器进行调整,得到所述目标模型。
具体地,所述电子设备将所述验证集按照固定步长进行拆分,得到目标子集,遍历所述目标子集上两端端点的数据,通过所述两端端点的数据验证所述学习器,得到每个数据的学习率,将所述学习率最好的数据确定为第一超参数点,并在所述第一超参数点的邻域内,缩小所述步长继续遍历,直至所述步长为预设步长,即得到的超参数点为所述最优超参数点,更进一步地,所述电子设备根据所述最优超参数点调整所述学习器,得到所述目标模型。
其中,本发明对所述预设步长不作限制。
通过对所述学习器进行调整,能够得到准确的目标模型,为得到准确的目标特征向量作铺垫。
在本发明的至少一个实施例中,所述电子设备将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到的目标特征向量是经过所述第一特征向量及所述第二特征向量进行融合处理的,另外,由于所述第二特征向量表征所述第一特征向量的上下文语义向量,因此,使所述目标特征向量具有上下文语义,进而能够准确地确定所述目标特征向量。
例如:“都挺好”这个词,可以是一个电视剧的剧名,也可以是其他含义,若没有融合上下文的含义,无法准确确定出“都挺好”属于剧名,还是其他含义。
S15,对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量。
在本发明的至少一个实施例中,所述至少一个概率向量是指所述至少一个目标特征向量对应的概率,每个概率向量有N个维度,其中,N为大于或者等于2的正整数。另外,每个概率向量中所有维度的概率总和为1。
在本发明的至少一个实施例中,所述电子设备对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量包括:
所述电子设备将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到至少一个分数向量,进一步地,所述电子设备对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。
其中,所述预设权重矩阵的取值及所述预设偏置值的取值是通过反复训练得到的,本发明在此不作限制。
S16,根据所述至少一个概率向量确定所述新闻文本的标签。
在本发明的至少一个实施例中,所述电子设备根据所述至少一个概率向量确定所述新闻文本的标签包括:
所述电子设备从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携带的信息包括所述目标领域,进一步地,所述电子设备从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与多个词典的映射关系,对于所述至少一个概率向量,所述电子设备将每个概率向量中概率最大的维度确定为目标维度,得到所述至少一个概率向量的至少一个目标维度,所述电子设备将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的标签。
通过确定所述标签,便于用户筛选出具有某些标签的新闻文本,以满足用户的需求。
在本发明的至少一个实施例中,在根据所述至少一个概率向量确定所述新闻文本的标签后,所述方法还包括:
所述电子设备从所述打标签指令中获取所述新闻文本的文本编号,进一步地,所述电子设备根据所述文本编号及所述标签生成提示信息,所述电子设备采用对称加密技术加密所述提示信息,得到密文,更进一步地,所述电子设备将所述密文发送至指定联系人的终端设备。
通过上述实施方式,能够快速加密所述提示信息,避免所述新闻文本的标签被篡改,提高了所述提示信息的安全性。
由以上技术方案可以看出,本发明通过将第一特征向量及第二特征向量进行融合处理,能够得到准确的目标特征向量,进而提高了所述标签的准确率,另外,通过所述标签的确定,不仅便于用户筛选出具有某些标签的新闻文本,还能使用户在阅读所述新闻文本之前了解所述新闻文本的内容。
如图2所示,是本发明标签建立装置的较佳实施例的功能模块图。所述标签建立装置11包括提取单元110、预处理单元111、编码单元112、输入单元113、处理单元114、确定单元115、获取单元116、划分单元117、调整单元118、生成单元119、加密单元120、发送单元121及训练单元122。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
当接收到打标签指令时,提取单元110从所述打标签指令中提取新闻文本。
在本发明的至少一个实施例中,所述打标签指令中的内容可以包括,但不限于:所述新闻文本、所述新闻文本的文本编号等。所述新闻文本所属的领域可以包括,但不限于:娱乐、教育、科技等。
在本发明的至少一个实施例中,所述打标签指令可以由用户触发(例如:通过预设功能按键进行触发),也可以在预设时间内自动触发,本发明不作限制。
其中,所述预设时间可以是个时间点(例如:每天早上九点),也可以是个时间段。
在本发明的至少一个实施例中,所述提取单元110从所述打标签指令中确定目标标签,进一步地,所述提取单元110从所述打标签指令所携带的所有信息中提取与所述目标标签对应的信息,作为所述新闻文本。
其中,所述目标标签为所述新闻文本在所述打标签指令中相应的标签。
例如:打标签指令A为“标签1:文本编号200;标签2:成立于1881年的甲大学是世界著名的大学”,所述提取单元110确定目标标签为标签2,进一步地,所述提取单元110从“标签1:文本编号200;标签2:成立于1881年的甲大学是世界著名的大学”中提取与所述标签2对应的“成立于1881年的甲大学是世界著名的大学”,作为所述新闻文本。
预处理单元111对所述新闻文本进行预处理,得到至少一个分词。
在本发明的至少一个实施例中,所述至少一个分词是指对所述新闻文本切分后的分词,另外,所述至少一个分词可以包括TOKEN标签。
其中,所述TOKEN标签包括,但不限于:时间、联系电话、网址、其他数字等。
在本发明的至少一个实施例中,所述预处理单元111对所述新闻文本进行预处理,得到至少一个分词包括:
所述预处理单元111过滤所述新闻文本中的配置字符,得到第一文本,进一步地,所述预处理单元111对所述第一文本中的预设字段进行词法分析处理,得到第二文本,根据预设词典对所述第二文本进行切分,得到切分位置,所述预处理单元111根据所述第二文本及所述切分位置,构建有向无环图(Directed acyclic graph,DAG),更进一步地,所述预处理单元111根据所述预设词典中的权值计算所述有向无环图中每条路径的概率,将概率最大的路径对应的切分位置确定为目标切分位置,所述预处理单元111根据所述目标切分位置确定所述至少一个分词。
其中,所述配置字符包括,但不限于:表情符号、符号图案等。
进一步地,所述预设字段包括,但不限于:时间、联系方式、网址等。
更进一步地,所述预设词典中存储至少一个自定义词及每个自定义词对应的权值,其中,所述至少一个自定义词可以包括,但不限于:网络新词等。
通过过滤所述配置字符,不仅能够节省电子设备的内存,还能节省处理所述新闻文本的时间,进而提高打标签的效率;通过对所述预设字段进行词法分析处理,能够避免后续提取上下文特征时发生不必要的扰动;通过具有权值的预设词典切分所述第二文本,能够准确地确定所述至少一个分词。
在本发明的至少一个实施例中,所述预处理单元111对所述第一文本中的预设字段进行词法分析处理,得到第二文本包括:
所述预处理单元111通过所述TOKEN标签替代所述第一文本中的预设字段,得到所述第二文本。
具体地,所述预处理单元111采用浅层语义分析技术确定所述预设字段所属的类型,进一步地,所预处理单元111根据所述类型从所述TOKEN标签中确定与所述类型匹配的标识,所述预处理单元111采用所述标识替代所述第一文本中的预设字段,得到所述第二文本。
编码单元112对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量。
在本发明的至少一个实施例中,所述至少一个第一特征向量是指对所述至少一个分词编码后的向量。
在本发明的至少一个实施例中,所述编码单元112可以采用one-hot编码对所述至少一个分词进行编码。
具体地,所述编码单元112采用二进制编码表示所述至少一个分词中的每个分词,其中,表示每个分词的二进制编码中只有一位为1,其他位都为0。
例如:分词“英国”用二进制编码“001”表示,分词“大学”用二进制编码“010”表示,分词“世界”用二进制编码“100”表示。
当然,进行one-hot编码的词数量越多,所述至少一个第一特征向量的维度越高。
例如:进行one-hot编码的词数量为3个,则编码后的第一特征向量的维度为3。如:“今天”编码为001、“天气”编码为010以及“真好”编码为100。进行one-hot编码的词数量为5个,则编码后的第一特征向量的维度为5。如:“今”编码为00001、“天”编码为00010、“真”编码为00100、“晴”编码为01000、“朗”编码为10000。
通过上述实施方式,采用one-hot编码,将所述至少一个分词转化为所述至少一个第一特征向量,不仅能保证所述至少一个分词与所述至少一个第一特征向量之间的唯一性,而且使用所述第一特征向量表示所述至少一个分词,比较直观,另外,将所述至少一个分词转化为所述至少一个第一特征向量,便于后续对每个第一特征向量进行上下文特征提取。
所述提取单元110对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量。
在本发明的至少一个实施例中,所述第二特征向量表征所述第一特征向量的上下文语义向量。
在本发明的至少一个实施例中,所述提取单元110对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:
所述提取单元110接收配置的向量个数,对于每个第一特征向量,所述提取单元110根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集,进一步地,所述提取单元110将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘,并计算相乘后的向量的平均值,得到中间向量,所述提取单元110将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量,更进一步地,所述提取单元110采用激活函数计算所述目标矩阵中每个词的概率,并将概率最大的词对应的向量确定为所述第二特征向量。
其中,所述向量个数可以根据用户需求配置,本发明对所述向量个数的取值不作限制。所述第一预设矩阵的取值及所述第二预设矩阵的取值是通过反复训练语料库中的数据得来的,具体的训练方式为现有技术,本发明在此不再赘述。
输入单元113将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的。
在本发明的至少一个实施例中,所述至少一个目标特征向量是通过将所述第一特征向量及所述第二特征向量进行融合处理后得到的。
在本发明的至少一个实施例中,在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与每个第一特征向量对应的目标特征向量之前,获取单元116采用网络爬虫技术获取历史数据,进一步地,处理单元114将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量,更进一步地,划分单元117采用交叉验证法将所述训练数据划分为训练集及验证集,训练单元122基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器,所述输入单元113将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量,更进一步地,当所述待测输出向量及所述已知输出向量不一致时,调整单元118根据所述验证集中的第一输入向量、第二输入向量及已知输出向量,调整所述学习器,得到所述目标模型。
在本发明的至少一个实施例中,所述调整单元118根据所述验证集中的数据,调整所述学习器,得到所述目标模型包括:
所述调整单元118采用超参数网格搜索方法从所述验证集中的数据确定最优超参数点,进一步地,所述调整单元118通过所述最优超参数点对所述学习器进行调整,得到所述目标模型。
具体地,所述调整单元118将所述验证集按照固定步长进行拆分,得到目标子集,遍历所述目标子集上两端端点的数据,通过所述两端端点的数据验证所述学习器,得到每个数据的学习率,将所述学习率最好的数据确定为第一超参数点,并在所述第一超参数点的邻域内,缩小所述步长继续遍历,直至所述步长为预设步长,即得到的超参数点为所述最优超参数点,更进一步地,所述调整单元118根据所述最优超参数点调整所述学习器,得到所述目标模型。
其中,本发明对所述预设步长不作限制。
通过对所述学习器进行调整,能够得到准确的目标模型,为得到准确的目标特征向量作铺垫。
在本发明的至少一个实施例中,所述输入单元113将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到的目标特征向量是经过所述第一特征向量及所述第二特征向量进行融合处理的,另外,由于所述第二特征向量表征所述第一特征向量的上下文语义向量,因此,使所述目标特征向量具有上下文语义,进而能够准确地确定所述目标特征向量。
例如:“都挺好”这个词,可以是一个电视剧的剧名,也可以是其他含义,若没有融合上下文的含义,无法准确确定出“都挺好”属于剧名,还是其他含义。
所述处理单元114对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量。
在本发明的至少一个实施例中,所述至少一个概率向量是指所述至少一个目标特征向量对应的概率,每个概率向量有N个维度,其中,N为大于或者等于2的正整数。另外,每个概率向量中所有维度的概率总和为1。
在本发明的至少一个实施例中,所述处理单元114对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量包括:
所述处理单元114将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到至少一个分数向量,进一步地,所述处理单元114对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。
其中,所述预设权重矩阵的取值及所述预设偏置值的取值是通过反复训练得到的,本发明在此不作限制。
确定单元115根据所述至少一个概率向量确定所述新闻文本的标签。
在本发明的至少一个实施例中,所述确定单元115根据所述至少一个概率向量确定所述新闻文本的标签包括:
所述确定单元115从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携带的信息包括所述目标领域,进一步地,所述确定单元115从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与多个词典的映射关系,对于所述至少一个概率向量,所述确定单元115将每个概率向量中概率最大的维度确定为目标维度,得到所述至少一个概率向量的至少一个目标维度,所述确定单元115将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的标签。
通过确定所述标签,便于用户筛选出具有某些标签的新闻文本,以满足用户的需求。
在本发明的至少一个实施例中,在根据所述至少一个概率向量确定所述新闻文本的标签后,获取单元116从所述打标签指令中获取所述新闻文本的文本编号,进一步地,生成单元119根据所述文本编号及所述标签生成提示信息,加密单元120采用对称加密技术加密所述提示信息,得到密文,更进一步地,发送单元121将所述密文发送至指定联系人的终端设备。
通过上述实施方式,能够快速加密所述提示信息,避免所述新闻文本的标签被篡改,提高了所述提示信息的安全性。
由以上技术方案可以看出,本发明能够通过将第一特征向量及第二特征向量进行融合处理,能够得到准确的目标特征向量,进而提高了所述标签的准确率,另外,通过所述标签的确定,不仅便于用户筛选出具有某些标签的新闻文本,还能使用户在阅读所述新闻文本之前了解所述新闻文本的内容。
如图3所示,是本发明实现标签建立方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如标签建立程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及获取所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
所述处理器13获取所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13获取所述应用程序以实现上述各个标签建立方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13获取,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的获取过程。例如,所述计算机程序可以被分割成提取单元110、预处理单元111、编码单元112、输入单元113、处理单元114、确定单元115、获取单元116、划分单元117、调整单元118、生成单元119、加密单元120、发送单元121及训练单元122。
所述存储器12可用于存储所述计算机程序和/或模块,所述处理器13通过运行或获取存储在所述存储器12内的计算机程序和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器12可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器获取时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可获取文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
结合图1,所述电子设备1中的所述存储器12存储多个指令以实现一种标签建立方法,所述处理器13可获取所述多个指令从而实现:当接收到打标签指令时,从所述打标签指令中提取新闻文本;对所述新闻文本进行预处理,得到至少一个分词;对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;根据所述至少一个概率向量确定所述新闻文本的标签。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种标签建立方法,其特征在于,所述标签建立方法包括:
当接收到打标签指令时,从所述打标签指令中提取新闻文本;
对所述新闻文本进行预处理,得到至少一个分词;
对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;
对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;
将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;
对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;
根据所述至少一个概率向量确定所述新闻文本的标签。
2.如权利要求1所述的标签建立方法,其特征在于,所述对所述新闻文本进行预处理,得到至少一个分词包括:
过滤所述新闻文本中的配置字符,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设词典对所述第二文本进行切分,得到切分位置;
根据所述第二文本及所述切分位置,构建有向无环图;
根据所述预设词典中的权值计算所述有向无环图中每条路径的概率;
将概率最大的路径对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定所述至少一个分词。
3.如权利要求1所述的标签建立方法,其特征在于,所述对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:
接收配置的向量个数;
对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集;
将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算相乘后的向量的平均值,得到中间向量;
将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量;
采用激活函数计算所述目标矩阵中每个词的概率;
将概率最大的词对应的向量确定为所述第二特征向量。
4.如权利要求1所述的标签建立方法,其特征在于,在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之前,所述标签建立方法还包括:
采用网络爬虫技术获取历史数据;
将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量;
采用交叉验证法将所述训练数据划分为训练集及验证集;
基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器;
将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量;
当所述待测输出向量及所述已知输出向量不一致时,根据所述验证集中的第一输入向量、第二输入向量及已知输出向量调整所述学习器,得到所述目标模型。
5.如权利要求1所述的标签建立方法,其特征在于,所述对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量包括:
将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到至少一个分数向量;
对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。
6.如权利要求1所述的标签建立方法,其特征在于,所述根据所述至少一个概率向量确定所述新闻文本的标签包括:
从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携带的信息包括所述目标领域;
从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与多个词典的映射关系;
对于所述至少一个概率向量,将每个概率向量中概率最大的维度确定为目标维度,得到所述至少一个概率向量的至少一个目标维度;
将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的标签。
7.如权利要求1所述的标签建立方法,其特征在于,在根据所述至少一个概率向量确定所述新闻文本的标签后,所述标签建立方法还包括:
从所述打标签指令中获取所述新闻文本的文本编号;
根据所述文本编号及所述标签生成提示信息;
采用对称加密技术加密所述提示信息,得到密文;
将所述密文发送至指定联系人的终端设备。
8.一种标签建立装置,其特征在于,所述标签建立装置包括:
提取单元,用于当接收到打标签指令时,从所述打标签指令中提取新闻文本;
预处理单元,用于对所述新闻文本进行预处理,得到至少一个分词;
编码单元,用于对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;
所述提取单元,还用于对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;
输入单元,用于将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;
处理单元,用于对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;
确定单元,用于根据所述至少一个概率向量确定所述新闻文本的标签。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,获取所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的标签建立方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器获取以实现如权利要求1至7中任意一项所述的标签建立方法。
CN202010243203.9A 2020-03-31 2020-03-31 标签建立方法、装置、电子设备及介质 Pending CN111553148A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010243203.9A CN111553148A (zh) 2020-03-31 2020-03-31 标签建立方法、装置、电子设备及介质
PCT/CN2020/105633 WO2021196468A1 (zh) 2020-03-31 2020-07-29 标签建立方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010243203.9A CN111553148A (zh) 2020-03-31 2020-03-31 标签建立方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN111553148A true CN111553148A (zh) 2020-08-18

Family

ID=72005512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010243203.9A Pending CN111553148A (zh) 2020-03-31 2020-03-31 标签建立方法、装置、电子设备及介质

Country Status (2)

Country Link
CN (1) CN111553148A (zh)
WO (1) WO2021196468A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507120A (zh) * 2021-02-07 2021-03-16 上海二三四五网络科技有限公司 一种保持分类一致性的预测方法及装置
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113268614A (zh) * 2021-05-25 2021-08-17 平安银行股份有限公司 标签体系更新方法、装置、电子设备及可读存储介质
CN113342977A (zh) * 2021-06-22 2021-09-03 深圳壹账通智能科技有限公司 发票图像分类方法、装置、设备及存储介质
CN114091458A (zh) * 2021-11-12 2022-02-25 北京明略软件系统有限公司 基于模型融合的实体识别方法和系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386421A (zh) * 2022-01-13 2022-04-22 平安科技(深圳)有限公司 相似新闻检测方法、装置、计算机设备和存储介质
CN114862141A (zh) * 2022-04-20 2022-08-05 平安科技(深圳)有限公司 基于画像关联性的课程推荐方法、装置、设备及存储介质
CN116150698B (zh) * 2022-09-08 2023-08-22 天津大学 一种基于语义信息融合的drg自动分组方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133202A (zh) * 2017-06-01 2017-09-05 北京百度网讯科技有限公司 基于人工智能的文本校验方法和装置
CN109710922A (zh) * 2018-12-06 2019-05-03 深港产学研基地产业发展中心 文本识别方法、装置、计算机设备和存储介质
CN110287323B (zh) * 2019-06-27 2020-10-23 成都冰鉴信息科技有限公司 一种面向目标的情感分类方法
CN110399488B (zh) * 2019-07-05 2021-11-30 深圳数联天下智能科技有限公司 文本分类方法及装置
CN110705206B (zh) * 2019-09-23 2021-08-20 腾讯科技(深圳)有限公司 一种文本信息的处理方法及相关装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507120A (zh) * 2021-02-07 2021-03-16 上海二三四五网络科技有限公司 一种保持分类一致性的预测方法及装置
CN112507120B (zh) * 2021-02-07 2021-06-04 上海二三四五网络科技有限公司 一种保持分类一致性的预测方法及装置
CN113268614A (zh) * 2021-05-25 2021-08-17 平安银行股份有限公司 标签体系更新方法、装置、电子设备及可读存储介质
CN113268614B (zh) * 2021-05-25 2024-06-04 平安银行股份有限公司 标签体系更新方法、装置、电子设备及可读存储介质
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113204698B (zh) * 2021-05-31 2023-12-26 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113342977A (zh) * 2021-06-22 2021-09-03 深圳壹账通智能科技有限公司 发票图像分类方法、装置、设备及存储介质
CN114091458A (zh) * 2021-11-12 2022-02-25 北京明略软件系统有限公司 基于模型融合的实体识别方法和系统

Also Published As

Publication number Publication date
WO2021196468A1 (zh) 2021-10-07

Similar Documents

Publication Publication Date Title
CN111553148A (zh) 标签建立方法、装置、电子设备及介质
Chen et al. Coverless information hiding method based on the Chinese mathematical expression
CN112131920A (zh) 用于扫描图像中的表格信息的数据结构生成
Kang et al. Generative text steganography based on LSTM network and attention mechanism with keywords
CN111967242A (zh) 一种文本信息的抽取方法、装置及设备
CN111538816B (zh) 基于ai识别的问答方法、装置、电子设备及介质
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN112911326B (zh) 弹幕信息处理方法、装置、电子设备和存储介质
CN111046659B (zh) 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质
CN111611805A (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN111797247B (zh) 基于人工智能的案件推送方法、装置、电子设备及介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN113627530A (zh) 相似问题文本生成方法、装置、设备及介质
Bai et al. Loopy residual hashing: Filling the quantization gap for image retrieval
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN113283389A (zh) 手写文字质量检测方法、装置、设备及存储介质
CN113065027A (zh) 视频推荐的方法、装置、电子设备和存储介质
CN113486680B (zh) 文本翻译方法、装置、设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN113821677A (zh) 一种生成封面图像的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination